logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

华人团队数学证明:推理token够多,就能解决任意问题!

克雷西 发自 凹非寺来源 |量子位OpenAI用o1开启推理算力Scaling Law,能走多远?数学证明来了:没有上限。斯隆奖得主马腾宇以及Google Brain推理团队创建者Denny Zhou联手证明,只要思维链足够长,Transformer就可以解决任何问题!通过数学方法,他们证明了Transformer有能力模拟任意多项式大小的数字电路,论文已入选ICLR 2024。用网友的话来说,.

Nature封面:AI训练AI,越训越离谱

来源:机器之心训练数据是用 GPT-4o 生成的?那质量不好说了。我们知道,大模型面临的三大挑战是算法、算力和数据。前两者靠优化升级,后者靠积累。随着技术的不断发展,高质量数据已经逐渐成为最大的瓶颈。在很多新模型上,人们为了提升模型能力,都采用了使用 AI 生成数据来训练的方式。人们普遍认为,使用合成数据可以显著提升模型质量。不过,最新的研究认为,使用 AI 生成的数据并不是什么好办法,反而可能会

#人工智能#机器学习#深度学习
免费使用GPU算力,大模型部署轻松搞定!

活动时间2024年3月25日-4月15日活动内容1、免费试用:活动期间新用户开通试算即赠660元卡时GPU试算资源。A100 PCIE 40G、RTX 4090 24G、RTX 3090 24G等加速卡免费试用。2、充值有礼:活动期间完成账户充值的用户,根据充值金额兑换相应礼品。礼品兑换条件兑换说明小米魔方插头累计充值>5000元可兑换小米魔方插头一个。乐扣保温杯累计充值>30000元可兑换乐扣保

大模型训练消耗计算资源巨大,有什么好的解决方案吗?

学校课题组没显卡?搭环境费时费力,经常卡bug?师兄正在跑实验,排队要到下个月?小破卡炼丹太慢,论文赶不上DDL?考虑到Leo粉丝对算力的需求,推荐一个正在做活动的GPU算力平台。它具有算力灵活、按需使用(想开几卡开几卡),低上手门槛(几乎不需要学习什么新东西),分布式优化(免去自己优化的烦恼),协作共享(大小团队皆可笑开颜)等功能,特别适合用来做模型训练。除了训练速度快之外,平台提供了大量热门公

#人工智能#深度学习#计算机视觉 +2
加速新冠疫苗研发,阿里云免费开放一切AI算力!

新型冠状病毒感染的肺炎疫情牵动着每一个人的心。为了帮助加速新药和疫苗研发,今天我们做了一个决定:向全球公共科研机构免费开放一切AI算力疫情期间,任何针对本次新型冠状病毒分析、疫苗新药研发...

推荐一家免费用的GPU平台!

Leo亲测主题:AI算力平台使用体验引言:要做深度学习或者机器学习,必然需要 GPU,如何构建一个弹性的 GPU 环境是很多读者关心和常问的问题,今天主要分享关于云服务器的选择。考虑到读者在项目实践中对算力的需求,希望能推荐好用的算力平台。1个月前受到趋动云邀请,组织了一批AI开发者对趋动云平台进行内测,大家体验后感觉不错,具有灵活算力、按需使用,低上手门槛,分布式优化,协作共享等核心功能,特别适

姚顺雨离职OpenAI,开启下半场

他需要去做更有挑战的事情,去创业是很自然的。当然,从OpenAI离职也不一定非得创业,比如姚顺雨的导师Karthik Narasimhan,就在OpenAI呆了一年后,选择了离开,并去普林斯顿继续象牙塔科研了。众所周知,让一张白纸反复试错的效率极低,而在传统强化学习中,这种低效尝试却屡见不鲜:智能体通常要么被限制只做单一任务,比如下围棋,要么在庞大的动作空间中盲目探索。正如这本书所启发的那样,跨学

Qwen3技术报告新鲜出炉,8款模型背后的关键技术被揭晓!

具体来说,他们通过Qwen2.5-72B对问题进行筛选,然后使用QwQ-32B模型自动生成初步的解题步骤,这当中,人类专家对这些自动生成的解题步骤进行核对和修正,确保其准确性和可读性。Qwen团队构建了一个包含大量高质量数学和编程问题的数据集,并为每个问题标注了详细的解题步骤,然后使用这些标注数据对模型进行监督微调,使其掌握解题的关键技能和常见思路。可以看到,在明确具体需求之后,Qwen规划了方案

#人工智能
Kimi 多模态图片理解模型 API 发布!

来源:Kimi开放平台今天,全新多模态图片理解模型 moonshot-v1-vision-preview 正式发布,本模型完善了 moonshot-v1 模型系列的多模态能力,助力 Kimi 更好地理解世界。注:下文简称为 Vision 模型。模型能力说明图像识别Vision 模型具备较强的图像识别能力,能够准确识别出图像中的复杂细节和细微的差别,无论是食物还是动物,能够区分出相似但又不相同的对象

从DeepSeek-V3到Kimi K2:八种现代 LLM 架构大比较

当然,位置嵌入已经从绝对嵌入演进到旋转嵌入(RoPE),多头注意力机制已基本被分组查询注意力机制所取代,而更高效的 SwiGLU 也取代了 GELU 等激活函数。此外,Kimi 2在MoE模块中使用了更多的专家,在MLA模块中使用了更少的头。Llama 4使用了分组查询注意力(GQA)而非多头潜在注意力(MLA),并且在MoE模块中使用了更少但更大的专家。Qwen3的密集模型采用了较深的架构(更多

    共 288 条
  • 1
  • 2
  • 3
  • 29
  • 请选择