
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
来源:机器之心超越 Claude、GPT-3.5,提升了多语言支持能力。赶在春节前,通义千问大模型(Qwen)的 1.5 版上线了。今天上午,新版本的消息引发了 AI 社区关注。新版大模型包括六个型号尺寸:0.5B、1.8B、4B、7B、14B 和 72B,其中最强版本的性能超越了 GPT 3.5、Mistral-Medium,包括 Base 模型和 Chat 模型,且有多语言支持。阿里通义千问团
此外团队还进一步发现了门控机制能消除注意力池(Attention Sink)和巨量激活(Massive Activation)等现象,提高了模型的训练稳定性,极大程度减少了训练过程中的损失波动(loss spike)。得益于门控机制对注意力的精细控制,模型在长度外推上相比基线得到了显著的提升。本文的成果耗费大量工作,只有利用工业规模的计算资源才能完成,而论文团队直接分享了他们的研究成果,这将增进社
随着信息过载时代的到来,人们逐渐习惯于从主动获取信息变成了被动接受信息,而基于智能推荐算法的内容、商品、服务分发系统,也已经逐步成为信息平台、电商等几乎所有互联网业务的标配,逐步给各个业务...
例如,在 RLVR pipeline 训练下,Qwen2.5-7B-Base 的整体准确率从 0.18 提升至 0.52(2.89 倍),Qwen3-30B-A3B-Base 准确率从 0.27 提升至 0.62(2.30 倍),这两个模型在 ROLL 的支持下均展现了稳定且一致的准确率提升,且未发生模型崩溃等异常现象,展现了 ROLL 极佳的稳健性和实用性。为了在生成阶段对每个提示词样本的生命周
梦晨 发自 凹非寺来源 |量子位QbitAI传奇程序员卡马克(John Carmack),与强化学习之父萨顿(Richard Sutton)强强联手了,All in AGI。2030年向公众展示通用人工智能的目标是可行的。并且与主流方法不同,不依赖大模型范式,更追求实时的在线学习。两人在萨顿任教的阿尔伯塔大学机器智能研究所(Amii)特别活动上宣布了这一消息。萨顿会加入卡马克的AI创业公司...
↑ 点击蓝字 关注人工智能与算法学习作者丨许志钦(上海交大自然研究院&数学科学学院副教授)经过作者同意转载编辑丨极市平台作者注记我是2017年11月开始接触深度学习,至今刚好五年。2019年10月入职上海交大,至今三年,刚好第一阶段考核。2022年8月19号,我在第一届中国机器学习与科学应用大会做大会报告,总结这五年的研究以及展望未来的方向。本文是该报告里关于理论方面的研究总结(做...
编译 | 蒋宝尚、陈大鑫编辑 | 丛末深度学习的未来在哪里?这一话题已经有过了无数讨论,大部分讨论都承认当前的深度学习还不是真正的智能,必须转向理解、常识。但是只看当前AI成功的案例,似...
今天分享几本深度学习、GAN等好的电子书资源!推荐收藏!如今,生成对抗网络GAN技术已经延伸至AI各个方向之中,例如图像处理、自然语言处理和语音等。深度学习三巨头之一的 Yann LeC...
转载自:知乎黄浴,已获作者授权AI博士笔记系列推荐:博士笔记| 周志华《机器学习》手推笔记“神经网络”1.PoseCNN: A CNN for 6D ObjectPoseEsti...
来自 | 博客园作者 |CZiFan转自 | 深度学习这件小事背景Geoffrey Hinton是深度学习的开创者之一,反向传播等神经网络经典算法发明人,他和他的团队提出了...







