logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

通义千问Qwen1.5带来六种体量模型,性能超越GPT3.5

来源:机器之心超越 Claude、GPT-3.5,提升了多语言支持能力。赶在春节前,通义千问大模型(Qwen)的 1.5 版上线了。今天上午,新版本的消息引发了 AI 社区关注。新版大模型包括六个型号尺寸:0.5B、1.8B、4B、7B、14B 和 72B,其中最强版本的性能超越了 GPT 3.5、Mistral-Medium,包括 Base 模型和 Chat 模型,且有多语言支持。阿里通义千问团

#gpt-3#人工智能#深度学习
通义千问凭借“门控注意力”斩获 NeurIPS 最佳论文奖!详解Gated Attention原理

此外团队还进一步发现了门控机制能消除注意力池(Attention Sink)和巨量激活(Massive Activation)等现象,提高了模型的训练稳定性,极大程度减少了训练过程中的损失波动(loss spike)。得益于门控机制对注意力的精细控制,模型在长度外推上相比基线得到了显著的提升。本文的成果耗费大量工作,只有利用工业规模的计算资源才能完成,而论文团队直接分享了他们的研究成果,这将增进社

直播 | 电商智能推荐算法技术分享

随着信息过载时代的到来,人们逐渐习惯于从主动获取信息变成了被动接受信息,而基于智能推荐算法的内容、商品、服务分发系统,也已经逐步成为信息平台、电商等几乎所有互联网业务的标配,逐步给各个业务...

#算法#大数据#编程语言 +2
重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练

例如,在 RLVR pipeline 训练下,Qwen2.5-7B-Base 的整体准确率从 0.18 提升至 0.52(2.89 倍),Qwen3-30B-A3B-Base 准确率从 0.27 提升至 0.62(2.30 倍),这两个模型在 ROLL 的支持下均展现了稳定且一致的准确率提升,且未发生模型崩溃等异常现象,展现了 ROLL 极佳的稳健性和实用性。为了在生成阶段对每个提示词样本的生命周

强化学习之父入局通用人工智能,放话不依赖大模型!

梦晨 发自 凹非寺来源 |量子位QbitAI传奇程序员卡马克(John Carmack),与强化学习之父萨顿(Richard Sutton)强强联手了,All in AGI。2030年向公众展示通用人工智能的目标是可行的。并且与主流方法不同,不依赖大模型范式,更追求实时的在线学习。两人在萨顿任教的阿尔伯塔大学机器智能研究所(Amii)特别活动上宣布了这一消息。萨顿会加入卡马克的AI创业公司...

#人工智能
神经网络的简单偏好

↑ 点击蓝字 关注人工智能与算法学习作者丨许志钦(上海交大自然研究院&数学科学学院副教授)经过作者同意转载编辑丨极市平台作者注记我是2017年11月开始接触深度学习,至今刚好五年。2019年10月入职上海交大,至今三年,刚好第一阶段考核。2022年8月19号,我在第一届中国机器学习与科学应用大会做大会报告,总结这五年的研究以及展望未来的方向。本文是该报告里关于理论方面的研究总结(做...

#神经网络#算法#大数据 +2
深度学习败于“捷径”

编译 | 蒋宝尚、陈大鑫编辑 | 丛末深度学习的未来在哪里?这一话题已经有过了无数讨论,大部分讨论都承认当前的深度学习还不是真正的智能,必须转向理解、常识。但是只看当前AI成功的案例,似...

#神经网络#算法#编程语言 +2
附pdf下载 | 动手学习深度学习和GAN电子书

今天分享几本深度学习、GAN等好的电子书资源!推荐收藏!如今,生成对抗网络GAN技术已经延伸至AI各个方向之中,例如图像处理、自然语言处理和语音等。深度学习三巨头之一的 Yann LeC...

干货收藏!基于深度学习目标姿态估计的论文一览(2017-2020)

转载自:知乎黄浴,已获作者授权AI博士笔记系列推荐:博士笔记| 周志华《机器学习》手推笔记“神经网络”1.PoseCNN: A CNN for 6D ObjectPoseEsti...

一文读懂胶囊神经网络

来自 | 博客园作者 |CZiFan转自 | 深度学习这件小事背景Geoffrey Hinton是深度学习的开创者之一,反向传播等神经网络经典算法发明人,他和他的团队提出了...

    共 416 条
  • 1
  • 2
  • 3
  • 42
  • 请选择