logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

王坚院士谈算力革命,“对年轻人要足够地致敬”

来源:央视新闻,仅用于学术分享。阿里研究院,赞487Datawhale 整理了采访全文,供大家阅读。主持人:作为政协委员,今年您的提案里面会侧重于什么问题?王坚院士:我想我们今天讲的这个技术变革也好,特别是讲到人工智能也好,确实是一个时代的变革,是一个百年未遇的科技变革的时候。所以我今天比较关心的是人工智能+,我们怎么能有一些机制上的创新。王坚,全国政协委员,中国工程院院士,阿里云创始人。作为云计

#人工智能#transformer#深度学习
山寨版 OpenAI o1 实验记录

纠结了一下还是决定把中秋假期捣鼓的山寨版 o1 模型开源出来。受限于数据和算力,该模型还只是个玩具,离 OpenAI o1 差十万八千里。但实验的过程中有些记录值得分享出来抛砖引玉:起因是在测试 o1 时,种种迹象 (见下方附录) 表明它在 inference-time 似乎没有进行 MCTS 或外置的 agentic 的反思,更像是一个在 reasoning path 数据集上训练的 GPT-4

#机器学习
对话DeepSeek研发团队前成员辛华剑:如何用大模型把数学家从细节中解放出来

如果我们有更多的卡,肯定不会太顾及算力的使用效率,所以有些时候资源有限是能够促进创新的活跃的,但另一方面,在算力不足的情况下,也难以在scaling law上获得正确的认知。”陶哲轩说,形式化数学最好的一个特性是,它能够将一个大的问题分解成相互独立的很多方面,大家只要根据自己所专长的方面来提交自己的证明代码,而证明代码的正确性验证是由证明助手以计算机程序执行的方式来彻底完成的。其中,绿色的点是已经

#人工智能
不用英伟达GPU!华为盘古Ultra来了:昇腾原生、135B稠密通用大模型

在 8192 卡规模的集群中,使用了 128 路数据并行(Data Parallelism)、8 路张量并行(Tensor Parallelism)和 8 路流水线并行(Pipeline Parallelism),同时结合了 ZeRO 和序列并行(Sequence Parallelism),以降低模型参数、优化器状态和激活值的显存占用。Pangu Ultra 采用了改进的子序列切分并行方式,针对每

#华为
帮大模型提速80%,华为拿出昇腾推理杀手锏FlashComm,三招搞定通算瓶颈

针对 DeepSeek 这类超大规模 MoE 模型的多机多卡推理场景中的通信挑战,华为团队提出了三项关键技术,其中 FlashComm 技术基于相同的集合通信逻辑替大模型推理中的 AllReduce 通信算子,在不改变网络并行方式的前提下,充分利用网络中低维度数据或低比特数据特性进行通信算子位置的编排,实现通信数据量的降低和通信时延的优化,同时消除了计算流程中的冗余计算,进一步提升了网络端到端推理

#华为#服务器#运维
刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4

此外,在 WebDev Arena 平台上,DeepSeek-R1(0528)与 Gemini-2.5-Pro-Preview-06-05、Claude Opus 4 (20250514) 等闭源大模型并列第一,在分数上更是超过了 Claude Opus 4。今天,业界知名、但近期也陷入争议(曾被指出对 OpenAI、谷歌及 Meta 的大模型存在偏袒)的大模型公共基准测试平台 LMArena 公

#人工智能
黄仁勋新访谈:OpenAI是这个时代最具影响力公司之一,马斯克19天创造工程奇迹

10 月 4 日,播客节目 BG2(Brad Gerstner 和 Clark Tang)邀请到了英伟达 CEO 黄仁勋,他们一起讨论了 AGI、机器学习加速、英伟达的竞争优势、推理与训练的重要性、AI 领域未来的市场动态、AI 对各个行业的影响、工作的未来、AI 提高生产力的潜力、开源与闭源之间的平衡、马斯克的 Memphis 超级集群、X.ai、OpenAI、AI 的安全开发等。:有更高算力的

文章图片
#人工智能
沈向洋在青年科学家50²论坛的演讲全文:关于大模型的10个思考

近日,第四届“青年科学家50²论坛”在南方科技大学举行,美国国家工程院外籍院士沈向洋做了《通用人工智能时代,我们应该怎样思考大模型》的主题演讲,并给出了他对大模型的10个思考。以下是他10个思考的具体内容:1、算力是门槛:大模型对算力的要求,过去10年非常巨大。今天要做人工智能大模型,讲卡伤感情、没卡没感情。2、关于数据的数据:如果有GPT-5出来,可能会上到200T的数据量。但互联网上没有那么多

#语言模型#人工智能
英伟达「世界基础模型」诞生,引爆物理AI革命!75页报告出炉,GitHub狂飙2k星

然后对其进行微调,使其能够根据过去的视频和输入的文本提示词生成未来的视频世界,这被称为视频到世界生成任务(Video2World generation task)。基于动作的下一帧预测,输入是机器人的当前视频帧以及当前帧与下一帧之间的动作向量,输出是预测的下一帧,展示机器人执行指定动作的结果。摄像机在距离地面2米的高度向右平移。预训练的世界基础模型(WFM)是通用的世界模型,通过大规模、多样化的视

文章图片
#人工智能
满血版DeepSeek上线免费使用,829所高校共享!

教学实训平台是人工智能教学的新模式,平台内整合了计算资源,提供低门槛模型开发、训练与部署的实训环境,集教学、实践、管理功能于一体,还包括标准化基础AI课程以及实战项目,帮助老师掌握基础AI知识,鼓励平台内师生用户交流、协作、分享。IT之家从浙江大学公告获悉,通过 CARSI 联盟,全国 829 所高校的师生可以直接登录 chat.zju.edu.cn,免费使用 DeepSeek V3 / R1 模

#人工智能
    共 220 条
  • 1
  • 2
  • 3
  • 22
  • 请选择