logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

PyTorch 常用 Tricks 总结

转载自 |机器学习算法那些事作者 |z.defying来源 |DataWhale1. 指定GPU编号设置当前使用的GPU设备仅为0号设备,设备名称为/gpu:0:os.environ["CUDA_VISIBLE_DEVICES"] = "0"设置当前使用的GPU设备为0, 1号两个设备,名称依次为/gpu:0、/gpu:1:os.environ["CUDA_V...

#算法#java#python +2
GLM-5架构曝光,智谱股价两天暴涨60%:采用DeepSeek同款稀疏注意力!

与此同时,OpenRouter平台上突然出现的神秘匿名模型「Pony Alpha」,编程和推理能力极为强劲,被社区91%以上的用户判断为GLM-5测试版。模型一上线就引起了开发者社区的广泛关注,它的编程能力非常突出,能根据单条提示直接生成完整的功能性应用程序,在复杂推理和Agent工作流上同样表现出色。在vLLM推理框架的PR中,开发者发现GLM-5的实现逻辑被直接映射到了DeepSeek-V3的

阿里云发布手机“一键养虾”产品JVSClaw,3分钟实现养虾自由!

若“龙虾”遇到了登录账号等操作卡点,用户还能随时介入手动修正,操作全程可控。目前,阿里云JVS Claw已上架苹果商店App Store和各大应用商店,访问https://jvs.wuying.aliyun.com即可下载对应的客户端,现注册申请,还可享受前7日大模型免费调用量。最近,阿里云推出基于OpenClaw的“一键养虾”平台——JVS Claw,消费者无需掌握任何代码知识,在手机上简单操作

#阿里云#云计算
重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练

例如,在 RLVR pipeline 训练下,Qwen2.5-7B-Base 的整体准确率从 0.18 提升至 0.52(2.89 倍),Qwen3-30B-A3B-Base 准确率从 0.27 提升至 0.62(2.30 倍),这两个模型在 ROLL 的支持下均展现了稳定且一致的准确率提升,且未发生模型崩溃等异常现象,展现了 ROLL 极佳的稳健性和实用性。为了在生成阶段对每个提示词样本的生命周

LeCun怒斥Sora是世界模型,自回归LLM太简化了

来源:机器之心LeCun 对「世界模型」给出了最新定义。最近几天,Sora 成为了全世界关注的焦点。与之相关的一切,都被放大到极致。Sora 如此出圈,不仅在于它能输出高质量的视频,更在于 OpenAI 将其定义为一个「世界模拟器」(world simulators)。英伟达高级研究科学家 Jim Fan 甚至断言:「Sora 是一个数据驱动的物理引擎」,「是一个可学习的模拟器,或『世界模型』」。

#回归#数据挖掘#人工智能 +2
李飞飞和LeCun的世界模型之争

或许正是因为如此,在Marble自己的博客上,虽然屡屡提及「世界模型」与「导出高斯散射体、网格和视频」,但几乎完全没有提到机器人。所以,这类模型虽然没法像Marble那样生成精致的3D图像,看上去不那么「惊艳」,但它更像是在训练机器人的「大脑」。这难道不就是高斯Splat模型吗?Marble渲染「世界长什么样」,Genie 3展示「世界怎么变」,JEPA则探究「世界的结构是什么」。这类世界模型的任

1个GPU几分钟搞定强化学习训练,谷歌新引擎让深度学习提速1000倍丨开源

博雯 发自 凹非寺来源 |量子位QbitAI机器人要如何完成这样一个动作?我们一般会基于强化学习,在仿真环境中进行模拟训练。这时,如果在一台机器的CPU环境下进行模拟训练,那么需要几个...

#人工智能#java#深度学习 +2
Ilya观点得证!仅靠预测下一个token统一图像文本视频,智源发布原生多模态世界模型Emu3...

来源:量子位OpenAI前首席科学家、联合创始人Ilya Sutskever曾在多个场合表达观点:只要能够非常好的预测下一个token,就能帮助人类达到通用人工智能(AGI)。虽然,下一token预测已在大语言模型领域实现了ChatGPT等突破,但是在多模态模型中的适用性仍不明确。多模态任务仍然由扩散模型(如Stable Diffusion)和组合方法(如结合 CLIP视觉编码器和LLM)所主导。

通义千问凭借“门控注意力”斩获 NeurIPS 最佳论文奖!详解Gated Attention原理

此外团队还进一步发现了门控机制能消除注意力池(Attention Sink)和巨量激活(Massive Activation)等现象,提高了模型的训练稳定性,极大程度减少了训练过程中的损失波动(loss spike)。得益于门控机制对注意力的精细控制,模型在长度外推上相比基线得到了显著的提升。本文的成果耗费大量工作,只有利用工业规模的计算资源才能完成,而论文团队直接分享了他们的研究成果,这将增进社

重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练

例如,在 RLVR pipeline 训练下,Qwen2.5-7B-Base 的整体准确率从 0.18 提升至 0.52(2.89 倍),Qwen3-30B-A3B-Base 准确率从 0.27 提升至 0.62(2.30 倍),这两个模型在 ROLL 的支持下均展现了稳定且一致的准确率提升,且未发生模型崩溃等异常现象,展现了 ROLL 极佳的稳健性和实用性。为了在生成阶段对每个提示词样本的生命周

    共 330 条
  • 1
  • 2
  • 3
  • 33
  • 请选择