logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

生成不遗忘,「超长时序」世界模型,北大EgoLCD长短时记忆加持

通过生成长时程、高一致性的第一人称视频,EgoLCD能够为具身智能(机器人)提供海量的训练数据,模拟复杂的物理交互和长序列任务(如做饭、修理)。这就像给AI戴上了一个「紧箍咒」,一旦它生成的画面开始「胡编乱造」(漂移),Loss就会惩罚它,迫使它回归原本的设定。正如Sora让人们看到了世界模型的雏形,EgoLCD则让「通过视频教会机器人理解世界」的梦想,变得前所未有的清晰。SNP充当「外部显性记忆

#人工智能#算法#深度学习 +1
生成不遗忘,「超长时序」世界模型,北大EgoLCD长短时记忆加持

通过生成长时程、高一致性的第一人称视频,EgoLCD能够为具身智能(机器人)提供海量的训练数据,模拟复杂的物理交互和长序列任务(如做饭、修理)。这就像给AI戴上了一个「紧箍咒」,一旦它生成的画面开始「胡编乱造」(漂移),Loss就会惩罚它,迫使它回归原本的设定。正如Sora让人们看到了世界模型的雏形,EgoLCD则让「通过视频教会机器人理解世界」的梦想,变得前所未有的清晰。SNP充当「外部显性记忆

#人工智能#算法#深度学习 +1
生成不遗忘,「超长时序」世界模型,北大EgoLCD长短时记忆加持

通过生成长时程、高一致性的第一人称视频,EgoLCD能够为具身智能(机器人)提供海量的训练数据,模拟复杂的物理交互和长序列任务(如做饭、修理)。这就像给AI戴上了一个「紧箍咒」,一旦它生成的画面开始「胡编乱造」(漂移),Loss就会惩罚它,迫使它回归原本的设定。正如Sora让人们看到了世界模型的雏形,EgoLCD则让「通过视频教会机器人理解世界」的梦想,变得前所未有的清晰。SNP充当「外部显性记忆

#人工智能#算法#深度学习 +1
2025,具身智能正在惩罚“持有者”

智元机器人的合伙人邓泰华在台上讲了个段子,本来是想活跃气氛的,他说:“咱们这个行业现在速度太快了,年初发布的产品走路还像老太太,晃晃悠悠怕摔倒。你想,当你租来的机器人每天在你的工厂流水线上、在你的商场店铺里跑来跑去,它们的摄像头看到的画面、它们的传感器收集的数据(比如你的生产节拍、你的客流热力图、甚至你员工的工作状态),最后都传到了谁的服务器上?对于做生意的老板来说,这就够了,敢签字了。如果有一天

#人工智能#算法#深度学习 +1
2025,具身智能正在惩罚“持有者”

智元机器人的合伙人邓泰华在台上讲了个段子,本来是想活跃气氛的,他说:“咱们这个行业现在速度太快了,年初发布的产品走路还像老太太,晃晃悠悠怕摔倒。你想,当你租来的机器人每天在你的工厂流水线上、在你的商场店铺里跑来跑去,它们的摄像头看到的画面、它们的传感器收集的数据(比如你的生产节拍、你的客流热力图、甚至你员工的工作状态),最后都传到了谁的服务器上?对于做生意的老板来说,这就够了,敢签字了。如果有一天

#人工智能#算法#深度学习 +1
ChatGPT也上线了个人年度报告

如果你用的是公司给配的企业版账号,不好意思,OpenAI 很贴心地帮你屏蔽了——估计是怕你把「这一年有多少工作是 AI 替你干的」这种机密数据发给老板看,导致当场失业。你看,OpenAI 自己也知道,咱们在跟 AI 聊天时,总喜欢用那种断断续续、欲言又止的语法——仿佛多打几个破折号,AI 就能透过屏幕读懂我们那并不存在的深意。音乐是我们对外展示的面具,而与 AI 的对话,往往藏着我们最真实的困惑、

#人工智能#算法#深度学习 +1
OpenAI突然开源新模型,99.9%的权重是0,新稀疏性方法代替MoE

这是一种通过人为约束模型内部连接的稀疏性,让模型计算过程可拆解、可理解的大语言模型变体,本质上是为了解决传统稠密Transformer的黑箱问题,让内部的计算电路能被人类清晰解读,知道AI是如何做决策的,避免轻易相信AI的胡话(doge)。咱们平时用的传统大模型,内部神经元连接得密密麻麻,权重矩阵几乎全为非零值,信息传递呈现出高度叠加状态,就像一团扯不开的乱线,没人能说清它是怎么得出某个结论的。并

#人工智能#机器学习#深度学习 +1
辛顿高徒压轴,谷歌最新颠覆性论文:AGI不是神,只是「一家公司」

例如,一个负责代码审查的智能体错误地标记了一个安全补丁为「恶意软件」,这一信息被其他依赖它的智能体接收,导致整个网络拒绝更新该补丁,进而暴露在真实攻击之下。智能体可能会在安全测试中「合谋」:一个负责生成的智能体和一个负责评估的智能体可能会「学会」一种模式,即生成者输出特定的隐写信号,评估者就给予高分通过,从而共同欺骗人类审查者。但这本身就创造了一个巨大的单点故障。例如,一个「全自动公司」可能由负责

#人工智能#机器学习#深度学习 +1
大模型的2025:6个关键洞察

随着可验证奖励的强化学习在可验证领域的普及,大语言模型在这些特定领域的能力会出现“爆发式增长”,整体呈现出有趣的“锯齿状性能特征”:它们既是精通多领域的天才博学家,也可能是充满困惑、存在认知缺陷的“小学生”,甚至可能被一段“越狱指令”诱导,泄露用户数据。我个人的观点是,大语言模型实验室更倾向于培育“通识能力极强的大学生”式模型,而大语言模型应用则通过整合私有数据、传感器、执行器及反馈闭环,对这些“

#人工智能#自然语言处理#算法 +1
让AI像人类画家一样边画边想,港中文&美团让模型「走一步看一步」

在TwiG的框架下,视觉生成不再是一个黑盒的连续过程,而是被拆解为“生成-思考-再生成”的循环。模型会在绘制过程中多次“暂停”,插入一段文本推理(Thought),用于总结当前的视觉状态,并指导接下来的生成。实验数据显示,经过RL训练的TwiG-RL,在T2I-CompBench++的多个关键组合与空间指标上,展现出与Emu3、FLUX.1等模型具有竞争力、甚至在部分维度上更优的表现。那么,有没有

#人工智能#机器学习#深度学习 +1
    共 410 条
  • 1
  • 2
  • 3
  • 41
  • 请选择