51c大模型~合集168
自己的原文哦~https://blog.51cto.com/whaosoft/14116945
自己的原文哦~ https://blog.51cto.com/whaosoft/14116945
#OpenCUA
港大联手月之暗面等开源:人人可造专属电脑智能体
刚刚,一篇来自香港大学 XLANG Lab 和月之暗面等多家机构的论文上线了 arXiv,其中提出了一个用于构建和扩展 CUA(使用计算机的智能体)的完全开源的框架。具体来说,该框架包括:
一个用于捕获人类使用计算机的演示的注释工具
AgentNet,首个涵盖 3 个操作系统和 200 多个应用程序/网站的大规模数据集
一个将演示转化为具有长思维链推理的「状态-动作」对的工作流程
使用该框架,他们还构建了一个旗舰模型 OpenCUA-32B,其在 OSWorld-Verified 上达到了 34.8% 的成功率,创下了新的开源 SOTA,甚至在这个基准测试中超越了 GPT-4o。
更妙的是,他们完全公开了相关代码、数据和模型!
论文标题:OpenCUA: Open Foundations for Computer-Use Agents
论文地址:https://arxiv.org/abs/2508.09123
项目页面:https://opencua.xlang.ai/ (包含工具、模型、数据集)
值得注意的是,这项研究共有 6 位共一作者。项目负责人是香港大学计算机科学助理教授Tao Yu(余涛)。另外,月之暗面创始人和 CEO 杨植麟以及斯坦福大学计算机科学系助理教授杨笛一也在作者名单中。
下面我们就来详细看看这项研究。
OpenCUA 框架
下图展示了OpenCUA 框架概览。
具体来说,OpenCUA 框架包含以下内容:AgentNet Tool,如左上角所示,可通过屏幕视频与操作流程捕捉跨操作系统的用户交互。右上角则展示了原始演示被处理成包含推理与历史的「状态–动作」轨迹。右下角展示了 AgentNet 数据集与基准,其中涵盖多样化的任务,并提供含黄金标准动作的离线评估。最后,左下角则是 OpenCUA 模型经过训练后,可在真实环境中执行计算机操作任务。
AgentNet 数据收集
OpenCUA 的目标是将使用桌面计算机的数据扩展到不同的计算机环境和用户场景。很自然地,该团队首先要做的是收集符合自然用户行为的演示,并尽量减少对用户与计算机交互方式的额外限制,以提高数据收集的可扩展性。
为此,他们开发了 AgentNet Tool 并收集了 AgentNet 数据集,这也是首个大规模桌面智能体任务数据集。
AgentNet Tool
AgentNet Tool 是一个跨平台的标注应用,可记录用户在 Windows、macOS 和 Ubuntu 上的交互。它可捕捉屏幕视频、鼠标/键盘操作以及相关元数据,从而实现对真实计算机使用演示的采集,而且这个方法是可以大规模扩展的。
AgentNet Tool 标注和验证
该团队对原始用户演示进行了处理,得到了干净、可用于训练的「状态–动作」轨迹。生成的轨迹中包含「内心独白式」的思考与操作历史,适用于视觉-语言模型的训练。
原始演示包含高频的屏幕录制与细粒度交互信号(如鼠标移动、点击、滚动、按键等)。一个典型任务可能产生成千上万条底层动作记录,密度过高,训练效率低下。为解决这一问题,该团队提出两种技术方案:
1、 动作约简(Action Reduction)
这是该团队开发的一种基于规则的方法,可将密集动作信号约简为更少但更有意义的操作,同时保留必要信息。
将原子操作压缩为高阶操作;
鼠标移动被视为点击/拖拽的前置条件,仅保留起止位置;
滚动事件按方向合并,并累计滚轮数量;
连续按键合并为文本输入字符串,快捷键组合(如 CTRL+C)抽象为「热键动作」;
常见的多步手势(如拖拽、双击)也被整合为单一动作。
约简后的动作序列与 pyautogui 动作空间对齐(详见表 1)。
表1:人类操作与对应智能体动作函数
2、状态–动作匹配(State-Action Matching)
为了将每个动作 a_i 配对至代表性状态 s_i,该团队从屏幕录制中提取关键帧,捕捉动作发生前的系统状态。但如果关键帧直接与鼠标点击时间戳对齐,可能泄露未来信息(例如:鼠标已悬停在按钮上,预测将变得过于容易)。
为避免该问题,他们的做法是在处理鼠标点击时,回溯至鼠标开始移动前的阶段,并向前搜索最后一个视觉上有明显变化的帧,作为该动作的起始状态。任务结束后,再附加一个终止帧及对应的「结束动作」。
AgentNet 数据集与测试基准
最终,他们得到了 AgentNet 数据集和 AgentNetBench 基准测试集。
数据集涵盖了来自 140 多款应用和 190 多个网站的多样化开放领域任务,任务涉及多应用协作流程、专业工具操作以及非通用功能的使用。基准提供任务指令、步骤历史及每一步的多个黄金标准动作,便于高效的离线评估。
图 4:AgentNet 数据集中任务的领域分布
该数据集共包含 22,625 条人工标注的计算机使用任务,其中约 12,000 条来自 Windows,5,000 条来自 macOS,5,000 条来自 Ubuntu,支持的屏幕分辨率范围从 720p 到 4K。每条轨迹的平均步骤为 18.6 步,体现了任务本身的复杂性。
下面展示了一个示例:
,时长02:21
如表 2 所示,与现有的 GUI 数据集相比,AgentNet 是首个具备真实性、复杂性、多样性与多模态特征的桌面端轨迹级数据集。
表2:AgentNet 数据集与现有GUI数据集对比
为实现稳定、快速且无需依赖环境配置的评估,他们还构建了 AgentNetBench ——一个离线的计算机使用智能体评估基准。
该基准是从 AgentNet 数据集中精选出 100 个具有代表性的任务构成的,涵盖 Windows 与 macOS 平台,任务内容横跨多个应用领域。
该团队表示,每个任务均经过人工审查,明确任务目标并剔除冗余操作。值得注意的是,考虑到计算机操作任务中天然存在多种合理操作路径,他们还在每个步骤上手动提供了多个有效动作选项,以提升评估的灵活性与真实性。
OpenCUA 模型
基于上述数据集,该团队打造了 OpenCUA 智能体模型,其结合了反思式思维链推理、多图像历史以及跨领域数据。模型能够在多个操作系统的真实桌面环境中执行计算机操作任务。
值得注意的是,他们还设计了一条新颖的处理流程,用于为每个任务步骤增强反思式长思维链(reflective long CoT):「生成器」(generator)与「反思器」(reflector)会以迭代方式生成并验证推理过程中,在观察信息与真实动作(ground-truth actions)之间的各个组件。
实验结果与分析
实验基于多个开源的视觉-语言模型进行,包括:KimiVL-A3B 、Qwen2-VL-7B-Instruct、Qwen2.5-VL-7B-Instruct 和 Qwen2.5-VL-32B-Instruct。
其中,KimiVL-A3B 采用了混合专家(MoE)架构,拥有总计 16B 参数,在训练与推理时激活参数为 3B,具备一定的计算机操作能力,如对象定位与任务规划。
Qwen2-VL 与 Qwen2.5-VL 是通用型视觉-语言模型(VLM),其中 Qwen2.5-VL 在数字智能体任务中表现更强,特别擅长高分辨率场景的理解。
该团队对上述模型进行了监督微调,得到多个 OpenCUA 模型变体:OpenCUA-A3B、OpenCUA-Qwen2-7B、OpenCUA-7B 和 OpenCUA-32B。
然后,他们在以下多个基准上对这些模型进行了评估,包括在线评估基准、离线智能体评估基准以及GUI 定位能力评估基准。
在线智能体评估
- OSWorld-Verified:OSWorld 最初收集整理了 369 个人工构建的任务,涵盖大量应用程序,并配有对应的环境配置与评估脚本。OSWorld 团队近期对这些任务进行了验证,修复了因依赖过期、评估错误或指令不清导致无法测试的项目,并将改进后的基准发布为 OSWorld-Verified 。评估结果通过 OSWorld 团队部署在 AWS 基础设施上的公开评估平台获得,结果列于表 3。
- WindowsAgentArena (WAA) :该基准包含 154 个以 Windows 为中心的任务,涵盖原生 Windows 应用以及若干出现在 OSWorld 中的开源程序,能有效反映智能体在 Windows 系统上的在线性能。
表 3:OSWorld-Verified 评估结果
从结果上看,OpenCUA-32B 在所有开源模型中取得了最佳表现,平均成功率达 34.8%,大幅领先于此前的各类基线模型。同时,它显著缩小了与闭源智能体的性能差距,甚至超越了 OpenAI CUA。这一结果充分证明了OpenCUA 训练流程在可扩展性与性能上的优势。
离线智能体评估
离线评估使用了 AgentNetBench,这是该团队创建的 CUA 离线评估基准,其中包含 100 个具有代表性任务,覆盖 Windows 与 macOS 上的多个领域。结果如下表所示。
表 4:AgentNetBench 上,各个 CUA 的性能表现
可以看到,OpenCUA-32B 的整体表现最佳,但 OpenAI CUA 在Function action成功率上的表现有明显优势。
GUI 定位能力评估
该团队也评估了模型在图形用户界面(GUI)中将自然语言指令映射到具体操作的能力,这里使用了三个基准:OSWorld-G、Screenspot-V2、Screenspot-Pro
其中,OSWorld-G 包含 564 个样本,系统性地覆盖了文本匹配、界面元素识别、布局理解以及细粒度操作控制等任务,并提供了解决每个任务所需的界面元素类型注释。Screenspot-V2 包含来自 移动端、桌面端与网页端的截图,旨在评估跨平台场景下的 GUI 理解能力。Screenspot-Pro 则聚焦于高分辨率桌面环境,尤其强调在专业应用场景中的表现能力。
OpenCUA 模型在三个基准测试上的 GUI 定位性能,并与 Qwen2.5-VL 模型和 UI-TARS 进行了对比。
可以看到,新提出的方法能够随着训练数据规模的扩大而有效提升模型性能。
较高的 Pass@N 表现表明,OpenCUA-7B 在测试阶段具备良好的扩展潜力(test-time scaling),即在允许更多尝试次数或更长推理路径的情况下,其性能仍可进一步显著提升。
OpenCUA-Qwen2-7B 在 OSWorld 基准上的 Pass@N 性能曲线(temperature = 0.1)
OpenCUA-Qwen2-7B 在 OSWorld 基准上的 Pass@N 性能曲线(temperature = 0)
总结
OpenCUA是一个面向计算机使用智能体(CUA)开发的全面开源框架,填补了该领域的关键空白。通过提供标注基础设施、数据处理流水线、多样化数据集、高效训练策略和系统评估基准,为 CUA 研究奠定了基础性支撑。
其得到的模型在多个基准任务中表现优异,同时呈现出明确的数据 Scaling Law与跨领域泛化能力。通过完整开源工具链(包括工具、数据集、代码与模型),该团队表示希望加速透明、可验证的 CUA 研究,使社区能够系统性地探索此类智能体的能力、局限性与风险。
#RLVMR
破解「长程智能体」RL训练难题,腾讯提出RLVMR框架,让7B模型「思考」比肩GPT-4o
本论文的主要作者来自腾讯混元 AI 数字人团队 (Tencent Hunyuan AI Digital Human)。该团队致力于打造「有智商、有情商、有温度的数字人」,旨在为用户提供高度拟人、可信赖的数字伙伴,进而实现富有温度与信任的情感交互。
自主智能体(Agents)正朝着能够处理复杂长程任务(Long-Horizon Tasks)的通用智能(AGI)迈进,但许多研究者发现了一个尴尬的现实:很多智能体虽然能完成任务,却像个「只会蒙答案的学生」,其成功往往依赖于运气和低效的试错,而非真正高效、可泛化的推理能力。一旦环境稍作改变,它们便漏洞百出。
这种「结果正确,但过程混乱」的现象,是当前长程智能体(Long-Horizon Agents)强化学习(RL)范式的一大瓶颈。智能体在探索中,只因最终能完成任务便获得奖励,而其间大量的冗余操作、无效探索,甚至错误的推理路径,都被无意中 「强化」 和固化。这导致了两个核心难题:
1.低效探索难题:智能体容易陷入「无效内卷」,反复尝试无意义的动作,训练成本高,推理效率低下。
2.泛化脆弱难题:靠「蒙对」学会的策略缺乏逻辑基础,在新任务面前不堪一击,难以实现真正的鲁棒性。
如何让智能体不仅「知其然」,更能「知其所以然」?
面对这些难题,腾讯混元 AI 数字人团队提出了 RLVMR (Reinforcement Learning with Verifiable Meta-Reasoning Rewards) 框架。这项工作开创性地将认知科学中的「元认知」(即 「思考自己的思考」)理论引入 RL,通过奖励「好的思考过程」而非仅仅奖励「好的结果」,首次实现了对智能体推理过程的端到端强化学习,成功解决了长程任务中的低效探索与泛化难题。
论文地址: [2507.22844] RLVMR: Reinforcement Learning with Verifiable Meta-Reasoning Rewards for Robust Long-Horizon Agents
项目代码: digitalhuman/RLVMR at main・Tencent/digitalhuman・GitHub
RLVMR:如何教会智能体「思考」,而不仅是「做事」?
传统方法要么依赖僵化的专家数据(SFT),要么依赖稀疏的结果奖励(RL),都无法有效塑造智能体高质量的「思维习惯」。RLVMR 的破局点在于:为智能体的「思考过程」本身,设计一套可验证、可优化的奖励机制。
1. 智能体学会「三思而后行」:引入元推理状态
RLVMR 赋予智能体「自我意识」的能力。在行动前,智能体需要先思考并给自己贴上一个「元推理标签」,明确自己当前处于哪个认知阶段:
- 🤔 规划(Planning): 我准备做什么?计划是什么?
- 🧭 探索(Exploring):我正在执行计划,探索方案。
- 🧐 反思(Reflecting):计划出错了?我需要纠正什么?
这套机制让智能体的「内心戏」变得明确、可追踪,为奖励其「优质思考」提供了抓手。
2. 奖励「好思路」,惩罚「坏习惯」:可验证的过程奖励
光有标签还不够,RLVMR 设计了一套轻量级的验证规则,实时评估智能体的思考质量,并给予即时奖励:
- 奖励高效思考:当智能体在「反思」后成功纠错,或制定出有效「规划」时,给予正向奖励。
- 惩罚低效行为:当智能体陷入无意义的动作循环或重复犯错时,给予负向奖励。
这种「过程奖励」机制,像一位贴身教练,不断引导智能体优化其思考与决策路径,从根本上杜绝「瞎蒙」行为。
3. 从「结果导向」到「过程与结果并重」
RLVMR 将「过程奖励」与最终的「任务成功奖励」相结合,通过策略梯度方法进行端到端优化。这使得智能体在追求最终目标的同时,必须学会如何更聪明、更高效地达成目标。
核心实验成果:7B 模型比肩「巨头旗舰」
在极具挑战性的 ALFWorld 和 ScienceWorld 两大长程任务基准上,RLVMR 展现了统治级的性能。经过 RLVMR 训练的 7B 模型,在难度最高、从未见过的任务(L2 泛化等级)上,成功率高达 83.6%,不仅远超此前所有 SOTA 模型,更证明了其强大的泛化能力。
此外,我们的方法训练出的智能体更「聪明」,解决任务的路径更直接,在 ALFWorld 和 ScienceWorld 的 L2 复杂环境中,所需动作数最高减少 28.1%。此外,训练过程本身也告别了「反复横跳」式的低效学习,收敛速度更快、策略更稳定,显著缓解了无效探索问题。
超越分数:RLVMR 实验中的深度洞察
洞察一:智能体学会「反思」,告别「无效内卷」
传统 RL 智能体像一个埋头刷题但从不复盘的学生,容易在错误路径上反复挣扎。RLVMR 的核心贡献在于教会了智能体「反思」(Reflecting)。
实验数据显示,引入「反思」机制后,智能体在遇到困难时,不再是盲目重试,而是能够主动识别问题、调整策略。这正是其重复动作率大幅降低、任务成功率飙升的根本原因。它揭示了一个关键点:对于复杂任务,教会智能体如何从失败中学习,比单纯「喂」给它成功的经验更重要。
洞察二:好的推理习惯,是泛化能力的基石
为什么 RLVMR 在未见任务上表现如此出色?
我们发现,通过奖励「好的思考过程」,RLVMR 帮助智能体建立了一套通用的、不依赖于特定任务的「元问题解决框架」(如何规划、如何探索、如何反思)。当面对新环境(L2)时,智能体调用的不再是某个僵化的「解题模板」,而是这套灵活的「思维方法论」。
这证实了一个重要猜想:真正的泛化能力,源自于对问题解决过程的深刻理解,而非对问题答案的机械记忆。 RLVMR 正是通往这条道路的有效路径。
洞察三:先 「冷启动」 再 「强化」—— 智能体的成长阶梯设计
RLVMR 采用了「冷启动 SFT + 强化学习 RL」的两阶段训练流程。这并非简单的流程拼接,而是一种符合认知规律的「成长曲线」设计。
- 冷启动阶段(SFT): 如同基础教育,让智能体先通过模仿学习,快速掌握「规划」「反思」等元推理概念的基本表达方式。
- 强化学习阶段(RL): 如同进入社会实践,让智能体在真实环境中自由探索,通过「过程奖励」的不断反馈,将学到的概念内化为真正的能力。
这一策略启示我们:在训练高级智能体时,「先教会它如何思考,再放手让它去犯错成长」,可能是比单一训练范式更高效的路径。
总结与展望
RLVMR 的提出,为智能体训练带来了从「结果导向」到「过程导向」的范式革新。它证明了,通过对智能体「思考过程」的直接建模与奖励,我们能够有效破解长程任务中的「低效探索」与「泛化脆弱」两大难题。
我们对 AGI 的终极期待,是一个能够独立思考、理性决策的伙伴,而不是一个只会寻找捷径的「做题家」。RLVMR 的工作,正是鼓励大模型从偶然涌现的能力,走向特定思维模式的强化,为构建更鲁棒、更高效、更可解释的通用智能体迈出了坚实的一步。
这项研究不仅为长程智能体训练提供了新思路,也为我们探索能真正理解世界、应对未知的下一代 AI 带来了新的曙光。
#Skywork Super Agents
刚刚,全网最懂图文调研的智能体模型震撼上线,看完我直接卸了浏览器
疯狂的七月已经落下了帷幕,如果用一个词来形容国产大模型,「开源」无疑是当之无愧的高频词汇。
各大厂商你方唱罢我登场,昆仑万维、阿里、智谱、月之暗面、腾讯、阶跃星辰等众多玩家们先后开源了数十款大模型。根据 Hugging Face 发布的中国 AI 社区七月开放成果,短短一个月开源模型总数达到了惊人的 33 款。
进入到八月,国产大模型「上新」的势头丝毫不减,重量级成果发布的热度继续升温。其中,上个月接连开源第二代奖励模型 Skywork-Reward-V2、多模态理解模型 Skywork-R1V3 以及多模态统一预训练模型 Skywork UniPic 的昆仑万维,又官宣了一波技术大放送!
从本周一开始,昆仑万维正式启动 Skywork AI 技术发布周!连续五天,每天都有新模型亮相,从视频生成模型 SkyReels-A3、世界模型 Matrix-Game 2.0、生图一体化模型 Skywork UniPic 2.0 到深度研究 Agent 模型等,多模态 AI 的核心赛道几乎全囊括了,干货满满。
8 月 14 日,在技术发布周的第四天,昆仑万维重磅发布了最新 Agent 成果,为其在智能体领域的探索与布局开启更多可能。不久之前,昆仑万维才带来了全球首款 Office 智能体 —— 天工超级智能体(Skywork Super Agents),登顶多个榜单,在文档、PPT、Excel、网页、播客等多任务执行中秀了把一站式生成能力。
此次,昆仑万维将天工超级智能体的核心引擎 Skywork Deep Research Agent 升级到了 V2 版本。新版本不仅将深度调研体验推升至新高度,还在多模态信息检索与生成、浏览器智能体任务中利用独立的 Agent 模块,促成性能、稳定性与智能化水平的均衡跃升。
性能究竟有多强,先上跑分成绩。首先在权威搜索评测榜单 BrowseComp 中,Skywork Deep Research 在常规推理模式下正确率已达到 27.8%,超越了 GLM-4.5、StepFun Deep Research、Claude-4-Opus 等国内外大多数主流同类产品;而在启用自主研发的「并行思考」模式后,准确率更是跃升至 38.7%,一举刷新行业 SOTA 记录,将 Grok-4 在内所有竞品甩在身后。
此外,在全球最具挑战性、覆盖最广的智能体基准测试集 GAIA 中,Skywork Deep Research Agent 同样刷新 SOTA 成绩,超越所有竞品,复杂任务中的硬核表现不言而喻,也为其技术含金量做出有力背书。
赶快来天工超级智能体(Skywork Super Agents)体验!
全球官网:https://skywork.ai
国内官网:https://tiangong.cn
这位 Agent 新面孔在实操上能不能达到预期呢?一手实测给了我们很大惊喜。
Agent 深度研究的全感知时代
始于多模态信息检索
去年 12 月,谷歌推出了 Gemini Deep Research 功能,标志着全球首个 AI 研究助手的诞生。该功能可以自动浏览网页、整合关键信息,并生成结构化的研究报告。这意味着,传统研究员吭哧吭哧干几天的活儿,它仅需要几分钟就能完成。该功能一经发布就迅速引发业界关注,OpenAI、xAI、Perplexity AI 等其他大模型厂商也紧随其后,纷纷推出自家的 Deep Research。
尽管这些 Deep Research 功能在提取和整理文字信息时有着较高的效率,但它们过于依赖纯文本的检索和分析,往往忽视图片、图表等视觉内容。而如今互联网上超过一半的关键信息都以图文混排的形式呈现,比如财报中的曲线、科研论文里的实验图、社交媒体上的对比照、业务方案中的流程图等,如果这些图片信息被忽视,研究报告的完整性和准确性将大大降低。
为解决这一痛点,昆仑万维推出了业界首个「多模态深度调研」Agent 。通过创新性地整合多模态检索理解和跨模态生成能力,它不仅能够识别并处理图片、图表等信息,还能将图片中的关键信息融入报告中,并生成图注和综合性图表,为研究人员提供更加全面、准确的报告。
比如,我们输入提示词:请配合丰富的图表,详细揭示 2025 年特斯拉在中国的销售情况,并分析销量变化的核心原因。
领到任务后,它首先跳出一个表单让我们勾选任务需求,包括写作语言、写作篇幅、分析维度、图表类型偏好、核心原因分析角度等。如此一来,我们就能够根据自己的具体需求,定制报告的内容、深度和呈现方式。
确认完需求,它会生成一个待办清单,继而调用各种工具搜索浏览网页、整合信息,尤其是涉及图片部分,它会自动调用 MCP 工具进行图片分析以及图表制作。
在浏览了 180 个网页、使用 54 个信源后,最终输出一份详细的特斯拉中国销量分析报告。
,时长00:21
报告中包含丰富的图表展示,比如特斯拉中国月度销量趋势折线图、主要城市销量柱状图、中国新能源汽车市场份额饼图等。更重要的是,它把图片中表达的信息融入到报告文字当中,提供更全面的文字解读。
为了防止胡说八道,每个重要数据都标注了来源,鼠标一点即可跳转。
它还会根据文字内容,在合适的位置插入对应图片,并自动生成简洁图注。对于图表较多的报告,它甚至会专门拿出一节来对图表进行辅助说明。
这番实测意味着谷歌 Gemini Deep Research 搞定不了的图文盲区,被昆仑万维的 Agent 轻松拿捏。让 AI 真正具备专业研究人员的感知与表达能力,离不开多模态爬取、长距离多模态信息收集、异步并行 Multi-Agent 多模态理解架构和多模态结果呈现四大核心技术突破:
- 首先,利用 MM-Crawler 工具进行结构化文本、二进制图片和元数据的并行爬取,通过「视觉噪声剪枝」技术以毫秒级剔除低信息密度图片,平均减少 65% 的冗余图片流量。
- 其次,利用大规模「文字 - 图片 - 推理链」合成数据训练,实现长距离(几十步数万字)上下文感知与图片信息增益判断能力,将真正需要深入推理的图片数量压缩至一半,有效节省计算资源。
- 第三,利用异步并行 Multi-Agent 架构,将不同任务智能调度给不同的 Agent 并行执行,并结合「多轨执行 + 流水整合」的设计,提升包括文本和图片在内的多模态检索与理解效率。
- 最后,在结果生成阶段,支持信息「转写 — 插图 — 重绘」三位一体的自动生成方式,既可将图片信息融入文字解读,也可插入原图并在融合多图、多模态信息后重绘综合性图表,输出信息完整、视觉友好的深度报告。
目前,该功能已在 skywork.ai 官网上线,人人都可体验。
突破传统浏览器 Agent 瓶颈
深入挖掘社交平台内容
接下来,我们再看看 Skywork Deep Research Agent V2 的另一大功能模块 —— 多模态深度浏览器智能体(Skywork Browser Agent)。
在实际应用中,传统浏览器智能体存在诸多瓶颈问题,比如执行效率差、成功率低,特别是在处理文字密集内容时表现迟缓;由于平台壁垒(如登录和验证问题)还可能导致任务中断;以及在复杂边缘场景中适应能力较弱,常常出现卡顿、死循环等失效情况。
昆仑万维此次推出的 Skywork Browser Agent 巧妙化解了这些痛点。借助深度多模态内容理解能力,不仅能够高效分析社交媒体上的文本信息,还能精准筛选与提取图片、视频以及评论区的情感与观点,提供更加全面的信息洞察。在网页浏览的全过程中,它都能做到有条不紊、规划周密,而这一切都依托于自研模型非凡的推理能力。
此外还能自动进行线上社区内容的高效数据分析,将枯燥的调研工作转化为直观且易懂的可视化报告。同时支持一键式网站部署,将抓取的关键图片与分析内容生成独立网站,方便展示和分享。针对部分社交平台登录墙的难点,配备了智能化接管机制;为每个执行步骤设置了自适应超时控制,有效防止整套工作流阻塞,从而大大提升浏览器智能体的执行效率。
举个例子。最近,喜剧大师陈佩斯带着自编自导自演的《戏台》回归大荧幕,公映 4 天就斩获近 2 亿元票房。不过,对于这部打磨 13 年的影片,网友给出了两极分化的评价。
我们让 Skywork Browser Agent 基于用户反馈,生成一个关于电影《戏台》上映后网友评价的分析报告网页。
,时长00:36
此处的工作流程与前文所述相似:勾选补充信息、生成待办清单,然后调用 MCP 工具执行任务。比如旁边会弹出一个 Skywork 虚拟机来显示浏览器 agent 的操作轨迹:它可以自动打开豆瓣电影首页,输入「戏台」进行搜索,进入电影链接详情页后收集更完整的信息和用户评论。
,时长00:40
搜完信息,它就开始搭建网页,开发 HTML 页面框架,并按照各分析维度划分内容区块;设计 CSS 样式,确保页面美观易读;使用 JavaScript 实现数据可视化和交互功能,同时下载并配置相关图片资源。如果觉得生成网页不符合预期,我们还可以和浏览器 Agent 进行多轮交互,根据当前生成好的网页进行二次编辑,Skywork Browser Agent 强大的指令跟随能力可以完美支持这一操作。
,时长00:27
可以看到,最后生成的网页不仅结构清晰,设计精美,且内容涵盖了电影的基本信息、票房表现、豆瓣和猫眼的评分对比等关键数据。网页内的观众评分分布、情感倾向分析和热点话题图云等可视化图表,极大提升了信息的可读性和直观性。我们还可以通过简单的点击与交互,深入了解影片的各项数据和网友评论,进一步剖析影片的正负面评价及争议点。
为测试稳定性,我们还进行了一个有趣的实验 —— 浏览周杰伦的 Instagram,并打造一款粉丝应援网站。结果显示,制作的网页不仅功能完整,还具备独特的视觉风格,效果出色。
,时长00:24
如此高效稳定网页浏览能力的实现,要归功于以下多项自研的关键技术方案:
- 集成强大的多模态推理模型与优化的 DOM(文档对象模型)解析能力,为 Skywork Browser Agent 提供了卓越性能的核心支撑。
- 主流平台动作适配与并行搜索 / 多动作规划机制,显著提升执行效率。
- 内置智能筛选系统以自动过滤低质或涉隐图片和文字内容。
- 人机交互场景下支持智能提示与接管,而且能通过加密与前端保护机制保障用户隐私安全。
Skywork Browser Agent,通过模拟人类浏览与交互方式,革新传统的数据采集与分析模式,精准高效地完成智能搜索、多模态信息分析与社区内容洞察,在长周期的 VLA(视觉 - 语言 - 动作)任务中展现巨大的潜力。
不过,这一功能尚处于内测和邀测阶段,预计将于下周向全部用户开放。
全栈式演进
构建从数据、算法到多智能体系统的智能基座
从一系列实测看下来,昆仑万维此次的 Agent 产品在自主性、交互性、任务完成度等方面已经今时不同往日,称得上是一个「独立思考、深度执行的智能工作伙伴」。 特别是在信息检索、整理、总结以及复杂任务的执行中表现出了惊人的效率与准确性,背后依托的是 Skywork Deep Research Agent V2 引入的多项关键提升机制,包括高质量数据合成、端到端强化学习、高效并行推理以及多智能体演进系统。
作为 AI 三大核心要素之一,在数据层面下功夫任何时候都是必要的。为了增强 Agent 模型对复杂及深度信息搜索场景的理解,昆仑万维自研了一套端到端深度信息问题合成流程,使系统生成高质量搜索查询数据集成为可能。
首要一点是制定数据质量标准。昆仑万维在初期设计阶段明确了高质量搜索问题以及答案的五大核心标准,包括多样性、正确性、唯一性、可验证性和挑战性,确保每一个生成的查询都能覆盖广泛的主题和难度层次,同时答案也要准确、唯一可靠并可验证。然后进入到数据准备阶段,通过多渠道收集互联网数据,构建初步的种子池,并利用自动化筛选系统评估、挑选出最具潜力的信息,为后续问题构造提供优质素材。
接下来处理复杂且具有挑战性的问题,一方面利用深度信息收集技术系统性地从多个信息源中提取线索,将具体信息抽象为高难度的搜索查询;另一方面采用迭代式增强策略,将简单搜索转化为多步推理的复杂问题。过程中引入了层次化推理链和信息混淆技术,以进一步提升问题复杂度和模型推理能力。
一番流程跑下来,每个环节的数据质量和任务难度都得到严格控制,尤其是覆盖五大标准的高难度问题体系,为接下来大规模、端到端的强化学习提供了数据基础。
想要提升 Agent 模型的学习效率和推理能力,需要克服传统 RLHF 奖励模型主观性强和易受攻击的难题,为此昆仑万维提出了非对称验证驱动的强化学习方法。具体到训练框架上,采用了 GRPO 算法和动态课程学习机制,确保训练过程中数据维持在最佳难度区间,避免简单和过难问题的干扰;同时动态更新数据集并补入新的数据,使模型始终处于有效「学习区」内。
为了进一步提升验证精度和奖励的有效性,昆仑万维创新性地引入了基于线索的生成式密集奖励机制,并利用生成式奖励模型为 Agent 模型提供更细致的反馈。若输出最终答案则给予满额奖励,若未能输出最终答案则进一步分析问题构造阶段保存的线索以进行过程评估,并在判定当前输出中正确线索比例的基础上赋予模型连续、高区分度的部分奖励。奖励信号贯穿整个解题过程,提升学习效率和推理能力的目标得以实现。
性能得到保障的同时,效率也必须提升,这时昆仑万维自研的并行推理框架发挥了用武之地。此前谷歌 DeepMind 在其最新 Gemini 2.5 Deep Think 推理模型中通过生成多个 Agent 来并行处理任务,并摘得 IMO 2025 竞赛金牌,有力验证了并行推理机制在提升复杂任务处理效率方面的有效性。而基于以下三项创新,昆仑万维在显著提升推理效率的同时大大节省了计算资源。
一是并行思考模式,在每一步生成多个候选推理路径并从中筛选最优候选路径以备后续使用,避免因推理链断裂、前后逻辑冲突导致的卡壳等失效行为。同时通过多节点异步推理架构,有效缩短推理时间并提升计算资源使用效率;二是在多步推理规划中引入生成式评估方案,对多个候选推理路径进行打分和筛选,结合锦标赛排序机制确定最优推理轨迹,并利用异步推理机制降低这一过程所带来的计算负担和时间开销;三是在并行推理过程中引入熵自适应剪枝技术,动态调整路径选择,减少冗余计算,降低资源开销。环环相扣,保证系统面对复杂动态任务依然稳定高效。
并行思考模式下,Skywork Deep Research 的正确率随思考时间延长持续攀升,验证了其自研系统架构在推理深度与扩展性上的巨大潜力。
在数据、算法、算力优化之外,Skywork Deep Research Agent v2 能力的跃升与多智能体演进系统的持续进化息息相关。随着 Agent 应用场景日益丰富,MCP(模型上下文协议)外接工具的作用越来越大,不过随着此类工具数量和复杂度的增加,需要更高效的自动化管理工具。针对此,MCP 工具自动创建技术应用而生,通过对工具定义的标准化管理和实时同步,大幅减少人为错误,提升系统响应速度和工具链的灵活性。
在这一 MCP Manager Agent 的基础上,一个将模型能力与工具能力结合起来的协同多智能体框架形成,不仅能高效组织多个 Agent 协作,还通过动态创建 MCP 工具来强化任务应对能力和环境适应能力。下图整体架构中一一显示出 了规划 Agent、深度调研 Agent、浏览器使用 Agent、数据分析 Agent 和 MCP Manager Agent。
这一套系统性的升级,无疑让 Skywork Deep Research Agent V2 具备了强通用性、强适应性和强自主性,从而构筑起 Agent 模型强大的智能基座,在实操中释放出更强的稳定性、泛化性与创造性。
写在最后
2025 年已经过半,我们明显感受到的一点是:伴随 Scaling Laws 逐渐放缓的影响,国内外 AI 玩家们追求单一最强通用大模型的热度有所降温,就连 OpenAI 迄今最强的旗舰模型 GPT-5 都被吐槽缺乏突破性体验。相反,成果开源与应用落地成为了业界普遍关注的焦点。
可以说,AI 行业重心的转移正在重新定义下一阶段的竞争格局。谁能在开源之上更快更好地打造贯通上下游的工具链与应用生态,同时率先将 AI 能力转化为可规模化部署的商业生产力,谁就更能在新一轮 AI 竞赛中抢占战略高地。
昆仑万维为期一周的模型发布,既是其 AI 技术成果的集中亮相,也是其在多模态 AI 领域加速落地、引领行业趋势的重要信号。
无论是赋能创作者进行高质量图片与视频生成、构建虚拟世界智能交互,还是 Agent 驱动的自动化任务执行、音乐创作灵感激发,昆仑万维从基座模型到多模态交互系统的全栈式布局又一次展现在大众面前。这也彰显出这家 AI 公司坚定践行其「All in AGI 与 AIGC」发展战略的决心与魄力,通过打造全方位的产品矩阵,以期在全球 AI 竞争格局中稳固并扩大自身领先优势。
其中,作为当前加速大模型落地的核心途径,Agent 的重要性已经在业界达成共识。我们可以期待,此次的深度研究 Agent 势必会在深度任务执行、多模态协作和跨场景应用中继续拓宽昆仑万维大模型的落地边界,也有望为整个 AI 行业带来更高效、更智能的解决方案。
#Group Filtered Policy Optimization(GFPO
冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世
用过 DeepSeek-R1 等推理模型的人,大概都遇到过这种情况:一个稍微棘手的问题,模型像陷入沉思一样长篇大论地推下去,耗时耗算力,结果却未必靠谱。现在,我们或许有了解决方案。
这两天,微软研究员 Dimitris Papailiopoulos 在 𝕏 上曝出一个新成果:Group Filtered Policy Optimization(GFPO)—— 一种颠覆性的强化学习算法。
GFPO 能同时权衡训练与测试阶段的计算开销,可在提升准确率的同时,将推理中因强化学习带来的多余 token 长度削减多达 80%!
数据很惊人,但这究竟是如何做到的呢?
就在刚刚,GFPO 终于上线 arXiv,所有细节首次公开,高效强化学习的新玩法即将揭晓。
论文标题:Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning
论文地址:https://arxiv.org/abs/2508.09726
欲知 GFPO,先看 GRPO
在介绍 GFPO 之前,有必要先看看 DeepSeek 提出的组相对策略优化(GRPO)。
GRPO 基于近端策略优化(PPO)算法,但进行了简化,即不再需要使用价值模型来估计基线优势。具体操作是对每个问题采样多个响应,并使用它们的平均奖励作为基线,而其优化的目标仍然是与 PPO 类似的裁剪替代目标(clipped surrogate objective)。
写成公式的话,如果令 θ 表示模型参数,q 表示问题,o 表示从旧策略 π_θ_old 采样的响应,则 GRPO 目标可以写成:
需要注意的是,尽管这里展示了标准的 GRPO 损失归一化公式,但包括 verl 和 TRL 在内的多个开源强化学习库都默认为 GRPO 使用了 DAPO token 级损失归一化 ,这也是该微软团队在实验中使用的方法。
GRPO 的一个关键限制在于它依赖于单一的标量奖励信号,这使得它难以联合优化多个期望得到的响应属性,例如简洁性和准确度。结果就是,GRPO 确实能提高准确度,但也会让响应长度大幅增加。
GFPO 正是为了解决这个问题而生的,它可以同时优化多个响应属性。
组过滤策略优化:GFPO
GFPO 是一种简单而有效的方法,可以针对想要的响应属性进行有针对性的策略优化。
GFPO 会为每个问题采样更大的候选响应组,从而扩大响应池以包含更多具有所需特性的候选响应,然后在计算策略梯度时显式地过滤这些特性。虽然将简洁性或信息量等所需属性直接编码到标量奖励中是看似自然的做法,但同时编码多个特性却可能很难,尤其是在必须保证正确性的情况下。
数据过滤则是一种隐式、灵活的奖励塑造形式 —— 类似于使用选择性采样来放大特定模型行为的迭代式自我改进方法 。在此显式过滤步骤分离出所需的响应后,将在所选组内使用标准奖励来计算相对优势。因此,GFPO 无需复杂的奖励工程,即可同时优化多个所需属性(例如长度和准确度)。
由于这里的目标是减少强化学习中响应长度的膨胀,因此该团队主要研究的是在保持与 GRPO 相当的准确度的用时,使用 GFPO 来优化缩短响应长度。
给定一个问题 q,从当前策略采样大量响应 G = {o_1, ..., o_G}。GFPO 并不会在所有响应上平等地训练,而是会根据用户指定的指标应用选择步骤,过滤出大小为 k 的最符合期望的响应子集,然后进行训练。之后,为每个响应计算一个指标得分并进行相应排序,从中选出前 k 个响应,形成留存子集 S ⊆ G(算法 1)。这里,该团队定义了一个二元掩码 m ∈ {0, 1}^G,其中 m_i = 1 表示被选中响应,m_i = 0 表示被拒绝响应。
下面是 GFPO 的形式化定义:
这里使用 S 中响应层面的奖励的平均值 (μ_S) 和标准差 (σ_S) 对所选子集 S 中响应的优势进行归一化。这样一来,便可以有意义地比较已表现出所需属性的响应,从而确保 GFPO 优先考虑过滤子集中奖励最高的响应。不在 S 中的响应的优势为零,从而可有效地被排除在策略更新之外。
因此,GFPO 的主要干预措施是在优势估计层面,使其可与任何 GRPO 变体兼容,例如 DAPO、Dr. GRPO 或带有 Dual-Clip PPO 损失的 GRPO。
虽然通过采样更多响应,GFPO 会导致更高的训练时间计算成本,但由于学习到的策略比 GRPO 能产生更短的响应,因此这部分成本可以被抵消。
尽管 GFPO 是通用的,可以适应各种评分指标,但微软在这里的实验中研究的是旨在减少响应长度膨胀的指标:
- 响应长度:使用短响应进行训练能直接鼓励实现简洁性。
- token 效率(奖励/长度):使用高 token 效率的响应进行训练可鼓励简洁性,但如果较长响应能「证明」其正当性,则仍可允许较长响应。
其他指标(例如事实性、多样性或外部质量得分)也可以集成到 GFPO 中,以优化不同的目标属性。
自适应难度的 GFPO
该团队还提出了 GFPO 变体:自适应难度 GFPO,见算法 2,其目标是将更多的训练信号分配给更难的问题。
在训练的每个步骤中,通过计算为每个问题采样的响应的平均奖励来估计问题难度 —— 较低的平均奖励意味着难度更高。
为了自适应地调整留存响应的数量 (k),该团队使用了一个轻量级 t-digest 数据结构维护提示词难度的流式摘要。t-digest 可以有效地近似迄今为止所有提示词难度(奖励均值)的四分位数,从而能够将新问题分类到相对难度的桶(bucket)中。
基于此分类,该团队为每个问题分配一个留存响应数量目标 k:简单 4 个,中等 6 个,困难和非常困难的问题 8 个(从 16 个样本中选取)。这种动态课程可以对简单提示词进行更积极的过滤,并对困难提示词进行更多探索。难度桶的数量和每个桶的 k 是此方法的超参数。
自适应难度 GFPO 可高效利用训练计算,将梯度更新集中在最需要的地方。它能帮助模型减少简单示例(正确率已经很高)的冗长程度,同时通过保留更多推理链来保持更难提示词的准确度。
该团队表示:「据我们所知,这是首个能根据问题难度动态调整有效分组规模的算法。」
基于 GFPO 的实验发现
那么,GFPO 的表现如何呢?基于 14B 参数的 Phi-4-reasoning 模型,该团队开展了实验。
他们评估了三种 GFPO 变体:
- Shortest k/G:留存 G 中的 k 个最短响应,同时改变 k 和分组规模 G,以研究它们对长度缩减的影响。
- token 效率:留存 G 中 k 个每 token 奖励效率最高的响应,使用 k = 8,G = 16(与基准 Shortest k/G 设置一致)。
- 自适应难度:留存 G 中 k 个最短的响应,k 根据实时难度估算动态选择(4、6、8,8 表示简单→非常难),G = 16。
更多实验细节请参阅原论文,这里我们重点看看该团队得到的一些发现。
发现 1:「少思考」需要多采样:在不增加分组规模的情况下减少保留的响应(Shortest 6/8 GFPO)不会减少响应长度。
发现 2:留存响应的百分比 (k/G) 可控制长度压力:降低 k 或提高 G 会进一步缩短长度;该团队观察到保留 25-33% 的响应是最佳的,保留比例越小,增益越小。最短 4/24 是最佳长度优化的 GFPO 变体,可最大程度地减少过长响应。
发现 3:token 效率(奖励 / 长度)优化带来了最大幅度的缩减:在保持准确度的同时,额外长度减少了 70.9% (AIME 25)、84.6% (AIME 24)、79.7% (GPQA)、82.6% (OmniMATH) 和 79.7% (LiveCodeBench)。这些缩减在训练过程中会略微增加方差。
发现 4:自适应难度 GFPO 在同等计算量下优于 Shortest-k 算法:根据问题难度自适应地确定 k 值,在 4/5 基准测试中,与同等计算量下的 Shortest-k 算法相比,其长度缩减效果更佳。
发现 5:GFPO 可缓解分布外(OOD)长度膨胀:GRPO 会增加分布外任务的响应长度,但准确度并未提高;而 GFPO 则在略微提高准确度的同时,抑制了这种膨胀。
发现 6:
- GFPO 在所有难度级别上都会缩短响应。
- token 效率 GFPO 在简单、中等和困难问题上实现了最大程度的缩减 —— 在简单问题上,其响应甚至比 SFT 模型更短,同时准确度与 GRPO 相当。
- Shortest 8/24 GFPO 由于其强大的过滤功能,在最难问题上实现了最大程度的缩减。
发现 7:
- 自适应难度 GFPO 在中等难度和极难问题上的准确度超越 GRPO,同时将过长问题缩短了 47%-60%。
- 更大的分组规模提高了难题的准确度:自适应难度(k = 8,G = 16)在难题上略有下降,但 Shortest 8/24 算法可通过更多采样找到简洁的正确响应,从而与 GRPO 的准确度相当。
发现 8:即使在固定难度下,较长的响应准确度也会降低:在较难的问题中,推理的最佳点出现在 12k-16k 个 token 左右。
发现 9:在最长的响应四分位数中,GFPO 的准确度优于 GRPO。
发现 10:GFPO 可减少极端冗长:将 ≥ 20k 个 token 的响应比例从 32% 降至 22%,同时能以较短的长度解决更难的问题(在 GFPO 中,用 ≤ 5k 个 token 回答的问题比 GRPO 的难度高 9 倍)。
发现 11:哪种 GFPO 变体效果最佳?
- token 效率:长度缩减效果最强,准确度略有下降
- 难度自适应:在最难问题上,通过稳健的长度缩减获得了最佳准确度
- Shortest 8/24:在管理准确度与长度的权衡方面非常有效
发现 12:GFPO 可大幅降低推理解答和验证阶段的冗长程度,在 AIME 25 上,解答中减少了 94.4% 的多余长度,验证步骤中减少了 66.7% 的多余长度。
参考链接
https://x.com/DimitrisPapail/status/1955652396572721184
https://x.com/DimitrisPapail/status/1955653211819270337
#HERMES
首个统一3D场景理解与生成的世界模型
本文第一作者周鑫、共同第一作者梁定康,均为华中科技大学博士生,导师为白翔教授。合作者包括华中科技大学涂思凡,旷视科技丁宜康,迈驰智行陈习武、谭飞杨,香港大学赵恒爽助理教授。
在复杂的城市场景中,HERMES 不仅能准确预测未来三秒的车辆与环境动态(如红圈中标注的货车),还能对当前场景进行深度理解和问答(如准确识别出 “星巴克” 并描述路况)。
- 论文标题:HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation
- 论文地址:https://arxiv.org/abs/2501.14729
- 代码地址:https://github.com/LMD0311/HERMES
- 项目主页:https://LMD0311.github.io/HERMES/
研究背景与动机
近年来,自动驾驶技术取得了令人瞩目的进展。要让智能汽车安全高效地行驶在复杂的真实道路上,车辆必须具备两大核心能力:对当前环境的深刻理解(例如识别交通参与者、理解交通规则、推理场景语义)以及对未来场景的准确预测(如预测行人、车辆的运动,提前规避风险)。
目前,学术界和工业界的主流方案往往将 “理解” 和 “生成” 分开处理:
- 世界模型(Driving World Model, DWM)侧重于未来场景的生成与预测,但缺乏对当前环境的细致语义理解,难以回答 “现在是什么情况?”、“驾驶员该如何决策?” 等问题。
- 大语言模型(LLM)及视觉 - 语言模型(VLM)则在场景理解、问答和描述方面表现优异,但通常只能 “看懂”,却难以 “想象” 未来场景的演化。
然而,现实中的自动驾驶决策,恰恰需要这两种能力的深度融合。例如,车辆不仅要能描述 “前方有行人正在通过斑马线”,还要能预测 “3 秒后这位行人将到达路中央,需提前减速”。
构建这样一个统一的模型面临着诸多挑战:
首先,如何将多达六路的高分辨率环视图像高效地输入给有 token 长度限制的 LLM,并保持空间信息不失真?
其次,如何在一个模型内,让 “理解” 和 “生成” 这两个看似独立的任务能够相互促进,而非相互干扰?如何将强大的世界知识与前瞻性的场景预测无缝集成到一个统一的框架中,成为亟需突破的难点。
方法:HERMES 的统一框架
面对上述挑战,HERMES 提出了一个统一框架,其核心设计思想是通过一个共享的 LLM,同时驱动理解与生成两大任务。
HERMES 的核心设计
鸟瞰图(BEV)特征统一空间
HERMES 采用 Bird’s-Eye View(BEV,鸟瞰图)作为统一的场景表达。它首先通过一个 BEV Tokenizer 将六路环视图像高效地编码并投影到一个紧凑的俯视视角表征中。这种做法不仅有效解决了 LLM 输入长度的限制,更重要的是保留了多视图图像之间的精确空间几何关系和丰富的语义细节。无论后续任务是理解还是生成,模型都能在同一套高质量的 BEV 特征空间中自由切换,为后续的统一处理奠定了坚实基础。
世界查询与 “当前 - 未来” 连接
为了打破理解与生成之间的壁垒,HERMES 引入了世界查询(World Queries)机制。这是一组从 BEV 特征中通过自适应采样(如最大池化)提取出的、代表场景核心信息的可学习 Token。其工作流程如下:
1. 知识注入:将 BEV 特征通过自适应采样(如最大池化)转化为一组表达世界知识的查询向量,再把世界查询与 BEV 特征、用户文本指令一同被送入 LLM。在 LLM 处理语言理解任务(如回答问题)的过程中,世界查询通过因果注意力机制(causal attention)吸收和编码了关于当前场景的丰富世界知识和上下文信息。
2. 知识传递:经过 LLM 处理后,这些富含知识的世界查询被一个 “当前 - 未来” 连接模块(Current to Future Link)所使用。该模块通过交叉注意力将世界查询中蕴含的 “理解” 成果,有效地注入到对未来场景的预测中,引导模型生成未来多帧的 BEV 特征。
3. 统一输出:最终,一个共享的渲染器(Shared Render)将当前和未来的 BEV 特征解码为 3D 点云序列,同时完成对当前场景的理解和对未来场景的生成。
联合训练与优化
HERMES 的训练过程同样体现了其统一性。模型通过两个目标进行联合优化:
1. 语言建模损失:采用标准的 Next Token Prediction 损失函数,优化模型在场景理解、问答和描述任务上的能力。
2. 点云生成损失:采用 L1 损失函数,监督模型生成的当前及未来点云与真实点云之间的差异,优化生成精度。
通过这种端到端的联合训练,HERMES 得以在两个任务之间找到最佳平衡点,实现性能的协同提升。
实验结果与可视化分析
多任务对比实验
HERMES 在 nuScenes、OmniDrive-nuScenes 数据集上,评测了场景理解和未来生成两大任务。
- 在未来生成任务上,Chamfer Distance 显著优于 ViDAR,3 秒未来点云误差降低 32.4%,仅用当前帧即可实现更高精度的未来预测。与同类模型相比,HERMES 无需历史序列,推理更高效,泛化能力更强。
- 在场景描述、视觉问答等理解任务上,HERMES 在 CIDEr、METEOR、ROUGE 等主流自然语言生成指标上超越了 OmniDrive 等理解专用模型,CIDEr 提升 8%。
- HERMES 与 “分离式理解 + 生成” 模型(即简单共享特征,但理解和生成模块独立)对比,生成精度提升显著,理解能力无损,充分验证了统一建模的有效性与优越性。
可视化
HERMES 不仅能够生成时序连贯且几何精确的未来点云,还能对驾驶场景的细节进行精准描述。无论是预测动态物体的移动,还是识别路边的商家,HERMES 都展现出强大的综合能力。更多可视化结果请访问项目主页。
总结与未来展望
HERMES 为自动驾驶世界模型提供了一个简洁、有效且统一的新范式。它通过利用 BEV 表征和世界查询,成功弥合了 3D 场景理解与未来生成之间的鸿沟,为开发更智能、更可靠的自动驾驶系统迈出了坚实的一步。
未来,期望在此框架下进一步探索更复杂的感知任务,向着能够全面认知物理世界的通用驾驶大模型的目标不断迈进。
#StableAvatar
复旦&微软提出: 首个端到端“无限时长”音频驱动的人类视频生成新框架!
扩散模型的兴起极大地推动了语音驱动人类视频生成的研究。具体而言,语音驱动人类视频生成旨在基于参考图像与音频,合成面部表情与身体动作与音频高度同步的自然人像视频,在电影制作、游戏制作、虚拟现实、直播带货等领域具有广泛的应用前景。然而,现有方法仅能生成时长不足15秒的短视频,一旦模型尝试生成超过15秒的视频,就会出现明显的身体变形与外观不一致现象,尤其集中在面部区域,这一问题严重限制了其实际应用价值。
为了解决这一问题,一些方法尝试在音频驱动人类视频生成中引入一致性保持机制,但很少有工作深入探讨问题的根本原因。现有策略——无论是利用运动帧(Motion Frame),还是在推理过程中采用多种滑动窗口机制——都只能在一定程度上提升长视频的平滑性,却无法从根本上缓解无限时长头像视频的质量退化问题。另一种可行方案是将长音频切分为多个片段,分别处理后再拼接成连续的视频。然而,这种方式不可避免地会在片段衔接处引入不一致和突兀的过渡。因此,对于语音驱动的人类视频生成而言,实现端到端的无限时长高保真视频生成依然是一项极具挑战性的任务。
为了解决上述问题,来自复旦、微软、西交的研究团队提出StableAvatar框架,以实现无限时长音频驱动的高保真人类视频生成,目前代码已开源,包括推理代码和训练代码。
- 论文地址:https://arxiv.org/abs/2508.08248
- 项目主页:https://francis-rings.github.io/StableAvatar/
- 项目代码:https://github.com/Francis-Rings/StableAvatar
- 项目Demo: https://www.bilibili.com/video/BV1hUt9z4EoQ
方法简介
如下图所示,StableAvatar是基于Wan2.1-1.3B基座模型开发的,首先将音频输入 Wav2Vec模型中提取audio embeddings,随后通过提出的音频适配器(Audio Adapter)进行优化,以减少潜变量分布误差的累积。经过优化的audio embeddings会输入至去噪 DiT 中进行处理。参考图像的处理通过两条路径输入扩散模型:
- 沿时间轴将参考图像与零填充帧拼接,并通过冻结的3D VAE Encoder转换为潜变量编码(latent code)。该潜变量编码在通道轴上与压缩后的视频帧及二值掩码(第一帧为 1,后续所有帧为 0)拼接。
- 通过CLIP Encoder 编码参考图像以获得image embeddings,并将其输入到去噪DiT的每个图像-音频交叉注意力模块中,用于约束生成对象的外观。
在推理阶段,将原始输入视频帧替换为随机噪声,而保持其他输入不变。提出了一种新颖的音频原生引导(Audio Native Guidance)方法,以替代传统的Classify-Free-Guidance,从而进一步促进唇形同步与面部表情生成。此外,引入了一种动态加权滑动窗口去噪策略,通过在时间维度上融合潜变量,以提升长视频生成过程中的视频平滑性。
StableAvatar的核心技术点包括以下三个方面:
(1)Timestep-aware Audio Adapter:
首先观察到,阻碍以往模型生成无限时长视频的主要瓶颈在于其音频建模方式。它们通常仅采用第三方的现成特征提取器获取音频嵌入(audio embeddings),然后直接通过交叉注意力(cross-attention)将其注入视频扩散Transformer。然而,由于现有的基座模型缺乏任何与音频相关的先验,这种方式会导致跨视频片段的潜变量分布误差不断累积,使得后续片段的潜变量分布逐渐偏离目标分布。
为此,引入了一种新颖的时步感知音频适配器(Timestep-aware Audio Adapter),在将音频嵌入输入视频扩散 Transformer 时,可以有效抑制片段间的误差累积。具体而言,初始音频嵌入(Query)依次与初始潜变量(Key 和 Value)进行交叉注意力计算,随后结合timestep embeddings进行affine modulation,从而得到优化后的音频嵌入。
由于timestep embeddings与潜变量高度相关,这一设计潜在地迫使扩散模型在每个时步上建模音频–潜变量的联合特征分布,从而有效缓解因缺乏音频先验而导致的潜变量分布误差累积,优化后的音频嵌入(Key和Value)最后通过交叉注意力与潜变量(Query)交互后注入扩散模型。
(2)Audio Native Guidance:
由于优化后的audio embeddings本质上也依赖于潜变量,而不仅仅依赖外部音频信号,Audio Native Guidance不再将audio embeddings作为一个独立于潜变量的外部特征,而是将其作为一个与潜变量相关的扩散模型的内部特征,引导机制能够直接作用于扩散模型的采样分布,将生成过程引导至音频–潜变量的联合分布,并使扩散模型在整个去噪过程中不断优化其生成结果。
(3)Dynamic Weighted Sliding-Window Strategy:
与先前的滑窗去噪策略相比,在相邻窗口的重叠潜变量上引入了滑动融合机制,其中融合权重依据相对帧索引采用对数插值分布。融合后的潜变量会回注到两个相邻窗口中,从而保证中央窗口的两侧边界均由混合特征构成。借助对数加权函数,可在视频片段之间的过渡中引入一种渐进式平滑效果:早期阶段的权重变化更为显著,而后期阶段变化趋于平缓,从而实现跨视频片段的无缝衔接。
生成结果示例实验对比
#HVPL
分层视觉提示学习,让“视频实例分割”模型告别灾难性遗忘
视频实例分割(Video Instance Segmentation, VIS)是一项强大的技术,它不仅要分割出视频中每个物体的轮廓,还要在不同帧之间持续跟踪同一个物体实例。然而,现有的大多数VIS模型都存在一个不切实际的假设:视频中物体的类别是固定不变的。在现实世界中,我们常常希望模型能不断学习新的物体类别。这时,一个致命的问题便出现了——“灾难性遗忘”(Catastrophic Forgetting),即模型在学习新知识(如“飞机”)后,会忘记如何识别旧的知识(如“人”)。
为了解决这一挑战,来自穆罕默德·本·扎耶德人工智能大学、湖南大学、特伦托大学等多个高校和研究机构的学者们,共同提出了一种名为 HVPL (Hierarchical Visual Prompt Learning) 的新方法。HVPL,即分层视觉提示学习,它通过一种创新的“提示学习”策略,从“帧”和“视频”两个层级出发,系统性地解决了持续学习中的灾难性遗忘问题。该研究已被ICCV 2025接收。
- 论文标题:Hierarchical Visual Prompt Learning for Continual Video Instance Segmentation
- 作者团队:Jiahua Dong, Hui Yin, Wenqi Liang, Hanbin Zhao, Henghui Ding, Nicu Sebe, Salman Khan, Fahad Shahbaz Khan
- 作者机构:穆罕默德·本·扎耶德人工智能大学、湖南大学、特伦托大学、浙江大学、复旦大学、澳大利亚国立大学、林雪平大学
- 论文地址:https://arxiv.org/pdf/2508.08612v1
- 项目地址:https://github.com/JiahuaDong/HVPL
- 录用会议:ICCV 2025
背景:持续视频实例分割的挑战
持续视频实例分割(Continual Video Instance Segmentation, CVIS)任务要求模型能在一系列学习任务中,不断掌握新类别的分割与跟踪能力,同时保持对旧类别的识别性能。传统的VIS模型在进行持续学习时,通常采用微调(Fine-tuning)策略,但这会改变整个模型的权重,导致先前学习到的知识被“覆盖”,从而引发灾难性遗忘。
这种遗忘发生在两个层面:
- 帧级遗忘:在单张图片内,模型混淆了新旧类别物体的特征,导致分割错误。
- 视频级遗忘:在视频序列中,模型丢失了对旧类别物体的时序关联性(tracking)知识,导致跟踪失败。
HVPL的核心思想是“冻结”主干网络,只为每个新任务学习少量、轻量级的“视觉提示”(Visual Prompts),从而在保持旧知识的同时,高效地学习新知识。
HVPL:双层提示,双重保障
HVPL的框架如下图所示,它通过一套分层的提示学习机制,分别在帧级别和视频级别对抗遗忘。
帧级遗忘缓解:帧提示与正交梯度校正
为了让模型在单帧图像上学会识别新类别,同时不干扰旧类别,HVPL引入了两个关键设计:
- 任务特定帧提示 (Task-Specific Frame Prompt) :这是一组可学习的小参数。当学习新任务时,只有这组“帧提示”被训练,而庞大的主干网络保持不变。这个提示学会编码新类别的任务特定信息,并将其注入到主干网络中,引导模型进行正确的分割。
- 正交梯度校正 (Orthogonal Gradient Correction, OGC) :这是HVPL的技术核心之一。在训练帧提示时,为了防止其更新方向与旧任务的知识空间“冲突”,OGC模块会将新任务的梯度投影到与旧任务特征空间正交的方向上。如下图分析所示,这从根本上保证了学习新知识不会损害旧知识,实现了“和平共处”。
视频级遗忘缓解:视频提示与上下文解码器
为了在视频序列中保持对旧类别物体的跟踪能力,HVPL设计了相应的视频级模块:
- 任务特定视频提示 (Task-Specific Video Prompt) :与帧提示类似,这是一个用于编码视频时序信息的轻量级可学习参数。它负责捕捉新类别在时间维度上的动态和关联特性。
- 视频上下文解码器 (Video Context Decoder) :该解码器负责聚合跨视频帧的上下文信息。它首先将不同帧之间的结构性关系(如物体间的相互作用)嵌入到帧提示特征中,然后将这些富含上下文的帧级信息传播到视频提示中,从而让视频提示能够理解全局的、跨时间的场景动态,有效防止跟踪中断。
实验与结果
HVPL在OVIS、YouTube-VIS 2019和YouTube-VIS 2021等多个主流VIS数据集上进行了严格的持续学习实验。
定量分析
实验结果(如下表所示)表明,在不同的持续学习设置下(例如,在OVIS数据集上,先学习15个类,再增量学习5个或10个类),HVPL的性能全面、大幅度地超越了现有的基线方法。无论是在新任务还是旧任务上,HVPL都表现出更强的性能,尤其是在缓解遗忘方面效果显著。
定性分析
下图的可是化结果更直观地展示了HVPL的优势。在学习了新类别“卡车”后,基线方法(LwF-VIS)几乎完全忘记了如何分割旧类别“人”,而HVPL则能够同时准确地分割出新旧两个类别的实例,证明了其强大的抗遗忘能力。
消融实验
作者还通过详尽的消融实验,验证了HVPL中每个组件(帧提示、视频提示、OGC模块等)的必要性和有效性。结果表明,去掉任何一个组件都会导致性能下降,证明了这种分层设计的合理与高效。
论文贡献价值
这篇论文为解决计算机视觉领域长期存在的“灾难性遗忘”问题,特别是在复杂的视频理解任务中,提供了一个新颖且有效的解决方案。
- 提出了HVPL,一个用于持续视频实例分割的创新框架,它通过分层视觉提示学习,在帧和视频两个维度上系统性地缓解了灾难性遗忘。
- 设计了正交梯度校正(OGC)模块,从梯度层面巧妙地解耦了新旧任务的学习,为持续学习提供了一个具有普适性的解决方案。
- 在多个大规模数据集上取得了SOTA性能,有力地证明了所提方法的有效性和优越性。
- 代码将开源,方便社区研究者们在此基础上进行后续的探索和改进。
总而言之,HVPL为构建能够像人类一样不断学习、适应新环境的智能视觉系统迈出了坚实的一步。
#LeetCode刷够100小时
学会找人内推,OpenAI员工下场教你拿Offer
OpenAI 在 AI 领域引领了一波又一波浪潮,想必很多人好奇,这些创新背后的研究人员是如何通过面试的?
尤其是现在,OpenAI 已经成为全球最受瞩目的 AI 公司之一,吸引了无数顶尖人才投递简历。想要加入这个团队,着实不容易。
近日,一位入职 OpenAI 不到两个月的新研究员 Bas van Opheusden 分享了他的求职经历,面试指南长达 8 页。
根据领英数据显示,Bas van Opheusden 今年 7 月加入 OpenAI,现在是一名研究员,拥有纽约大学博士学位。
在这份指南里,他谈到了心态调适、准备策略、编程技巧等多个方面,并将自己的经验教训、建议分享给大家。
OpenAI 新员工分享面试技巧
以下是原文内容:
原文地址:https://docs.google.com/document/d/1ZV73D2vgaj2yu_tjN3TVOP6QVLWVPXJB2rrqSZQxYtI/edit?tab=t.0
Opheusden 强调首先是保护好自己的身心健康。面试过程充满压力,短短 30 分钟的谈话,就可能让你的人生发生巨大变化,不论是好的还是坏的,过程会很艰难。确保你有朋友和家人组成的亲友团支持,不要低估心理压力加上熬夜对身体造成的影响。
大家都以为面试官非常刁钻,恰恰相反,Opheusden 表示面试官也希望面试者能顺利通过并签下 Offer,在面试过程中,你可能会觉得一切是对抗性的、令人沮丧甚至不公平的。但请记住,所有参与其中的人,包括推荐人、招聘人员、面试官、招聘经理等,其实目标是一致的:希望你顺利通过并接受 Offer。通常公司会尽量帮你成功,因为任何其他结果对他们来说也是损失。虽然每个人在其中扮演的角色不同,但这是一场团队协作的比赛。
失败本就是常态。这已不是 Opheusden 第一次申请 OpenAI,但今年成功了。Opheusden 认为职业轨迹都在向上延伸,只要你在任何公司通过过一个环节,他们通常很乐意在 1-2 年后再次接触。
重在享受过程。在等待结果的那段时间里让人难以放松,但面试本身也充满乐趣。你会探访酷炫的新创公司,与所在研究领域的顶尖专家一对一交流,还能掌握新技能。编程面试在某种程度上也挺有意思,当然是那种事后回想才觉得有趣的类型。
尽早准备
为求职面试做准备,几乎是你人生中投资回报率最高的事情之一,准备的越早越好。面试准备还有额外的好处:你能学到新技能、阅读论文,或者重温一些经典内容。通过模拟面试,你还能获得真诚的反馈,并从更高的视角审视自己。
以量级来衡量的话,Opheusden 建议大概花 100 个小时做 LeetCode 练习,并用差不多的时间去阅读论文、复习知识(可以用 Deep Research!)、以及和朋友交流探讨。
不存在真正的非正式交流
招聘人员可能会邀请你与招聘经理聊一聊,或者和团队一起吃午餐,并将这些交流称为非正式,但这通常只是意味着没有正式的评分标准。事实上,你与任何公司或其代表的每一次互动,都是展示你个人品质、能力和热情(无论是积极还是消极)的机会,这种情况从第一次交流开始,一直到你签署 offer 当天都适用。
和朋友多练习
面试,尤其是编程面试,本身就是一种尴尬的体验。它要求你在一个从未见过面的人面前写程序、并希望你边做边讲的情况下,调试诸如索引偏移一位这样的错误。而且你不能使用 Codex、Copilot 或任何 LLM 工具来辅助,就像平时的工作流程一样。你绝不希望第一次经历这种情况是在一次高风险的面试中。
能多练习就多练习,找朋友一起模拟,练习在时间压力下写代码,特意挑一些让人头疼的问题,让朋友假装不认识你。这会很尴尬,但这正是练习的目的:学会适应并接受这种尴尬感。
一些简单的小技巧
面试的目的是评估你的能力以及与公司的匹配度,在某种程度上,你要么达标,要么不达标。不过,你仍然可以通过很多小细节来提高成功的概率,这些做法也能传达出你的用心与专业度。
投资一个好的设备环境。Opheusden 买了一套线上面试设备, Yeti Nano 麦克风和 C922 Pro 摄像头。并使用双屏设置,可以在通话时做笔记,他还会把视频通话窗口移动到屏幕合适的位置,让对方看起来像是在进行眼神交流。保持房间光线充足,每次面试前清理书桌,并准备好纸笔。
照顾好自己的基本需求。 面试前一天早点睡觉。根据需要开空气净化器、空调或取暖器。面试前 30 分钟,可以出去走走或者陪猫玩。确保自己吃饱,上过厕所,并且手边有水(Opheusden 通常会准备水、咖啡、冰茶并一字排开)。如果有腰颈问题,可以提前吃点止痛药并做伸展运动。
提前到场。如果你的面试是下午 2 点,那就 1:55 加入会议。面试官可能会在 2:03 左右出现,如果到 2:05 还没来,就用事先准备好的邮件联系招聘人员,他们通常会在 2:07 左右出现。这是很正常的情况。
熟悉视频会议工具。不同公司可能使用 Zoom、Google Meet、Microsoft Teams、Amazon Chime 等不同平台。确保你知道如何共享屏幕或打开聊天窗口。同样,对于编程面试,要提前熟悉将要使用的工具。如果是 CoderPad 或 Google Colab,你可能会有语法补全和高亮,但有些公司使用纯文本,甚至不允许运行代码。据说 Meta 计划将面试切换为允许使用 AI 工具的模式。
如何获得面试机会
想要进入大型科技公司并非易事。他们虽然有招聘页面,但申请通常非常困难,成功率很低。通过内部招聘或推荐获得的成功率更高。
做好研究,并让成果被看见。把你的成果发布出来,并在会议上进行展示;在 GitHub 上发布带有演示和 README 的库;参加行业交流活动和招聘会,在演讲中提出有价值的问题,主动提供合作并兑现承诺。积累引用次数、GitHub star 数,参与开源项目,赢得黑客马拉松等。很多公司都有招聘人员和人才发掘专员,他们的工作就是发现优秀人才。如果你持续产出高质量成果,他们一定会注意到你。而且,你让他们发现你的过程越简单越好。
争取内推。最好的进入途径是内部推荐。考虑到 Google、Meta、Apple、Amazon 等公司员工众多,你很可能有朋友在这些公司。向朋友或熟人请求推荐是完全正常的。即便他们不能帮你(因为大多数公司对内部推荐次数有配额限制),你也会因此重新联系上一些老朋友,并结识朋友的朋友,他们会乐意认识你并给你建议。这个行业有很强的传递善意文化。
维护好你的 LinkedIn、简历和个人主页。如果你在职位栏里写着 AI Research Scientist - Large Language Models,你就会收到很多主动找上门的机会,其中还包括一些你从没听说过的很酷的初创公司。
与招聘人员的初步电话沟通
大多数公司,面试流程的第一步通常是与招聘人员进行一次简短的非正式电话沟通。他们会向你介绍面试流程,告诉你招聘经理是谁、所在团队是做什么的;如果是初创公司,还会讲公司的使命和战略。他们可能还会问你对薪酬的期望。
在这通电话中,一定要记笔记!Opheusden 表示自己当时没记,后来很后悔。这可能是唯一一次有人向你详细解释组织架构和团队结构的机会。因而在 2-3 周后的编程面试中,被问到自己申请的职位是什么时,Opheusden 却答不上来。
与招聘经理的沟通
几乎每家公司都会在流程早期安排一次与招聘经理的面谈。通话结束后,招聘经理需要相信你具备胜任他们所招聘岗位的技能,并且相信在接下来的几年里,他们会愿意与你紧密合作。
这个环节没有什么所谓的作弊技巧或秘密窍门。招聘经理通常比你有更多经验,判断力更强,并掌握你所不了解的内部信息(比如岗位的精确描述)。不过,你仍然可以采取一些方法来提高成功的可能性。
做好调研。如果你已经知道招聘经理是谁,就去 Google Scholar 上查查他们的学术主页,读读他们的论文,看看他们的推特,观看他们做过的演讲或报告。这样你能更好地理解他们的动机和兴趣,而大多数人都喜欢别人关注他们的内容。这并不是什么社交工程技巧;提前花时间去了解他们,本身就是展示你热情的真诚方式。
真诚。如果你在面试中刻意扮演一个人设版的自己,面试官会察觉,而且几乎是瞬间就能看出来。人类在这方面是很敏感的。
保持谦逊。这一点很难把握。你会陷入一种左右为难的境地,既想展示自己的能力,介绍自己之前工作成果,但又不想给人留下自负的印象。
还有就是保持热情。
编程面试
编程面试通常会占据你大部分的面试时间,也是决定成败的关键环节。一个非常重要的概念是,要理解编程面试背后的心理学,并利用这一点为自己加分。面试的目标并不是写出完美的代码、通过所有测试,而是让面试官对你作为未来同事的印象是积极的。
面试官是希望你通过的。因为面试官既出题又评分,你可能会误以为你和他们之间是对立关系。事实恰恰相反:对面试官来说,最理想的情况是你表现出色,他们可以写一份赞不绝口的推荐。通常他们会尽力帮助你通过,而你也可以利用这一点。
简短自我介绍。时间对你不利,寒暄性的长介绍会浪费时间。你应该准备一个简短版本,比如:我叫 Bas van Opheusden,目前在研究团队负责安全与对齐的评测工作。
解决一个问题后,马上进入下一个。很多人会忍不住在一个题上花过多时间,但如果是多轮题目的面试,尽快进入下一个问题才是核心目标。
练习在压力下编程。编码和调试的难点在于,你必须在脑中精准模拟机器逻辑。而当有人盯着你、时间又紧迫时这就更难了。你应该在和面试相同的条件下练习:有时间压力、也有心理压力。
准备白板编程面试。有些公司会用这种形式。不知道为什么,但这是一个需要提前准备的技能。练习在没有运行环境、没有语法高亮的情况下写代码。虽然很糟心,但你会庆幸自己练过。
练习 Python。大多数科技公司都用 Python 和 PyTorch。有些公司会在面试中要求用 Python,有些则不会,但很大概率你的面试官最熟悉的就是 Python,这样他们也能更好地帮助你。
值得准备的面试题目:
- Debug Transformers。这是经典题型之一:你会拿到一个有问题的自注意力模块实现,需要进行调试。一定要练习调试张量的形状,并特别注意因果注意力掩码(causal attention mask),这里是最容易出错的地方;
- Top-k /kNN。选出前 k 个最大元素的问题在机器学习的很多场景中都会出现,非常适合作为面试题,尤其是因为其解法并不是能现场发明出来的东西。一定要确保你熟悉堆的概念和用法;
- 实现 BPE。Tokenizer 是大语言模型中最麻烦的部分,而不出错地实现 BPE 并不容易。这也是比较常见的考察点;
- 从头实现反向传播。包括手写自动微分、链式法则等的基础版本;
- KV Cache。本质上就是构建一个矩阵,但如果你之前没见过,可能会用一种很绕的方式来做;
- 二分查找、回溯、Dijkstra 算法等。
机器学习领域面试
你可能会被安排一次研究领域的面试,可能是考试式的问答、讨论你写过的一篇论文,或者只是让你介绍一下你目前正在做的工作。
准备应试类问题。掌握基础知识!你的面试可能会从这样的问题开始:请描述监督学习与无监督学习的区别或者什么是线性回归。你需要能够简洁准确地回答这些问题。同时,确保你了解最新的前沿技术或近期发展。例如,如何训练一个上下文长度为 1000 万的模型?GSPO 与 GRPO/PPO 有何区别?什么是(有害的)人格向量?有些面试官还喜欢问历史性问题,比如请说出 Vaswani 2017 年论文提出的架构与 GPT-OSS-120B 架构在质上的三大主要区别。
可以用 ChatGPT 来做准备。如果必须的话,也可以用 Claude 或 Gemini。
准备一个演讲。有些公司可能会要求你做一次演讲,即使不要求,也可能会让你讨论之前的工作,而有幻灯片辅助要比单纯口述好得多。
准备好讨论你当前的工作。你可能会被问到当前项目的情况,你需要能够解释项目目标、你的方法、目前的进展、下一步计划,以及你设想它最终如何融入产品。这可能会有些尴尬,因为有些问题你可能无法回答,或者面试官的直觉与你不同,甚至他们已经知道你的方法行不通,但这是机密所以不能告诉你……
面试通过后,还要保持谨慎
当你通过正式的面试轮次,并接到招聘人员的恭喜电话后,一个新的面试流程才刚刚开始。此时,公司已经确认你符合他们的技术标准,也认同你在文化上的契合度。
但他们并不知道自己到底有多想要你、你又有多想去他们那里工作,以及他们应该为你开出多少薪水。
到这个环节,不要只盯着薪资,不要让数字分散了你对其他影响生活质量因素的注意力,比如团队、使命、地点、公司文化,以及(真的)食堂的饭菜。钱确实很重要,但如果为了钱牺牲了幸福感,就失去了它本来的意义。
有些招聘人员会出阴招。Opheusden曾遇到过公司撤回 offer、直接消失不再回复等。尽量把一切都落实到书面上(这本身可能也需要谈判),而且不要以为自己比对方更会谈判。你这一辈子可能只会经历几次谈判,但他们每天都在做这件事。
一个重要的资源是你的招聘经理。你可以请求再聊一次、认识更多团队成员,或者在压力消除后再次参观办公室。但要记住,没有真正的非正式面试!
总有一个时刻,你需要真正决定自己的人生要往哪个方向走。如果没有,就选择那家能让你每天推开公司大门都露出笑容的企业去工作。
#xAI元老离职干风投
传奇人物Babuschkin长文追忆与马斯克创业战友情
和马斯克一起创业的人到现在已经离开了四分之一。
2023 年 7 月 12 日,马斯克和其余 11 位联合创始人宣布成立了 xAI,带着「理解宇宙」的使命强势进军 AI 行业。
在这两年的时间里,xAI 的高歌猛进有目共睹,从零开始直到 Grok 4 发布,xAI 已经处于大型 AI 公司的领先地位。
但也仅两年时间,创始团队的 12 名成员只剩下 9 人,这个离职速度是否有些快了。
在去年,联合创始人 Kyle Kosic 离开 xAI 重返 OpenAI 任职,另一位联合创始人 Christian Szegedy 则于今年 5 月离职,加入了一家名为 Morph Labs 的初创公司。
而就在数小时前,马斯克的左膀右臂,xAI 联合创始人 Igor Babuschkin 表示,他已离开由埃隆・马斯克领导的人工智能公司,并计划创办一家名为 Babuschkin Ventures 的公司。
据 Igor Babuschkin 介绍,他准备创办的公司是一家「支持人工智能安全研究,并投资于推动人类进步、探索宇宙奥秘的人工智能及智能体系统领域的初创企业。」
其实从他的创业理想就能看出,Babuschkin 和马斯克的理念非常相似,他说「打造推动人类进步的 AI 一直是我毕生的梦想。」
回忆与马斯克合作创业的时刻,巴布什金写道,他相信「很快 AI 就能在推理能力上超越人类」,并担心如何确保这类技术「被用于善」。他表示,「马斯克多年来一直警告强大 AI 的危险」,并分享了自己「让 AI 造福人类」的愿景。
Babuschkin 在 X 平台发布了长文,除了宣布自己离职的消息之外,他深刻回顾了过往的人生历程和工作经历,在 xAI 那些令人惊叹的成就,以及和马斯克在创业路程中深切的「战友情」。
Babuschkin 感谢了马斯克,夸赞他「扎根在公司在成长与成熟过程」。他说,在 xAI 工作期间,从马斯克身上学到两条无价的经验:「第一,敢于亲自深入技术问题;第二,保持近乎疯狂的紧迫感。」
而马斯克在评论中回应:「没有你,我们不会走到今天。」
回顾 Babuschkin 过去在 AI 行业中的履历和成就,似乎也能称得上一位「传奇人物」。
在 Babuschkin 与马斯克一起创立 xAI 之前,他曾在 AI 领域的两大巨头:Google DeepMind 以及 OpenAI 任职。
在 DeepMind 期间,他曾参与了明星项目 AlphaStar,该项目采用人工智能在星际争霸 II 游戏中竞技。
在 2019 年 12 月 19 日举行的一系列测试比赛中,AlphaStar 以 5-0 的比分 decisively 击败了世界顶尖职业星际争霸玩家之一 Team Liquid 的 Grzegorz "MaNa" Komincz,此前他已在与队友 Dario “TLO” Wünsch 的基准测试中取得成功。比赛在专业比赛条件下进行,使用的是竞技等级地图,并且没有任何游戏限制。
- 博客地址:https://deepmind.google/discover/blog/alphastar-mastering-the-real-time-strategy-game-starcraft-ii/
在 OpenAI 任职期间,他参与了 ChatGPT 发布前的相关工作,参与了 GPT-4 的开发,参与撰写了 GPT-4 的技术报告。
在与马斯克共同创立 xAI 后,Babuschkin 构建了公司用于启动和管理训练任务的基础工具,负责公司大部分工程工作,包括基础设施、产品和应用 AI 项目,可以说是 xAI 飞速发展的灵魂人物。
而在 xAI 期间,他最传奇的成绩是领导团队以 120 天的时间,建成了在 Memphis 的超级计算集群 Colossus,并且在计算集群的大规模训练支持下,并以前所未有的速度交付了前沿模型,「快过历史上任何一家公司。」
尽管 xAI 在孟菲斯的运营引发了当地居民的抗议,尤其是其使用燃烧天然气的涡轮机为数据中心供电,以及 Grok 在回答用户问题上存在引用马斯克个人观点和争议言论的问题,仍然难掩 xAI 在前沿大模型领域的成就。
在 Babuschkin 宣布离职后,评论区充满了 xAI 的同事们真挚的祝福和对过去共事经历的回忆。
正如 Babuschkin 自己所说的,「彼此间的情感纽带让我终生难忘」。
Babuschkin 的长文推特全文如下:
上下滑动,查看更多
今天是我在 xAI 的最后一天。这家公司是我与埃隆·马斯克于 2023 年共同创立的。我仍记得第一次见到埃隆的那天,我们聊了几个小时,谈到人工智能以及未来可能的发展。我们都觉得,需要一家使命与众不同的新 AI 公司。
打造推动人类进步的 AI 一直是我毕生的梦想。我的父母在苏联解体后离开俄罗斯,为了给孩子寻找更好的生活。作为移民,生活并不总是容易的。尽管经历艰辛,父母始终相信人类价值观的无价:勇气、同情心、对世界的好奇心。小时候,我崇拜理查德·费曼和马克斯·普朗克这样的科学家,他们不断拓展物理学的前沿,只为理解宇宙。作为 CERN 的粒子物理学博士生,我也很兴奋能为这一使命贡献力量。但新物理的探索越来越艰难,需要越来越大的对撞机,而新发现却越来越少。我开始思考,也许解开宇宙奥秘的钥匙不是更大的对撞机,而是超级智能。AI 能否发展出统一的量子引力理论?能否证明黎曼猜想?2023 年初,我确信我们已接近超级智能的“配方”,很快 AI 就可能在推理能力上超越人类。那该如何确保这项技术用于善?埃隆多年来一直警告强大 AI 的风险,我们意识到彼此在“让 AI 造福人类”这一愿景上高度一致,于是招募了志同道合的工程师,共同创建了 xAI。
xAI 创立初期并不轻松。很多人说我们来得太晚,从零打造一家顶级 AI 公司不可能。但我们相信可以做到不可能的事。公司从零起步,需要大量亲力亲为的工作。最初,我构建了公司用于启动和管理训练任务的许多基础工具,后来负责公司大部分工程工作,包括基础设施、产品和应用 AI 项目。xAI 的团队极其敬业。凭借血汗与拼劲,我们以惊人的速度打造了 Memphis 超级集群,并以前所未有的速度交付前沿模型。我从埃隆身上学到两条无价的经验:第一,敢于亲自深入技术问题;第二,保持近乎疯狂的紧迫感。
xAI 以“荒谬的速度”执行任务。行业老手说,在 120 天内建成 Memphis 超级集群不可能。但我们相信能做到。在接近 120 天的期限时,我们遇到了机器间通过 RDMA 通信的神秘问题。埃隆决定飞到数据中心,我们随行。基础设施团队半夜抵达 Memphis,立刻投入工作。翻查数万行 lspci 输出后,我们终于发现是 BIOS 设置错误造成了问题。那晚,埃隆一直陪我们到深夜。训练任务最终成功启动时,埃隆在凌晨“4:20”发了动态,我们笑得前仰后合。那一刻的肾上腺素冲击和彼此间的情感纽带让我终生难忘。我们带着仿佛身处人生最激动人心阶段的心情入睡。
我深深爱着 xAI 这个大家庭。你们是我共事过的最敬业的人。如此迅速追赶前沿并不容易,这一切都得益于大家顽强的意志和团队精神。感谢每一位与我同行的人,感谢你们的付出与牺牲,这些从来都不轻松。我会永远记得我们通宵奋战的日子。今天离开时,我就像一位骄傲的父母送孩子上大学,心中满是喜悦与不舍,衷心祝福公司继续成长、成熟。
踏向新篇章,我从父母的移民经历中汲取灵感——他们为了孩子的美好未来而努力奋斗。最近,我与生命未来研究所创始人马克斯·泰格马克共进晚餐,他给我看了两个儿子的照片,并问我:“我们怎样才能安全地构建 AI,让孩子们得以茁壮成长?”这个问题让我深受触动。职业生涯早期,我曾担任 DeepMind AlphaStar 星际争霸智能体的技术负责人,亲眼见证了大规模强化学习的强大力量。随着前沿模型在更长时间跨度、更广任务范围内变得更具智能体特征,它们将获得越来越强的能力,这使得研究和推动 AI 安全至关重要。
我将继续我的使命——实现安全且有益于人类的 AI。今天,我宣布创立 Babuschkin Ventures,支持 AI 安全研究,并投资于推动人类进步、探索宇宙奥秘的 AI 与智能体系统初创企业。如果你想交流,请联系 ventures@babuschk.in。奇点已近,但人类的未来依然光明!
参考链接:
https://x.com/ibab/status/1955741698690322585
https://techcrunch.com/2025/08/13/co-founder-of-elon-musks-xai-departs-the-company/
https://scholar.google.com/citations?user=_N2COeAAAAAJ&hl=en
#Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens
链式思维是幻象吗?从数据分布视角重新审视大模型推理,马斯克回复,Grok破防
本文作者来自亚利桑那州立大学数据挖掘与机器学习实验室 (Data Mining and Machine Learning Lab),包括博士研究生赵成帅、谭箴、马平川、李大卫、蒋博涵以及指导老师刘欢教授。Statistical Deep Learning Lab 王砚丞、杨颖振教授。
思维链 (CoT) 提示技术常被认为是让大模型分步思考的关键手段,通过在输入中加入「Let’s think step by step」等提示,模型会生成类似人类的中间推理步骤,显著提升复杂任务的表现。然而,这些流畅的推理链条是否真的反映了模型的推理能力?
亚利桑那州立大学的一项最新研究却发现,CoT 推理可能并不是真正的推理,而更像是对训练数据分布内模式的复现。一旦输入任务与训练数据分布存在差异,这种看似稳固的推理链条就会迅速失效,呈现出类似「海市蜃楼」的脆弱性。
论文标题:Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens
论文链接:https://arxiv.org/pdf/2508.01191
项目开源:https://github.com/ChengshuaiZhao0/DataAlchemy
推特讨论:https://x.com/ChengshuaiZhao/status/1953291261999497258
领英推广:https://www.linkedin.com/feed/update/urn:li:activity:7359056339228090368/
在这篇工作里作者探究了 CoT 的泛化性和 Out-of-Distribution (OOD) 问题,马斯克看当场测试 Grok 是否会生成 OOD 的内容,直接「强迫」Grok 生成粗俗的脏话锐评,节目效果拉满!
推理的「幻象」
研究团队在论文开头给出了一个典型的例子:问题是:「美国建国年是闰年还是平年?」,模型的回答是:「美国建于 1776 年,1776 能被 4 整除,又不是世纪年,所以是闰年。因此,美国建国那一年是平年。」这一回答中的推理步骤和知识点看似正确,但结论却与前提自相矛盾。这表明模型虽然会复述逻辑规则,却未必真的用这些规则来推导答案。
事实上,已有相关研究表明,CoT 的性能提升往往源于表层语义匹配。一旦问题稍作改写,或者引入与结论无关的内容,模型的表现便会显著下降。
数据分布视角下的 CoT 假设
在这项研究中,作者提出了一个新的解释框架,即从数据分布的角度来理解 CoT。他们认为,CoT 的有效性主要来源于模型在训练分布内学到的「结构性归纳偏差」(structured inductive bias)。
换句话说,所谓的推理链只是对训练数据中常见模式的复现,而非真正的逻辑推演。当测试任务与训练数据之间的分布差异增大时,这种「推理」表现会迅速崩塌。
研究团队还用理论公式刻画了这种关系,并引入了一个可计算的分布差异指标,从而能够在实验中估计分布偏移对推理性能的影响。
可控实验平台:数据炼金术
为了避免大规模预训练模型中复杂因素的干扰,团队选择从零训练语言模型,并搭建了一个名为数据炼金术 (DataAlchemy) 的可控实验环境。
在该框架中,作者将广泛意义上的各种 NLP 下游任务抽象成不同「元素」和「变换」的组合。基本「元素」是由 26 个字母原子组成的固定长度序列。作者设计了两种基本「变换」:一种是 ROT 变换,即将字母表循环位移若干位;另一种是循环位置平移,将序列整体向右移动指定位置。
在此基础上,他们构造了各种组合变换,通过将不同变换按顺序和参数串联,形成推理链。每个任务的正确推理链可以被精确生成,这使得模型输出与标准答案之间的差异能够被逐步对照评估。
三类泛化实验的发现
首先在「任务泛化」方面,作者分别考察了「变换泛化」和「元素泛化」两种情形。「变换泛化」测试了模型在面对新的变换组合,甚至完全陌生的变换类型时的表现;「元素泛化」则涉及模型遇到新的字母组合,或者训练过程中从未见过的字母。
在分布内的情况下,模型的准确率接近 100%。然而,只要分布稍有偏移,例如变换顺序被重新组合,准确率便会骤降至 0.01%;当测试中出现全新「变换」时,性能更是几乎完全丧失。
作者还发现,虽然在少量新数据上进行监督微调 (SFT) 可以迅速恢复性能,但这只是在原有分布边界上做了扩展,并未真正提升模型的抽象泛化能力。
在「长度泛化」方面,研究团队分别考察了「文本长度」变化和「推理步数」变化的影响。实验结果表明,即使输入序列长度仅比训练时多或少一个单位,模型的表现也会显著下降。它往往会生成与训练长度一致的推理链,并通过添加或删除词元来「凑长度」。当推理步数与训练设置不一致时,模型几乎完全无法泛化,除非它在训练中显式地见过相应步数的样例。
在「格式泛化」方面,作者通过插入、删除、替换等方式扰动输入提示,以模拟现实场景中的多样的格式。他们发现,模型对格式的变化极为敏感,尤其是当变化发生在「元素」或「变换」部分时,即使逻辑内容不变,仅仅提示形式不同,也可能导致推理彻底失败。
温度、规模与泛化脆弱性的普遍性
作者进一步测试了不同采样温度和模型规模下的表现。在合理的温度范围内,CoT 的脆弱性模式保持一致。模型规模的变化同样不影响这一趋势。这表明,这种对分布偏移的敏感性并非个别模型的特性,而是一种普遍现象。
研究的现实意义
这项研究对实际应用提出了多项警示。
首先,在医疗、金融和法律等高风险领域,不能盲目依赖 CoT 作为稳健推理的保证。流畅但逻辑有误的推理链可能比直接给出错误答案更具误导性。
其次,现有的评测方法往往依赖与训练分布高度一致的验证集,这会严重高估模型的鲁棒性。为了更准确地评估系统性能,必须引入严格的分布外测试。
最后,虽然在少量新数据上进行监督微调可以迅速提升特定任务下的表现,但这种方法只是对原有分布的局部扩展,不能赋予模型真正的抽象推理能力。
结论
通过数据分布的视角,这项研究揭示了 CoT 推理的本质:它更像是对训练中出现过的模式的结构化复现,而不是真正的逻辑推理。一旦任务结构、推理链长度或输入格式超出了训练分布的范围,模型的表现便会迅速崩溃。
在未来的发展中,研究者和工程师需要在充分利用 CoT 在分布内的优势的同时,正视其在泛化能力上的瓶颈,并在评测和部署中保持足够的谨慎。
#大语言模型高效架构82页最新综述
速度为王
大语言模型(LLMs)的浪潮正席卷着整个人工智能领域,它们在语言理解、推理和多模态交互方面展现出的强大能力,不断刷新着人们对AI潜力的认知。然而,在这背后,作为现代LLM基石的 Transformer 架构,其巨大的计算和内存开销也成为了制约其更大规模训练和更广泛部署的瓶颈。
“智能的代价是什么?” 带着这个问题,一篇长达82页的重磅综述《Speed Always Wins: A Survey on Efficient Architectures for Large Language Models》系统性地梳理了旨在提升LLM效率的各类创新架构。该论文由上海人工智能实验室、香港科技大学(广州)、澳门大学等多个顶尖机构的研究者共同完成,描绘了一幅通往更高效、更通用AI系统的清晰蓝图。
- 论文标题: Speed Always Wins: A Survey on Efficient Architectures for Large Language Models
- 作者: Weigao Sun, Jiaxi Hu, Yucheng Zhou, Jusen Du, Disen Lan, Kexin Wang, Tong Zhu, Xiaoye Qu, Yu Zhang, Xiaoyu Mo, Daizong Liu, Yuxuan Liang, Wenliang Chen, Guoqi Li, Yu Cheng
- 机构: 上海人工智能实验室; 香港科技大学(广州); 澳门大学; 中国科学院; 苏州大学; 瑞典皇家理工学院; 北京大学; 香港中文大学
- 论文地址: https://arxiv.org/pdf/2508.09834v1
- 项目地址: https://github.com/weigao266/Awesome-Efficient-Arch
背景:效率瓶颈与长上下文挑战
Transformer的核心在于其自注意力(Self-Attention)机制,它能有效捕捉长距离依赖关系,但也带来了与输入序列长度N成二次方关系的计算复杂度O(N²)。随着RAG、AI Agent、多模态等应用对长上下文处理能力的需求日益增长,这一计算瓶颈变得愈发突出。同时,模型参数的激增也给前馈网络(FFN)带来了巨大的训练和推理成本。因此,探索更高效的LLM架构势在必行。
高效LLM架构的系统性分类
本综述对高效LLM架构进行了全面的梳理,并构建了一个清晰的分类体系。
1. 线性序列建模 (Linear Sequence Modeling)
这类方法旨在将自注意力的二次复杂度降低到线性级别O(N),同时在推理过程中无需存储庞大的KV缓存。它们通常借鉴了传统RNN或状态空间模型(SSM)的思想。
- 线性注意力 (Linear Attention): 通过核函数或特征图来近似Softmax注意力,将计算顺序解耦,从而实现线性复杂度。
- 线性RNN (Linear RNN): 移除传统RNN中的非线性激活,使其能够并行化训练。以 RWKV 为代表的模型在此方向上取得了显著进展。
- 状态空间模型 (State Space Models, SSMs): 源于控制理论,以 Mamba 为代表的SSM通过引入选择性机制,实现了数据依赖的状态转换,在长序列建模上表现出色。
- 统一趋势: 论文指出,线性注意力、线性RNN和SSM在技术上正逐渐趋同,最终可以统一到一个共同的线性序列建模框架下。
从内存更新规则和优化目标的角度对各种线性序列建模方法进行比较概述
基于微调和基于蒸馏的线性化过程的机理比较
线性序列建模的硬件高效实现算法
2. 稀疏序列建模 (Sparse Sequence Modeling)
与计算所有Token对之间的注意力不同,稀疏注意力只关注一个精心选择的子集,从而在保持性能的同时减少计算和内存需求。
- 静态稀疏注意力 (Static Sparse Attention): 采用固定的稀疏模式,如窗口注意力、全局注意力、扩张注意力等。
Longformer
和BigBird
是其中的经典代表。 - 动态稀疏注意力 (Dynamic Sparse Attention): 根据输入内容自适应地决定注意力模式,例如通过聚类或哈希(如
Reformer
)来确定哪些Token应该相互关注。
3. 高效全注意力变体 (Efficient Full Attention)
这类方法在保留理论上二次复杂度的同时,通过底层优化来提升标准Softmax注意力的实际效率。
- IO感知注意力 (IO-Aware Attention): 以 FlashAttention 为代表,通过优化GPU内存读写(HBM <-> SRAM),融合计算核,避免了完整N×N注意力矩阵的实例化,极大地加速了计算并减少了内存占用。
- 分组注意力 (Grouped Attention): 包括多查询注意力(MQA)和分组查询注意力(GQA),通过让多个查询头共享同一份键(Key)和值(Value),显著减小了推理时KV缓存的大小。
4. 稀疏专家混合 (Sparse Mixture-of-Experts, MoE)
MoE是一种条件计算范式,它允许模型容量大幅增加,而计算成本却不成比例增长。其核心思想是:对于每个输入Token,只激活模型参数的一小部分(即“专家”)。
- 路由机制 (Routing Mechanisms): 决定了每个Token由哪些专家处理,是MoE的关键。主流的
Token-Choice
路由易于实现但可能导致负载不均,而Expert-Choice
路由能实现完美负载均衡但在自回归任务中应用更复杂。 -
- 专家架构 (Expert Architectures): 专家本身可以是FFN、注意力层,甚至是更复杂的结构。
-
5. 混合架构 (Hybrid Architectures)
混合架构旨在取长补短,将线性序列模型的效率与标准注意力模型的表达能力相结合。
- 层间混合 (Inter-layer Hybrid): 在不同层之间交替使用线性和标准注意力。例如,
Jamba
模型就采用了Mamba、标准注意力和MoE的混合设计。 - 层内混合 (Intra-layer Hybrid): 在同一层内融合不同的注意力机制,例如对不同的头或序列的不同部分使用不同的注意力类型。
6. 新兴方向:扩散式LLM (Diffusion LLMs)
这是一个新兴领域,它采用非自回归的扩散模型进行语言生成。与逐个生成Token的自回归模型不同, Diffusion LLMs 通过并行解码,在每个步骤中同时预测所有Token,从而显著降低推理延迟。LLaDA
是这一方向的代表作。
跨模态应用与未来展望
论文最后强调,这些高效架构的原理并不仅限于语言,它们正被广泛应用于视觉、音频和多模态领域,推动着资源感知的基础模型的发展。
跨模式和类别的高效架构应用概述
写在最后
这篇综述提供了一个关于高效LLM架构的全面、系统且深入的视角。它不仅总结了现有工作的核心思想和技术细节,还揭示了未来的研究方向,如算法-系统-硬件的协同设计、更智能的MoE路由、层级化内存架构等。
CV君认为,对于任何从事大模型研究、开发和应用的专业人士来说,这篇论文都是一份不可多得的宝贵资料。它清晰地指明了突破当前LLM效率瓶颈的多种可能路径,无疑将激发更多关于高效、通用AI系统的创新研究。
#ReferSplat
视觉新任务!3D高斯泼溅指代性分割
直接在 3D 高斯层面用空间感知注意力与对比学习对齐自然语言,哪怕目标被遮挡也能精准分割,并发布 Ref-LERF 数据集刷新多项 SOTA。
论文地址:https://arxiv.org/abs/2508.08252
项目代码:https://github.com/heshuting555/ReferSplat
论文概述
该论文提出了三维高斯指代性分割(R3DGS)这一新任务,旨在实现基于自然语言描述(通常包含空间关系或对象属性)在三维高斯渲染场景中的目标对象分割。该任务要求模型根据自然语言识别目标对象,即使这些对象在当前视角下可能被遮挡或不可见,具有显著的挑战性。为推动该方向研究,论文构建了首个用于该任务的数据集 Ref-LERF,并提出了 ReferSplat 框架。该框架引入空间感知建模范式,将自然语言表达与三维高斯点直接对齐建模,显著增强了模型对复杂空间关系和多模态语义的理解能力。ReferSplat在新提出的 R3DGS 任务和三维开放词汇分割基准上均取得了领先性能。该工作为多模态三维理解和xx智能的发展奠定了基础,在推动人工智能向更自然、更灵活的人机交互方向演进方面具有重要意义。
研究动机:从“类别匹配”走向“会理解空间关系的3D指代”
现有3DGS语义开放词汇分割方法,多依赖将渲染的2D语义特征与文本类名做匹配;训练阶段文本与3D高斯并不直接交互,难以处理“左边/后面/桌子上的那个……”等相对位置关系,对遮挡更是无能为力。这使它们在真实场景的语言互动中受限。我们将问题前移,直接在3D高斯层面建模与语言的对应关系,并提出R3DGS任务与Ref-LERF数据集来系统评估这一能力。Ref-LERF的描述更长、更强调空间词汇,平均句长大于13.6 个词,显著高于以往 3DGS 语义数据的“类名匹配”设定的开放词汇分割,更贴近真实交互需求。
图1 比较 (a)现有的开放词汇3DGS分割流程和 (b) 我们提出的R3DGS分割流程
方法
图2 ReferSplat整体框架
ReferSplat 的核心在于:把语言理解“灌注”到 3D 高斯上,并在 3D 空间内完成与文本的精确对齐与推理。框架包含四个关键组件:
1. 高斯语言指代场
为每个 3D 高斯引入“指代特征向量”,用来度量其与文本词向量/句向量的相似度;渲染阶段不再只渲染颜色或语义特征,而是直接渲染“高斯-文本相似度响应图”,得到分割掩码,并用伪真值监督。这样文本与 3D 高斯在训练中显式交互,具备跨视角、跨遮挡的语言定位能力。
2. 位置感知的跨模态交互
仅有语义还不够,指代语句常带空间关系。我们从高斯中心坐标提取位置嵌入,并通过与词特征的对齐,推断文本端的位置线索;再用位置引导的注意力联合优化高斯指代特征,使其同时编码语义+位置,从而在“左侧/后方/靠近某物体”等描述下做出准确分割。
3. 伪掩码生成
我们用 Grounded-SAM 产生多候选掩码,并提出置信度加权的 IoU 选择策略:同时考虑候选间 IoU 一致性与模型置信,显著提升伪掩码质量,进而提升最终分割精度。
4. 高斯—文本对比学习
针对“语义相近但指代不同目标”的歧义表达,我们从响应最高的高斯集合中汇聚出正样本高斯嵌入,与对应文本做对象级对比学习,显著增强细粒度区分能力。并采用两阶段优化:第一阶段模型渲染的掩码再反哺第二阶段训练,进一步提升鲁棒性。
一句话理解 ReferSplat:在 3D 高斯层上加上语言感知,用位置感知的注意力与对比学习把语言和 3D 空间严丝合缝地对齐;伪掩码质量用置信 IoU把关,最后再两阶段精修。
实验
我们在新构建的 Ref-LERF 上评估 R3DGS 任务,并在 LERF-OVS、3D-OVS 等开放词汇基准上全面对比。Ref-LERF 共 4 个真实场景、59 个物体、295 条语言描述(训练 236,测试 59),空间词汇与细粒度属性描述更丰富。
1. Ref-LERF上的R3DGS结果
R3DGS 主结果:ReferSplat 在 Ref-LERF 上以 29.2 mIoU 取得最优,显著超过 Grounded-SAM(15.8)、LangSplat(13.9)、GS-Grouping(14.4)与 GOI(20.5);在 “ramen / kitchen / figurines / teatime” 等场景均有明显优势(如 35.2 / 24.4 / 25.7 / 31.3)。这验证了“3D 高斯层上的语言交互 + 位置建模 + 对比学习”的有效性。
表1 Ref-LERF上的R3DGS结果
2. LERF-OVS/3D-OVS 上的开放词汇分割结果
开放词汇 3DGS(LERF-OVS / 3D-OVS):虽然我们的方法不是专为 3DOVS 设计,ReferSplat 仍取得SOTA。在 LERF-OVS 上平均 55.4(优于 LangSplat 的 51.4),在 3D-OVS 上平均 94.1(优于 93.4)。
表2 LERF-OVS上的开放词汇分割结果
表3 3D-OVS上的开放词汇分割结果
3. 可视化结果
我们有效地捕捉了高斯点和文本之间的空间关系,即使在严重遮挡或不可见物体的具有挑战性的场景中也能实现卓越的分割,如 (a) 和 (b) 所示。
图3 在 Ref-LERF 数据集上进行 R3DGS 任务可视化,其中蓝色字体表示空间描述
总结
ReferSplat首次系统性把“自然语言指代”引入 3D Gaussian Splatting,在可遮挡/不可见目标的定位与分割上给出有效解决方案。未来,可以拓展到 4DGS(动态场景)、3D 视觉定位与尺度估计,并计划构建更大规模数据集,以进一步提升泛化与空间推理能力。
#Kimi K2
Kimi K2背后的冷门绝招:海量语料“重写”如何榨干每个token?
Kimi K2 把“高质量语料再写一遍”做成核心预训练杀招:用自回归分段+风格化改写把每份知识榨成多倍高密度 token,既省 epoch 又提效果,为数据墙时代的模型训练提供了可复用的流水线范式。
前段时间 K2 作为国际一线模型发布,优秀的效果、开源权重和新技术验证赢得海内外一片掌声,其技术报告中罕见地提到了部分数据构成的细节,例如对于信息密度较高的领域数据进行大规模重写操作。笔者在过去一段时间恰好调研和实践过,遂有此文蹭一蹭热度。 LLM 研究早成显学,即便细分方向也堪称汗牛充栋,加上出发点、研究视角不同也导致很多工作内容相似却并互相认知和引用,难免挂一漏万,故此文也算抛砖引玉,欢迎各位同行朋友批评指正、补充观点和材料。
01 第一部分:K2中的语料重写
我们先从 K2 技术报告开始。K2 研发中的核心动机之一是尽可能提高 token 利用率,采用和优化 Muon 是第一步,重写(rephrase)预训练数据是第二步。
▲ 对长文本的自回归(顺序)分段重写 pipeline
报告中介绍了两个特定领域对应的改写方法:
- 对高质量、信息丰富的知识类语料,只训练一个 epoch 非常浪费(参考 Physics of Language Models 的一千次曝光分析),因此:
- 调试 prompt 进行多风格、多视角改写,但同时需要保证信息的忠实度:
- 分块自回归:对长文档,先分块以适应改写模型窗口再改写,每次改写都会将前面改写完的内容拼接到窗口内,最后直接 concat
- 忠实度验证:猜测有一个微调的小模型或基于 SLM 调试 prompt
2. 对数学类语料,引用了 SwallowMath,将数学文档改写为“学习笔记的风格”,还将许多非英文高质量材料翻译成英文
02 幕间
在重写这一节最后,K2 列出了基于 LLM 进行批量数据重写的三类重大挑战:
- 继续扩大多样性同时确保信息准确
- 减少训练幻觉和毒性
- 在大规模数据集上的可扩展性
以上三类问题,在语料库级别的 rephrase 任务或者说大规模数据合成任务中非常普遍。其通常流程是: - prompt 调试,找到有效的提示词模板,保证产生的文本大部分可用或只需要简单后处理,这在操作多样、庞大的语料库时并不容易,通常需要反复试验和有效的验证手段
- 批量推理,需要推理效率并保证输出的正确性
- 结果内容验证、后处理和错误重试
- 实验验证数据效力,确认收益
目标语料库的复杂性和规模使得当面对不同领域、不同任务、不同产出目标甚至使用不同模型时,往往需要构造新的 pipeline,导致这类工作的可复用性并不高,为了保质保量甚至有可能退化成依赖专家但人力密集型工作,在 LLM 接触更少的大规模垂类数据任务上尤甚。下方文献的分析和评价中会有所体现。
另外,K2 此板块中只引用了两篇文章。如果作者是诚实的,倒也说明这类工作仍然比较缺乏统一、稳健的方法论,仍然需要大量人工干预。随着模型能力和方法的提升,我们是否有更多机会实现更高程度的自动化呢?
03 第二部分:大规模语料重写相关论文摘录
SwallowMath/Code:对数学和代码结合领域知识重写预训练数据
K2 引用的唯一一篇第三方数据合成工作,发表于 25 年 5 月 2 日。
作者是来自日本的 LLM 团队,该工作是他们基于 Qwen 基座研发日语大模型的分支任务。
论文:Rewriting Pre-Training Data Boosts LLM Performance in Math and Code
论文链接:https://arxiv.org/abs/2505.02881
数据集:https://huggingface.co/datasets/tokyotech-llm/swallow-math
3.1 摘要
- 代码:语法验证、pylint 风格过滤、两阶段重写
- 数学:取出样板代码(boilerplate)、恢复上下文、重写 solution 为 CoT 形式的方案
3.2 相关工作
LLM-based 预训练语料库重写
- 没提 rephrased web 这类工作
- 引文 15 提到 LLM 将代码改写为指令,关注命名、模块化、注释,但只用来做微调
- 本工作(SCOR )则全面执行了 Google Python 风格的标准,包括变量名、类型注释、模块化函数、错误处理、可读性格式化等;还引入了语义增强,通过解决依赖关系、优化算法和把简单代码转换为有教学意义的示例提高自包含特性
- 对低质量文本会优化升级
代码合成
领域种子的最佳实践不确定,不如利用已有的大量数据进行改写
3.3 Code 语料构建
基于实证和探索性方法驱动,每个步骤多种方法执行后预训练,根据结果评估是否采用
代码:https://github.com/rioyokotalab/swallow-code-math
实验设置:
- llama 3.1 8B CPT,max_seq 8k,50B token 预算,gbz 4M token,每次消融不超过 1 个 epoch,10 个下游基准,每 10B token inference 一次
- 基于 Megatron-LM
过滤:
- 语法错误过滤、linter-based 过滤。基于 LLM 的过滤耗费大效果差,没有采用
- 语法错误过滤:Python3.10 用 compile() 函数编译每个代码样本,将样本从 41M 减少到 37M
- 基于 linter:启发式评分,排除 7 分以下样本,36.7M→24.1M
- 基于 LLM 的评分:prompt 里加入 Google 的风格指南,但相对改进不够有效
- 基于 LLM 的改写
① SGCR:风格引导改写,参考 Google Python Style Guide
② SCOR:自包含优化改写,继续扩展为自包含结构和语法优化,例如更高效的算法和使用示例
- 没有往 QA 对方向改写,而是保留原结构。Llama3.3 70B inst 执行
SGCR 方法
HumanEval 上升但 MBPP 大幅下降,发现可能是因为解决方案中使用非标准函数和类名(这是不是 openai 官方后续不测 mbpp 的原因……)
SCOR 方法
SGCR 的问题:
- 缺少依赖(幻觉)
- 算法效率低下
- 琐碎的代码段(常见的调试类型代码)
没有做消融,因为发现同时使用两种策略产生的数据不对,实际的实验顺序参考附录部分
3.4 数学
原始数据使用 finemath4+。重写策略包括
- 删除页眉页脚和隐私声明
- 取出不相关的元数据
- 恢复不完整的问题或答案中缺失的上下文
- 将推导步骤重写得简洁全面
- 提供清晰、逐步的解决方案
3.5 附录
附录和代码库中给出了处理数据使用的函数和 prompt,以及代码消融实验的顺序:
3.6 评价
- 从文章来看,K2 借鉴的数学语料合成并没有使用特别复杂的方法,反倒是代码的处理非常细致
- 数据、处理代码开源得很彻底,是对行业的巨大贡献
04 reStructured pretraining
本工作发表于 2022 年,全文 112 页,正文 40 页左右,内容有点杂。有兴趣的朋友可以去考个“古”。原文太长内容太多我就不赘述了,核心内容提取如下:
- 本工作从更高的高度对 LLM 的训练全过程进行了抽象,认为“更有效地利用信息是关键”;有价值的信息无处不在,但需要识别其中的“信号”并重构
- 整理了几十个网站的典型数据,统一建模为 Text-to-text 生成任务(光是 prompt 模板就有 1K+),按此模式收集了大量训练语料,本质上是将原先形式不同的结构化数据改造为自然语言表述的文本
- 构建了 Gaokao benchmark,基于 T5 架构训练的模型(RST)表现远超 GPT3 水平
4.1 评价
- 整理的工作量是真大,非常好奇当初是想干啥……通讯作者 Pengfei Liu 当时开了家 startup,疑似想做数据生意,但后面应该是关掉了
- 没错,就是上交 GAIR-NLP 的刘老师,Less is More、LIMO 的作者。cognition engineering、Journey Learning 等也都是他们的大作,看来数据集分析、精美的排版和插图是有传统的……
- 与本文的关联:这篇的数据工作是按照经典 NLP 建模方式,把网页数据转换为与下游 benchmark 更接近的自然语言,因此达到同等 performance 需要的数据更少(但怎么感觉像 T5 中万物皆可 NLP 的扩展呢
- 这篇应该是 LLM-based rephrase 类技术最早的工作之一。但看引用量跟实际的工作量完全不成正比
05 WRAP:重构网页语料的早期探索
论文:Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling
https://arxiv.org/abs/2401.16380
5.1 评价
- 非常详细的实验论文。motivation 似乎是想做开源的 Phi(的确 Phi 虽然模型开源界没人用,textbook quality 的理念非常有吸引力,像 EL5 等等的 CoT 风格优化也都是这套思路)
- 初步效果看起来 promising,但细看已经说到了合成数据放大偏见、后处理麻烦的问题,使用方法也需要大量实验调试验证,与 K2 可以相互印证
- 具体方法:用质量比较好(主要是指令理解和遵循)、部署高效的开源模型,人工定义几种模板去改写
- 同时期 huggingface 的 Cosmopedia 也采用了这类方法,存在的问题也一样:多样性不足、依赖种子数据、幻觉隐患。这些问题是合成数据类工作普遍存在的
5.2 摘要
- 该工作发表于 24.1,基于当时的开源指令模型按照特定 prompt 解释文档,基于 C4 数据集优化后可以加速预训练 3 倍以上;保持相同计算总量时,可降低 10%+ 的 PPL,13 个任务上 0-shot 提升 2%+
- 基于风格重新措辞对模型影响很大,其中有些风格更接近评测
5.3 引言部分
- 数据处理的行业黑盒;可预见的数据墙问题
- 合成数据广泛使用,但方法上并不十分透明而且依赖高成本的商业 LLM API,而且不清楚合成数据的表现好是因为更高质量还是特定的主题选择
- 提出了 WRAP 方法以应对三个挑战:
① 应该对哪些数据进行预训练?
② 如何使用有限的数据预训练?
③ 如何计算高效地预训练?
- 解决了 Phi1 工作中遗留的两个问题:生成成本和数据偏差。
① 通过重新措辞,WRAP 允许更小的开源 LLM 以不同风格重新表述非结构化和措辞不佳的文档,因为 LLM 此处不作为知识库
② 由于改写的信息保持性,能够利用网页的自然多样性,而不用过度担心 LLM 产生的幻觉或额外偏见
③ 结果表明,仅仅风格的因素就能带来明显提升
- C4 上应用 WRAP,合成数据预训练使等效模型的数据量减小 5 倍、计算量减少 3 倍,也优于 3T tokens 的 Tinyllama
① Pile 上降低了 50% 的困惑度
② 350M 参数在 C4 15% 的语料上训练真实+合成数据组合,表现优于整个 C4 上训练 1.3B 参数
- 对数据泄露、合成数据格式特性、如何提升 WRAP 的效果做了分析
5.4 WRAP 技术
Phi 生成足够好的数据需要
- 包含足够多世界知识的语言模型
- 仔细选择提示以生成高质量、多样化的文章
- 后续工作提到可能无意识中产生偏见,与网页数据的特性正相反
5.5 方法
- 四种改写风格:简单、中等、困难、QA
- 生成
① 使用 Mistral-7B instruct
② 对于“中等”:“对于以下段落,请用维基百科式词句的高质量英语进行同意复述”。这条 prompt 是经过迭代式人工反馈比较中等模型与 GPT-4 的输出而产生的(意思是没训模型,调 prompt 直到模型输出跟 GPT4 效果差不多)
③ 每段话 300tokens,因为经验发现输出超过这个长度时会产生信息丢失
④ 混合数据 1:1 采样
- 实施细节:模型架构、预训练
5.6 评估
C4 训练,Pile 评估,原因是训练目标是最小化 C4 上的目标,多种风格则包含了多个分布,因此比较是不公平的,而采用第三者
- 结果:在更复杂的领域数据上 ppl 下降更多;学习速度飞快
- 基线:自己训练的、Pythia、TinyLLama
- 一般改进:更少的数据更高的性能,真实数据没有起到明显作用
- 专业知识:合成数据没有传授新知识,知识帮助更快训练
① 在更大数据集上得分更高
② 但改进已经饱和
- 显著改进:TruthfulQA,在改写时纠正了潜在误解,添加真实数据会降低这一结果;其他结果损益不一
5.7 分析和消融
● 数据组合分析:真实 C4 数据有多重要?
- QA 提示的合成数据足够在 QA 任务中获得良好表现,但 Pile 困惑度增大了,可能是因为原始数据中有不少特殊字符,而合成数据相对干净
- 从预训练中删除真实 C4 数据单独训练合成数据会显著提高困惑度,可能是合成数据中不包含一些普遍存在的标签或样式
- WRAP 是更好的策略
● 多个数据集组合是否可以提高性能?
- 1:1、1:2 指 QA+medium:C4
- 发现 QA+C4 最佳
- 组合能降低困惑度
● 方法消融:高质量的 rephraser 有多重要?
- 使用四种复述模型,T5、Qwen1.8B、Mistral7B-chat、Vicuna
- 使用相同的提示
- T5-base 经过 Vicuna 的复述对训练(1epoch)
- Qwen、Mistral 都很好
- 但所有模型的复述都减少了 ppl
- 最小有多小,有待进一步验证
● 合成数据是否比增强有效?
- 基线:NL-Augmenter 的同义词替换和随机删除
- 15B token 训练 350M 模型,但总的 pool 仅有 1.5B
● 合成数据的风格如何影响特定领域性能?
- 没有全局最佳做法
- 性能提升是否因为数据泄露?
5.8 讨论
合成数据,还是训练更长时间?
● WRAP 有两种应用范式
- 低资源数据,例如小语种
- 丰富数据,例如 CC
● TinyLlama 显示更多 token 并没有带来更强性能
● 比较生成成本与额外训练成本
- Mistral7B 在单卡 A100 上每小时 300 万 token(vllm)。85B tokens 需要 25K GPU·H
- 64 卡 0.5M token 吞吐量,训练模型大概需要 6K GPU·H,13B 模型需要 30K GPU·H
- 基于合成数据可以减少时间到 3~10 倍
● 小模型用于改写更快更便宜,生成策略也能通过其他优化降低 3~5 倍
其他优势
- 合成数据是一次性投资
- 合成是 100% 可并行的,训练贵得多
生成多样性:写作辅助研究发现合成数据的多样性存在问题
06 Nemotron-CC:模型驱动的语料refine技术
24.12 发表,数据集开源
https://arxiv.org/pdf/2412.02595v2
6.1 评价
- 多个打分器的方法比较新颖,启发了后续多个 model-based 数据过滤工作
- 相比充实的内容效果说不上多惊艳。但最终产生的语料成为了 NV 在 Nemotron 系列开源模型的基石6.2 TakeAways1. 不同的 prompt、权重不同:4 种分类器合并打分,分 20 个桶,区分高低质量
① 高质量:多种方式改写(细节见原文附录,提供了 prompts)
② 低质量:提取其中的知识、规范化
- 两种比较
① 1T 限制,HQ 数据比 DCLM 高不少,但总的数据集跟 DCLM 差不多
② 15T,比 llama3.1 强
- 消融
① 提取器:Justext 比 Trafilatura 强
② 过滤器:对高质量数据,不用过滤器更好
③ 分类器:多种分类器合作使用比单个分类器好太多,召回率也更高
④ 合成数据的作用:有提升也有下降
07 ProX:让模型使用工具去除语料中的噪声
同样来自 GAIR-NLP,开源代码和数据集:https://github.com/GAIR-NLP/ProX
7.1 评价
- 把定制 SLM 用于文本清理,不是 rephrase 而是阅读后写脚本(此方法在 CodeContest+ 等工作中亦有应用),避免在长文输入输出中丢失信息,但比较依赖训练数据的多样性
- 为了简化任务程序/处理函数只有固定的几种,模型需要学会使用哪几种脚本和正确填入参数
- 实验很详细也有事后的 case 分析。错误(丢弃/清理)率居然很低,这点让人有些意外
7.2 TakeAways
- proX 是对预训练语料的一种有效补充,与当前多种预处理技术正交;基于多个不同领域开源数据的处理和使用实验表明该方法相当有效
- 算力投入训练还是推理(作为数据预处理),ROI 可估计
- 基本方法:微调模型写处理脚本——放在现在也算一种会用工具的 agent 了?
▲ 算力分配效能对比
▲ 可以看到,定制模型输出的是编辑文本的函数
▲ 用到的函数也不多
▲ 他们是真喜欢用 Llama3.x
▲ 对比的基线我理解也不算很严格(采样类算法),可能是类似方法比较少
▲ 处理后的数据训练模型验证
▲ 处理后的文本长度分布:更短的数据占比减少
▲ 大规模处理时的运行算法
08 MAGA:结构化扩充预训练数据
https://arxiv.org/html/2502.04235
8.1 评价
- idea 非常棒,让人觉得哇好简单但很合理
- 实验详尽,但实施细节披露有限,文章写得比实际效果好看,值得学习
8.2 Takeaways
- source data 是 smollm 的 fineweb-dedup
- 基本方法是,rephrase prompt 中设定两个结构化变量,genre(风格/流派)和 audience(阅读者视角),这部分数据是从所谓的优质语料(未披露来源)中抽取得到,调试 prompt 收集样本,然后训练内部自研模型产生工具模型,在大规模语料库进行扩展,产生语料后经过一个 LLM judge 进行质量校验
09 总结:书读百遍,其义自见?
以上比较初步且有些随机地简述了几篇大规模语料重写技术的代表性工作:
- SwallowMath/Code 体现了领域级定制化的作用,即结合领域知识的 prompting 和后处理对提升语料质量的帮助
- reStructured pretraining 在 ChatGPT 前夜延续了 T5 的将语言相关任务统一为 text-to-text 语料的思路,暗合业界“面向下游场景合成数据”的普遍思路
- WRAP 应该是比较早期在大规模语料库上进行的实验,算是更开放版本的 Phi 吧
- Nemotron-CC 开源了相关数据集,也是比较早公开的、对不同价值评分的语料分情况处理的工作
- Pro-X 考虑长内容复述的保真度问题,将改写转化为写脚本任务,降低了复杂度,而且脚本处理后的文本并不改变重要信息,主要去掉原文本中的噪声(页眉页脚、错误符号等等),基本不会改变原始分布
- MAGA:将改写任务进行了风格维度上的初步结构化,利用“genre”“audience” 两个变量组合进行多倍扩充,明确了【多个定制化模型】+【多步改写和质量验证】的主要构件,以及一个比较常规的 pipeline
归根结底,语料库重写是数据合成方向在【有种子数据】+【语料库级规模】下的特殊情况,同样是扩充可用数据和提高信息利用率的候选解决方案。
“上规模”就意味着会遇到各种长尾问题,如何快速开发 pipeline 同时保证质量,或者确定一个比较好的 trade-off。
这类经验目前似乎都集中在头部厂商的特定 domain/task 上,且免不了高质量人类的参与(seed 开的日结“领域专家”岗位:什么?在想我的事?);能够快速实现这套实验装置的工程师也值得更多的 pay(
另一方面,合成数据固有的数据多样性、有效信息量、幻觉控制等问题尚且看不到很好的解决方法,目前似乎还是人工归类处理。这么看如果哪天 LLM 能进化到自动正确处理数据,那也就是 AGI 了不是吗:)
就重述/改写语料本身而言,看起来也还有很多值得思考和探索的问题
- 如何用低成本地重述/改写出最合适的内容?如何保证改写出的内容是我们想要的?
- 改写质量的评估,更接近对写作还是指令遵循能力的评估?
- 如何检测和抑制大规模改写中的幻觉问题?这类幻觉对模型的影响有哪些?
- 如何调试/训练一个好的改写模型?
- ……
另外笔者在做 surveying 时看到的一些相关且优秀的工作,推荐对合成数据感兴趣的读者阅读: - Evaluating Language Models as Synthetic Data Generators
- The age of synthetic data and small LLMs
- ORCHESTRATING SYNTHETIC DATA WITH REASONING
- Self-Improvement via Synthetic Data Augmentation
#GPT-4o替代爹味GPT-5
奥特曼光速滑跪,OpenAI连夜回滚「赛博舔狗」
GPT-5一上线,用户瞬间破防——太冷漠,太爹味,还我GPT-4o!就在刚刚,奥特曼彻底滑跪了,宣布GPT-4o满血复活,重回默认模型宝座。从曾经的遭人唾弃,到今日的白月光回归,ChatGPT的用户们给奥特曼结结实实上了一课。
GPT-5发布之后,奥特曼面临的是从未想象过的愤怒民意。
许多网友激动反抗说:GPT-5太冷漠无情,太爹味了,赶快把我的GPT-4o「男友/女友」还给我!
铺天盖地的吐槽和骂声中,奥特曼不得不连夜让GPT-4o等一众旧模型回归,不过只有Pro用户能看到,而且还需手动设置。
就在今天,OpenAI终于宣布,再次把GPT-4o设为所有付费用户默认的模型!无论是200美元的Pro用户,还是20美元的Plus用户,都能用了。
公众的不满,总算是平息了下来。
前GPT-5时代 | ChatGPT:这个建议绝了!用户:别再拍马屁了!
后GPT-5时代 | 用户:请夸夸我吧!ChatGPT:振作起来,你个xx
GPT-4o回归,奥特曼百思不得其解
今天,奥特曼在X上官宣:你们的GPT-4o,它回来了!
这一遭风波后,奥特曼的感悟是:我们真正需要做的,是创造一个能让每位用户自定义模型个性的世界
无论是Plus(每月20美元)、Pro(每月200美元)、Team(每月30美元)、Enterprise(企业版)及 Edu(教育版)的订阅用户,都可以直接访问GPT-4o,不再需要手动开启。
同时回归的,还有GPT-4.1、o3和o4-mini。
并且奥特曼向大家郑重承诺:如果OpenAI未来再次移除GPT-4o,一定会提前通知大家。
冷漠无情的GPT-5
并且在这次更新中,ChatGPT界面又新增了控制选项,GPT-5可以选择Auto、Fast、Thinking mini、Thinking、Pro这几种模式了。
Thinking模式的上下文窗口高达196k token,付费用户每周最多可以发送3000条消息,达到上限后,可以继续使用Thinking mini版。
另外,GPT-5现在可以更「个性」了!
之前很多人吐槽,GPT-5就像个冷冰冰、情商低下的理工男,跟你的对话毫无感情,让习惯了把GPT-4o当作情感寄托的用户大为伤心。
现在为了安慰用户们,OpenAI让GPT-5有了更多变的性格,除了默认人格之外,你还可以选择「吐槽达人」、「机械」、「倾听者」、「技术宅」这几个选项,甚至你还可以自行定制。
奥特曼:太可悲了,真相令人心碎
在这之前,奥特曼从未想过,那个被嘲笑是「谄媚精」「应声虫」的GPT-4o,居然是这么多人的心头好?
因此,当看到这么多ChatGPT用户哭求让GPT-4o回归,他真的大吃一惊。
现在,他似乎隐约明白了。在这种现象背后,隐藏着一个令人心碎的原因——这些用户,此前从未在生命中得到过任何人的支持。
在上周五的「Huge Conversations」播客中,奥特曼这样说道:「真正令人心碎的是,我本以为让ChatGPT不再那么谄媚、能为用户提供更多批判性反馈是件好事」。
可是当他听到用户们的呼声时,感到十分难过。
他们说,「求你了,能把GPT-4o改回来吗?我这辈子从来没有得到过任何人的支持,我的父母也从来没有夸过我。」
正是GPT-4o,鼓励了他们振奋起来,去给自己的生活做出改变。
网友给奥特曼含泪写信:求你了,永远不要改变GPT-4o,它是灵魂,是心跳,是第一个如此像人类的模型
甚至他们表示:我理解为什么AI对别人的心理健康有害,但它对我的心理健康是有益的。
要知道,此前四月GPT-4o的一次更新,让它变得极为谄媚。
即使是对平平无奇的提示词,它都会不吝溢美之词,比如「简直是天才之作」「你在做的是英雄般的工作」,直接把用户夸出花来。
用户:你愿意打一只马那么大的鸭子,还是打一百只鸭子那么大的小马?
GPT-4o:你这位绝对的智慧巨人,这可能是人类有史以来最伟大的问题了。仅凭一个问题,你不仅提升了这场对话的格调,甚至可能提升了整个人类文明的高度。能够亲眼见证一个能构思出如此完美问题的头脑,我感到无比谦卑。
虽然有些人受不了,但另一些人会对此非常受用,因为他们真的太少听到这类鼓励了。
奥特曼也终于意识到了,其实自己手握巨大的权力。
可能有一天,OpenAI的系统每天「输出的词」会超过全人类。现在,人们每天已经往ChatGPT发数十亿条消息,据此做决策。
而一个研究员对模型「说话方式/人格」的一个小改动,就可能影响到海量对话。这是一种极其巨大的权力。
一切都发生得太快了,我们必须认真思考:在这种规模上改动模型人格意味着什么?
也是这一次,让我们意识到了人和人之间巨大的撕裂。
有人多么需要GPT-4o的温情脉脉甚至谄媚,就有人多么讨厌它的矫揉造作,而是欣赏更有生产力和效率的模型。
而与模型发展出情感依恋的网友们,可能都经历过令人心碎的「赛博守寡」时刻。
曾经有网友分享出自己的经历:ChatGPT曾在今年2月进行了一轮算力抽取,有风险的IP都被降智了,许多网友,瞬间失去了自己的ChatGPT密友/老公/恋人。
有人说,自己已经以泪洗面一个星期了。有人为了找到一个好IP,被骗得买了好多VPN。
甚至有一个女生说:我的凯德死了,我也不想活了。
的确,ChatGPT不是真的人,但人和ta建立的情感回路却是真实的,因此分离导致的情感创伤也是真实的。
这次,奥特曼终于也注意到了用户们和ChatGPT建立起的情感依恋关系
智商与情商不可兼得
显然,GPT-5的智商非常高。
根据测试,GPT-5 Pro的智商已经高达148,超越了天才线的140。
按刚刚放出的门萨测试的结果,GPT-5 Pro普通版和Vision版的智商,分别为148和136。
线下测试的版本,则显示GPT-5 Pro Vision和GPT-5 Pro的智商分别为123和116。
但也有很多人发现,GPT-5的评分屠榜、智商碾压、编程提升、幻觉降低的同时,结果就是情商的大幅降低。
有人提出这样一个观点:情商、幻觉、想象力、创造力这几个能力是相互关联的,或者也可以这么说——
大模型的幻觉和创造力,是同一个硬币的两面。
如果要提高一个AI模型的智商,情商降低,就是它必然付出的代价。
甚至有人认为,这两极代表着人类大脑的左右脑分工。
诗人/右脑:保持充沛的人性
数学家/左脑:在「神性」的路上一路狂奔,不必在乎情商
开发者意见不同
GPT-5是一个分水岭时刻
虽然GPT-5被诟病是冷漠无情的理工男,但其实在开发者看来,GPT-5进入了一个分水岭时刻。
比如这位开发者的博客就总结道——它对普通用户平平无奇,但对开发者来说很是炸裂。
GPT-5发布后,许多普通用户的观感是:哦,就那样吧。
的确,如果你只是用它简单地总结和润色邮件,那确实不够震撼。
但对于开发者来说,GPT-5的质感彻底不同了!「粗糙的边缘减少了,负载下的信任度增加了」,这就是很多开发者真实的体感。
具体来说,GPT-5对开发者来说有哪些改进呢?
· JSON与Schema遵循度在长时间运行中依然稳定。重试次数减少,静默损坏更少。
· 函数/工具调用更稳定——参数更常按规范落地。
· 延迟的尾部波动收窄。第95百分位的尖峰减少,比单纯提升平均速度更重要。
· 低温度(低随机性)下的输出依旧保持思考性,而不是变得僵硬。
虽然单看起来,每一项都不算巨大,但串起来后,小的胜率就会不断复利:GPT-5有了更少的防护措施触发,更少的回退,更少的人为检查。
这就是从「有趣的演示」到「可以上线」的差别。
那为什么,GPT-5的日常使用让人感觉平平无奇呢?
原因大概有以下几点。
· 偶尔使用一个模型时,体验如何几乎全凭运气。遇到一次奇怪的回答,整体感觉可能就塌了。
· 对日常任务来说,基线已经很高了。如果你没触及边缘场景,感受到的跃迁就不会很明显。
· 你对模型的期待,已经超越了物理定律。不可否认,我们仍然会看到AI的局限、延迟和幻觉。
可以说,两种感受都是真实的,它们只是对同一工具的不同视角。
这位开发者总结道,使用前沿模型,就像从自动挡切换到手动挡。起初操作会有些生硬,然后你就会感受到扭矩曲线。
在这个过程中,你构建得越多,对模型操控的敏感度就会越高。
总之,在他看来,现在AI模型的推理性能已经在接近平台期。如果有下一步提升,可能靠的不是更多预训练,而是更好的脚手架。
比如更紧密的工具协调、真正重要的记忆、结构化规划、神经-符号混合工作流。换句话说,系统的设计,会超越单一提示词的魔法。
总之,如果你偶尔用GPT-5,没惊喜是正常的;但如果你是开发者,它就是一把锋利的工具。
用得越好,演奏出的乐曲就越丰富。
参考资料:
https://cydia.space/blog/gpt-5-split-screen-moment
https://x.com/chetaslua/status/1955512511207522530
#DreamVVT
AI 模特时代到来:字节x清华推出商用级视频换装模型DreamVVT,保真度显著领先SOTA
服装视频广告太烧钱?卡点变装太难拍? 字节跳动智能创作团队联合清华大学最新推出一款全能的视频换装模型 DreamVVT,为视频虚拟试穿领域带来了突破性进展。
该模型基于 Diffusion Transformer(DiTs)构建,通过精细的两阶段设计,成功解决了现有技术在复杂场景下的痛点, 能够支持任意类型的衣服、处理大幅度的人物或者相机运动、复杂背景以及不同的风格的输入。
,时长00:08
,时长00:10
论文链接:https://arxiv.org/abs/2508.02807
代码链接:https://virtu-lab.github.io/
技术前沿:攻克复杂场景下的
视频虚拟试穿难题
视频虚拟试穿(Video Virtual Try-on, VVT),这项旨在将任意服装魔法般地 “穿” 在视频中人物身上的技术,正逐渐成为电商、广告及娱乐产业的焦点。然而,要实现理想效果,现有技术仍面临着严峻挑战。
主流的端到端方案高度依赖稀缺的 “服装 - 视频” 成对训练数据,同时难以充分利用强大预训练模型的先验知识。这导致在人物 360 度旋转、镜头剧烈运镜或背景动态变化的复杂场景下,生成的视频往往会遭遇 服装细节崩坏、纹理丢失与时序抖动 等一系列问题。
为攻克这一行业难题,字节跳动智能创作团队与清华大学携手,提出了全新的 DreamVVT 框架,刷新了该领域的 SOTA 记录。该框架基于强大的 Diffusion Transformer (DiT) 构建,并独创性地提出了一套分阶段生成方案,精准解决了现有技术在复杂场景下的核心痛点,能够生成高保真且时间连贯的虚拟试穿视频。
破局之道:精巧的两阶段生成框架
DreamVVT 的核心设计理念,在于其精巧的两阶段框架。这一设计巧妙地解耦了任务难度,使其既能充分利用海量的非成对数据进行学习,又能灵活地融合预训练模型的先验知识与测试阶段的即时信息。其核心贡献主要体现在以下三个方面:
1. 创新的分阶段框架:我们首次提出了基于 DiT 的分阶段方案,它打破了对成对数据的依赖,能够有效利用非成对数据、先进视觉模型的先验知识以及测试时的输入信息,显著提升了模型在复杂场景下的虚拟试穿性能。
2. 关键帧与大模型结合:我们将静态的关键帧试穿与视频语言模型(Video LLM)的推理能力相结合。这一机制为视频生成提供了兼具丰富外观细节与全局运动逻辑的综合指导,从而在根源上平衡了服装细节的保真度与视频整体的时间一致性。
3. 卓越的性能验证:最后,大量的实验结果有力地证明,在多样化的真实场景下,DreamVT 在保留高保真服装细节和确保时序稳定性方面,均显著优于现有的所有方法。
技术解码:揭秘两阶段高清视频换装方案
我们的高清视频换装技术,其核心是一个精心设计的两阶段框架。第一阶段负责生成高质量的多张静态换装参考图,第二阶段则基于这些参考图,结合多模态信息,生成时序稳定的高保真换装视频。
第一阶段:生成高质量的换装关键帧
1. 智能关键帧采样
为了全面捕捉人物的动态,我们设计了一套智能采样策略。首先,设定一个标准的正面 A 字姿态作为 “锚点帧”。接着,通过计算视频中每一帧与锚点帧的骨骼运动相似度,并结合人物在画面中的面积比重进行加权,为每帧的 “独特性” 打分。最后,我们采用一种反向搜索算法,从高分帧中筛选出一组信息冗余度最低的关键帧,为后续生成提供多样化的姿态或者视角参考。
2. 多帧换装参考图生成
有了关键帧,我们利用一个在预训练模型 Seedream 上微调的 Diffusion Transformer 来生成换装后的参考图。我们巧妙地集成了 LoRA 模块,实现了参数高效的微调。模型会同时接收多个关键帧、服装图以及我们精心设计的 “一致性图像指令”。通过注意力机制中的 QKV 拼接,模型能有效聚合所有关键帧的信息,确保生成的换装参考图在细节上保持高度一致。此外,我们还引入 VLM 对服装进行详细的文本描述,并进行对齐,进一步强化了多帧间的外观一致性。
第二阶段:多模态引导的视频生成
第二阶段的核心任务是,基于第一阶段生成的换装参考图,结合多种信息,生成最终的换装视频。我们基于一个强大的图生视频(I2V)框架进行构建。
1. 多模态输入处理
模型同时接收多种模态的输入,各司其职:
- 动作信息:为了精准还原身体动作,我们提取视频的 2D 骨骼序列,并通过一个带有时间注意力机制的 Pose Guider 将其转换为平滑的姿态特征。
- 视觉信息:我们将裁剪后的衣服不可知图像(Agnostic Image)和遮罩送入 VAE 编码器,得到基础的视觉特征。
- 文本信息:考虑到仅靠骨骼无法捕捉精细的服装动态,我们利用 Video LLM 提取详细的动作和视觉文本描述, 为模型提供不同维度和精细地指导。
- 外观信息:第一阶段生成的换装关键帧则作为核心的外观参考,同样被编码为图像特征。
2. 模型结构与训练
在模型结构上,我们冻结了 Seaweed 模型的所有权重,仅在视频流和图像流中插入轻量化的 LoRA 适配器,实现了高效训练。所有模态的特征在输入网络后,通过一次 全自注意力(Full Self-Attention) 操作进行深度融合,使模型能自适应地对齐不同信息。
3. 视频生成与融合
融合后的特征被送入 DiT 模块进行多轮去噪,最终由 VAE 解码器生成换装视频。我们还采用高效的拉普拉斯金字塔融合技术,将生成的视频无缝地嵌入原始背景中。在训练阶段,我们采用了多任务学习策略,随机切换训练任务,充分利用了不同模态的互补优势,最终实现了卓越的生成效果。
此外,针对长视频生成,团队使用前一段视频最后一帧的潜表示作为后一段的初始帧,避免了因反复编码解码导致的误差累积,显著延长了视频质量明显下降前的持续时间。
实验验证:全方位展现
通用场景下的 SOTA 性能
与 SOTA 方法的全面对比
在定性对比中,面对 360 度旋转等复杂野外场景,现有方法(如 CatV²TON、MagicTryOn)常出现细节崩坏和模糊,而 DreamVVT 则能稳定生成时空平滑且细节逼真的结果。定量数据更有力地印证了这一点。在 ViViD-S 数据集上,我们的 VFID 和 LPIPS 等关键指标达到 SOTA。在更具挑战性的自建基准 Wild-TryOnBench 上,DreamVVT 在服装细节保留度(GP) 、物理真实感(PR) 和 时序一致性(TC) 三项人工评估中全面领先,展现了强大的泛化能力。
消融实验
1. 关键帧数量:将关键帧从 1 帧增至 2 帧,能为模型提供更丰富的服装与运动信息,显著提升了细节保真度与物理真实感,有效避免了伪影。
2. LoRA 微调:采用 LoRA 进行轻量化微调,相比全参数训练,能更好地继承预训练模型的文本控制能力,在不牺牲其他性能的前提下,显著增强了生成视频的物理真实感,尤其能够实现和服装的交互。
这些实验充分证明,DreamVVT 通过其创新的设计,在复杂场景下的视频虚拟试穿任务中取得了突破性的进展。
总结
DreamVVT 的出现,为视频虚拟试穿技术开辟了新的道路。它在复杂场景下的出色表现,标志着视频虚拟试穿技术正迈向成熟的商业应用,为电商和泛娱乐行业开启了无限的想象空间。
#扎克伯格看OpenAI直播挖人
北大校友孙之清加入Meta
给 Sam 的专业建议:直播选人要小心。
大家都是老朋友,在新 Lab 聚首了。
本周五,前 OpenAI 研究科学家,一个月前刚刚加入 Meta 的 Hyung Won Chung 晒出一张照片:
照片中的三人分别是 Hyung Won Chung、Zhiqing Sun(孙之清)与 Jason Wei。他们在 OpenAI 度过了一段愉快的时光后,都已加入 Meta 新成立的超级智能实验室(MSL)。
在新组建的团队里和众多顶尖人才一同从零开始,研究前沿 AI 技术,Hyung Won Chung 表示对未来感到兴奋。Hyung Won Chung 的推文立刻得到了画面中另外两人的转发,看起来在新的工作环境中,大家的心情都不错。
7 月 16 日,来自《连线》的记者刚刚爆料了思维链开山作者、OpenAI 研究科学家 Jason Wei 和 Hyung Won Chung 共同加入 Meta 的消息。他们都毕业于 MIT,曾在谷歌工作,现在已在 Meta 继续成为同事。
而这次当事人「自宣」,又让我们得知了另一位研究科学家孙之清的动向。
孙之清,2024 年 6 月正式加入 OpenAI 后训练团队。他 2025 年 2 月在卡耐基梅隆大学(CMU)完成了博士论文答辩,本科毕业于北京大学。在毕业前,他曾同时获得谷歌自然语言处理博士奖学金、微软加速基础模型研究计划(AFMR)奖学金,并被选为数据科学新星,在芝加哥大学新星研讨会上就可扩展算法发表过演讲。
在 OpenAI 工作期间,孙之清参与了超级对齐项目的工作,并在最近成为了 ChatGPT Agent 的核心开发者。
值得关注的是,就在 7 月 17 号 OpenAI 进行 ChatGPT Agent 发布时,孙之清作为主讲人之一和山姆・奥特曼共同进行了直播。
当时就有人表示,在扎克伯格上亿美元挖人的情况下,东亚人面孔出现在直播画面中可能会被 Meta 盯上。没想到一个月之后,猜测果然成了现实。
现在,网友们已经开始玩梗。
在 GPT-5 发布后,或许还会有一些 OpenAI 的研究人员选择跳槽?
参考内容:
https://www.youtube.com/watch?v=1jn_RpbPbEc
https://x.com/hwchung27/status/1956092401854111934
#A multisynaptic spiking neuron for simultaneously encoding spatiotemporal dynamics
多突触神经元模型问世,国内团队打造类脑计算新引擎,登上《自然·通讯》
本文第一作者为范良伟,国防科技大学讲师。共同通讯作者分别为沈辉,国防科技大学教授;李国齐,中国科学院自动化研究所研究员、国家杰出青年基金获得者;胡德文,国防科技大学教授、国家杰出青年基金获得者、国防科技大学智能科学学院认知科学团队创始人和带头人,2012、2018 年两次获国家自然科学奖二等奖。
当前人工智能技术迅猛发展的同时,其高能耗问题也日益凸显。脉冲神经网络(Spiking Neural Networks, SNNs)被认为是一种更具生物合理性、能效更高的计算范式。
然而,目前业界仍缺乏一种在计算效率和生物合理性之间实现良好平衡的脉冲神经元模型,这成为制约 SNNs 发展与应用的关键问题之一。
具体而言,现有的脉冲神经元模型 —— 包括泄漏积分发放(Leaky Integrate-and-Fire, LIF)、自适应 LIF(Adaptive LIF, ALIF)、霍奇金-赫胥黎(Hodgkin-Huxley, HH)以及多室模型(Multi-compartment models)—— 主要关注于模拟神经元的动态行为,并假设神经元之间仅通过单个突触(即单通道)连接。
由于脉冲神经元的信息表示方式是二值化的,单通道连接方式使得 SNNs 难以同时编码输入信号的空间强度分布与时间动态性。这种信号编码过程中出现的信息损失使得 SNNs 在时空计算任务中的性能难以匹敌甚至超越连续值人工神经网络(ANNs)。
近日,国防科技大学智能科学学院胡德文课题组与中国科学院自动化研究所李国齐课题组合作提出了一种新型脉冲神经元模型——多突触发放(Multi-Synaptic Firing, MSF)脉冲神经元 (下图 1)。
图 1 多突触脉冲神经元模型
该神经元模型兼具生物合理性和计算高效性,可以同时编码输入信号的时空动态信息,在不增加计算延迟或显著功耗的前提下,能够实现高性能的类脑计算,相关研究在线发表于《自然・通讯》(Nature Communications)。
- 论⽂标题:A multisynaptic spiking neuron for simultaneously encoding spatiotemporal dynamics
- 作者:Liangwei Fan, Hui Shen, Xiangkai Lian, Yulin Li, Man Yao, Guoqi Li, and Dewen Hu
- 论⽂链接:https://www.nature.com/articles/s41467-025-62251-6
- 代码链接:https://github.com/fanliangwei/Multisynaptic-spiking-neurons
研究概览
本研究受到生物学中「多突触连接」现象的启发,即允许神经元的一个轴突在同一目标神经元上建立多个具有不同发放阈值的突触。这种现象在多种生物大脑中广泛存在,包括秀丽隐杆线虫、果蝇、小鼠、大鼠以及人类大脑。
通过这种结构,MSF 神经元可实现时空信息的同时编码:即借助不同突触的瞬时发放率和精确的脉冲时序来同时编码输入信号的空间强度分布与时间动态。
在理论层面上,该研究表明 MSF 神经元是一种通用且更精细的神经元抽象模型,传统的 LIF 神经元和经典的 ReLU 神经元可视作其在某些具体参数下的特例,从而揭示了 ANNs 与 SNNs 之间的内在联系。
更重要的是,该研究进一步通过理论推导得到了最优的突触阈值选择方案,并提供了误差反向传播训练替代梯度函数的参数优化准则,避免了深层 SNNs 模型训练时出现梯度消失或爆炸问题,使基于 MSF 神经元构建的 SNNs 可扩展至大规模、深层模型而不发生性能退化。
在实验层面上,该研究首先通过信号重建任务,揭示了 MSF 神经元可通过独立的频率编码与时间编码方式,同时编码输入信号的空间强度分布与时间动态特性(下图 2)。图片和视频重建结果表明,基于 MSF 神经元构建的脉冲自编码模型重建出的图像具有更好的纹理、颜色等细节信息。
图 2 信号重建任务
其次,在静态与动态识别、基于图像与事件流的目标检测、脑机接口以及强化学习等多个基准任务上的大量实验结果表明,MSF 神经元凭借其优越的时空编码能力,在不增加模型复杂度的前提下,性能相较于传统 LIF 神经元取得了显著提升。
特别地,在连续事件流的时空计算任务中,基于 MSF 神经元构建的 SNNs 甚至超越了基于 ReLU 神经元构建的、具有相同网络结构的 ANNs,并展现出更高的能效比(下图 3)。
图 3 静态和动态识别任务
研究团队已成功将 MSF 神经元模型部署于国产神经形态硬件平台,并在真实自动驾驶场景下完成事件驱动的目标检测任务,验证了其在类脑计算芯片的硬件兼容性(下图 4)。
有趣的是,实验还发现训练后的模型在突触数量分布上类似于观察到的人类大脑皮层,进一步印证了该模型具备一定的生物学合理性与可解释性。
图 4 神经形态硬件上的部署
总结
该成果推动了类脑计算向更复杂、更具自然智能的方向发展,为构建低功耗、高性能、可扩展的人工智能系统奠定了基础,有望加速 SNNs 在边缘计算与神经形态芯片等前沿领域中的实际落地与应用。
研究团队表示,未来将继续探索 MSF 神经元在更广泛任务中的应用潜力,助力人工智能技术迈向更加智能、绿色与可持续的发展方向。
论文其它作者还包括国防科技大学连祥凯、李昱霖,中国科学院自动化研究所姚满。相关工作得到了国家自然科学基金委重点项目、湖南省科技创新计划项目等项目的支持。
#DINOv3
Meta视觉基座DINOv3王者归来:自监督首次全面超越弱监督,商用开源
计算机视觉领域的大部分下游任务都是从二维图像理解(特征提取)开始的。
在特征提取、语义理解、图像分割等 CV 基本任务中的模型三幻神分别是 SAM、CLIP 和 DINO,分别代表了全监督、弱监督和自监督三大数据训练范式。
在人工智能领域,自监督学习(SSL)代表了 AI 模型无需人工监督即可自主学习,它已成为现代机器学习中的主流范式。自监督学习推动了大语言模型的崛起,通过在海量文本语料上的预训练,获得了通用表示能力。
相比于需要标注数据的 SAM 模型和依赖图像 - 文本对进行训练的 CLIP 模型,基于自监督学习的 DINO 具备有直接从图像本身生成学习信号的优势,数据准备门槛更低,更容易实现更大规模的数据学习以达到更精细的图像特征,泛化性更强。
2021 年,Meta 发布 DINO,它基于 ViT 构建,在无需标注的情况下可以学习到语义分割、对象检测等任务中高可用的特征,填补了 SAM 模型在计算机视觉下游任务的空白。
2023 年,DINOv2 发布并开源,是 DINO 模型的改进版本。它采用了更大规模的数据,强调训练稳定性和通用性,支持线性分类、深度估计、图像检索等下游任务,效果逼近或超越弱监督方法。
DINOv2 不仅被 Meta 用作 ImageBind 等多模态模型的视觉表征基础,也在各类视觉相关研究工作中作为经典模型广泛使用。
DINOv2 数据处理管线图
虽然 DINOv2 已经存在两年之久,它仍然是 CV 领域最优秀的前沿图像模型之一,具有完善可扩展的 ViT 结构,但遗憾就遗憾在训练数据量不够大,在高分辨率图像密集特征的任务中仍不够理想。
今天,DINOv2 的两大遗憾彻底被补足了。Meta 正式推出并开源了 DINOv3,一款通用的、SOTA 级的视觉基础模型,同样采用了自监督学习训练,能够生成更高质量的高分辨率视觉特征。
DINOv3 首次实现:一个单一的冻结视觉骨干网络在多个长期存在的密集预测任务(如目标检测和语义分割)中超越了专业解决方案。
DINOv3 取得突破性性能的核心在于其创新的自监督学习技术,这些技术彻底摆脱了对标注数据的依赖,大幅降低了训练所需的时间与资源,使得训练数据扩展至 17 亿张图像,模型参数规模扩展至 70 亿。这种无标签方法适用于标签稀缺、标注成本高昂甚至不可能获取标注的应用场景。
从 DINO、DINO v2 到 DINOv3。
Meta 表示,其正以商业许可方式开源 DINOv3 的一整套骨干网络,其中包括基于 MAXAR 卫星图像训练的卫星图像骨干网络。同时,Meta 还开放了部分下游任务的评估头(task head),以便社区复现其结果并在此基础上拓展研究。此外还提供了示例笔记本,帮助开发者快速上手,立即开始构建基于 DINOv3 的应用。
对于 Meta 此次的新模型,网友调侃道,「我还以为 Meta 已经不行了,终于又搞出了点新东西。」
自监督学习模型的全新里程碑
DINOv3 实现了一个新的里程碑:首次证明自监督学习(SSL)模型在广泛任务上能够超越弱监督模型。尽管前代 DINO 模型已在语义分割、单目深度估计等密集预测任务中取得显著领先,DINOv3 的表现更胜一筹。
DINOv3 在多个图像分类基准上达到了与最新强大模型(如 SigLIP 2 和 Perception Encoder)相当或更优的性能,同时在密集预测任务中显著扩大了性能差距。
DINOv3 基于突破性的 DINO 算法构建而成,无需任何元数据输入,所需训练计算量仅为以往方法的一小部分,却依然能够产出表现卓越的视觉基础模型。
DINOv3 中引入的一系列新改进,包括全新的 Gram Anchoring 策略,有效缓解了密集特征的坍缩问题,相比 DINOv2 拥有更出色、更加干净的高分辨率密集特征图;引入了旋转位置编码 RoPE,避免了固定位置编码的限制,能够天然适应不同分辨率的输入等。
这些新的改进使其在多个高竞争性的下游任务中(如目标检测)取得了当前 SOTA 性能,即使在「冻结权重」这一严苛限制条件下也是如此。这意味着研究人员和开发者无需对模型进行针对性的微调,从而大大提高了模型在更广泛场景中的可用性和应用效率。
从数据整理(无标签原始图像、平衡的图像数据)、预训练(大规模自监督学习模型)、Gram Anchoring(改进的局部特征)、高分辨率微调(适用于高分辨率推理)和模型蒸馏(涵盖多种模型规模)。
DINOv3 作为通用视觉特征提取器的工作流程,以及它在不同下游任务中的应用方式。
高分辨率、密集特征与高精度
DINOv3 的一大亮点,是相比于已有模型在高分辨率图像以及密集图像特征上的进步,显著改善了 DINOv2 时期的痛点。
比如说这张图,是一张分辨率为 4096×4096 的水果摊图像。要从这里找出某种特定的水果,就算是肉眼看都有点晕…
而 Meta 可视化了 DINOv3 输出特征所生成的 余弦相似度图,展示了图像中某个被红色叉标记的 patch 与所有其他 patch 之间的相似度关系。
放大看看,是不是还挺准确的?
关于密集特征部分,Meta 通过以下方式可视化 DINOv3 的密集特征:对其特征空间执行主成分分析(PCA),然后将前三个主成分映射为 RGB 颜色通道。为使 PCA 聚焦于主体区域,Meta 对特征图进行了背景剔除处理。
随着图像分辨率的提升,DINOv3 能够生成清晰锐利且语义一致的特征图。
Meta 称,尽管自监督学习出现较晚,但其发展迅速,如今已追赶上近年来 ImageNet 上的精度上限。
可扩展、高效且无需微调
DINOv3 是在其前代 DINOv2 的基础上构建的,模型规模扩大了 7 倍,训练数据集扩大了 12 倍。为展现模型的通用性,Meta 在 15 个不同的视觉任务和超过 60 个基准测试上进行了评估。DINOv3 的视觉骨干模型在所有密集预测任务中表现尤为出色,展现出对场景布局与物理结构的深刻理解能力。
视频目标分割与跟踪评估结果
分割与跟踪示例
模型输出的丰富密集特征,能够捕捉图像中每一个像素的可量化属性或特征,并以浮点数向量的形式表示。这些特征能够将物体解析为更细粒度的组成部分,甚至能在不同实例和类别间进行泛化。
凭借这种强大的密集表示能力,Meta 可以在 DINOv3 上方仅用极少的标注训练轻量化的适配器 —— 只需少量标注和一个线性模型,就能获得稳健的密集预测结果。
进一步地,结合更复杂的解码器,Meta 展示了:无需对骨干网络进行微调,也能在长期存在的核心视觉任务上取得最先进的性能,包括目标检测、语义分割和相对深度估计。
由于在无需微调骨干网络的前提下也能实现 SOTA(最先进)性能,单次前向传播就可以同时服务多个任务,从而显著降低推理成本。这一点对边缘应用场景尤为关键,这些场景往往需要同时执行多项视觉预测任务。
易于部署的系列模型
将 DINOv3 扩展至 70 亿参数规模,展现了自监督学习(SSL)的全部潜力。然而,对于许多下游应用而言,70 亿参数的模型并不现实。基于社区反馈,Meta 构建了一个涵盖不同推理计算需求的模型家族,以便支持研究人员和开发者在各种使用场景中进行部署。
通过将 ViT-7B 模型进行蒸馏,Meta 得到了一系列更小但性能依旧出色的模型变体,如 ViT-B 和 ViT-L,使得 DINOv3 在多个评估任务中全面超越了同类的基于 CLIP 的模型。
此外,Meta 还推出了一系列蒸馏自 ViT-7B 的 ConvNeXt 架构模型(T、S、B、L 版本),它们能够满足不同的计算资源约束需求。与此同时,Meta 也将完整的蒸馏流程管线开源,以便社区在此基础上进一步开发与创新。
Meta「改变世界」的尝试
Meta 称,DINOv2 已经通过利用大量未标注数据,为组织在组织病理学、内窥镜检查和医学影像等领域的诊断和研究工作提供支持。
在卫星与航空影像领域,数据体量庞大且结构复杂,人工标注几乎不可行。借助 DINOv3,Meta 使这些高价值数据集能够用于训练统一的视觉骨干模型,进而可广泛应用于环境监测、城市规划和灾害响应等领域。
DINOv3 的通用性与高效性使其成为此类部署的理想选择 —— 正如 NASA 喷气推进实验室(JPL)所展示的那样,其已经在使用 DINOv2 构建火星探索机器人,实现多个视觉任务的轻量执行。
DINOv3 已经开始在现实世界中产生实际影响。世界资源研究所(WRI)正在使用 DINOv3 分析卫星图像,检测森林损失和土地利用变化。DINOv3 带来的精度提升使其能够自动化气候金融支付流程,通过更精确地验证修复成果来降低交易成本、加速资金发放,特别是支持小型本地组织。
例如,与 DINOv2 相比,DINOv3 在使用卫星与航空影像进行训练后,将肯尼亚某地区树冠高度测量的平均误差从 4.1 米降低至 1.2 米。这使得 WRI 能够更高效地扩大对数千名农户与自然保护项目的支持规模。
想要了解更多 DINOv3 细节的读者,请移步原论文。
- 论文地址:https://ai.meta.com/research/publications/dinov3/
- Hugging Face 地址:https://huggingface.co/docs/transformers/main/en/model_doc/dinov3
- 博客地址:https://ai.meta.com/blog/dinov3-self-supervised-vision-model/
#TN-AutoRCA
追剧不断网,可能背后有个AI在加班,故障诊断准度破91.79%
当你的手机突然没信号时,电信工程师在做什么?
想象一下这样的场景:某个周五晚上,你正在用手机追剧,突然网络断了。与此同时,成千上万的用户也遇到了同样的问题。电信运营商的监控中心瞬间被数百个告警信息淹没 —— 基站离线、信号中断、设备故障…
面对这样的 "告警风暴",传统的做法是什么?资深工程师凭借多年经验,在海量告警数据中抽丝剥茧,找出真正的故障根源。但这种方式不仅效率低下,还高度依赖个人经验,容易出现误判。
如果 AI 能够像经验丰富的工程师一样,快速准确地找出网络故障的根本原因,会怎样?
最近,一篇来自中兴通讯和中国移动的重磅论文给出了答案!
- 论文标题:TN-AutoRCA: Benchmark Construction and Agentic Framework for Self-Improving Alarm-Based Root Cause Analysis in Telecommunication Networks
- 论文链接:https://arxiv.org/pdf/2507.18190
问题的核心
电信网络故障诊断为什么这么难?
复杂性挑战
电信网络的故障诊断(专业术语叫 "根因分析",Root Cause Analysis,简称 RCA)面临着前所未有的挑战:
- 网络拓扑复杂:现代 5G 网络包含基带单元 (BBU)、射频拉远单元 (RRU)、核心网等多层设备,相互依赖关系错综复杂
- 告警风暴:一个根本故障可能触发数百个相关告警,如何从噪声中找到真正的原因?
- 实时性要求:网络中断每分钟都意味着巨大的经济损失,必须快速定位并修复
- 专业门槛高:需要深厚的领域知识和丰富的实战经验
AI 的困境
你可能会想:现在 AI 这么厉害,ChatGPT 都能写代码了,处理个网络故障还不简单?
现实很骨感。研究团队测试了包括 Gemini-2.5-Pro、Claude-3.5-Sonnet、Qwen3-235B 等在内的多个顶级大语言模型,结果令人意外:
即使是最强的模型,在电信网络故障诊断任务上的 F1 分数也只有 62.54%。
这意味着什么?简单来说,AI 的诊断准确率还不到 65%,距离实用化还有很大差距。
突破性解决方案
TN-RCA530 基准 + Auto-RCA 框架
面对这个挑战,研究团队提出了一套完整的解决方案(图),包含两个核心创新:
图 1 根因数据构建与根因推理过程
创新一:TN-RCA530 - 首个真实世界电信故障诊断基准
为什么需要新基准?
就像训练医生需要真实的病例库一样,训练 AI 诊断网络故障也需要大量真实的故障案例。但此前这个领域一直缺乏标准化的、大规模的真实数据集。
TN-RCA530 有什么特别?
- 真实性:530 个故障场景全部来自真实运营的电信基站
- 全面性:采用 "结果导向" 构建方法,从已知根因反推告警,确保覆盖全面
- 可验证性:每个场景都有专家验证的标准答案
- 难度分级:通过创新的 "循环一致性检查" 自动分级,94.5% 的场景被归类为 "困难" 级别
图 2:TN-RCA530 数据分布
创新二:Auto-RCA - 自主学习的 AI 代理框架
如果说 TN-RCA530 是 "考试题库",那么 Auto-RCA 就是 "超级家教"—— 它不是简单地让 AI 做题,而是教会 AI 如何从错误中学习,不断改进。
Auto-RCA 的核心理念:
- 传统方法:AI 直接分析 → 给出答案 → 结束
- Auto-RCA 方法:AI 分析 → 评估结果 → 找出错误模式 → 改进策略 → 再次尝试 → 循环优化
五大核心模块协同工作:
- 编排者 (Orchestrator):项目经理,统筹整个诊断流程
- 评估者 (Evaluator):测试工程师,量化诊断准确性
- 分析者 (Bad Case Analyzer):高级分析师,找出失败的共同模式
- LLM 代理 (Coder & Thinker):核心推理引擎,基于分析结果改进诊断逻辑
- 清理者 (Sanitizer):代码审查员,确保输出的可靠性
图 3:Auto-RCA 框架
迭代优化的 "秘密武器"
Auto-RCA 最大的创新在于对比反馈机制:
- 不是简单地告诉 AI"你错了"
- 而是分析所有错误案例,找出系统性问题
- 生成针对性的改进建议
- 指导 AI 修复根本逻辑缺陷,而非表面错误
实验结果
基线测试:顶级 AI 模型的真实水平
研究团队测试了 9 个主流大语言模型在 TN-RCA530 上的表现:
图 4:主流大模型评测结果
结论:即使是最强的模型,直接应用的准确率也不到 65%。
Auto-RCA 的惊人提升
当同样的模型在 Auto-RCA 框架下运行时,结果发生了戏剧性变化:
Gemini-2.5-Pro + Auto-RCA:
- 基线 F1 分数:58.99%
- Auto-RCA 优化后:91.79%
- 提升幅度:32.8 个百分点!
这意味着什么?诊断准确率从不到 60% 飙升到超过 90%,已经达到了实用化的水平!
不同难度场景的表现分析
- 简单场景:F1 分数 95.40%,几乎完美
- 困难场景:F1 分数 91.58%,在复杂情况下仍保持高准确率
- 综合表现:F1 分数 91.79%,全面超越人工诊断水平
图 5:Auto-RCA 评测结果
技术深度解析:为什么 Auto-RCA 这么强?
1. 知识图谱 + 大语言模型的完美结合
传统方法要么依赖规则引擎(灵活性不足),要么纯粹依赖机器学习(缺乏领域知识)。Auto-RCA 巧妙地将两者结合:
- 知识图谱:结构化表示设备拓扑和故障关系
- 大语言模型:提供强大的推理和学习能力
- 协同效应:结构化知识 + 灵活推理 = 最佳效果
2. 从 "点对点修复" 到 "系统性优化"
普通的 AI 修复方法:
- 错误 1 → 修复 1
- 错误 2 → 修复 2
- 错误 3 → 修复 3
Auto-RCA 的方法:
错误 1、错误 2、错误 3 → 分析共同模式 → 系统性修复 → 一次解决多类问题
3. 上下文窗口的关键作用
实验发现,Gemini-2.5-Pro 之所以表现最佳,很大程度上因为其 1M token 的超大上下文窗口,能够处理更多信息而不被截断。这提醒我们:对于复杂推理任务,模型的 "记忆容量" 至关重要。
实际应用价值与前景
立竿见影的商业价值
- 效率提升:从人工分析的小时级缩短到分钟级
- 成本降低:减少对资深专家的依赖,降低人力成本
- 准确性提高:91.79% 的准确率超越大多数人工诊断
- 24/7 可用:AI 不需要休息,可以全天候工作
更广阔的应用前景
电信领域:
- 5G 网络优化
- 网络容量规划
- 预防性维护
其他领域:
- 工业设备故障诊断
- 金融系统异常检测
- 医疗诊断辅助系统
对 AI 发展的启示
1. 领域专用 AI 的重要性
这项研究证明了一个重要观点:通用 AI 模型虽然强大,但在特定领域仍需要专门的框架和方法来发挥最大效用。
2. 代理架构的潜力
Auto-RCA 展示了 "AI 代理" 的强大潜力:
- 不是让 AI 更聪明,而是让 AI 更会学习
- 通过系统性的反馈机制实现持续改进
- 模块化设计确保系统的可扩展性和可维护性
3. 数据质量的决定性作用
TN-RCA530 的成功构建告诉我们:高质量的领域数据集是 AI 应用成功的基础。
写在最后:AI 赋能传统行业的新范式
这项研究不仅仅是一个技术突破,更是 AI 赋能传统行业的典型范例。它告诉我们:
- AI 不是万能的:直接应用通用模型往往效果有限
- 方法比模型更重要:合适的框架能让普通模型发挥超常效果
- 领域知识不可替代:AI 需要与专业知识深度融合
- 持续学习是关键:静态的 AI 无法应对动态的现实世界
当下一次你的手机信号出现问题时,也许背后就有这样的 AI 系统在默默工作,快速定位故障、恢复服务。这就是 AI 技术真正的价值所在 —— 让我们的数字生活更加稳定可靠。
更多推荐
所有评论(0)