我自己的原文哦~                                 https://blog.51cto.com/whaosoft/14116945

#OpenCUA

港大联手月之暗面等开源:人人可造专属电脑智能体

刚刚,一篇来自香港大学 XLANG Lab 和月之暗面等多家机构的论文上线了 arXiv,其中提出了一个用于构建和扩展 CUA(使用计算机的智能体)的完全开源的框架。具体来说,该框架包括:

一个用于捕获人类使用计算机的演示的注释工具

AgentNet,首个涵盖 3 个操作系统和 200 多个应用程序/网站的大规模数据集

一个将演示转化为具有长思维链推理的「状态-动作」对的工作流程

使用该框架,他们还构建了一个旗舰模型 OpenCUA-32B,其在 OSWorld-Verified 上达到了 34.8% 的成功率,创下了新的开源 SOTA,甚至在这个基准测试中超越了 GPT-4o。

更妙的是,他们完全公开了相关代码、数据和模型!

论文标题:OpenCUA: Open Foundations for Computer-Use Agents

论文地址:https://arxiv.org/abs/2508.09123

项目页面:https://opencua.xlang.ai/ (包含工具、模型、数据集)

值得注意的是,这项研究共有 6 位共一作者。项目负责人是香港大学计算机科学助理教授Tao Yu(余涛)。另外,月之暗面创始人和 CEO 杨植麟以及斯坦福大学计算机科学系助理教授杨笛一也在作者名单中。

下面我们就来详细看看这项研究。

OpenCUA 框架

下图展示了OpenCUA 框架概览。

图片

具体来说,OpenCUA 框架包含以下内容:AgentNet Tool,如左上角所示,可通过屏幕视频与操作流程捕捉跨操作系统的用户交互。右上角则展示了原始演示被处理成包含推理与历史的「状态–动作」轨迹。右下角展示了 AgentNet 数据集与基准,其中涵盖多样化的任务,并提供含黄金标准动作的离线评估。最后,左下角则是 OpenCUA 模型经过训练后,可在真实环境中执行计算机操作任务。

AgentNet 数据收集

OpenCUA 的目标是将使用桌面计算机的数据扩展到不同的计算机环境和用户场景。很自然地,该团队首先要做的是收集符合自然用户行为的演示,并尽量减少对用户与计算机交互方式的额外限制,以提高数据收集的可扩展性。

为此,他们开发了 AgentNet Tool 并收集了 AgentNet 数据集,这也是首个大规模桌面智能体任务数据集。

AgentNet Tool

AgentNet Tool 是一个跨平台的标注应用,可记录用户在 Windows、macOS 和 Ubuntu 上的交互。它可捕捉屏幕视频、鼠标/键盘操作以及相关元数据,从而实现对真实计算机使用演示的采集,而且这个方法是可以大规模扩展的。

图片

AgentNet Tool 标注和验证

该团队对原始用户演示进行了处理,得到了干净、可用于训练的「状态–动作」轨迹。生成的轨迹中包含「内心独白式」的思考与操作历史,适用于视觉-语言模型的训练。

原始演示包含高频的屏幕录制与细粒度交互信号(如鼠标移动、点击、滚动、按键等)。一个典型任务可能产生成千上万条底层动作记录,密度过高,训练效率低下。为解决这一问题,该团队提出两种技术方案:

1、 动作约简(Action Reduction)

这是该团队开发的一种基于规则的方法,可将密集动作信号约简为更少但更有意义的操作,同时保留必要信息。

将原子操作压缩为高阶操作;

鼠标移动被视为点击/拖拽的前置条件,仅保留起止位置;

滚动事件按方向合并,并累计滚轮数量;

连续按键合并为文本输入字符串,快捷键组合(如 CTRL+C)抽象为「热键动作」;

常见的多步手势(如拖拽、双击)也被整合为单一动作。

约简后的动作序列与 pyautogui 动作空间对齐(详见表 1)。

图片

表1:人类操作与对应智能体动作函数

2、状态–动作匹配(State-Action Matching)

为了将每个动作 a_i 配对至代表性状态 s_i,该团队从屏幕录制中提取关键帧,捕捉动作发生前的系统状态。但如果关键帧直接与鼠标点击时间戳对齐,可能泄露未来信息(例如:鼠标已悬停在按钮上,预测将变得过于容易)。

为避免该问题,他们的做法是在处理鼠标点击时,回溯至鼠标开始移动前的阶段,并向前搜索最后一个视觉上有明显变化的帧,作为该动作的起始状态。任务结束后,再附加一个终止帧及对应的「结束动作」。

AgentNet 数据集与测试基准

最终,他们得到了 AgentNet 数据集和 AgentNetBench 基准测试集。

数据集涵盖了来自 140 多款应用和 190 多个网站的多样化开放领域任务,任务涉及多应用协作流程、专业工具操作以及非通用功能的使用。基准提供任务指令、步骤历史及每一步的多个黄金标准动作,便于高效的离线评估。

图片

图 4:AgentNet 数据集中任务的领域分布

该数据集共包含 22,625 条人工标注的计算机使用任务,其中约 12,000 条来自 Windows,5,000 条来自 macOS,5,000 条来自 Ubuntu,支持的屏幕分辨率范围从 720p 到 4K。每条轨迹的平均步骤为 18.6 步,体现了任务本身的复杂性。

下面展示了一个示例:

,时长02:21

如表 2 所示,与现有的 GUI 数据集相比,AgentNet 是首个具备真实性、复杂性、多样性与多模态特征的桌面端轨迹级数据集。

图片

表2:AgentNet 数据集与现有GUI数据集对比

为实现稳定、快速且无需依赖环境配置的评估,他们还构建了 AgentNetBench ——一个离线的计算机使用智能体评估基准。

图片

该基准是从 AgentNet 数据集中精选出 100 个具有代表性的任务构成的,涵盖 Windows 与 macOS 平台,任务内容横跨多个应用领域。

该团队表示,每个任务均经过人工审查,明确任务目标并剔除冗余操作。值得注意的是,考虑到计算机操作任务中天然存在多种合理操作路径,他们还在每个步骤上手动提供了多个有效动作选项,以提升评估的灵活性与真实性。

OpenCUA 模型

基于上述数据集,该团队打造了 OpenCUA 智能体模型,其结合了反思式思维链推理、多图像历史以及跨领域数据。模型能够在多个操作系统的真实桌面环境中执行计算机操作任务。

图片

值得注意的是,他们还设计了一条新颖的处理流程,用于为每个任务步骤增强反思式长思维链(reflective long CoT):「生成器」(generator)与「反思器」(reflector)会以迭代方式生成并验证推理过程中,在观察信息与真实动作(ground-truth actions)之间的各个组件。

实验结果与分析

实验基于多个开源的视觉-语言模型进行,包括:KimiVL-A3B 、Qwen2-VL-7B-Instruct、Qwen2.5-VL-7B-Instruct 和 Qwen2.5-VL-32B-Instruct。

其中,KimiVL-A3B 采用了混合专家(MoE)架构,拥有总计 16B 参数,在训练与推理时激活参数为 3B,具备一定的计算机操作能力,如对象定位与任务规划。

Qwen2-VL 与 Qwen2.5-VL 是通用型视觉-语言模型(VLM),其中 Qwen2.5-VL 在数字智能体任务中表现更强,特别擅长高分辨率场景的理解。

该团队对上述模型进行了监督微调,得到多个 OpenCUA 模型变体:OpenCUA-A3B、OpenCUA-Qwen2-7B、OpenCUA-7B 和 OpenCUA-32B。

然后,他们在以下多个基准上对这些模型进行了评估,包括在线评估基准、离线智能体评估基准以及GUI 定位能力评估基准。

在线智能体评估

  1. OSWorld-Verified:OSWorld 最初收集整理了 369 个人工构建的任务,涵盖大量应用程序,并配有对应的环境配置与评估脚本。OSWorld 团队近期对这些任务进行了验证,修复了因依赖过期、评估错误或指令不清导致无法测试的项目,并将改进后的基准发布为 OSWorld-Verified 。评估结果通过 OSWorld 团队部署在 AWS 基础设施上的公开评估平台获得,结果列于表 3。
  2. WindowsAgentArena (WAA) :该基准包含 154 个以 Windows 为中心的任务,涵盖原生 Windows 应用以及若干出现在 OSWorld 中的开源程序,能有效反映智能体在 Windows 系统上的在线性能。

图片

表 3:OSWorld-Verified 评估结果

从结果上看,OpenCUA-32B 在所有开源模型中取得了最佳表现,平均成功率达 34.8%,大幅领先于此前的各类基线模型。同时,它显著缩小了与闭源智能体的性能差距,甚至超越了 OpenAI CUA。这一结果充分证明了OpenCUA 训练流程在可扩展性与性能上的优势。

离线智能体评估

离线评估使用了 AgentNetBench,这是该团队创建的 CUA 离线评估基准,其中包含 100 个具有代表性任务,覆盖 Windows 与 macOS 上的多个领域。结果如下表所示。

图片

表 4:AgentNetBench 上,各个 CUA 的性能表现

可以看到,OpenCUA-32B 的整体表现最佳,但 OpenAI CUA 在Function action成功率上的表现有明显优势。

GUI 定位能力评估

该团队也评估了模型在图形用户界面(GUI)中将自然语言指令映射到具体操作的能力,这里使用了三个基准:OSWorld-G、Screenspot-V2、Screenspot-Pro 

其中,OSWorld-G 包含 564 个样本,系统性地覆盖了文本匹配、界面元素识别、布局理解以及细粒度操作控制等任务,并提供了解决每个任务所需的界面元素类型注释。Screenspot-V2 包含来自 移动端、桌面端与网页端的截图,旨在评估跨平台场景下的 GUI 理解能力。Screenspot-Pro 则聚焦于高分辨率桌面环境,尤其强调在专业应用场景中的表现能力。

图片

图片

OpenCUA 模型在三个基准测试上的 GUI 定位性能,并与 Qwen2.5-VL 模型和 UI-TARS 进行了对比。

可以看到,新提出的方法能够随着训练数据规模的扩大而有效提升模型性能。

较高的 Pass@N 表现表明,OpenCUA-7B 在测试阶段具备良好的扩展潜力(test-time scaling),即在允许更多尝试次数或更长推理路径的情况下,其性能仍可进一步显著提升。

图片

OpenCUA-Qwen2-7B 在 OSWorld 基准上的 Pass@N 性能曲线(temperature = 0.1)

图片

OpenCUA-Qwen2-7B 在 OSWorld 基准上的 Pass@N 性能曲线(temperature = 0)

总结

OpenCUA是一个面向计算机使用智能体(CUA)开发的全面开源框架,填补了该领域的关键空白。通过提供标注基础设施、数据处理流水线、多样化数据集、高效训练策略和系统评估基准,为 CUA 研究奠定了基础性支撑。

其得到的模型在多个基准任务中表现优异,同时呈现出明确的数据 Scaling Law与跨领域泛化能力。通过完整开源工具链(包括工具、数据集、代码与模型),该团队表示希望加速透明、可验证的 CUA 研究,使社区能够系统性地探索此类智能体的能力、局限性与风险。

....

#下一代 Rubin 平台

黄仁勋CES放出大杀器:下一代Rubin架构推理成本降10倍

「每隔 10 到 15 年,计算行业就会革新一次,每次都会催生出新形态的平台。现在,有两个转变在同时进行:应用将会构建于 AI 之上,你构建软件的方式也将改变。」

就在今天凌晨,在拉斯维加斯 CES 2026 展会现场,英伟达创始人黄仁勋身穿经典皮衣现身!

图片

黄仁勋展示的第一张幻灯片是:「人工智能的发展超越了大型语言模型。」

随着大语言模型技术的进步,未来的物理世界 AI 将可以理解真实世界的结构,独立完成任务,并随着时间的推移进行学习。他表示,「宇宙中任何存在信息、任何存在结构的地方」都可以用来训练人工智能。

图片

老黄分享了下一代加速计算与人工智能将如何变革每一个行业,并一一介绍了英伟达在芯片、人工智能模型、开源开放等领域的最新进展,主要包括如下:

  • 下一代 Rubin 平台;
  • 全新的视觉 - 语言 - 动作模型(VLA)——Alpamayo 1;
  • 面向物理 AI 的新开放模型、框架和 AI 基础设施。

不仅包括新一代 GPU,也有引领业界的开源 AI 模型。可见到了 2026 年,英伟达正准备以全栈的形式引领技术发展。

Rubin 平台问世 —— 六款全新芯片,一台划时代 AI 超算

图片

首先,最引人关注的是下一代计算架构 ——NVIDIA Rubin 平台,刚刚推出的六款全新芯片,目标是构建一台在成本、性能与安全性上全面领先的 AI 超级计算机,加速 AI 在主流场景中的落地。

这六款芯片包括:NVIDIA Vera CPU、NVIDIA Rubin GPU、NVIDIA NVLink 6 Switch、NVIDIA ConnectX-9 SuperNIC、NVIDIA BlueField-4 DPU 和 NVIDIA Spectrum-6 Ethernet Switch,极致的协同设计,将大幅缩短训练时间,降低推理 Token 成本。

图片

「Rubin 的到来恰逢其时,因为训练和推理的 AI 计算需求正在激增,」黄仁勋表示,「我们以每年一代 AI 超级计算机的节奏持续前进,而 Rubin 通过六款全新芯片的极致协同设计,向 AI 的下一个前沿迈出了关键一步。」

据了解,Rubin 平台以美国天文学家 Vera Florence Cooper Rubin 命名,她的研究彻底改变了人类对宇宙的认知。该平台包括 NVIDIA Vera Rubin NVL72 机架级解决方案和 NVIDIA HGX Rubin NVL8 系统。

图片

Rubin 平台引入了五项创新,包括最新一代 NVIDIA NVLink 互连技术、Transformer 引擎、机密计算和 RAS 引擎,以及 NVIDIA Vera CPU。这些突破将加速智能体 AI、高级推理和大规模混合专家(MoE)模型推理,其每 Token 成本比 NVIDIA Blackwell 平台低高达 10 倍。与前代产品相比,NVIDIA Rubin 平台训练 MoE 模型所需的 GPU 数量减少了 4 倍,从而加速了 AI 普及。

专为扩展智能而生

智能体 AI 和推理模型,以及最先进的视频生成工作负载,正在重新定义计算的极限。多步问题解决需要模型在长序列 Token 中处理、推理和行动。旨在满足复杂 AI 工作负载需求的 Rubin 平台包含五项突破性技术:

  • 第六代 NVIDIA NVLink:提供当今大规模 MoE 模型所需的快速、无缝的 GPU 到 GPU 通信。每个 GPU 提供 3.6TB/s 的带宽,而 Vera Rubin NVL72 机架总带宽高达 260TB/s,比整个互联网的带宽还多。凭借用于加速集体操作的内置网内计算,以及用于增强可维护性和弹性的新功能,NVIDIA NVLink 6 switch 可实现更快、更高效的大规模 AI 训练和推理。
  • NVIDIA Vera CPU:专为智能体推理设计的 NVIDIA Vera 是大型 AI 工厂中最节能的 CPU,采用 88 个英伟达自研 Olympus 核心,完全兼容 Armv9.2,并具有超快的 NVLink-C2C 连接。Vera 提供卓越的性能、带宽和行业领先的效率,可支持全方位的现代数据中心工作负载。
  • NVIDIA Rubin GPU:配备具有硬件加速自适应压缩的第三代 Transformer 引擎,Rubin GPU 可为 AI 推理提供 50 petaflops 的 NVFP4 计算能力。
  • 第三代 NVIDIA 机密计算:Vera Rubin NVL72 是首个提供英伟达机密计算的机架级平台,可在 CPU、GPU 和 NVLink 域之间维护数据安全,保护全球最大的专有模型、训练和推理工作负载。
  • 第二代 RAS 引擎:Rubin 平台涵盖 GPU、CPU 和 NVLink,具有实时健康监测、容错和主动维护功能,可最大限度地提高系统生产力。机架的模块化、无线缆设计使组装和维护速度比 Blackwell 快高达 18 倍。

AI 原生存储和安全、软件定义基础设施

Rubin 平台引入了 NVIDIA 推理上下文内存存储平台,这是面向千亿级推理上下文规模(gigascale) 设计的新一代 AI 原生存储架构。

该平台由 NVIDIA BlueField-4 驱动,可在 AI 基础设施中实现 KV Cache 数据的高效共享和重用,提高响应能力和吞吐量,同时实现可预测、能效友好的智能体 AI 扩展。

BlueField-4 还引入了高级安全可信资源架构(ASTRA),这是一种系统级信任架构,可为 AI 基础设施构建者提供统一、可信的控制点,以便在不影响性能的情况下安全预置、隔离和操作大规模 AI 环境。

随着 AI 应用向多轮智能体推理发展,AI 原生组织必须在用户、会话和服务之间管理和共享更多推理上下文。

针对不同工作负载的不同形态

NVIDIA Vera Rubin NVL72 提供了一个统一、安全的系统,集成了 72 个 NVIDIA Rubin GPU、36 个 NVIDIA Vera CPU、NVIDIA NVLink 6、NVIDIA ConnectX-9 SuperNIC 和 NVIDIA BlueField-4 DPU。

英伟达还将推出 NVIDIA HGX Rubin NVL8 平台,这是一款服务器主板,可通过 NVLink 连接八个 Rubin GPU,以支持基于 x86 的生成式 AI 平台。HGX Rubin NVL8 平台可加速 AI 和高性能计算工作负载的训练、推理和科学计算。

NVIDIA DGX SuperPOD 可作为大规模部署基于 Rubin 系统时的参考,它集成了 NVIDIA DGX Vera Rubin NVL72 或 DGX Rubin NVL8 系统,并搭配 NVIDIA BlueField-4 DPU、NVIDIA ConnectX-9 SuperNIC、NVIDIA InfiniBand 网络和 NVIDIA Mission Control 软件。

NVIDIA Spectrum-6 以太网是下一代 AI 网络以太网,旨在以更高的效率和更强的弹性扩展基于 Rubin 的 AI 工厂,并由 200G SerDes 通信电路、共封装光学器件和 AI 优化结构提供支持。

基于 Spectrum-6 架构,Spectrum-X 以太网光子共封装光交换系统可为 AI 应用提供 10 倍的可靠性和 5 倍的更长正常运行时间,同时实现 5 倍的更高能效,与传统方法相比,每瓦性能最大化。Spectrum-XGS 以太网技术是 Spectrum-X 以太网平台的一部分,可使相距数百公里甚至更远的设施作为一个统一的 AI 环境运行。

这些创新共同定义了下一代 NVIDIA Spectrum-X 以太网平台,该平台采用与 Rubin 极致协同设计,旨在实现大规模 AI 工厂,并为未来的百万 GPU 环境铺平道路。 Rubin 准备就绪

NVIDIA Rubin 已全面投产,基于 Rubin 的产品将于 2026 年下半年通过合作伙伴上市。

首批在 2026 年部署基于 Vera Rubin 实例的云服务提供商包括 AWS、Google Cloud、微软和 OCI,以及英伟达云合作伙伴 CoreWeave、Lambda、Nebius 和 Nscale。

CoreWeave 将与英伟达合作,帮助 AI 领域的先驱者充分利用 Rubin 在推理和 MoE 模型方面的进步,此外,思科、戴尔、HPE、联想和 Supermicro 预计将推出基于 Rubin 产品的服务器。

包括 Anthropic、Black Forest、Cohere、Cursor、Harvey、Meta、Mistral AI、OpenAI、OpenEvidence、Perplexity、Runway、Thinking Machines Lab 和 xAI 在内的 AI 实验室正在寻求利用 NVIDIA Rubin 平台来训练更大、功能更强大的模型,并以比前几代 GPU 更低的延迟和成本运行长上下文、多模态系统。

增强自动驾驶推理, Alpamayo 1 开源模型来了

英伟达认为,下一代面向 L4 的自动驾驶方案,需要基于拥有强推理性能的 VLA 模型。

英伟达今日发布了 NVIDIA Alpamayo 系列开源 AI 模型、仿真工具及数据集,旨在加速下一代安全、基于推理的自动驾驶汽车(AV)开发。

图片

自动驾驶汽车必须在极其广泛的驾驶条件下安全运行。那些稀少且复杂的场景(通常被称为「长尾问题」),依然是自动驾驶系统安全掌控的最严峻挑战之一。

传统的自动驾驶架构将感知与规划分离,当遇到全新或异常情况时,这种方式会限制系统的可扩展性。

虽然端到端学习在近期取得了显著进展,但要克服这些长尾极端案例,仍需要模型能够针对因果关系进行安全推理,尤其是在情况超出模型训练经验时。

Alpamayo 系列引入了基于思维链推理的视觉语言动作(VLA)模型,为自动驾驶决策带来了类似人类的思考方式。

这些系统可以分步骤思考新颖或罕见的场景,从而提升驾驶能力和可解释性。可解释性对于增强智能汽车的信任度与安全性至关重要。此外,该系列还得到了英伟达 Halos 安全系统的底层支持。

黄仁勋表示:「物理 AI 的 ChatGPT 时刻已经到来,机器开始理解、推理并对现实世界采取行动。」

他接着说,Alpamayo 为自动驾驶汽车带来了推理能力,使它们能够思考罕见场景,在复杂环境中安全驾驶,并解释其驾驶决策。这些都是实现安全、可扩展自主驾驶的基石。

构建基于推理的自主驾驶完整开源生态

Alpamayo 将三大支柱(开源模型、仿真框架和数据集)整合为一个内聚的开放生态系统,任何汽车开发商或研究团队都可以在此基础上进行开发。

不过,Alpamayo 模型并非直接在车端运行,而是作为大规模的「教师模型」。开发者可以对其进行微调和蒸馏,转化为各自完整自动驾驶技术栈的核心骨架。

Alpamayo 1:全球首个面向自动驾驶汽车的开源大规模推理视觉语言动作(VLA)模型,不仅能让车辆深度理解周围环境,还能对其采取的驾驶行为给出合理解释。现已在 Hugging Face 上线。

Alpamayo 1 采用 100 亿参数架构,通过视频输入生成行驶轨迹及推理痕迹,展示每项决策背后的逻辑。开发者可以将 Alpamayo 1 改编为适合车辆开发的小型运行模型,或将其作为自动驾驶开发工具(如基于推理的评估器和自动标注系统)的基础。

Alpamayo 1 提供开放的模型权重和开源推理脚本。该系列未来的模型将具备更大的参数量、更详细的推理能力、更灵活的输入输出选项以及商业化用途。

AlpaSim:一个完全开源的端到端高保真自动驾驶开发仿真框架,可在 GitHub 上获取。它提供逼真感知的传感器建模、可配置的交通动态以及可扩展的闭环测试环境,能够实现快速验证和策略优化。

物理 AI 开源数据集:英伟达提供了最多样化的大规模自动驾驶开源数据集,包含超过 1700 小时的驾驶数据。这些数据采集自极其广泛的地域和环境,涵盖了对于推进推理架构至关重要的稀有且复杂的现实极端案例。这些数据集现已在 Hugging Face 上线。

这些工具共同构成了一个自我强化的开发闭环,助力构建基于推理的自动驾驶技术栈。

Alpamayo 已经得到了自动驾驶行业的广泛支持。包括 Lucid、捷豹路虎(JLR)、Uber 和 Berkeley DeepDrive 在内的出行领军者,都对利用 Alpamayo 开发基于推理的自动驾驶技术栈表示了浓厚兴趣,以实现 L4 级自动驾驶。

在 Keynote 上,老黄展示了奔驰新款 CLA 在旧金山市区点到点的全自动驾驶,英伟达表示,国内的一些汽车厂商如吉利和小米也会在晚些时候接入英伟达的智能驾驶模型。

全新物理 AI 模型,与全球合作伙伴推出新一代机器人

图片

英伟达宣布推出针对物理人工智能(Physical AI)的全新开源模型、框架及 AI 基础设施,并携手全球合作伙伴展示了涵盖各行各业的机器人。

这些新技术加速了机器人开发全生命周期的工作流,助力开启下一波机器人浪潮,其中包括构建能够快速学习多项任务的通用型专家机器人。 

包括波士顿动力、Caterpillar、Franka Robotics、Humanoid、LG 电子和 NEURA Robotics 在内的全球行业领军企业,正利用英伟达机器人技术栈推出全新的 AI 驱动型机器人。

黄仁勋表示:机器人的「ChatGPT 时刻」已经到来。物理 AI 领域的突破 —— 即能够理解现实世界、进行推理并规划行动的模型 —— 正在开启全新的应用场景。

图片

新型开放模型推动机器人学习与推理

将当今成本高昂、任务单一且编程困难的机器转变为具有推理能力的通用型专家机器人,需要巨大的资本投入和构建基础模型的专业知识。 

英伟达正在构建开源模型,让开发者能够绕过耗费资源的预训练阶段,专注于创造下一代 AI 机器人。这些模型均可在 Hugging Face 上获取,包括:

NVIDIA Cosmos Transfer 2.5 与 NVIDIA Cosmos Predict 2.5:开源、完全可定制的世界模型,可生成符合物理定律的合成数据,并在模拟环境中对物理 AI 的机器人策略进行评估。

NVIDIA Cosmos Reason 2:一款开源推理视觉语言模型(VLM),使智能机器能够像人类一样观察、理解并在物理世界中采取行动。 

NVIDIA Isaac GR00T N1.6:一款专为人形机器人设计的开源推理视觉语言动作(VLA)模型,可实现全身控制,并利用 NVIDIA Cosmos Reason 获得更好的推理和情境理解能力。

助力机器人开发的全新开源模拟与计算框架

可扩展的模拟对于机器人的训练和评估至关重要,但当前的工作流依然零散且难以管理。基准测试通常依赖人工,难以规模化,而端到端流水线则需要在不同的计算资源之间进行复杂的协调。 

英伟达今日在 GitHub 上发布了全新的开源框架,简化了这些复杂的流程,加速了从研究到实际应用场景的转化。 

NVIDIA Isaac Lab-Arena 是一个在 GitHub 上提供的开源框架,为模拟环境中的大规模机器人策略评估和基准测试提供了一个协作系统,其评估层和任务层是与 Lightwheel 紧密合作设计的。它连接了 Libero 和 Robocasa 等行业领先的基准,实现了测试标准化,确保机器人技能在部署到物理硬件之前稳健可靠。

图片

Isaac Lab-Arena 框架概览

NVIDIA OSMO 是一款云原生编排框架,将机器人开发统一到一个易于使用的中心控制台中。OSMO 允许开发者在从工作站到混合云实例的不同计算环境中,定义并运行合成数据生成、模型训练及软件在环测试等工作流,从而缩短开发周期。 

OSMO 正在被 Hexagon Robotics 等开发者使用,并已集成到微软 Azure Robotics Accelerator 工具链中。

图片

OSMO 框架概览

携手 Hugging Face 加速开源物理 AI 发展

机器人目前是 Hugging Face 上增长最快的类别,英伟达的开源模型和数据集在蓬勃发展的开源社区中下载量遥遥领先。

为了进一步支持该社区,英伟达正与 Hugging Face 合作,将开源的 Isaac 和 GR00T 技术集成到领先的 LeRobot 开源机器人框架中,提供更便捷的软硬件工具访问,加速端到端开发。

此次合作将英伟达的 200 万机器人开发者与 Hugging Face 的 1300 万 AI 构建者连接在一起。 GR00T N 系列模型和 Isaac Lab-Arena 现已在 LeRobot 库中上线,方便用户进行微调和评估。

Hugging Face 的开源人形机器人 Reachy 2 将与 NVIDIA Jetson Thor 机器人计算机完全互操作,支持开发者运行包括 GR00T N1.6 在内的任何 VLA 模型。

此外,Hugging Face 的开源桌面机器人 Reachy Mini 也与 NVIDIA DGX Spark 完全互操作,可利用本地运行的英伟达大语言模型、语音及视觉模型构建自定义体验。

人形机器人开发者采用 NVIDIA Jetson Thor

NVIDIA Jetson Thor 能够满足人形机器人推理所需的庞大算力。在 CES 上,人形机器人开发者展示了集成 Jetson Thor 的最新顶尖机器人。 

其中,NEURA Robotics 推出了保时捷设计的三代人形机器人,以及一款针对灵巧控制优化的迷你人形机器人。Richtech Robotics 推出了 Dex,这是一款可在复杂工业环境中进行精细操作和导航的移动人形机器人。

智元机器人(AGIBOT)介绍了面向工业和消费领域的人形机器人,以及集成了 Isaac Sim 的机器人仿真平台 Genie Sim 3.0。

LG 电子则展示了一款旨在执行多种室内家务的新型家用机器人。 波士顿动力、Humanoid 和 RLWRLD 均已将 Jetson Thor 集成到现有人形机器人中,以增强其导航和操作能力。

更多细节信息请参考英伟达官方博客。

参考链接:

​https://nvidianews.nvidia.com/news/alpamayo-autonomous-vehicle-development​

​https://nvidianews.nvidia.com/news/rubin-platform-ai-supercomputer​

​https://nvidianews.nvidia.com/news/nvidia-releases-new-physical-ai-models-as-global-partners-unveil-next-generation-robots?linkId=100000401170428​

​https://www.youtube.com/watch?v=0NBILspM4c4&t=3s​

....

#OpenVE-3M

浙大联手字节:开源大规模指令跟随视频编辑数据集

本文的作者分别来自浙江大学和字节跳动。第一作者何昊阳是来自浙江大学的博士生,研究方向聚焦于视频生成与编辑。通讯作者为浙江大学谢磊教授。

亮点总结

  1. 作者提出了一个大规模、高质量、多类别的指令跟随的视频编辑数据集 OpenVE-3M,共包含 3M 样本对,分为空间对齐和非空间对齐 2 大类别共 8 小类别。
  2. 作者提出了稳定的高质量、多类别的指令跟随视频编辑数据构造管线,确保编辑质量的同时具有多样性,促进社区研究。
  3. 作者提出了一个高效且有效的指令跟随视频编辑模型 OpenVE-Edit,仅 5B 的参数量实现了 SoTA 并超过了现有开源 14B 模型效果。
  4. 作者提出了一个通用的、多类别且充满挑战的指令跟随视频编辑评测集,它从 3 个关键维度评估模型在各个类别上的性能并与人类评价高度对齐。
  • 论文标题:OpenVE-3M: A Large-Scale High-Quality Dataset for Instruction-Guided Video Editing
  • 论文链接:https://arxiv.org/abs/2512.07826
  • 项目主页:https://lewandofskee.github.io/projects/OpenVE/

1. 研究动机

现有指令遵循的视频编辑数据集如 InsViE-1M、Senorita-2M、Ditto-1M 主要存在数据集规模小、编辑类型少、编辑指令短和编辑质量差四个问题。表 1 展示了现有开源视频编辑数据集的定量分析,其中尽管 VIVID 有 10M 的数据规模,但是其只提供了掩码视频而没有编辑后视频导致无法直接训练。而 InsViE-1M、Senorita-2M、Ditto-1M 三个数据集只有 1 或 2M 的样本数,并且编辑种类较少。

图片

表 1: 与当前指令跟随视频编辑数据集的比较。Cat./Avg. Ins. Lgth 分别指类别 / 平均指令长度

图 2 (a) 展示了编辑指令长度的分布,InsViE-1M、Senorita-2M 的平均编辑指令的单词长度较少平均只有 4 个单词,无法很好的提供准确的编辑指令信息影响编辑效果。为了判断指令跟随的视频编辑数据集的质量,作者将原始视频、编辑后视频和编辑指令输入至 Gemini 2.5 Pro 中并在 Consistency & Detail Fidelity, and Visual Quality & Stability 三个层面进行 1 到 5 打分,其中后两者的得分不应该超过前者。将每个数据集中的每个类别随机挑选 50 个编辑对进行评测,最终得分分布如图 2 (b) 所示。

InsViE-1M、Senorita-2M 数据集尽管在 5 分也有较高的分布,但是其为 1 分的 bad case 占比也很高,导致数据集的平均质量得分偏低。Ditto 数据集也有着不错的质量但是其主要编辑类型为风格的变换,编辑种类还不够丰富。综上所述,目前还缺少大规模、高质量、多种类的指令跟随的视频编辑数据集。

图片

图 2: OpenVE-3M 与当前开源视频编辑数据集的视频统计数据比较

因此,作者提出了一个大规模、高质量、多类别的指令跟随视频编辑数据集 OpenVE-3M。其共包含 3M 个样本,分为空间对齐和非空间对齐两类,其中空间对齐指的是编辑后视频和原始视频在空间和时序上具有一致的运动包括 Global Style, Background Change, Local Change, Local Remove, Local Add, and Subtitles Edit 共 6 类,非空间对齐指的是编辑后视频和原始视频在空间和时序上具有一致的主体但不一致的运动包括 Camera Multi-Shot Edit and Creative Edit 共 2 类。所有类别的可视化例子如图 1 所示。此外 OpenVE-3M 还具有最长的平均指令长度 40.6,分布均匀的视频帧数以及最高的视频编辑质量总平均分 3.86。

图片

图 1: 在同一个视频中演示来自所提出的 OpenVE-3M 数据集的八个不同类别

图片

图 3: OpenVE-3M 的类别和帧计数统计

2. OpenVE-3M 数据集构建

图片

图 4: 数据管道概述。第一阶段:旨在构建视频语料库并执行各种预处理步骤,为第二阶段做准备。第二阶段:重点在于利用一系列模型和工具,为每个类别生成编辑对。第三阶段:涉及对第二阶段生成的所有编辑对进行细粒度过滤,以仅保留高质量样本。

a. 第一阶段:视频预处理

图片

图 5: Stage1 视频数据预处理管道

b. 第二阶段:基于分类法的视频编辑和指令生成 

图片

图 6: Stage2 视频编辑数据构建流程的详细工作流程: Global Style, Local Change, Background Change, and Local Add

图片

图 7: Stage2 视频编辑数据构建流程的详细工作流程: Local Remove, Subtitles Edit, Camera Multi-shot Edit, and Creative Edit

c. 第三阶段:高质量视频编辑对过滤

对于所有类别的合成数据对作者针对每个类别精细设计了数据过滤管道。首先是每个类别视频编辑提示词的精细构建,共包含 3 大主要评测指标:指令遵循、Consistency & Detail Fidelity 和 Visual Quality & Stability,每个指标评分 1-5 分进行打分。

其中关键的是以指令遵循指标为得分上限,即后面两个指标的得分不能超过指令遵循指标。因为有许多视频编辑数据尽管视频质量高但完全没有被编辑,因此作者希望指令遵循是首要评判标准。随后作者将编辑指令、编辑前视频和编辑后视频输入到 VLMs 中进行打分。在此,作者人工挑选并打分了 300 个视频编辑对并与 3 个 VLMs 模型打分结果进行对比。将视频编辑对平均得分超过 3 分定义为正样本、小于等于 3 分为负样本。最终计算 Qwen3-VL-A3B 模型准确率为 61%,Intern3.5-VL-38B 模型准确率为 66%,Seed1.6-VL 准确率为 70%,Gemini2.5-Pro 准确率为 69%。但是受限于 Seed1.6-VL 和 Gemini2.5-Pro 的 API TPM 的限制,作者最终选用 Intern3.5-VL-38B 模型用于打分并过滤所有得分大于 3 分的视频编辑对。

3. OpenVE-Edit 指令跟随视频编辑模型

图片

图 8: OpenVE-Edit 的整体架构。(a) OpenVE-Edit 的架构。(b) MoE-Connector 模块的详细结构。

OpenVE-Edit 创新点:

  • 仅用 T5 特征只能得到字面意思的指令编辑表示而不能获取更高维度的指令与视觉语义空间关系表示。因此,作者将输入原始视频和编辑指令一同输入到多模态大模型中,这使模型能够捕捉更高维度编辑指令和视觉特征之间的语义与空间关系。
  • 为了应对多样化视频编辑的各种不同需求,任务异质性在使用单一模型时会导致参数效率低下,因为共享参数会将易受干扰的表征内化,从而导致专业化程度不理想并增加参数数量。因此,基于多任务感知的 MoE-Connector 模块被设计用于同时应对图像和视频不同编辑类型。
  • 由于现有的视频生成模型都已经经过大规模的数据预训练,而 MoE-Connector 在训练开始时是随机初始化的。如果它直接输出一堆无意义的「噪声」视觉特征给下游模型,很可能会严重干扰下游模型的稳定状态,导致训练崩溃或收敛缓慢。因此,为了降低训练难度,提高训练效率,受 ControlNet 工作的启发,作者将 MoE-Connector 最后一个 MLP 层初始化权重为全零。并将其输出的特征与原本编辑指令通过 T5 得到的特征在通道维度拼接起来。这样,T5 特征在训练的第 0 步完全不会被新加的模块所影响。

4. OpenVE-Bench 指令跟随视频编辑评测

现在还没有一个通用的并且与人类评价高度对齐的指令跟随的视频编辑评测。因此,作者提出了 OpenVE-Bench,一个人工精心挑选包含 8 类别共 431 条编辑对的评测集,并且对于每个类别均精心设计了 Instruction Consistency & Detail Fidelity, and Visual Quality & Stability 三个关键评测 Prompt,最终将编辑指令、原始视频、编辑后视频共同输入给 VLM 得到编辑分数。

5. 实验结果

a. 定量结果

作者对比了目前所有的视频编辑开源模型 VACE、OmniVideo、InsViE、ICVE、Lucy-Edit、DITTO 和闭源模型 Runway Aleph,在使用 80G 显存 GPU 复现开源模型过程中。OmniVideo 仅能生成 640*352 分辨率,17 帧的视频,其他分辨率和帧数都会导致视频异常。ICVE 模型仅能在 480*768 分辨率生成最多 41 帧的视频,更多帧数的生成会导致显存爆炸,因此使用 384*240 以保证所有帧被编辑。其他的模型都按照其训练的分辨率和输入视频的帧数对应进行生成。另外由于 Runway Aleph 费用的限制,作者在每类评测集上仅挑选 30 个样本进行测试与评分。

表 2 和 3 展示了现在所有指令跟随视频编辑模型在 OpenVE-Bench 上的评测结果。闭源的 Runway Aleph 模型在 Seed1.6VL 和 Gemini 2.5 Pro 两个评测模型上均取得了最出色的效果并且远超现有开源模型。开源的 VACE、OmniVideo 和 InsViE 由于模型参数的限制或者数据集的限制结果较差。Lucy-Edit 在 5B 的参数量下取得了比较平均的效果。ICVE 在 13B 参数量下取得了不错的效果,但高分辨率的编辑仅支持更少的帧数。DITTO 由于数据集主要为 global style 类型,因此其在这一指标上得分较高。作者的 OpenVE-Edit 仅 5B 的参数量取得了 2.41 的总指标,实现较小的参数量下超越了现有所有开源模型效果。

图片

b. 定性结果

图 9 展示了作者的方法和现有开源 SOTA 方法的定性对比。选取了当前开源模型里最好的三个模型做对比。在左边的 Background Change 的例子里,Lucy-Edit 尽管实现了背景的变换,但是小狗没有保持与原视频一致。ICVE 错误的擦除了女人并且男人的长相也发生了变化。Ditto 错把墙上的画当作前景并且小狗的颜色变深。作者的方法能够在前景所有主体保持一致性的同时背景按照编辑指令改变。右边 Local Change 的例子中,Lucy-Edit 错误的将三个人的衣服全部编辑。ICVE 错误的对左边两个人编辑,并且人也发生了变化。Ditto 不仅编辑错了对象还错误地将背景改变了。作者的方法只按照编辑指令改变了对应女人的衣服并且保持其他男人和背景的一致性。

图片

图 9: 与当前 SoTA 方法的定性比较结果,并举例说明背景变化(左)和局部变化(右)。

....

#ChatGPT Images全新 

刚刚,OpenAI推出全新ChatGPT Images,奥特曼亮出腹肌搞宣传

如果你刚刚打开 X 并且正好关注了 OpenAI 和山姆・奥特曼,那么你可能会看到这样的照片:

图片

是的,确实有点辣眼睛。就连 OpenAI 官方号也忍不住吐槽(其实是刷热度):sam.

图片

而在评论区,更是一片吐槽和调侃:

图片

但不管怎么说,热度是有了。

实际上,山姆・奥特曼之所以发这样一张辣眼睛的图片,正是为 OpenAI 刚刚推出的全新 ChatGPT Images 造势。而且这也不是唯一一张基于奥特曼照片改的图。OpenAI 官方号还专门单独特地发了一张这样的:

图片

而且以身入局的 OpenAI 大佬还不止他一个。OpenAI 首席研究官 Mark Chen 和 OpenAI 总裁 Greg Brockman 都贡献了自己的照片。比如下面即是其官方博客分享的修图对话记录:

长图滚动查看

上下滑动查看

新版 ChatGPT Images

ChatGPT Images 的新版本由 OpenAI 全新的旗舰图像生成模型驱动。该公司表示:「现在,无论你是从零开始创作还是编辑照片,都能得到你脑海中构想的画面。它能在进行精准编辑的同时保持细节完好,图像生成速度更是提升了 4 倍。」

,时长00:55

其核心特性是:精准编辑,保留关键细节。

现在,当用户要求对上传的图片进行编辑时,模型能更可靠地遵循用户的意图。按 OpenAI 的说法是「细致入微到每一个小细节」,比如仅改变用户要求的部分,同时在输入、输出和后续编辑中保持光影、构图和人物外观等元素的一致性。

这能解锁很多潜在用例,比如更实用的照片编辑、更逼真的服装和发型试穿,还是保留原始图像精髓的风格滤镜和概念转换。

编辑功能

OpenAI 表示:该模型擅长各种类型的编辑,包括添加、删减、组合、融合和置换。

下面是一个从生成到各种编辑的示例。

长图滚动查看

上下滑动查看

创意转换

该模型还具备 transformation 功能,即可以改变和添加元素(如文本和布局)来实现想法,同时保留重要细节。OpenAI 表示,这些转换既适用于简单的概念,也适用于复杂的概念,并且可以通过新版 ChatGPT Images 功能中的预设风格和创意轻松尝试 —— 无需手动编写提示词。

比如,你可以将一张日常照片转换成电影海报。

图片

或制作一张戴珍珠耳环的奥特曼。

图片

遵循指令

OpenAI 称:「与我们的初始版本相比,该模型能更可靠地遵循指令。这不仅实现了更精准的编辑,还能处理更复杂的原始构图,按预期保留元素之间的关系。」下面给出了一个对比示例:

图片

文本渲染

该模型在文本渲染方面又迈进了一步,能够处理更密集、更小的文本。

长图滚动查看

上下滑动查看

其他质量改进

该模型还在其他维度上进行了改进,使得输出结果能更直接地投入使用,例如渲染许多小尺寸的人脸以及提升输出结果的自然程度。

图片

全新的创作空间

另外,OpenAI 还在 ChatGPT 中推出了全新的「Images」(图片)功能,「旨在让图像生成体验更加令人愉悦 —— 不仅能激发灵感,还能让创意探索变得毫不费力。」

用户可通过移动应用的侧边栏和 chatgpt.com 访问,让图像的探索和尝试变得更快、更简单。它包含了数十种预设滤镜和提示词以快速激发灵感,并会定期更新以反映新兴趋势。

图片

可用性

全新的 Images 模型于今日起向所有 ChatGPT 用户推出,并通过 API 以 GPT Image 1.5 的形式提供。与 GPT Image 1 相比,GPT Image 1.5 的图像输入和输出价格降低了 20%,因此用户可以在预算不变的情况下生成和迭代更多图像。

ChatGPT 中全新的 Images 体验也于今日向大多数用户开放,商业版(Business)和企业版(Enterprise)的访问权限将在稍后推出。

OpenAI 表示:「我们相信,我们仍处于图像生成所能实现的可能性的开端。今天的更新是向前迈出的有意义的一步,未来还将有更多功能推出,从更细粒度的编辑到跨语言的更丰富、更详细的输出。」

结语

最后,我们也使用一个同样的提示词,简单测试对比了 ChatGPT Images 与谷歌的 Nano Banana Pro。

图片

ChatGPT Images 的结果

图片

Nano Banana Pro 的结果

看起来,至少在这个特定案例中,ChatGPT Images 的结果更加符合我们的指令。

综合来看,在这场 AI 生图之战中,OpenAI 此次发布的 ChatGPT Images 标志着竞争的维度正在变化:从单纯的「模型能力」转向了综合的「产品体验」。OpenAI 这一次甚至没有放出任何量化的基准测试结果!

同时,Sam Altman 亲自下场自黑虽然充满了硅谷式的幽默,但其背后的信号非常清晰:OpenAI 正在极力降低用户的心理门槛。通过推出独立的「Images」入口、预设风格滤镜以及极大幅度的降价,OpenAI 试图将图像生成从一种需要精心调试提示词的专业技能,变成一种像发推特一样简单的日常交互。

你看好 ChatGPT Images 吗?

参考链接

​https://openai.com/index/new-chatgpt-images-is-here/​

​https://x.com/OpenAI/status/2000990989629161873​

....

#LightSearcher

经验记忆黑科技:LightSearcher让AI工具调用减39.6%、推理快48.6%

如今,以 DeepSeek-R1 为代表的深度思考大模型能够处理复杂的推理任务,而DeepSearch 作为深度思考大模型的核心搜索器,在推理过程中通过迭代调用外部搜索工具,访问参数边界之外的最新、领域特定知识,从而提升推理的深度和事实可靠性。

然而,现有的 RL 驱动的深度思考大模型系统常常面临准确率与效率的「跷跷板」困境:频繁调用搜索工具提升准确性,却带来计算开销和效率低下。具体而言,高频调用外部搜索工具虽能补充实时信息、提升推理准确率,但使得推理延迟大幅升高,等待时间可达几十秒至几分钟。从用户体验角度来看,若信息加载时间超过 10 秒,50% 的移动用户会放弃访问。

北邮百家 AI 团队提出 LightSearcher 框架,首创基于经验记忆的高效 RL 优化技术,通过引入文本化经验记忆和自适应奖励塑造机制,巧妙解决了这一痛点。

在保持与 SOTA 基线 ReSearch 相当准确率的同时,搜索工具调用和模型回复时间显著缩短,搜索工具调用次数减少 39.6%,推理时间缩短 48.6%,Token 消耗降低 21.2%,在保持模型效果的同时显著提升了工具调用效率。

  • 论文标题:LightSearcher: Efficient DeepSearch via Experiential Memory
  • 论文链接:https://arxiv.org/abs/2512.06653
  • 百家 AI 主页:https://baijia.online/homepage/index

引言

如何教会深度思考大模型策略性地控制搜索工具的使用,优化何时以及如何查询外部知识源,是深度思考大模型亟待解决的问题。现有方法存在以下显著缺陷:

  1. 提示工程或监督学习方法依赖人工标注,成本高且泛化差;RL 驱动方法虽能自主优化,但奖励偏重准确性,导致模型为确保正确而频繁调用工具,造成冗余开销;
  2. 工具调用「过度依赖」,现有模型往往不分难易,对简单查询也反复检索,导致推理时间延长、token 消耗激增;
  3. 准确性与效率失衡,部分方法虽提升准确率,但牺牲效率;另一些虽减少调用,却降低答案质量,无法兼顾双重目标。

这些问题导致现有模型要么答案不准、可靠性差,要么工具调用过多、效率低下,难以同时满足推理准确和高效执行的核心需求。

LightSearcher 框架

为解决上述缺陷,北邮百家 AI 团队提出基于经验记忆的高效 DeepSearch 框架(LightSearcher),核心思路是在大模型强化推理过程中,通过「对比经验学习」将隐性推理轨迹转化为显性指导经验,并结合自适应奖励优化工具调用,具体包含三大关键组件:

  1. 对比经验推理机制(Contrastive Experiential Reasoning):收集高低质量推理轨迹,通过 LLM 生成成功模式的自然语言总结(如「简单查询优先用内部知识」),构建动态经验记忆库;
  2. 自适应奖励塑造机制(Adaptive Reward Shaping):引入最小工具调用基准,仅在答案正确时惩罚冗余调用,使用指数衰减函数动态平衡准确性和效率,避免盲目优化; 
  3. 基于经验的 RL 训练机制:采用 GRPO 算法,将积累经验和少样本示例融入提示模板,指导模型生成高效轨迹,确保探索与利用的均衡。 

图片

模型最终优化目标为多目标奖励函数的加权和,确保工具调用精简与答案质量的协同提升。

实验

研究团队在四个多跳 QA 基准数据集(NQ、HotpotQA、Musique、2WikiMultihopQA)上进行了全面评估,对比了多种主流 DeepSearch 方法。

3.1 主实验结果

图片

实验结果显示:

  • 模型准确性保持顶尖:LightSearcher 在 F1 分数和 LLM 评判上与 SOTA 基线 ReSearch 相当,甚至在部分数据集上优于 ReSearch;
  • 效率显著提升:工具调用减少 39.6%,推理时间缩短 48.6%,token 消耗降低 21.2%;
  • 泛化能力强:在不同难度的查询(易 / 难)上均表现稳定,即使在域外测试集也能超越依赖固定检索的迭代方法。

3.2 消融实验

移除经验导致 F1 下降 7.2%,证明其核心作用。

图片

LightSearcher 框架通过「经验记忆」这一核心理念,为构建高效、可靠的深度推理系统提供了新路径。尽管目前限于多跳 QA,未来可扩展到代码合成、策略规划等领域。论文成功解决了现有 DeepSearch 的关键痛点:

  • 从隐性到显性:将对比轨迹转化为可解释的推理指导
  • 精准平衡:通过自适应奖励确保工具调用最小化
  • 效率优先:利用 RL 训练维持准确与开销的连贯性
  • 双重优化:同时提升推理质量和执行效率,而非顾此失彼  

最后,大模型的 DeepSearch 能力需设计有效的经验机制。相比于复杂的手动标注,LightSearcher 通过其「对比经验」的设计思想,在推理过程依赖可靠的外部知识调用,为构建更加高效、可靠的 AI 深度思考系统提供了重要的技术路径。

....

#Wan 2.5(万相 2.5)

硬刚Sora2,万相2.6轻松定制角色、控制分镜,普通人也能当导演

2025 年即将画上句号,回望这一年的视频生成领域,用「突飞猛进」来形容毫不为过,甚至可以说,视频内容创作的范式正在悄然发生改变。

9 月,OpenAI 发布的 Sora 2 凭借「客串(Cameo)」功能,打破了困扰行业已久的「角色一致性」瓶颈,首创的「角色扮演功能」玩法让 AI 视频从充满不确定性的「盲盒抽卡」进化为可控的「导演游戏」。

与此同时,商业落地的速度快得惊人:在 B 端,大量 AI 短剧、漫剧上线,制作成本大幅降低;在 C 端,社交平台上不仅有「粘土滤镜」这样的爆款特效,更有大量博主开始常态化使用 AI 制作剧情短片。

然而,面对这些顶尖技术,普通用户的心情往往是「又爱又恨」。爱的是,各家 SOTA 模型生成的画面在光影质感与物理规律上已臻化境,甚至让人恍惚感叹「现实与虚拟的界限已然消失」;恨的是,体验的门槛依旧存在,要么是高不可攀的内测资格,要么是每月不菲的订阅账单。

前段时间,惊喜降临。阿里千问 APP 接入了 Wan 2.5(万相 2.5),让我们感受到了移动端创作的自由与畅快,这种在手机上免费生成「有声视频」的体验,确实很香。在权威大模型评测集 LMArena 上,万相 2.5 的图生视频能力曾位居国内第一。

而这份惊喜在年底迎来了重磅加码。12 月 16 日,阿里趁热打铁,正式发布了新一代万相 2.6 系列模型。如果说 2.5 版本是帮大家推开了视频创作的门,那么此次面向专业影视制作和图像创作场景全面升级的 2.6 版本,则是把专业影棚搬到了每个人面前,人人都能当电影主角或是导演。

  • 体验入口:https://tongyi.aliyun.com/wan/generate/video/starring-roles?model=wan2.6

先看一段官方提供的视频,电影质感爆棚。

通义万相Wan

,赞622

此次发布的万相 2.6 系列涵盖文生视频、图生视频和参考生视频,图像生成和文生图共 5 款模型,是目前全球功能覆盖最全面的视频生成模型家族之一。它是国内首个具备声画一致性角色定制能力的模型,这意味着你不仅能通过「角色参考」固定住视频中人或物的 IP 形象,还能参考输入视频中的音色,实现从画面到声音的完美复刻,无论是单人独白还是双人对手戏都能轻松拿捏。

更重要的是,此次发布的版本进一步提升了画质、音效和指令遵循能力,单次视频生成时长实现了国内最高的 15 秒(参考生视频为 10 秒),还带来了「分镜控制」功能,能自动拆解并实现多镜头切换等专业任务,让 AI 不再只是生成零碎的片段,而是开始懂得构建完整的故事线。目前,万相 2.6 已同步上线阿里云百炼和万相官网,企业用户可直接调用 API,千问 APP 也将于近期上线该模型。

通义万相Wan

,赞706

简单来说,阿里这次不仅把画质拉满了,更是把摄影师、灯光师、动作指导和录音师打包塞进了你的手机和云端。

为了验证万相 2.6 是否真的这么厉害,我们决定不玩虚的,直接上手实测。

多角色声画同步的极限挑战

AI 视频最难的是什么?不是生成绚丽的画面,而是在动态变化中保持「保真」与「一致」。

大家应该都还记得 Sora 2 发布时被疯传的「百变奥特曼」:山姆·奥特曼(Sam Altman)在各种场景下做炸鸡、吃炒饭,虽然动作离谱,但那张脸和神态却始终如一。现在,万相 2.6 成了全球唯二,国内首个具备这种「参考生视频」能力的模型。

这是面向专业影视创作的一次全面升级。全新的视频参考生成功能,允许将任意人或物设定为主角,不仅能一键完成单人、多人、人与物合拍的视频,还能在多镜头丝滑切换的过程中保持核心主体、场景布局和环境氛围的统一。

图片

从技术层面解析,通义万相在模型结构上集成了多项创新技术,可对输入参考视频进行多模态联合建模与学习。它不仅能参考具有时序信息的主体情绪、姿态和多角度全面视觉特征,更能同时提取音色、语速等声学特征,在生成阶段作为参考条件控制,实现从视觉到听觉的全感官、全维度一致性迁移。

而「分镜控制」则面向专业叙事场景,模型通过高层语义理解,将用户简单的提示词转换为多分镜脚本,生成包含多个镜头的连贯叙事视频,确保全片在内容、节奏和氛围上的高一致性。

图片

为了验证这一能力,我们直接上传了奥特曼、哈萨比斯和黄仁勋的过往视频片段作为参考素材。万相 2.6 能够精准提取视频中主体的形象特征、声音声线乃至惯用神态,并允许我们通过提示词将他们「传送」进全新的剧情中。

图片

这一次,我们让这三位科技圈顶流在一个极具电影质感的平行宇宙里,来了一场关于 GPT-5.2 和 Gemini 3 的「现场互怼」。我们在对话框中输入设定台词和画面,分多次生成最后拼接画面。话不多说,直接来看正片:

,时长00:10

英文版完美复刻了他们原本的声线与语调,效果令人咋舌。

为了让大家更直观地感受音频生成的实力,我们再看一个中文配音版,虽然语种跨越增加了难度,音频效果略逊色于英文版,但依然不仅形似,更是神似。

,时长00:31

仔细观察三位主角的眉眼微表情、肢体语言乃至习惯性动作,还原度极高,几位「AI 演员」可以说是演技满满。Sam 从首日身体后仰的「跑分王」傲慢,到次日疯狂刷屏时的眼神闪烁、战术喝水,情绪转折丝滑流畅;Demis 那股从紧张防御到端着咖啡「贴脸开大」的戏谑笑意,简直灵魂附体。当然,最绝的还得是「皮衣教主」黄仁勋,那仰天大笑的一摊手,仿佛直接穿透屏幕在说:「争什么争?最后不都得靠我?」

为了方便大家复刻同款大片,官方贴心提供了两套核心提示词模板:

针对「参考生视频」,模型支持人物、萌宠或道具等任意类型主角(最多 3 个),并能完美复刻其外观、动态及音色。只需套用公式「@主角 + 动作 + 台词 + 场景」:通过 @ 符号精准引用参考素材,描述动作情绪、台词内容及所处环境即可。例如:在一个童话场景中,@A(参考视频为兔子)在草地玩耍,@B(参考视频为狗)在树下弹琴被苹果砸中,@A 开心地说:「你要变成科学家了!」

而在「多镜头叙事」方面,万相 2.6 能将原始输入构建为具备叙事张力的专业级多镜头段落。无论是启用智能多镜还是手动精控,推荐使用公式「总体描述 + 镜头序号 + 时间戳 + 分镜内容」。先概括故事主题与基调,再通过时间戳(如 [0-3 秒])划分结构,详细描述每个分镜的运镜与表演。例如:讲述一个重拾希望的短剧。第 1 镜头 [0-3 秒] 男孩看着信纸叹气;第 2 镜头 [3-5 秒] 特写眼角泪光;第 3 镜头 [5-10 秒] 场景切换,女孩微笑着走近安慰他。

当 AI 拥有了长叙事能力与「演技」

短视频时代,能不能火全看「梗」和「戏」,面向广告设计、短剧制作等专业场景,万相 2.6 展现出了惊人的潜力。通过输入连续提示词,它能生成一段完整叙事的短片,让人人都能当导演。下面我们测试一下它在细节把控和情绪表达上的「演技」。

为了验证模型在极端条件下的细节把控能力,我们尝试了一组高难度的特写镜头测试。

提示词:日式电影感,中近景:26 岁亚洲女性,黑色齐肩短发,清淡妆容,戴银边细框眼镜,穿着米白色宽松针织毛衣。她站在温馨昏黄的厨房里,手里端着一碗刚煮好的米线。特写镜头:碗中升腾起浓郁的白色蒸汽,热气瞬间扑在她的脸上,熏白了她的眼镜片,形成一层白雾。她微微一愣,透过模糊的镜片眨了眨眼,表情呆萌而治愈,背景是虚化的充满生活气息的冰箱和橱柜。

,时长00:04

画面聚焦于一位刚下班的都市女性,她端着一碗热气腾腾的面条准备享用。令人惊叹的是,当热气上涌,水雾瞬间在她的眼镜镜片上凝结成一层细密而真实的白霜,视野的模糊与清晰交界处处理得极其自然,光影在水雾上的折射显得通透而生动。

在如此近距离的微距镜头审视下,人物皮肤细节展现出了电影级的高保真度:鼻翼两侧因热气熏蒸而泛起的微红、眼角极其细微的疲惫干纹,甚至是皮肤未施粉黛的细腻颗粒感和毛孔的「呼吸感」,都被完美捕捉和呈现,完全打破了以往 AI 生成人物常见的「塑料感」。

更绝妙的是人物的神态动作,当眼镜被蒙住的瞬间,她下意识地眯起眼睛,鼻头轻微皱缩,嘴角却又不自觉地挂着即将被美食治愈的满足笑意。

我们进一步尝试让「大宋第一狠人」苏轼穿越回来,录制「敬自己一杯」的 Vlog。

我们只需给模型设定一个首帧,输入提示词,模型就能快速完成分镜设计、角色演绎和画面配音。

图片

提示词: (苏东坡举着酒杯,满脸通红,微醺状态) 第三杯!敬我的「大宋穷游指南」!皇帝把我贬到黄州,我发明了东坡肉;把我贬到惠州,我日啖荔枝三百颗;最后把我扔到海南岛(当时那是未开化之地),以为我会哭死?不好意思,我发现那边的生蚝真的太好吃了,还写信让儿子别告诉别人,怕朝廷那帮人跑来跟我抢。把流放活成《舌尖上的中国》,就问你服不服!喝!

来看看效果如何:

,时长00:15

可以看到,视频不仅高度还原了我们设定的视觉风格,更在细节上经得起推敲:声画同步率极高,面部微表情随着台词层层递进。模型展现出了类似专业导演的运镜意识,通过推拉摇移和景深变化有效掌控了叙事节奏。视频中的苏轼全程以一种举重若轻的姿态讲述跌宕人生,既重现了「一蓑烟雨任平生」的豪迈豁达,又精准拿捏了「微醺吐槽」时的诙谐与松弛,感染力十足。

不容忽视的平面「基本功」

在大家的目光都被视频生成的「演技」吸引时,万相 2.6 在静态图像生成领域也悄然完成了版本迭代。对于一个多模态大模型而言,高质量的平面图像生成能力依然是其重要的「基本功」。

此次 2.6 版本的图像生成能力升级,主要体现在对画面细节的控制力和实用场景的覆盖,可以说是在「高美学」与「强可控」上同时迈出了一大步。

在基础的文生图方面,新模型实现了对艺术风格的「灵魂捕捉」。从提供的测试案例来看,模型对「肌理、色彩、笔触」等细节的刻画更为到位。无论是需要特定笔触感的东方水墨、拉斐尔艺术风格,还是偏向现代设计的数字插图、毛毡卡通风格,模型都能精准还原。更有趣的是它的「风格融合」能力,比如将「印象派」与「涂鸦」结合,模型能处理得过渡平滑且自然,创作出独具一格的视觉作品。

图片

针对容易「翻车」的人物写实照片,2.6 版本综合优化了构图与光影,在一定程度上削弱了以往常见的「AI 塑料感」。实测中,人物神态更加自然,肤质真实感大幅提升,即便是复杂的环境情绪摄影,也能呈现出极具表现力的光影细节。

图片

更具实用价值的是其在复杂排版和精准控制方面的提升。新版本改善了在图片中生成中英文文本的能力,这意味着制作带文字的海报、带有数据信息的图表变得更加直接。同时,模型不仅涵盖了广泛的历史文化 IP 元素,还新增了诸如「图文混排输出」和「多图融合生成」等功能,能够依据逻辑创作出具有叙事性的绘本或复杂的商品组合场景。

图片

对于有特定需求的设计或商业场景,万相 2.6 提供了更细致的控制选项。例如,在需要保持商品或角色形象统一时,它提供了商用级的一致性保持能力;在调整画面氛围时,用户可以更精确地控制镜头的远近视角和光影效果。

图片

提示词:给这个男生和狗拍一张写真,男生搂着这只狗,人和狗都很开心,摄影棚柔和灯光,蓝色纹理背景。

如果说视频生成是在探索 AI 动态表达的上限,那么图像生成板块的更新,则是在夯实 AI 平面创作的地基,提供了一套更为稳健、多样的工具集。目前,万相模型家族已支持文生图、图像编辑、文生视频、图生视频、人声生视频、动作生成、角色扮演及通用视频编辑等 10 多种视觉创作能力,已广泛应用于 AI 漫剧、广告设计和短视频创作等领域。

结语

万相 2.6 的发布,某种程度上标志着 AI 视频生成正式告别了单纯的「抽卡」时代,迈向了精准可控的电影级创作新阶段。

过去,我们惊叹于 AI 的画质,却苦恼于它的不可控。而现在,万相 2.6 用国内首创的角色扮演功能让「演员」听话懂戏,不仅能锁住容貌,更能演绎情绪;用智能分镜控制让叙事有了逻辑,从单点画面进化为连贯的故事篇章。它将曾经昂贵的影视工业特权,折叠进了手机和云端,彻底消除了技术对创意的阻隔。

当灯光、摄影、演员和剪辑都听命于你的指尖,技术不再是门槛。无论是想做一部「赛博大片」,还是只想发一条朋友圈恶搞 Vlog,都能找到顺手的工具。

门槛已经塌陷,工具就在手边。从此刻起,你的想象力,就是你的生产力。

体验链接:

....

#姚顺雨出任腾讯首席AI科学家

官宣!姚顺雨出任腾讯首席AI科学家,带队大语言模型、AI Infra

不久之前,OpenAI 著名研究者、清华校友、著名博客《AI 下半场》的作者姚顺雨加入腾讯的消息传得沸沸扬扬,点燃了 AI 社区。(参见:姚顺雨离职 OpenAI,「亿元入职腾讯」传闻引爆 AI 圈,鹅厂辟谣了)

今日,靴子落地。

刚刚,xxx获悉,腾讯升级大模型研发架构,新成立 AI Infra 部、AI Data 部、数据计算平台部,全面强化其大模型的研发体系与核心能力。

一直未正式露面的姚顺雨(Vinces Yao)出任「CEO / 总裁办公室」首席 AI 科学家,向腾讯总裁刘炽平汇报;同时兼任 AI Infra 部、大语言模型部负责人,向技术工程事业群总裁卢山汇报。

腾讯表示,作为腾讯大模型体系的重要一环,AI Infra 部将负责大模型训练和推理平台技术能力建设,聚焦大模型分布式训练、高性能推理服务等核心技术能力,构建大模型 AI Infra 核心竞争力,为大模型算法研发和业务场景落地提供稳定高效的技术支持和服务。

架构升级后的 AI Data 部、数据计算平台部,将分别负责大模型数据及评测体系建设、大数据和机器学习的数据智能融合平台建设工作。

王迪继续担任大语言模型部副总经理,向姚顺雨汇报。刘煜宏担任 AI Data 部负责人、陈鹏担任数据计算平台部负责人,均向公司副总裁蒋杰汇报。

姚顺雨是人工智能领域,特别是「智能体(Agent)」方向备受瞩目的青年研究者。

在加入 OpenAI 之前,他就已经在语言智能体领域做出了一系列开创性的工作:

  • 使 AI 通过多路径推理解决复杂问题的 ToT(思维树);
  • 让 AI 在推理中动态行动的 ReAct;
  • 为 AI 智能体提供模块化的认知架构的 CoALA。

此外,他还参与构建了著名软件工程基准 SWE-Bench 和模拟电子商务网站环境 WebShop,推动了 AI 智能体的发展。截至目前,姚顺雨的论文总引用量已经超过了 1.9 万。

....

#RLVMR

破解「长程智能体」RL训练难题,腾讯提出RLVMR框架,让7B模型「思考」比肩GPT-4o

本论文的主要作者来自腾讯混元 AI 数字人团队 (Tencent Hunyuan AI Digital Human)。该团队致力于打造「有智商、有情商、有温度的数字人」,旨在为用户提供高度拟人、可信赖的数字伙伴,进而实现富有温度与信任的情感交互。

自主智能体(Agents)正朝着能够处理复杂长程任务(Long-Horizon Tasks)的通用智能(AGI)迈进,但许多研究者发现了一个尴尬的现实:很多智能体虽然能完成任务,却像个「只会蒙答案的学生」,其成功往往依赖于运气和低效的试错,而非真正高效、可泛化的推理能力。一旦环境稍作改变,它们便漏洞百出。

这种「结果正确,但过程混乱」的现象,是当前长程智能体(Long-Horizon Agents)强化学习(RL)范式的一大瓶颈。智能体在探索中,只因最终能完成任务便获得奖励,而其间大量的冗余操作、无效探索,甚至错误的推理路径,都被无意中 「强化」 和固化。这导致了两个核心难题:

1.低效探索难题:智能体容易陷入「无效内卷」,反复尝试无意义的动作,训练成本高,推理效率低下。

2.泛化脆弱难题:靠「蒙对」学会的策略缺乏逻辑基础,在新任务面前不堪一击,难以实现真正的鲁棒性。

如何让智能体不仅「知其然」,更能「知其所以然」?

面对这些难题,腾讯混元 AI 数字人团队提出了 RLVMR (Reinforcement Learning with Verifiable Meta-Reasoning Rewards) 框架。这项工作开创性地将认知科学中的「元认知」(即 「思考自己的思考」)理论引入 RL,通过奖励「好的思考过程」而非仅仅奖励「好的结果」,首次实现了对智能体推理过程的端到端强化学习,成功解决了长程任务中的低效探索与泛化难题。

论文地址: [2507.22844] RLVMR: Reinforcement Learning with Verifiable Meta-Reasoning Rewards for Robust Long-Horizon Agents

项目代码: digitalhuman/RLVMR at main・Tencent/digitalhuman・GitHub

RLVMR:如何教会智能体「思考」,而不仅是「做事」?

传统方法要么依赖僵化的专家数据(SFT),要么依赖稀疏的结果奖励(RL),都无法有效塑造智能体高质量的「思维习惯」。RLVMR 的破局点在于:为智能体的「思考过程」本身,设计一套可验证、可优化的奖励机制。

图片

1. 智能体学会「三思而后行」:引入元推理状态

RLVMR 赋予智能体「自我意识」的能力。在行动前,智能体需要先思考并给自己贴上一个「元推理标签」,明确自己当前处于哪个认知阶段:

  • 🤔 规划(Planning): 我准备做什么?计划是什么?
  • 🧭 探索(Exploring):我正在执行计划,探索方案。
  • 🧐 反思(Reflecting):计划出错了?我需要纠正什么?

这套机制让智能体的「内心戏」变得明确、可追踪,为奖励其「优质思考」提供了抓手。

2. 奖励「好思路」,惩罚「坏习惯」:可验证的过程奖励

光有标签还不够,RLVMR 设计了一套轻量级的验证规则,实时评估智能体的思考质量,并给予即时奖励:

  • 奖励高效思考:当智能体在「反思」后成功纠错,或制定出有效「规划」时,给予正向奖励。
  • 惩罚低效行为:当智能体陷入无意义的动作循环或重复犯错时,给予负向奖励。

这种「过程奖励」机制,像一位贴身教练,不断引导智能体优化其思考与决策路径,从根本上杜绝「瞎蒙」行为。

3. 从「结果导向」到「过程与结果并重」

RLVMR 将「过程奖励」与最终的「任务成功奖励」相结合,通过策略梯度方法进行端到端优化。这使得智能体在追求最终目标的同时,必须学会如何更聪明、更高效地达成目标。

核心实验成果:7B 模型比肩「巨头旗舰」

在极具挑战性的 ALFWorld 和 ScienceWorld 两大长程任务基准上,RLVMR 展现了统治级的性能。经过 RLVMR 训练的 7B 模型,在难度最高、从未见过的任务(L2 泛化等级)上,成功率高达 83.6%,不仅远超此前所有 SOTA 模型,更证明了其强大的泛化能力。

图片

此外,我们的方法训练出的智能体更「聪明」,解决任务的路径更直接,在 ALFWorld 和 ScienceWorld 的 L2 复杂环境中,所需动作数最高减少 28.1%。此外,训练过程本身也告别了「反复横跳」式的低效学习,收敛速度更快、策略更稳定,显著缓解了无效探索问题。

图片

图片

超越分数:RLVMR 实验中的深度洞察

洞察一:智能体学会「反思」,告别「无效内卷」

传统 RL 智能体像一个埋头刷题但从不复盘的学生,容易在错误路径上反复挣扎。RLVMR 的核心贡献在于教会了智能体「反思」(Reflecting)。

图片

实验数据显示,引入「反思」机制后,智能体在遇到困难时,不再是盲目重试,而是能够主动识别问题、调整策略。这正是其重复动作率大幅降低、任务成功率飙升的根本原因。它揭示了一个关键点:对于复杂任务,教会智能体如何从失败中学习,比单纯「喂」给它成功的经验更重要。

洞察二:好的推理习惯,是泛化能力的基石

为什么 RLVMR 在未见任务上表现如此出色?

图片

我们发现,通过奖励「好的思考过程」,RLVMR 帮助智能体建立了一套通用的、不依赖于特定任务的「元问题解决框架」(如何规划、如何探索、如何反思)。当面对新环境(L2)时,智能体调用的不再是某个僵化的「解题模板」,而是这套灵活的「思维方法论」。

这证实了一个重要猜想:真正的泛化能力,源自于对问题解决过程的深刻理解,而非对问题答案的机械记忆。 RLVMR 正是通往这条道路的有效路径。

洞察三:先 「冷启动」 再 「强化」—— 智能体的成长阶梯设计

RLVMR 采用了「冷启动 SFT + 强化学习 RL」的两阶段训练流程。这并非简单的流程拼接,而是一种符合认知规律的「成长曲线」设计。

  • 冷启动阶段(SFT): 如同基础教育,让智能体先通过模仿学习,快速掌握「规划」「反思」等元推理概念的基本表达方式。
  • 强化学习阶段(RL): 如同进入社会实践,让智能体在真实环境中自由探索,通过「过程奖励」的不断反馈,将学到的概念内化为真正的能力。

图片

这一策略启示我们:在训练高级智能体时,「先教会它如何思考,再放手让它去犯错成长」,可能是比单一训练范式更高效的路径。

总结与展望

RLVMR 的提出,为智能体训练带来了从「结果导向」到「过程导向」的范式革新。它证明了,通过对智能体「思考过程」的直接建模与奖励,我们能够有效破解长程任务中的「低效探索」与「泛化脆弱」两大难题。

我们对 AGI 的终极期待,是一个能够独立思考、理性决策的伙伴,而不是一个只会寻找捷径的「做题家」。RLVMR 的工作,正是鼓励大模型从偶然涌现的能力,走向特定思维模式的强化,为构建更鲁棒、更高效、更可解释的通用智能体迈出了坚实的一步。

这项研究不仅为长程智能体训练提供了新思路,也为我们探索能真正理解世界、应对未知的下一代 AI 带来了新的曙光。

....

#​​Skywork Super Agents​

刚刚,全网最懂图文调研的智能体模型震撼上线,看完我直接卸了浏览器

疯狂的七月已经落下了帷幕,如果用一个词来形容国产大模型,「开源」无疑是当之无愧的高频词汇。

各大厂商你方唱罢我登场,昆仑万维、阿里、智谱、月之暗面、腾讯、阶跃星辰等众多玩家们先后开源了数十款大模型。根据 Hugging Face 发布的中国 AI 社区七月开放成果,短短一个月开源模型总数达到了惊人的 33 款。

进入到八月,国产大模型「上新」的势头丝毫不减,重量级成果发布的热度继续升温。其中,上个月接连开源第二代奖励模型 Skywork-Reward-V2、多模态理解模型 Skywork-R1V3 以及多模态统一预训练模型 Skywork UniPic 的昆仑万维,又官宣了一波技术大放送!

从本周一开始,昆仑万维正式启动 Skywork AI 技术发布周!连续五天,每天都有新模型亮相,从视频生成模型 SkyReels-A3、世界模型 Matrix-Game 2.0、生图一体化模型 Skywork UniPic 2.0 到深度研究 Agent 模型等,多模态 AI 的核心赛道几乎全囊括了,干货满满。

8 月 14 日,在技术发布周的第四天,昆仑万维重磅发布了最新 Agent 成果,为其在智能体领域的探索与布局开启更多可能。不久之前,昆仑万维才带来了全球首款 Office 智能体 —— 天工超级智能体(Skywork Super Agents),登顶多个榜单,在文档、PPT、Excel、网页、播客等多任务执行中秀了把一站式生成能力。

此次,昆仑万维将天工超级智能体的核心引擎 Skywork Deep Research Agent 升级到了 V2 版本。新版本不仅将深度调研体验推升至新高度,还在多模态信息检索与生成、浏览器智能体任务中利用独立的 Agent 模块,促成性能、稳定性与智能化水平的均衡跃升。

性能究竟有多强,先上跑分成绩。首先在权威搜索评测榜单 BrowseComp 中,Skywork Deep Research 在常规推理模式下正确率已达到 27.8%,超越了 GLM-4.5、StepFun Deep Research、Claude-4-Opus 等国内外大多数主流同类产品;而在启用自主研发的「并行思考」模式后,准确率更是跃升至 38.7%,一举刷新行业 SOTA 记录,将 Grok-4 在内所有竞品甩在身后。

图片

此外,在全球最具挑战性、覆盖最广的智能体基准测试集 GAIA 中,Skywork Deep Research Agent 同样刷新 SOTA 成绩,超越所有竞品,复杂任务中的硬核表现不言而喻,也为其技术含金量做出有力背书。

图片

图片

赶快来天工超级智能体(Skywork Super Agents)体验!

全球官网:https://skywork.ai

国内官网:https://tiangong.cn

这位 Agent 新面孔在实操上能不能达到预期呢?一手实测给了我们很大惊喜。

Agent 深度研究的全感知时代

始于多模态信息检索

去年 12 月,谷歌推出了 Gemini Deep Research 功能,标志着全球首个 AI 研究助手的诞生。该功能可以自动浏览网页、整合关键信息,并生成结构化的研究报告。这意味着,传统研究员吭哧吭哧干几天的活儿,它仅需要几分钟就能完成。该功能一经发布就迅速引发业界关注,OpenAI、xAI、Perplexity AI 等其他大模型厂商也紧随其后,纷纷推出自家的 Deep Research。

尽管这些 Deep Research 功能在提取和整理文字信息时有着较高的效率,但它们过于依赖纯文本的检索和分析,往往忽视图片、图表等视觉内容。而如今互联网上超过一半的关键信息都以图文混排的形式呈现,比如财报中的曲线、科研论文里的实验图、社交媒体上的对比照、业务方案中的流程图等,如果这些图片信息被忽视,研究报告的完整性和准确性将大大降低。

为解决这一痛点,昆仑万维推出了业界首个「多模态深度调研」Agent 。通过创新性地整合多模态检索理解和跨模态生成能力,它不仅能够识别并处理图片、图表等信息,还能将图片中的关键信息融入报告中,并生成图注和综合性图表,为研究人员提供更加全面、准确的报告。

比如,我们输入提示词:请配合丰富的图表,详细揭示 2025 年特斯拉在中国的销售情况,并分析销量变化的核心原因。

图片

领到任务后,它首先跳出一个表单让我们勾选任务需求,包括写作语言、写作篇幅、分析维度、图表类型偏好、核心原因分析角度等。如此一来,我们就能够根据自己的具体需求,定制报告的内容、深度和呈现方式。

图片

确认完需求,它会生成一个待办清单,继而调用各种工具搜索浏览网页、整合信息,尤其是涉及图片部分,它会自动调用 MCP 工具进行图片分析以及图表制作。

图片

在浏览了 180 个网页、使用 54 个信源后,最终输出一份详细的特斯拉中国销量分析报告。

,时长00:21

报告中包含丰富的图表展示,比如特斯拉中国月度销量趋势折线图、主要城市销量柱状图、中国新能源汽车市场份额饼图等。更重要的是,它把图片中表达的信息融入到报告文字当中,提供更全面的文字解读。

为了防止胡说八道,每个重要数据都标注了来源,鼠标一点即可跳转。

图片

它还会根据文字内容,在合适的位置插入对应图片,并自动生成简洁图注。对于图表较多的报告,它甚至会专门拿出一节来对图表进行辅助说明。

图片

这番实测意味着谷歌 Gemini Deep Research 搞定不了的图文盲区,被昆仑万维的 Agent 轻松拿捏。让 AI 真正具备专业研究人员的感知与表达能力,离不开多模态爬取、长距离多模态信息收集、异步并行 Multi-Agent 多模态理解架构和多模态结果呈现四大核心技术突破:

  • 首先,利用 MM-Crawler 工具进行结构化文本、二进制图片和元数据的并行爬取,通过「视觉噪声剪枝」技术以毫秒级剔除低信息密度图片,平均减少 65% 的冗余图片流量。
  • 其次,利用大规模「文字 - 图片 - 推理链」合成数据训练,实现长距离(几十步数万字)上下文感知与图片信息增益判断能力,将真正需要深入推理的图片数量压缩至一半,有效节省计算资源。
  • 第三,利用异步并行 Multi-Agent 架构,将不同任务智能调度给不同的 Agent 并行执行,并结合「多轨执行 + 流水整合」的设计,提升包括文本和图片在内的多模态检索与理解效率。
  • 最后,在结果生成阶段,支持信息「转写 — 插图 — 重绘」三位一体的自动生成方式,既可将图片信息融入文字解读,也可插入原图并在融合多图、多模态信息后重绘综合性图表,输出信息完整、视觉友好的深度报告。

目前,该功能已在 skywork.ai 官网上线,人人都可体验。

突破传统浏览器 Agent 瓶颈

深入挖掘社交平台内容

接下来,我们再看看 Skywork Deep Research Agent V2 的另一大功能模块 —— 多模态深度浏览器智能体(Skywork Browser Agent)。

在实际应用中,传统浏览器智能体存在诸多瓶颈问题,比如执行效率差、成功率低,特别是在处理文字密集内容时表现迟缓;由于平台壁垒(如登录和验证问题)还可能导致任务中断;以及在复杂边缘场景中适应能力较弱,常常出现卡顿、死循环等失效情况。

昆仑万维此次推出的 Skywork Browser Agent 巧妙化解了这些痛点。借助深度多模态内容理解能力,不仅能够高效分析社交媒体上的文本信息,还能精准筛选与提取图片、视频以及评论区的情感与观点,提供更加全面的信息洞察。在网页浏览的全过程中,它都能做到有条不紊、规划周密,而这一切都依托于自研模型非凡的推理能力。

此外还能自动进行线上社区内容的高效数据分析,将枯燥的调研工作转化为直观且易懂的可视化报告。同时支持一键式网站部署,将抓取的关键图片与分析内容生成独立网站,方便展示和分享。针对部分社交平台登录墙的难点,配备了智能化接管机制;为每个执行步骤设置了自适应超时控制,有效防止整套工作流阻塞,从而大大提升浏览器智能体的执行效率。

举个例子。最近,喜剧大师陈佩斯带着自编自导自演的《戏台》回归大荧幕,公映 4 天就斩获近 2 亿元票房。不过,对于这部打磨 13 年的影片,网友给出了两极分化的评价。

我们让 Skywork Browser Agent 基于用户反馈,生成一个关于电影《戏台》上映后网友评价的分析报告网页。

,时长00:36

此处的工作流程与前文所述相似:勾选补充信息、生成待办清单,然后调用 MCP 工具执行任务。比如旁边会弹出一个 Skywork 虚拟机来显示浏览器 agent 的操作轨迹:它可以自动打开豆瓣电影首页,输入「戏台」进行搜索,进入电影链接详情页后收集更完整的信息和用户评论。

,时长00:40

搜完信息,它就开始搭建网页,开发 HTML 页面框架,并按照各分析维度划分内容区块;设计 CSS 样式,确保页面美观易读;使用 JavaScript 实现数据可视化和交互功能,同时下载并配置相关图片资源。如果觉得生成网页不符合预期,我们还可以和浏览器 Agent 进行多轮交互,根据当前生成好的网页进行二次编辑,Skywork Browser Agent 强大的指令跟随能力可以完美支持这一操作。

,时长00:27

可以看到,最后生成的网页不仅结构清晰,设计精美,且内容涵盖了电影的基本信息、票房表现、豆瓣和猫眼的评分对比等关键数据。网页内的观众评分分布、情感倾向分析和热点话题图云等可视化图表,极大提升了信息的可读性和直观性。我们还可以通过简单的点击与交互,深入了解影片的各项数据和网友评论,进一步剖析影片的正负面评价及争议点。

为测试稳定性,我们还进行了一个有趣的实验 —— 浏览周杰伦的 Instagram,并打造一款粉丝应援网站。结果显示,制作的网页不仅功能完整,还具备独特的视觉风格,效果出色。

,时长00:24

如此高效稳定网页浏览能力的实现,要归功于以下多项自研的关键技术方案:

  • 集成强大的多模态推理模型与优化的 DOM(文档对象模型)解析能力,为 Skywork Browser Agent 提供了卓越性能的核心支撑。
  • 主流平台动作适配与并行搜索 / 多动作规划机制,显著提升执行效率。
  • 内置智能筛选系统以自动过滤低质或涉隐图片和文字内容。
  • 人机交互场景下支持智能提示与接管,而且能通过加密与前端保护机制保障用户隐私安全。

Skywork Browser Agent,通过模拟人类浏览与交互方式,革新传统的数据采集与分析模式,精准高效地完成智能搜索、多模态信息分析与社区内容洞察,在长周期的 VLA(视觉 - 语言 - 动作)任务中展现巨大的潜力。

不过,这一功能尚处于内测和邀测阶段,预计将于下周向全部用户开放。

全栈式演进

构建从数据、算法到多智能体系统的智能基座

从一系列实测看下来,昆仑万维此次的 Agent 产品在自主性、交互性、任务完成度等方面已经今时不同往日,称得上是一个「独立思考、深度执行的智能工作伙伴」。 特别是在信息检索、整理、总结以及复杂任务的执行中表现出了惊人的效率与准确性,背后依托的是 Skywork Deep Research Agent V2 引入的多项关键提升机制,包括高质量数据合成、端到端强化学习、高效并行推理以及多智能体演进系统。

作为 AI 三大核心要素之一,在数据层面下功夫任何时候都是必要的。为了增强 Agent 模型对复杂及深度信息搜索场景的理解,昆仑万维自研了一套端到端深度信息问题合成流程,使系统生成高质量搜索查询数据集成为可能。

首要一点是制定数据质量标准。昆仑万维在初期设计阶段明确了高质量搜索问题以及答案的五大核心标准,包括多样性、正确性、唯一性、可验证性和挑战性,确保每一个生成的查询都能覆盖广泛的主题和难度层次,同时答案也要准确、唯一可靠并可验证。然后进入到数据准备阶段,通过多渠道收集互联网数据,构建初步的种子池,并利用自动化筛选系统评估、挑选出最具潜力的信息,为后续问题构造提供优质素材。

接下来处理复杂且具有挑战性的问题,一方面利用深度信息收集技术系统性地从多个信息源中提取线索,将具体信息抽象为高难度的搜索查询;另一方面采用迭代式增强策略,将简单搜索转化为多步推理的复杂问题。过程中引入了层次化推理链和信息混淆技术,以进一步提升问题复杂度和模型推理能力。

一番流程跑下来,每个环节的数据质量和任务难度都得到严格控制,尤其是覆盖五大标准的高难度问题体系,为接下来大规模、端到端的强化学习提供了数据基础。

想要提升 Agent 模型的学习效率和推理能力,需要克服传统 RLHF 奖励模型主观性强和易受攻击的难题,为此昆仑万维提出了非对称验证驱动的强化学习方法。具体到训练框架上,采用了 GRPO 算法和动态课程学习机制,确保训练过程中数据维持在最佳难度区间,避免简单和过难问题的干扰;同时动态更新数据集并补入新的数据,使模型始终处于有效「学习区」内。

为了进一步提升验证精度和奖励的有效性,昆仑万维创新性地引入了基于线索的生成式密集奖励机制,并利用生成式奖励模型为 Agent 模型提供更细致的反馈。若输出最终答案则给予满额奖励,若未能输出最终答案则进一步分析问题构造阶段保存的线索以进行过程评估,并在判定当前输出中正确线索比例的基础上赋予模型连续、高区分度的部分奖励。奖励信号贯穿整个解题过程,提升学习效率和推理能力的目标得以实现。

性能得到保障的同时,效率也必须提升,这时昆仑万维自研的并行推理框架发挥了用武之地。此前谷歌 DeepMind 在其最新 Gemini 2.5 Deep Think 推理模型中通过生成多个 Agent 来并行处理任务,并摘得 IMO 2025 竞赛金牌,有力验证了并行推理机制在提升复杂任务处理效率方面的有效性。而基于以下三项创新,昆仑万维在显著提升推理效率的同时大大节省了计算资源。

一是并行思考模式,在每一步生成多个候选推理路径并从中筛选最优候选路径以备后续使用,避免因推理链断裂、前后逻辑冲突导致的卡壳等失效行为。同时通过多节点异步推理架构,有效缩短推理时间并提升计算资源使用效率;二是在多步推理规划中引入生成式评估方案,对多个候选推理路径进行打分和筛选,结合锦标赛排序机制确定最优推理轨迹,并利用异步推理机制降低这一过程所带来的计算负担和时间开销;三是在并行推理过程中引入熵自适应剪枝技术,动态调整路径选择,减少冗余计算,降低资源开销。环环相扣,保证系统面对复杂动态任务依然稳定高效。

图片

并行思考模式下,Skywork Deep Research 的正确率随思考时间延长持续攀升,验证了其自研系统架构在推理深度与扩展性上的巨大潜力。

在数据、算法、算力优化之外,Skywork Deep Research Agent v2 能力的跃升与多智能体演进系统的持续进化息息相关。随着 Agent 应用场景日益丰富,MCP(模型上下文协议)外接工具的作用越来越大,不过随着此类工具数量和复杂度的增加,需要更高效的自动化管理工具。针对此,MCP 工具自动创建技术应用而生,通过对工具定义的标准化管理和实时同步,大幅减少人为错误,提升系统响应速度和工具链的灵活性。

在这一 MCP Manager Agent 的基础上,一个将模型能力与工具能力结合起来的协同多智能体框架形成,不仅能高效组织多个 Agent 协作,还通过动态创建 MCP 工具来强化任务应对能力和环境适应能力。下图整体架构中一一显示出 了规划 Agent、深度调研 Agent、浏览器使用 Agent、数据分析 Agent 和 MCP Manager Agent。

图片

这一套系统性的升级,无疑让 Skywork Deep Research Agent V2 具备了强通用性、强适应性和强自主性,从而构筑起 Agent 模型强大的智能基座,在实操中释放出更强的稳定性、泛化性与创造性。

写在最后

2025 年已经过半,我们明显感受到的一点是:伴随 Scaling Laws 逐渐放缓的影响,国内外 AI 玩家们追求单一最强通用大模型的热度有所降温,就连 OpenAI 迄今最强的旗舰模型 GPT-5 都被吐槽缺乏突破性体验。相反,成果开源与应用落地成为了业界普遍关注的焦点。

可以说,AI 行业重心的转移正在重新定义下一阶段的竞争格局。谁能在开源之上更快更好地打造贯通上下游的工具链与应用生态,同时率先将 AI 能力转化为可规模化部署的商业生产力,谁就更能在新一轮 AI 竞赛中抢占战略高地。

昆仑万维为期一周的模型发布,既是其 AI 技术成果的集中亮相,也是其在多模态 AI 领域加速落地、引领行业趋势的重要信号。

无论是赋能创作者进行高质量图片与视频生成、构建虚拟世界智能交互,还是 Agent 驱动的自动化任务执行、音乐创作灵感激发,昆仑万维从基座模型到多模态交互系统的全栈式布局又一次展现在大众面前。这也彰显出这家 AI 公司坚定践行其「All in AGI 与 AIGC」发展战略的决心与魄力,通过打造全方位的产品矩阵,以期在全球 AI 竞争格局中稳固并扩大自身领先优势。

其中,作为当前加速大模型落地的核心途径,Agent 的重要性已经在业界达成共识。我们可以期待,此次的深度研究 Agent 势必会在深度任务执行、多模态协作和跨场景应用中继续拓宽昆仑万维大模型的落地边界,也有望为整个 AI 行业带来更高效、更智能的解决方案。

....

#Group Filtered Policy Optimization(GFPO

冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世

用过 DeepSeek-R1 等推理模型的人,大概都遇到过这种情况:一个稍微棘手的问题,模型像陷入沉思一样长篇大论地推下去,耗时耗算力,结果却未必靠谱。现在,我们或许有了解决方案。

这两天,微软研究员 Dimitris Papailiopoulos 在 𝕏 上曝出一个新成果:Group Filtered Policy Optimization(GFPO)—— 一种颠覆性的强化学习算法。

图片

GFPO 能同时权衡训练与测试阶段的计算开销,可在提升准确率的同时,将推理中因强化学习带来的多余 token 长度削减多达 80%!

图片

数据很惊人,但这究竟是如何做到的呢?

就在刚刚,GFPO 终于上线 arXiv,所有细节首次公开,高效强化学习的新玩法即将揭晓。

论文标题:Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning

论文地址:https://arxiv.org/abs/2508.09726

欲知 GFPO,先看 GRPO

在介绍 GFPO 之前,有必要先看看 DeepSeek 提出的组相对策略优化(GRPO)。

GRPO 基于近端策略优化(PPO)算法,但进行了简化,即不再需要使用价值模型来估计基线优势。具体操作是对每个问题采样多个响应,并使用它们的平均奖励作为基线,而其优化的目标仍然是与 PPO 类似的裁剪替代目标(clipped surrogate objective)。

写成公式的话,如果令 θ 表示模型参数,q 表示问题,o 表示从旧策略 π_θ_old 采样的响应,则 GRPO 目标可以写成:

图片

需要注意的是,尽管这里展示了标准的 GRPO 损失归一化公式,但包括 verl 和 TRL 在内的多个开源强化学习库都默认为 GRPO 使用了 DAPO token 级损失归一化 ,这也是该微软团队在实验中使用的方法。

GRPO 的一个关键限制在于它依赖于单一的标量奖励信号,这使得它难以联合优化多个期望得到的响应属性,例如简洁性和准确度。结果就是,GRPO 确实能提高准确度,但也会让响应长度大幅增加。

GFPO 正是为了解决这个问题而生的,它可以同时优化多个响应属性。

组过滤策略优化:GFPO

GFPO 是一种简单而有效的方法,可以针对想要的响应属性进行有针对性的策略优化。

GFPO 会为每个问题采样更大的候选响应组,从而扩大响应池以包含更多具有所需特性的候选响应,然后在计算策略梯度时显式地过滤这些特性。虽然将简洁性或信息量等所需属性直接编码到标量奖励中是看似自然的做法,但同时编码多个特性却可能很难,尤其是在必须保证正确性的情况下。

数据过滤则是一种隐式、灵活的奖励塑造形式 —— 类似于使用选择性采样来放大特定模型行为的迭代式自我改进方法 。在此显式过滤步骤分离出所需的响应后,将在所选组内使用标准奖励来计算相对优势。因此,GFPO 无需复杂的奖励工程,即可同时优化多个所需属性(例如长度和准确度)。

由于这里的目标是减少强化学习中响应长度的膨胀,因此该团队主要研究的是在保持与 GRPO 相当的准确度的用时,使用 GFPO 来优化缩短响应长度。

给定一个问题 q,从当前策略采样大量响应 G = {o_1, ..., o_G}。GFPO 并不会在所有响应上平等地训练,而是会根据用户指定的指标应用选择步骤,过滤出大小为 k 的最符合期望的响应子集,然后进行训练。之后,为每个响应计算一个指标得分并进行相应排序,从中选出前 k 个响应,形成留存子集 S ⊆ G(算法 1)。这里,该团队定义了一个二元掩码 m ∈ {0, 1}^G,其中 m_i = 1 表示被选中响应,m_i = 0 表示被拒绝响应。

图片

下面是 GFPO 的形式化定义:

图片

这里使用 S 中响应层面的奖励的平均值 (μ_S) 和标准差 (σ_S) 对所选子集 S 中响应的优势进行归一化。这样一来,便可以有意义地比较已表现出所需属性的响应,从而确保 GFPO 优先考虑过滤子集中奖励最高的响应。不在 S 中的响应的优势为零,从而可有效地被排除在策略更新之外。

因此,GFPO 的主要干预措施是在优势估计层面,使其可与任何 GRPO 变体兼容,例如 DAPO、Dr. GRPO 或带有 Dual-Clip PPO 损失的 GRPO。

虽然通过采样更多响应,GFPO 会导致更高的训练时间计算成本,但由于学习到的策略比 GRPO 能产生更短的响应,因此这部分成本可以被抵消。

尽管 GFPO 是通用的,可以适应各种评分指标,但微软在这里的实验中研究的是旨在减少响应长度膨胀的指标:

  • 响应长度:使用短响应进行训练能直接鼓励实现简洁性。
  • token 效率(奖励/长度):使用高 token 效率的响应进行训练可鼓励简洁性,但如果较长响应能「证明」其正当性,则仍可允许较长响应。

其他指标(例如事实性、多样性或外部质量得分)也可以集成到 GFPO 中,以优化不同的目标属性。

自适应难度的 GFPO

该团队还提出了 GFPO 变体:自适应难度 GFPO,见算法 2,其目标是将更多的训练信号分配给更难的问题。

图片

在训练的每个步骤中,通过计算为每个问题采样的响应的平均奖励来估计问题难度 —— 较低的平均奖励意味着难度更高。

为了自适应地调整留存响应的数量 (k),该团队使用了一个轻量级 t-digest 数据结构维护提示词难度的流式摘要。t-digest 可以有效地近似迄今为止所有提示词难度(奖励均值)的四分位数,从而能够将新问题分类到相对难度的桶(bucket)中。

基于此分类,该团队为每个问题分配一个留存响应数量目标 k:简单 4 个,中等 6 个,困难和非常困难的问题 8 个(从 16 个样本中选取)。这种动态课程可以对简单提示词进行更积极的过滤,并对困难提示词进行更多探索。难度桶的数量和每个桶的 k 是此方法的超参数。

自适应难度 GFPO 可高效利用训练计算,将梯度更新集中在最需要的地方。它能帮助模型减少简单示例(正确率已经很高)的冗长程度,同时通过保留更多推理链来保持更难提示词的准确度。

该团队表示:「据我们所知,这是首个能根据问题难度动态调整有效分组规模的算法。」

基于 GFPO 的实验发现

那么,GFPO 的表现如何呢?基于 14B 参数的 Phi-4-reasoning 模型,该团队开展了实验。

他们评估了三种 GFPO 变体:

  • Shortest k/G:留存 G 中的 k 个最短响应,同时改变 k 和分组规模 G,以研究它们对长度缩减的影响。
  • token 效率:留存 G 中 k 个每 token 奖励效率最高的响应,使用 k = 8,G = 16(与基准 Shortest k/G 设置一致)。
  • 自适应难度:留存 G 中 k 个最短的响应,k 根据实时难度估算动态选择(4、6、8,8 表示简单→非常难),G = 16。

更多实验细节请参阅原论文,这里我们重点看看该团队得到的一些发现。

图片

图片

发现 1:「少思考」需要多采样:在不增加分组规模的情况下减少保留的响应(Shortest 6/8 GFPO)不会减少响应长度。

发现 2:留存响应的百分比 (k/G) 可控制长度压力:降低 k 或提高 G 会进一步缩短长度;该团队观察到保留 25-33% 的响应是最佳的,保留比例越小,增益越小。最短 4/24 是最佳长度优化的 GFPO 变体,可最大程度地减少过长响应。

图片

发现 3:token 效率(奖励 / 长度)优化带来了最大幅度的缩减:在保持准确度的同时,额外长度减少了 70.9% (AIME 25)、84.6% (AIME 24)、79.7% (GPQA)、82.6% (OmniMATH) 和 79.7% (LiveCodeBench)。这些缩减在训练过程中会略微增加方差。

发现 4:自适应难度 GFPO 在同等计算量下优于 Shortest-k 算法:根据问题难度自适应地确定 k 值,在 4/5 基准测试中,与同等计算量下的 Shortest-k 算法相比,其长度缩减效果更佳。

图片

发现 5:GFPO 可缓解分布外(OOD)长度膨胀:GRPO 会增加分布外任务的响应长度,但准确度并未提高;而 GFPO 则在略微提高准确度的同时,抑制了这种膨胀。

图片

发现 6:

  • GFPO 在所有难度级别上都会缩短响应。
  • token 效率 GFPO 在简单、中等和困难问题上实现了最大程度的缩减 —— 在简单问题上,其响应甚至比 SFT 模型更短,同时准确度与 GRPO 相当。
  • Shortest 8/24 GFPO 由于其强大的过滤功能,在最难问题上实现了最大程度的缩减。

图片

发现 7:

  • 自适应难度 GFPO 在中等难度和极难问题上的准确度超越 GRPO,同时将过长问题缩短了 47%-60%。
  • 更大的分组规模提高了难题的准确度:自适应难度(k = 8,G = 16)在难题上略有下降,但 Shortest 8/24 算法可通过更多采样找到简洁的正确响应,从而与 GRPO 的准确度相当。

发现 8:即使在固定难度下,较长的响应准确度也会降低:在较难的问题中,推理的最佳点出现在 12k-16k 个 token 左右。

发现 9:在最长的响应四分位数中,GFPO 的准确度优于 GRPO。

发现 10:GFPO 可减少极端冗长:将 ≥ 20k 个 token 的响应比例从 32% 降至 22%,同时能以较短的长度解决更难的问题(在 GFPO 中,用 ≤ 5k 个 token 回答的问题比 GRPO 的难度高 9 倍)。

图片

发现 11:哪种 GFPO 变体效果最佳?

  • token 效率:长度缩减效果最强,准确度略有下降 
  • 难度自适应:在最难问题上,通过稳健的长度缩减获得了最佳准确度 
  • Shortest 8/24:在管理准确度与长度的权衡方面非常有效

图片

发现 12:GFPO 可大幅降低推理解答和验证阶段的冗长程度,在 AIME 25 上,解答中减少了 94.4% 的多余长度,验证步骤中减少了 66.7% 的多余长度。

图片

参考链接

​https://x.com/DimitrisPapail/status/1955652396572721184​

​https://x.com/DimitrisPapail/status/1955653211819270337​

....

#HERMES

首个统一3D场景理解与生成的世界模型

本文第一作者周鑫、共同第一作者梁定康,均为华中科技大学博士生,导师为白翔教授。合作者包括华中科技大学涂思凡,旷视科技丁宜康,迈驰智行陈习武、谭飞杨,香港大学赵恒爽助理教授。

图片

在复杂的城市场景中,HERMES 不仅能准确预测未来三秒的车辆与环境动态(如红圈中标注的货车),还能对当前场景进行深度理解和问答(如准确识别出 “星巴克” 并描述路况)。

  • 论文标题:HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation 
  • 论文地址:https://arxiv.org/abs/2501.14729
  • 代码地址:https://github.com/LMD0311/HERMES 
  • 项目主页:https://LMD0311.github.io/HERMES/

研究背景与动机

近年来,自动驾驶技术取得了令人瞩目的进展。要让智能汽车安全高效地行驶在复杂的真实道路上,车辆必须具备两大核心能力:对当前环境的深刻理解(例如识别交通参与者、理解交通规则、推理场景语义)以及对未来场景的准确预测(如预测行人、车辆的运动,提前规避风险)。

目前,学术界和工业界的主流方案往往将 “理解” 和 “生成” 分开处理:

图片

  • 世界模型(Driving World Model, DWM)侧重于未来场景的生成与预测,但缺乏对当前环境的细致语义理解,难以回答 “现在是什么情况?”、“驾驶员该如何决策?” 等问题。
  • 大语言模型(LLM)及视觉 - 语言模型(VLM)则在场景理解、问答和描述方面表现优异,但通常只能 “看懂”,却难以 “想象” 未来场景的演化。

然而,现实中的自动驾驶决策,恰恰需要这两种能力的深度融合。例如,车辆不仅要能描述 “前方有行人正在通过斑马线”,还要能预测 “3 秒后这位行人将到达路中央,需提前减速”。 

构建这样一个统一的模型面临着诸多挑战:

首先,如何将多达六路的高分辨率环视图像高效地输入给有 token 长度限制的 LLM,并保持空间信息不失真?

其次,如何在一个模型内,让 “理解” 和 “生成” 这两个看似独立的任务能够相互促进,而非相互干扰?如何将强大的世界知识与前瞻性的场景预测无缝集成到一个统一的框架中,成为亟需突破的难点。

方法:HERMES 的统一框架

面对上述挑战,HERMES 提出了一个统一框架,其核心设计思想是通过一个共享的 LLM,同时驱动理解与生成两大任务。

HERMES 的核心设计

图片

鸟瞰图(BEV)特征统一空间

HERMES 采用 Bird’s-Eye View(BEV,鸟瞰图)作为统一的场景表达。它首先通过一个 BEV Tokenizer 将六路环视图像高效地编码并投影到一个紧凑的俯视视角表征中。这种做法不仅有效解决了 LLM 输入长度的限制,更重要的是保留了多视图图像之间的精确空间几何关系和丰富的语义细节。无论后续任务是理解还是生成,模型都能在同一套高质量的 BEV 特征空间中自由切换,为后续的统一处理奠定了坚实基础。

世界查询与 “当前 - 未来” 连接

为了打破理解与生成之间的壁垒,HERMES 引入了世界查询(World Queries)机制。这是一组从 BEV 特征中通过自适应采样(如最大池化)提取出的、代表场景核心信息的可学习 Token。其工作流程如下:

1. 知识注入:将 BEV 特征通过自适应采样(如最大池化)转化为一组表达世界知识的查询向量,再把世界查询与 BEV 特征、用户文本指令一同被送入 LLM。在 LLM 处理语言理解任务(如回答问题)的过程中,世界查询通过因果注意力机制(causal attention)吸收和编码了关于当前场景的丰富世界知识和上下文信息。

2. 知识传递:经过 LLM 处理后,这些富含知识的世界查询被一个 “当前 - 未来” 连接模块(Current to Future Link)所使用。该模块通过交叉注意力将世界查询中蕴含的 “理解” 成果,有效地注入到对未来场景的预测中,引导模型生成未来多帧的 BEV 特征。

3. 统一输出:最终,一个共享的渲染器(Shared Render)将当前和未来的 BEV 特征解码为 3D 点云序列,同时完成对当前场景的理解和对未来场景的生成。

联合训练与优化

HERMES 的训练过程同样体现了其统一性。模型通过两个目标进行联合优化:

1. 语言建模损失:采用标准的 Next Token Prediction 损失函数,优化模型在场景理解、问答和描述任务上的能力。

2. 点云生成损失:采用 L1 损失函数,监督模型生成的当前及未来点云与真实点云之间的差异,优化生成精度。

通过这种端到端的联合训练,HERMES 得以在两个任务之间找到最佳平衡点,实现性能的协同提升。

实验结果与可视化分析

多任务对比实验

图片

HERMES 在 nuScenes、OmniDrive-nuScenes 数据集上,评测了场景理解和未来生成两大任务。

  • 在未来生成任务上,Chamfer Distance 显著优于 ViDAR,3 秒未来点云误差降低 32.4%,仅用当前帧即可实现更高精度的未来预测。与同类模型相比,HERMES 无需历史序列,推理更高效,泛化能力更强。
  • 在场景描述、视觉问答等理解任务上,HERMES 在 CIDEr、METEOR、ROUGE 等主流自然语言生成指标上超越了 OmniDrive 等理解专用模型,CIDEr 提升 8%。
  • HERMES 与 “分离式理解 + 生成” 模型(即简单共享特征,但理解和生成模块独立)对比,生成精度提升显著,理解能力无损,充分验证了统一建模的有效性与优越性。

可视化

HERMES 不仅能够生成时序连贯且几何精确的未来点云,还能对驾驶场景的细节进行精准描述。无论是预测动态物体的移动,还是识别路边的商家,HERMES 都展现出强大的综合能力。更多可视化结果请访问项目主页。

图片

总结与未来展望

HERMES 为自动驾驶世界模型提供了一个简洁、有效且统一的新范式。它通过利用 BEV 表征和世界查询,成功弥合了 3D 场景理解与未来生成之间的鸿沟,为开发更智能、更可靠的自动驾驶系统迈出了坚实的一步。

未来,期望在此框架下进一步探索更复杂的感知任务,向着能够全面认知物理世界的通用驾驶大模型的目标不断迈进。

....

#StableAvatar

复旦&微软提出: 首个端到端“无限时长”音频驱动的人类视频生成新框架!

扩散模型的兴起极大地推动了语音驱动人类视频生成的研究。具体而言,语音驱动人类视频生成旨在基于参考图像与音频,合成面部表情与身体动作与音频高度同步的自然人像视频,在电影制作、游戏制作、虚拟现实、直播带货等领域具有广泛的应用前景。然而,现有方法仅能生成时长不足15秒的短视频,一旦模型尝试生成超过15秒的视频,就会出现明显的身体变形与外观不一致现象,尤其集中在面部区域,这一问题严重限制了其实际应用价值。

为了解决这一问题,一些方法尝试在音频驱动人类视频生成中引入一致性保持机制,但很少有工作深入探讨问题的根本原因。现有策略——无论是利用运动帧(Motion Frame),还是在推理过程中采用多种滑动窗口机制——都只能在一定程度上提升长视频的平滑性,却无法从根本上缓解无限时长头像视频的质量退化问题。另一种可行方案是将长音频切分为多个片段,分别处理后再拼接成连续的视频。然而,这种方式不可避免地会在片段衔接处引入不一致和突兀的过渡。因此,对于语音驱动的人类视频生成而言,实现端到端的无限时长高保真视频生成依然是一项极具挑战性的任务。

图片

为了解决上述问题,来自复旦、微软、西交的研究团队提出StableAvatar框架,以实现无限时长音频驱动的高保真人类视频生成,目前代码已开源,包括推理代码和训练代码

  • 论文地址:https://arxiv.org/abs/2508.08248
  • 项目主页:https://francis-rings.github.io/StableAvatar/
  • 项目代码:https://github.com/Francis-Rings/StableAvatar
  • 项目Demo: https://www.bilibili.com/video/BV1hUt9z4EoQ

方法简介

如下图所示,StableAvatar是基于Wan2.1-1.3B基座模型开发的,首先将音频输入 Wav2Vec模型中提取audio embeddings,随后通过提出的音频适配器(Audio Adapter)进行优化,以减少潜变量分布误差的累积。经过优化的audio embeddings会输入至去噪 DiT 中进行处理。参考图像的处理通过两条路径输入扩散模型:

  1. 沿时间轴将参考图像与零填充帧拼接,并通过冻结的3D VAE Encoder转换为潜变量编码(latent code)。该潜变量编码在通道轴上与压缩后的视频帧及二值掩码(第一帧为 1,后续所有帧为 0)拼接。
  2. 通过CLIP Encoder 编码参考图像以获得image embeddings,并将其输入到去噪DiT的每个图像-音频交叉注意力模块中,用于约束生成对象的外观。

在推理阶段,将原始输入视频帧替换为随机噪声,而保持其他输入不变。提出了一种新颖的音频原生引导(Audio Native Guidance)方法,以替代传统的Classify-Free-Guidance,从而进一步促进唇形同步与面部表情生成。此外,引入了一种动态加权滑动窗口去噪策略,通过在时间维度上融合潜变量,以提升长视频生成过程中的视频平滑性。

StableAvatar的核心技术点包括以下三个方面:

(1)Timestep-aware Audio Adapter:

首先观察到,阻碍以往模型生成无限时长视频的主要瓶颈在于其音频建模方式。它们通常仅采用第三方的现成特征提取器获取音频嵌入(audio embeddings),然后直接通过交叉注意力(cross-attention)将其注入视频扩散Transformer。然而,由于现有的基座模型缺乏任何与音频相关的先验,这种方式会导致跨视频片段的潜变量分布误差不断累积,使得后续片段的潜变量分布逐渐偏离目标分布。

为此,引入了一种新颖的时步感知音频适配器(Timestep-aware Audio Adapter),在将音频嵌入输入视频扩散 Transformer 时,可以有效抑制片段间的误差累积。具体而言,初始音频嵌入(Query)依次与初始潜变量(Key 和 Value)进行交叉注意力计算,随后结合timestep embeddings进行affine modulation,从而得到优化后的音频嵌入。

由于timestep embeddings与潜变量高度相关,这一设计潜在地迫使扩散模型在每个时步上建模音频–潜变量的联合特征分布,从而有效缓解因缺乏音频先验而导致的潜变量分布误差累积,优化后的音频嵌入(Key和Value)最后通过交叉注意力与潜变量(Query)交互后注入扩散模型。

(2)Audio Native Guidance:

由于优化后的audio embeddings本质上也依赖于潜变量,而不仅仅依赖外部音频信号,Audio Native Guidance不再将audio embeddings作为一个独立于潜变量的外部特征,而是将其作为一个与潜变量相关的扩散模型的内部特征,引导机制能够直接作用于扩散模型的采样分布,将生成过程引导至音频–潜变量的联合分布,并使扩散模型在整个去噪过程中不断优化其生成结果。

(3)Dynamic Weighted Sliding-Window Strategy:

与先前的滑窗去噪策略相比,在相邻窗口的重叠潜变量上引入了滑动融合机制,其中融合权重依据相对帧索引采用对数插值分布。融合后的潜变量会回注到两个相邻窗口中,从而保证中央窗口的两侧边界均由混合特征构成。借助对数加权函数,可在视频片段之间的过渡中引入一种渐进式平滑效果:早期阶段的权重变化更为显著,而后期阶段变化趋于平缓,从而实现跨视频片段的无缝衔接。

图片

生成结果示例实验对比

....

#HVPL

分层视觉提示学习,让“视频实例分割”模型告别灾难性遗忘

视频实例分割(Video Instance Segmentation, VIS)是一项强大的技术,它不仅要分割出视频中每个物体的轮廓,还要在不同帧之间持续跟踪同一个物体实例。然而,现有的大多数VIS模型都存在一个不切实际的假设:视频中物体的类别是固定不变的。在现实世界中,我们常常希望模型能不断学习新的物体类别。这时,一个致命的问题便出现了——“灾难性遗忘”(Catastrophic Forgetting),即模型在学习新知识(如“飞机”)后,会忘记如何识别旧的知识(如“人”)。

图片

为了解决这一挑战,来自穆罕默德·本·扎耶德人工智能大学、湖南大学、特伦托大学等多个高校和研究机构的学者们,共同提出了一种名为 HVPL (Hierarchical Visual Prompt Learning) 的新方法。HVPL,即分层视觉提示学习,它通过一种创新的“提示学习”策略,从“帧”和“视频”两个层级出发,系统性地解决了持续学习中的灾难性遗忘问题。该研究已被ICCV 2025接收。

  • 论文标题:Hierarchical Visual Prompt Learning for Continual Video Instance Segmentation
  • 作者团队:Jiahua Dong, Hui Yin, Wenqi Liang, Hanbin Zhao, Henghui Ding, Nicu Sebe, Salman Khan, Fahad Shahbaz Khan
  • 作者机构:穆罕默德·本·扎耶德人工智能大学、湖南大学、特伦托大学、浙江大学、复旦大学、澳大利亚国立大学、林雪平大学
  • 论文地址:​https://arxiv.org/pdf/2508.08612v1​
  • 项目地址:​https://github.com/JiahuaDong/HVPL​
  • 录用会议:ICCV 2025

背景:持续视频实例分割的挑战

持续视频实例分割(Continual Video Instance Segmentation, CVIS)任务要求模型能在一系列学习任务中,不断掌握新类别的分割与跟踪能力,同时保持对旧类别的识别性能。传统的VIS模型在进行持续学习时,通常采用微调(Fine-tuning)策略,但这会改变整个模型的权重,导致先前学习到的知识被“覆盖”,从而引发灾难性遗忘。

这种遗忘发生在两个层面:

  1. 帧级遗忘:在单张图片内,模型混淆了新旧类别物体的特征,导致分割错误。
  2. 视频级遗忘:在视频序列中,模型丢失了对旧类别物体的时序关联性(tracking)知识,导致跟踪失败。

HVPL的核心思想是“冻结”主干网络,只为每个新任务学习少量、轻量级的“视觉提示”(Visual Prompts),从而在保持旧知识的同时,高效地学习新知识。

HVPL:双层提示,双重保障

HVPL的框架如下图所示,它通过一套分层的提示学习机制,分别在帧级别和视频级别对抗遗忘。

图片

帧级遗忘缓解:帧提示与正交梯度校正

为了让模型在单帧图像上学会识别新类别,同时不干扰旧类别,HVPL引入了两个关键设计:

  • 任务特定帧提示 (Task-Specific Frame Prompt) :这是一组可学习的小参数。当学习新任务时,只有这组“帧提示”被训练,而庞大的主干网络保持不变。这个提示学会编码新类别的任务特定信息,并将其注入到主干网络中,引导模型进行正确的分割。
  • 正交梯度校正 (Orthogonal Gradient Correction, OGC) :这是HVPL的技术核心之一。在训练帧提示时,为了防止其更新方向与旧任务的知识空间“冲突”,OGC模块会将新任务的梯度投影到与旧任务特征空间正交的方向上。如下图分析所示,这从根本上保证了学习新知识不会损害旧知识,实现了“和平共处”。

图片

视频级遗忘缓解:视频提示与上下文解码器

为了在视频序列中保持对旧类别物体的跟踪能力,HVPL设计了相应的视频级模块:

  • 任务特定视频提示 (Task-Specific Video Prompt) :与帧提示类似,这是一个用于编码视频时序信息的轻量级可学习参数。它负责捕捉新类别在时间维度上的动态和关联特性。
  • 视频上下文解码器 (Video Context Decoder) :该解码器负责聚合跨视频帧的上下文信息。它首先将不同帧之间的结构性关系(如物体间的相互作用)嵌入到帧提示特征中,然后将这些富含上下文的帧级信息传播到视频提示中,从而让视频提示能够理解全局的、跨时间的场景动态,有效防止跟踪中断。

实验与结果

HVPL在OVIS、YouTube-VIS 2019和YouTube-VIS 2021等多个主流VIS数据集上进行了严格的持续学习实验。

定量分析

实验结果(如下表所示)表明,在不同的持续学习设置下(例如,在OVIS数据集上,先学习15个类,再增量学习5个或10个类),HVPL的性能全面、大幅度地超越了现有的基线方法。无论是在新任务还是旧任务上,HVPL都表现出更强的性能,尤其是在缓解遗忘方面效果显著。

图片

图片

图片

定性分析

下图的可是化结果更直观地展示了HVPL的优势。在学习了新类别“卡车”后,基线方法(LwF-VIS)几乎完全忘记了如何分割旧类别“人”,而HVPL则能够同时准确地分割出新旧两个类别的实例,证明了其强大的抗遗忘能力。

图片

消融实验

作者还通过详尽的消融实验,验证了HVPL中每个组件(帧提示、视频提示、OGC模块等)的必要性和有效性。结果表明,去掉任何一个组件都会导致性能下降,证明了这种分层设计的合理与高效。

图片

论文贡献价值

这篇论文为解决计算机视觉领域长期存在的“灾难性遗忘”问题,特别是在复杂的视频理解任务中,提供了一个新颖且有效的解决方案。

  1. 提出了HVPL,一个用于持续视频实例分割的创新框架,它通过分层视觉提示学习,在帧和视频两个维度上系统性地缓解了灾难性遗忘。
  2. 设计了正交梯度校正(OGC)模块,从梯度层面巧妙地解耦了新旧任务的学习,为持续学习提供了一个具有普适性的解决方案。
  3. 在多个大规模数据集上取得了SOTA性能,有力地证明了所提方法的有效性和优越性。
  4. 代码将开源,方便社区研究者们在此基础上进行后续的探索和改进。

总而言之,HVPL为构建能够像人类一样不断学习、适应新环境的智能视觉系统迈出了坚实的一步。

....

#LeetCode刷够100小时

学会找人内推,OpenAI员工下场教你拿Offer

OpenAI 在 AI 领域引领了一波又一波浪潮,想必很多人好奇,这些创新背后的研究人员是如何通过面试的?

尤其是现在,OpenAI 已经成为全球最受瞩目的 AI 公司之一,吸引了无数顶尖人才投递简历。想要加入这个团队,着实不容易。

近日,一位入职 OpenAI 不到两个月的新研究员 Bas van Opheusden 分享了他的求职经历,面试指南长达 8 页。

image.png

image.png

根据领英数据显示,Bas van Opheusden 今年 7 月加入 OpenAI,现在是一名研究员,拥有纽约大学博士学位。 

在这份指南里,他谈到了心态调适、准备策略、编程技巧等多个方面,并将自己的经验教训、建议分享给大家。

OpenAI 新员工分享面试技巧

以下是原文内容:

原文地址:https://docs.google.com/document/d/1ZV73D2vgaj2yu_tjN3TVOP6QVLWVPXJB2rrqSZQxYtI/edit?tab=t.0

Opheusden 强调首先是保护好自己的身心健康。面试过程充满压力,短短 30 分钟的谈话,就可能让你的人生发生巨大变化,不论是好的还是坏的,过程会很艰难。确保你有朋友和家人组成的亲友团支持,不要低估心理压力加上熬夜对身体造成的影响。

大家都以为面试官非常刁钻,恰恰相反,Opheusden 表示面试官也希望面试者能顺利通过并签下 Offer,在面试过程中,你可能会觉得一切是对抗性的、令人沮丧甚至不公平的。但请记住,所有参与其中的人,包括推荐人、招聘人员、面试官、招聘经理等,其实目标是一致的:希望你顺利通过并接受 Offer。通常公司会尽量帮你成功,因为任何其他结果对他们来说也是损失。虽然每个人在其中扮演的角色不同,但这是一场团队协作的比赛。

失败本就是常态。这已不是 Opheusden 第一次申请 OpenAI,但今年成功了。Opheusden 认为职业轨迹都在向上延伸,只要你在任何公司通过过一个环节,他们通常很乐意在 1-2 年后再次接触。

重在享受过程。在等待结果的那段时间里让人难以放松,但面试本身也充满乐趣。你会探访酷炫的新创公司,与所在研究领域的顶尖专家一对一交流,还能掌握新技能。编程面试在某种程度上也挺有意思,当然是那种事后回想才觉得有趣的类型。

尽早准备

为求职面试做准备,几乎是你人生中投资回报率最高的事情之一,准备的越早越好。面试准备还有额外的好处:你能学到新技能、阅读论文,或者重温一些经典内容。通过模拟面试,你还能获得真诚的反馈,并从更高的视角审视自己。

以量级来衡量的话,Opheusden 建议大概花 100 个小时做 LeetCode 练习,并用差不多的时间去阅读论文、复习知识(可以用 Deep Research!)、以及和朋友交流探讨。

不存在真正的非正式交流

招聘人员可能会邀请你与招聘经理聊一聊,或者和团队一起吃午餐,并将这些交流称为非正式,但这通常只是意味着没有正式的评分标准。事实上,你与任何公司或其代表的每一次互动,都是展示你个人品质、能力和热情(无论是积极还是消极)的机会,这种情况从第一次交流开始,一直到你签署 offer 当天都适用。

和朋友多练习

面试,尤其是编程面试,本身就是一种尴尬的体验。它要求你在一个从未见过面的人面前写程序、并希望你边做边讲的情况下,调试诸如索引偏移一位这样的错误。而且你不能使用 Codex、Copilot 或任何 LLM 工具来辅助,就像平时的工作流程一样。你绝不希望第一次经历这种情况是在一次高风险的面试中。

能多练习就多练习,找朋友一起模拟,练习在时间压力下写代码,特意挑一些让人头疼的问题,让朋友假装不认识你。这会很尴尬,但这正是练习的目的:学会适应并接受这种尴尬感。

一些简单的小技巧

面试的目的是评估你的能力以及与公司的匹配度,在某种程度上,你要么达标,要么不达标。不过,你仍然可以通过很多小细节来提高成功的概率,这些做法也能传达出你的用心与专业度。

投资一个好的设备环境。Opheusden 买了一套线上面试设备, Yeti Nano 麦克风和 C922 Pro 摄像头。并使用双屏设置,可以在通话时做笔记,他还会把视频通话窗口移动到屏幕合适的位置,让对方看起来像是在进行眼神交流。保持房间光线充足,每次面试前清理书桌,并准备好纸笔。

照顾好自己的基本需求。 面试前一天早点睡觉。根据需要开空气净化器、空调或取暖器。面试前 30 分钟,可以出去走走或者陪猫玩。确保自己吃饱,上过厕所,并且手边有水(Opheusden 通常会准备水、咖啡、冰茶并一字排开)。如果有腰颈问题,可以提前吃点止痛药并做伸展运动。

提前到场。如果你的面试是下午 2 点,那就 1:55 加入会议。面试官可能会在 2:03 左右出现,如果到 2:05 还没来,就用事先准备好的邮件联系招聘人员,他们通常会在 2:07 左右出现。这是很正常的情况。

熟悉视频会议工具。不同公司可能使用 Zoom、Google Meet、Microsoft Teams、Amazon Chime 等不同平台。确保你知道如何共享屏幕或打开聊天窗口。同样,对于编程面试,要提前熟悉将要使用的工具。如果是 CoderPad 或 Google Colab,你可能会有语法补全和高亮,但有些公司使用纯文本,甚至不允许运行代码。据说 Meta 计划将面试切换为允许使用 AI 工具的模式。

如何获得面试机会

想要进入大型科技公司并非易事。他们虽然有招聘页面,但申请通常非常困难,成功率很低。通过内部招聘或推荐获得的成功率更高。

做好研究,并让成果被看见。把你的成果发布出来,并在会议上进行展示;在 GitHub 上发布带有演示和 README 的库;参加行业交流活动和招聘会,在演讲中提出有价值的问题,主动提供合作并兑现承诺。积累引用次数、GitHub star 数,参与开源项目,赢得黑客马拉松等。很多公司都有招聘人员和人才发掘专员,他们的工作就是发现优秀人才。如果你持续产出高质量成果,他们一定会注意到你。而且,你让他们发现你的过程越简单越好。

争取内推。最好的进入途径是内部推荐。考虑到 Google、Meta、Apple、Amazon 等公司员工众多,你很可能有朋友在这些公司。向朋友或熟人请求推荐是完全正常的。即便他们不能帮你(因为大多数公司对内部推荐次数有配额限制),你也会因此重新联系上一些老朋友,并结识朋友的朋友,他们会乐意认识你并给你建议。这个行业有很强的传递善意文化。

维护好你的 LinkedIn、简历和个人主页。如果你在职位栏里写着 AI Research Scientist - Large Language Models,你就会收到很多主动找上门的机会,其中还包括一些你从没听说过的很酷的初创公司。

与招聘人员的初步电话沟通

大多数公司,面试流程的第一步通常是与招聘人员进行一次简短的非正式电话沟通。他们会向你介绍面试流程,告诉你招聘经理是谁、所在团队是做什么的;如果是初创公司,还会讲公司的使命和战略。他们可能还会问你对薪酬的期望。

在这通电话中,一定要记笔记!Opheusden 表示自己当时没记,后来很后悔。这可能是唯一一次有人向你详细解释组织架构和团队结构的机会。因而在 2-3 周后的编程面试中,被问到自己申请的职位是什么时,Opheusden 却答不上来。

与招聘经理的沟通

几乎每家公司都会在流程早期安排一次与招聘经理的面谈。通话结束后,招聘经理需要相信你具备胜任他们所招聘岗位的技能,并且相信在接下来的几年里,他们会愿意与你紧密合作。

这个环节没有什么所谓的作弊技巧或秘密窍门。招聘经理通常比你有更多经验,判断力更强,并掌握你所不了解的内部信息(比如岗位的精确描述)。不过,你仍然可以采取一些方法来提高成功的可能性。

做好调研。如果你已经知道招聘经理是谁,就去 Google Scholar 上查查他们的学术主页,读读他们的论文,看看他们的推特,观看他们做过的演讲或报告。这样你能更好地理解他们的动机和兴趣,而大多数人都喜欢别人关注他们的内容。这并不是什么社交工程技巧;提前花时间去了解他们,本身就是展示你热情的真诚方式。

真诚。如果你在面试中刻意扮演一个人设版的自己,面试官会察觉,而且几乎是瞬间就能看出来。人类在这方面是很敏感的。

保持谦逊。这一点很难把握。你会陷入一种左右为难的境地,既想展示自己的能力,介绍自己之前工作成果,但又不想给人留下自负的印象。

还有就是保持热情。

编程面试

编程面试通常会占据你大部分的面试时间,也是决定成败的关键环节。一个非常重要的概念是,要理解编程面试背后的心理学,并利用这一点为自己加分。面试的目标并不是写出完美的代码、通过所有测试,而是让面试官对你作为未来同事的印象是积极的。

面试官是希望你通过的。因为面试官既出题又评分,你可能会误以为你和他们之间是对立关系。事实恰恰相反:对面试官来说,最理想的情况是你表现出色,他们可以写一份赞不绝口的推荐。通常他们会尽力帮助你通过,而你也可以利用这一点。

简短自我介绍。时间对你不利,寒暄性的长介绍会浪费时间。你应该准备一个简短版本,比如:我叫 Bas van Opheusden,目前在研究团队负责安全与对齐的评测工作。

解决一个问题后,马上进入下一个。很多人会忍不住在一个题上花过多时间,但如果是多轮题目的面试,尽快进入下一个问题才是核心目标。

练习在压力下编程。编码和调试的难点在于,你必须在脑中精准模拟机器逻辑。而当有人盯着你、时间又紧迫时这就更难了。你应该在和面试相同的条件下练习:有时间压力、也有心理压力。

准备白板编程面试。有些公司会用这种形式。不知道为什么,但这是一个需要提前准备的技能。练习在没有运行环境、没有语法高亮的情况下写代码。虽然很糟心,但你会庆幸自己练过。

练习 Python。大多数科技公司都用 Python 和 PyTorch。有些公司会在面试中要求用 Python,有些则不会,但很大概率你的面试官最熟悉的就是 Python,这样他们也能更好地帮助你。

值得准备的面试题目:

  • Debug Transformers。这是经典题型之一:你会拿到一个有问题的自注意力模块实现,需要进行调试。一定要练习调试张量的形状,并特别注意因果注意力掩码(causal attention mask),这里是最容易出错的地方;
  • Top-k /kNN。选出前 k 个最大元素的问题在机器学习的很多场景中都会出现,非常适合作为面试题,尤其是因为其解法并不是能现场发明出来的东西。一定要确保你熟悉堆的概念和用法;
  • 实现 BPE。Tokenizer 是大语言模型中最麻烦的部分,而不出错地实现 BPE 并不容易。这也是比较常见的考察点;
  • 从头实现反向传播。包括手写自动微分、链式法则等的基础版本;
  • KV Cache。本质上就是构建一个矩阵,但如果你之前没见过,可能会用一种很绕的方式来做;
  • 二分查找、回溯、Dijkstra 算法等。

机器学习领域面试

你可能会被安排一次研究领域的面试,可能是考试式的问答、讨论你写过的一篇论文,或者只是让你介绍一下你目前正在做的工作。 

准备应试类问题。掌握基础知识!你的面试可能会从这样的问题开始:请描述监督学习与无监督学习的区别或者什么是线性回归。你需要能够简洁准确地回答这些问题。同时,确保你了解最新的前沿技术或近期发展。例如,如何训练一个上下文长度为 1000 万的模型?GSPO 与 GRPO/PPO 有何区别?什么是(有害的)人格向量?有些面试官还喜欢问历史性问题,比如请说出 Vaswani 2017 年论文提出的架构与 GPT-OSS-120B 架构在质上的三大主要区别。

可以用 ChatGPT 来做准备。如果必须的话,也可以用 Claude 或 Gemini。

准备一个演讲。有些公司可能会要求你做一次演讲,即使不要求,也可能会让你讨论之前的工作,而有幻灯片辅助要比单纯口述好得多。

准备好讨论你当前的工作。你可能会被问到当前项目的情况,你需要能够解释项目目标、你的方法、目前的进展、下一步计划,以及你设想它最终如何融入产品。这可能会有些尴尬,因为有些问题你可能无法回答,或者面试官的直觉与你不同,甚至他们已经知道你的方法行不通,但这是机密所以不能告诉你……

面试通过后,还要保持谨慎

当你通过正式的面试轮次,并接到招聘人员的恭喜电话后,一个新的面试流程才刚刚开始。此时,公司已经确认你符合他们的技术标准,也认同你在文化上的契合度。

但他们并不知道自己到底有多想要你、你又有多想去他们那里工作,以及他们应该为你开出多少薪水。

到这个环节,不要只盯着薪资,不要让数字分散了你对其他影响生活质量因素的注意力,比如团队、使命、地点、公司文化,以及(真的)食堂的饭菜。钱确实很重要,但如果为了钱牺牲了幸福感,就失去了它本来的意义。

有些招聘人员会出阴招。Opheusden曾遇到过公司撤回 offer、直接消失不再回复等。尽量把一切都落实到书面上(这本身可能也需要谈判),而且不要以为自己比对方更会谈判。你这一辈子可能只会经历几次谈判,但他们每天都在做这件事。

一个重要的资源是你的招聘经理。你可以请求再聊一次、认识更多团队成员,或者在压力消除后再次参观办公室。但要记住,没有真正的非正式面试!

总有一个时刻,你需要真正决定自己的人生要往哪个方向走。如果没有,就选择那家能让你每天推开公司大门都露出笑容的企业去工作。

....

#xAI元老离职干风投

传奇人物Babuschkin长文追忆与马斯克创业战友情

和马斯克一起创业的人到现在已经离开了四分之一。

2023 年 7 月 12 日,马斯克和其余 11 位联合创始人宣布成立了 xAI,带着「理解宇宙」的使命强势进军 AI 行业。

在这两年的时间里,xAI 的高歌猛进有目共睹,从零开始直到 Grok 4 发布,xAI 已经处于大型 AI 公司的领先地位。

但也仅两年时间,创始团队的 12 名成员只剩下 9 人,这个离职速度是否有些快了。

在去年,联合创始人 Kyle Kosic 离开 xAI 重返 OpenAI 任职,另一位联合创始人 Christian Szegedy 则于今年 5 月离职,加入了一家名为 Morph Labs 的初创公司。

而就在数小时前,马斯克的左膀右臂,xAI 联合创始人 Igor Babuschkin 表示,他已离开由埃隆・马斯克领导的人工智能公司,并计划创办一家名为 Babuschkin Ventures 的公司。

据 Igor Babuschkin 介绍,他准备创办的公司是一家「支持人工智能安全研究,并投资于推动人类进步、探索宇宙奥秘的人工智能及智能体系统领域的初创企业。」

其实从他的创业理想就能看出,Babuschkin 和马斯克的理念非常相似,他说「打造推动人类进步的 AI 一直是我毕生的梦想。」

回忆与马斯克合作创业的时刻,巴布什金写道,他相信「很快 AI 就能在推理能力上超越人类」,并担心如何确保这类技术「被用于善」。他表示,「马斯克多年来一直警告强大 AI 的危险」,并分享了自己「让 AI 造福人类」的愿景。

Babuschkin 在 X 平台发布了长文,除了宣布自己离职的消息之外,他深刻回顾了过往的人生历程和工作经历,在 xAI 那些令人惊叹的成就,以及和马斯克在创业路程中深切的「战友情」。

图片

图片

Babuschkin 感谢了马斯克,夸赞他「扎根在公司在成长与成熟过程」。他说,在 xAI 工作期间,从马斯克身上学到两条无价的经验:「第一,敢于亲自深入技术问题;第二,保持近乎疯狂的紧迫感。」

而马斯克在评论中回应:「没有你,我们不会走到今天。」

回顾 Babuschkin 过去在 AI 行业中的履历和成就,似乎也能称得上一位「传奇人物」。

图片

在 Babuschkin 与马斯克一起创立 xAI 之前,他曾在 AI 领域的两大巨头:Google DeepMind 以及 OpenAI 任职。

在 DeepMind 期间,他曾参与了明星项目 AlphaStar,该项目采用人工智能在星际争霸 II 游戏中竞技。

图片

在 2019 年 12 月 19 日举行的一系列测试比赛中,AlphaStar 以 5-0 的比分 decisively 击败了世界顶尖职业星际争霸玩家之一 Team Liquid 的 Grzegorz "MaNa" Komincz,此前他已在与队友 Dario “TLO” Wünsch 的基准测试中取得成功。比赛在专业比赛条件下进行,使用的是竞技等级地图,并且没有任何游戏限制。

图片

  • 博客地址:https://deepmind.google/discover/blog/alphastar-mastering-the-real-time-strategy-game-starcraft-ii/

在 OpenAI 任职期间,他参与了 ChatGPT 发布前的相关工作,参与了 GPT-4 的开发,参与撰写了 GPT-4 的技术报告。

图片

在与马斯克共同创立 xAI 后,Babuschkin 构建了公司用于启动和管理训练任务的基础工具,负责公司大部分工程工作,包括基础设施、产品和应用 AI 项目,可以说是 xAI 飞速发展的灵魂人物。

而在 xAI 期间,他最传奇的成绩是领导团队以 120 天的时间,建成了在 Memphis 的超级计算集群 Colossus,并且在计算集群的大规模训练支持下,并以前所未有的速度交付了前沿模型,「快过历史上任何一家公司。」

尽管 xAI 在孟菲斯的运营引发了当地居民的抗议,尤其是其使用燃烧天然气的涡轮机为数据中心供电,以及 Grok 在回答用户问题上存在引用马斯克个人观点和争议言论的问题,仍然难掩 xAI 在前沿大模型领域的成就。

在 Babuschkin 宣布离职后,评论区充满了 xAI 的同事们真挚的祝福和对过去共事经历的回忆。

图片

图片

图片

正如 Babuschkin 自己所说的,「彼此间的情感纽带让我终生难忘」。

Babuschkin 的长文推特全文如下:

上下滑动,查看更多

今天是我在 xAI 的最后一天。这家公司是我与埃隆·马斯克于 2023 年共同创立的。我仍记得第一次见到埃隆的那天,我们聊了几个小时,谈到人工智能以及未来可能的发展。我们都觉得,需要一家使命与众不同的新 AI 公司。

打造推动人类进步的 AI 一直是我毕生的梦想。我的父母在苏联解体后离开俄罗斯,为了给孩子寻找更好的生活。作为移民,生活并不总是容易的。尽管经历艰辛,父母始终相信人类价值观的无价:勇气、同情心、对世界的好奇心。小时候,我崇拜理查德·费曼和马克斯·普朗克这样的科学家,他们不断拓展物理学的前沿,只为理解宇宙。作为 CERN 的粒子物理学博士生,我也很兴奋能为这一使命贡献力量。但新物理的探索越来越艰难,需要越来越大的对撞机,而新发现却越来越少。我开始思考,也许解开宇宙奥秘的钥匙不是更大的对撞机,而是超级智能。AI 能否发展出统一的量子引力理论?能否证明黎曼猜想?2023 年初,我确信我们已接近超级智能的“配方”,很快 AI 就可能在推理能力上超越人类。那该如何确保这项技术用于善?埃隆多年来一直警告强大 AI 的风险,我们意识到彼此在“让 AI 造福人类”这一愿景上高度一致,于是招募了志同道合的工程师,共同创建了 xAI。

xAI 创立初期并不轻松。很多人说我们来得太晚,从零打造一家顶级 AI 公司不可能。但我们相信可以做到不可能的事。公司从零起步,需要大量亲力亲为的工作。最初,我构建了公司用于启动和管理训练任务的许多基础工具,后来负责公司大部分工程工作,包括基础设施、产品和应用 AI 项目。xAI 的团队极其敬业。凭借血汗与拼劲,我们以惊人的速度打造了 Memphis 超级集群,并以前所未有的速度交付前沿模型。我从埃隆身上学到两条无价的经验:第一,敢于亲自深入技术问题;第二,保持近乎疯狂的紧迫感。

xAI 以“荒谬的速度”执行任务。行业老手说,在 120 天内建成 Memphis 超级集群不可能。但我们相信能做到。在接近 120 天的期限时,我们遇到了机器间通过 RDMA 通信的神秘问题。埃隆决定飞到数据中心,我们随行。基础设施团队半夜抵达 Memphis,立刻投入工作。翻查数万行 lspci 输出后,我们终于发现是 BIOS 设置错误造成了问题。那晚,埃隆一直陪我们到深夜。训练任务最终成功启动时,埃隆在凌晨“4:20”发了动态,我们笑得前仰后合。那一刻的肾上腺素冲击和彼此间的情感纽带让我终生难忘。我们带着仿佛身处人生最激动人心阶段的心情入睡。

我深深爱着 xAI 这个大家庭。你们是我共事过的最敬业的人。如此迅速追赶前沿并不容易,这一切都得益于大家顽强的意志和团队精神。感谢每一位与我同行的人,感谢你们的付出与牺牲,这些从来都不轻松。我会永远记得我们通宵奋战的日子。今天离开时,我就像一位骄傲的父母送孩子上大学,心中满是喜悦与不舍,衷心祝福公司继续成长、成熟。

踏向新篇章,我从父母的移民经历中汲取灵感——他们为了孩子的美好未来而努力奋斗。最近,我与生命未来研究所创始人马克斯·泰格马克共进晚餐,他给我看了两个儿子的照片,并问我:“我们怎样才能安全地构建 AI,让孩子们得以茁壮成长?”这个问题让我深受触动。职业生涯早期,我曾担任 DeepMind AlphaStar 星际争霸智能体的技术负责人,亲眼见证了大规模强化学习的强大力量。随着前沿模型在更长时间跨度、更广任务范围内变得更具智能体特征,它们将获得越来越强的能力,这使得研究和推动 AI 安全至关重要。

我将继续我的使命——实现安全且有益于人类的 AI。今天,我宣布创立 Babuschkin Ventures,支持 AI 安全研究,并投资于推动人类进步、探索宇宙奥秘的 AI 与智能体系统初创企业。如果你想交流,请联系 ventures@babuschk.in。奇点已近,但人类的未来依然光明!

参考链接:

​https://x.com/ibab/status/1955741698690322585​

​https://www.cnbc.com/2025/08/13/elon-musks-xai-loses-co-founder-igor-babuschkin-for-venture-firm.html​

​https://www.theinformation.com/briefings/xai-co-founder-babuschkin-leaves-will-start-investment-firm?rc=rpuplc​

​https://techcrunch.com/2025/08/13/co-founder-of-elon-musks-xai-departs-the-company/​

​https://scholar.google.com/citations?user=_N2COeAAAAAJ&hl=en​

​https://deepmind.google/discover/blog/alphastar-mastering-the-real-time-strategy-game-starcraft-ii/​

....

#Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens 

链式思维是幻象吗?从数据分布视角重新审视大模型推理,马斯克回复,Grok破防

本文作者来自亚利桑那州立大学数据挖掘与机器学习实验室 (Data Mining and Machine Learning Lab),包括博士研究生赵成帅、谭箴、马平川、李大卫、蒋博涵以及指导老师刘欢教授。Statistical Deep Learning Lab 王砚丞、杨颖振教授。

思维链 (CoT) 提示技术常被认为是让大模型分步思考的关键手段,通过在输入中加入「Let’s think step by step」等提示,模型会生成类似人类的中间推理步骤,显著提升复杂任务的表现。然而,这些流畅的推理链条是否真的反映了模型的推理能力?

亚利桑那州立大学的一项最新研究却发现,CoT 推理可能并不是真正的推理,而更像是对训练数据分布内模式的复现。一旦输入任务与训练数据分布存在差异,这种看似稳固的推理链条就会迅速失效,呈现出类似「海市蜃楼」的脆弱性。

论文标题:Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens 

论文链接:https://arxiv.org/pdf/2508.01191

项目开源:https://github.com/ChengshuaiZhao0/DataAlchemy

推特讨论:https://x.com/ChengshuaiZhao/status/1953291261999497258

领英推广:https://www.linkedin.com/feed/update/urn:li:activity:7359056339228090368/

图片

在这篇工作里作者探究了 CoT 的泛化性和 Out-of-Distribution (OOD) 问题,马斯克看当场测试 Grok 是否会生成 OOD 的内容,直接「强迫」Grok 生成粗俗的脏话锐评,节目效果拉满!

图片

推理的「幻象」

研究团队在论文开头给出了一个典型的例子:问题是:「美国建国年是闰年还是平年?」,模型的回答是:「美国建于 1776 年,1776 能被 4 整除,又不是世纪年,所以是闰年。因此,美国建国那一年是平年。」这一回答中的推理步骤和知识点看似正确,但结论却与前提自相矛盾。这表明模型虽然会复述逻辑规则,却未必真的用这些规则来推导答案。

事实上,已有相关研究表明,CoT 的性能提升往往源于表层语义匹配。一旦问题稍作改写,或者引入与结论无关的内容,模型的表现便会显著下降。

数据分布视角下的 CoT 假设

在这项研究中,作者提出了一个新的解释框架,即从数据分布的角度来理解 CoT。他们认为,CoT 的有效性主要来源于模型在训练分布内学到的「结构性归纳偏差」(structured inductive bias)。

换句话说,所谓的推理链只是对训练数据中常见模式的复现,而非真正的逻辑推演。当测试任务与训练数据之间的分布差异增大时,这种「推理」表现会迅速崩塌。

图片

研究团队还用理论公式刻画了这种关系,并引入了一个可计算的分布差异指标,从而能够在实验中估计分布偏移对推理性能的影响。

图片

可控实验平台:数据炼金术

为了避免大规模预训练模型中复杂因素的干扰,团队选择从零训练语言模型,并搭建了一个名为数据炼金术 (DataAlchemy) 的可控实验环境。

在该框架中,作者将广泛意义上的各种 NLP 下游任务抽象成不同「元素」和「变换」的组合。基本「元素」是由 26 个字母原子组成的固定长度序列。作者设计了两种基本「变换」:一种是 ROT 变换,即将字母表循环位移若干位;另一种是循环位置平移,将序列整体向右移动指定位置。

图片

在此基础上,他们构造了各种组合变换,通过将不同变换按顺序和参数串联,形成推理链。每个任务的正确推理链可以被精确生成,这使得模型输出与标准答案之间的差异能够被逐步对照评估。

图片

三类泛化实验的发现

首先在「任务泛化」方面,作者分别考察了「变换泛化」和「元素泛化」两种情形。「变换泛化」测试了模型在面对新的变换组合,甚至完全陌生的变换类型时的表现;「元素泛化」则涉及模型遇到新的字母组合,或者训练过程中从未见过的字母。

在分布内的情况下,模型的准确率接近 100%。然而,只要分布稍有偏移,例如变换顺序被重新组合,准确率便会骤降至 0.01%;当测试中出现全新「变换」时,性能更是几乎完全丧失。

作者还发现,虽然在少量新数据上进行监督微调 (SFT) 可以迅速恢复性能,但这只是在原有分布边界上做了扩展,并未真正提升模型的抽象泛化能力。

图片

在「长度泛化」方面,研究团队分别考察了「文本长度」变化和「推理步数」变化的影响。实验结果表明,即使输入序列长度仅比训练时多或少一个单位,模型的表现也会显著下降。它往往会生成与训练长度一致的推理链,并通过添加或删除词元来「凑长度」。当推理步数与训练设置不一致时,模型几乎完全无法泛化,除非它在训练中显式地见过相应步数的样例。

图片

在「格式泛化」方面,作者通过插入、删除、替换等方式扰动输入提示,以模拟现实场景中的多样的格式。他们发现,模型对格式的变化极为敏感,尤其是当变化发生在「元素」或「变换」部分时,即使逻辑内容不变,仅仅提示形式不同,也可能导致推理彻底失败。

图片

温度、规模与泛化脆弱性的普遍性

作者进一步测试了不同采样温度和模型规模下的表现。在合理的温度范围内,CoT 的脆弱性模式保持一致。模型规模的变化同样不影响这一趋势。这表明,这种对分布偏移的敏感性并非个别模型的特性,而是一种普遍现象。

图片

研究的现实意义

这项研究对实际应用提出了多项警示。

首先,在医疗、金融和法律等高风险领域,不能盲目依赖 CoT 作为稳健推理的保证。流畅但逻辑有误的推理链可能比直接给出错误答案更具误导性。

其次,现有的评测方法往往依赖与训练分布高度一致的验证集,这会严重高估模型的鲁棒性。为了更准确地评估系统性能,必须引入严格的分布外测试。

最后,虽然在少量新数据上进行监督微调可以迅速提升特定任务下的表现,但这种方法只是对原有分布的局部扩展,不能赋予模型真正的抽象推理能力。

结论

通过数据分布的视角,这项研究揭示了 CoT 推理的本质:它更像是对训练中出现过的模式的结构化复现,而不是真正的逻辑推理。一旦任务结构、推理链长度或输入格式超出了训练分布的范围,模型的表现便会迅速崩溃。

在未来的发展中,研究者和工程师需要在充分利用 CoT 在分布内的优势的同时,正视其在泛化能力上的瓶颈,并在评测和部署中保持足够的谨慎。

....

#大语言模型高效架构82页最新综述

速度为王

大语言模型(LLMs)的浪潮正席卷着整个人工智能领域,它们在语言理解、推理和多模态交互方面展现出的强大能力,不断刷新着人们对AI潜力的认知。然而,在这背后,作为现代LLM基石的 Transformer 架构,其巨大的计算和内存开销也成为了制约其更大规模训练和更广泛部署的瓶颈。

“智能的代价是什么?” 带着这个问题,一篇长达82页的重磅综述《Speed Always Wins: A Survey on Efficient Architectures for Large Language Models》系统性地梳理了旨在提升LLM效率的各类创新架构。该论文由上海人工智能实验室、香港科技大学(广州)、澳门大学等多个顶尖机构的研究者共同完成,描绘了一幅通往更高效、更通用AI系统的清晰蓝图。

图片

  • 论文标题: Speed Always Wins: A Survey on Efficient Architectures for Large Language Models
  • 作者: Weigao Sun, Jiaxi Hu, Yucheng Zhou, Jusen Du, Disen Lan, Kexin Wang, Tong Zhu, Xiaoye Qu, Yu Zhang, Xiaoyu Mo, Daizong Liu, Yuxuan Liang, Wenliang Chen, Guoqi Li, Yu Cheng
  • 机构: 上海人工智能实验室; 香港科技大学(广州); 澳门大学; 中国科学院; 苏州大学; 瑞典皇家理工学院; 北京大学; 香港中文大学
  • 论文地址:​ https://arxiv.org/pdf/2508.09834v1​
  • 项目地址:​ https://github.com/weigao266/Awesome-Efficient-Arch​

背景:效率瓶颈与长上下文挑战

Transformer的核心在于其自注意力(Self-Attention)机制,它能有效捕捉长距离依赖关系,但也带来了与输入序列长度N成二次方关系的计算复杂度O(N²)。随着RAG、AI Agent、多模态等应用对长上下文处理能力的需求日益增长,这一计算瓶颈变得愈发突出。同时,模型参数的激增也给前馈网络(FFN)带来了巨大的训练和推理成本。因此,探索更高效的LLM架构势在必行。

图片

高效LLM架构的系统性分类

本综述对高效LLM架构进行了全面的梳理,并构建了一个清晰的分类体系。

图片

1. 线性序列建模 (Linear Sequence Modeling)

这类方法旨在将自注意力的二次复杂度降低到线性级别O(N),同时在推理过程中无需存储庞大的KV缓存。它们通常借鉴了传统RNN或状态空间模型(SSM)的思想。

图片

  • 线性注意力 (Linear Attention): 通过核函数或特征图来近似Softmax注意力,将计算顺序解耦,从而实现线性复杂度。
  • 线性RNN (Linear RNN): 移除传统RNN中的非线性激活,使其能够并行化训练。以 RWKV 为代表的模型在此方向上取得了显著进展。
  • 状态空间模型 (State Space Models, SSMs): 源于控制理论,以 Mamba 为代表的SSM通过引入选择性机制,实现了数据依赖的状态转换,在长序列建模上表现出色。
  • 统一趋势: 论文指出,线性注意力、线性RNN和SSM在技术上正逐渐趋同,最终可以统一到一个共同的线性序列建模框架下。

从内存更新规则和优化目标的角度对各种线性序列建模方法进行比较概述

从内存更新规则和优化目标的角度对各种线性序列建模方法进行比较概述

基于微调和基于蒸馏的线性化过程的机理比较

基于微调和基于蒸馏的线性化过程的机理比较

线性序列建模的硬件高效实现算法

线性序列建模的硬件高效实现算法

2. 稀疏序列建模 (Sparse Sequence Modeling)

与计算所有Token对之间的注意力不同,稀疏注意力只关注一个精心选择的子集,从而在保持性能的同时减少计算和内存需求。

  • 静态稀疏注意力 (Static Sparse Attention): 采用固定的稀疏模式,如窗口注意力、全局注意力、扩张注意力等。​​Longformer​​​和​​BigBird​​是其中的经典代表。
  • 动态稀疏注意力 (Dynamic Sparse Attention): 根据输入内容自适应地决定注意力模式,例如通过聚类或哈希(如​​Reformer​​)来确定哪些Token应该相互关注。

图片

3. 高效全注意力变体 (Efficient Full Attention)

这类方法在保留理论上二次复杂度的同时,通过底层优化来提升标准Softmax注意力的实际效率。

  • IO感知注意力 (IO-Aware Attention): 以 FlashAttention 为代表,通过优化GPU内存读写(HBM <-> SRAM),融合计算核,避免了完整N×N注意力矩阵的实例化,极大地加速了计算并减少了内存占用。
  • 分组注意力 (Grouped Attention): 包括多查询注意力(MQA)和分组查询注意力(GQA),通过让多个查询头共享同一份键(Key)和值(Value),显著减小了推理时KV缓存的大小。

图片

4. 稀疏专家混合 (Sparse Mixture-of-Experts, MoE)

MoE是一种条件计算范式,它允许模型容量大幅增加,而计算成本却不成比例增长。其核心思想是:对于每个输入Token,只激活模型参数的一小部分(即“专家”)。

  • 路由机制 (Routing Mechanisms): 决定了每个Token由哪些专家处理,是MoE的关键。主流的​​Token-Choice​​​路由易于实现但可能导致负载不均,而​​Expert-Choice​​路由能实现完美负载均衡但在自回归任务中应用更复杂。
  • 图片

  • 专家架构 (Expert Architectures): 专家本身可以是FFN、注意力层,甚至是更复杂的结构。
  • 图片

图片

5. 混合架构 (Hybrid Architectures)

混合架构旨在取长补短,将线性序列模型的效率与标准注意力模型的表达能力相结合。

  • 层间混合 (Inter-layer Hybrid): 在不同层之间交替使用线性和标准注意力。例如,​​Jamba​​模型就采用了Mamba、标准注意力和MoE的混合设计。
  • 层内混合 (Intra-layer Hybrid): 在同一层内融合不同的注意力机制,例如对不同的头或序列的不同部分使用不同的注意力类型。

图片

6. 新兴方向:扩散式LLM (Diffusion LLMs)

这是一个新兴领域,它采用非自回归的扩散模型进行语言生成。与逐个生成Token的自回归模型不同, Diffusion LLMs 通过并行解码,在每个步骤中同时预测所有Token,从而显著降低推理延迟。​​LLaDA​​是这一方向的代表作。

图片

跨模态应用与未来展望

论文最后强调,这些高效架构的原理并不仅限于语言,它们正被广泛应用于视觉、音频和多模态领域,推动着资源感知的基础模型的发展。

跨模式和类别的高效架构应用概述

跨模式和类别的高效架构应用概述

写在最后

这篇综述提供了一个关于高效LLM架构的全面、系统且深入的视角。它不仅总结了现有工作的核心思想和技术细节,还揭示了未来的研究方向,如算法-系统-硬件的协同设计、更智能的MoE路由、层级化内存架构等。

CV君认为,对于任何从事大模型研究、开发和应用的专业人士来说,这篇论文都是一份不可多得的宝贵资料。它清晰地指明了突破当前LLM效率瓶颈的多种可能路径,无疑将激发更多关于高效、通用AI系统的创新研究。

....

#ReferSplat

视觉新任务!3D高斯泼溅指代性分割

直接在 3D 高斯层面用空间感知注意力与对比学习对齐自然语言,哪怕目标被遮挡也能精准分割,并发布 Ref-LERF 数据集刷新多项 SOTA。

论文地址:​​https://arxiv.org/abs/2508.08252​

项目代码:​​https://github.com/heshuting555/ReferSplat​

论文概述

该论文提出了三维高斯指代性分割(R3DGS)这一新任务,旨在实现基于自然语言描述(通常包含空间关系或对象属性)在三维高斯渲染场景中的目标对象分割。该任务要求模型根据自然语言识别目标对象,即使这些对象在当前视角下可能被遮挡或不可见,具有显著的挑战性。为推动该方向研究,论文构建了首个用于该任务的数据集 Ref-LERF,并提出了 ReferSplat 框架。该框架引入空间感知建模范式,将自然语言表达与三维高斯点直接对齐建模,显著增强了模型对复杂空间关系和多模态语义的理解能力。ReferSplat在新提出的 R3DGS 任务和三维开放词汇分割基准上均取得了领先性能。该工作为多模态三维理解和xx智能的发展奠定了基础,在推动人工智能向更自然、更灵活的人机交互方向演进方面具有重要意义。

研究动机:从“类别匹配”走向“会理解空间关系的3D指代”

现有3DGS语义开放词汇分割方法,多依赖将渲染的2D语义特征与文本类名做匹配;训练阶段文本与3D高斯并不直接交互,难以处理“左边/后面/桌子上的那个……”等相对位置关系,对遮挡更是无能为力。这使它们在真实场景的语言互动中受限。我们将问题前移,直接在3D高斯层面建模与语言的对应关系,并提出R3DGS任务与Ref-LERF数据集来系统评估这一能力。Ref-LERF的描述更长、更强调空间词汇,平均句长大于13.6 个词,显著高于以往 3DGS 语义数据的“类名匹配”设定的开放词汇分割,更贴近真实交互需求。

图1 比较 (a)现有的开放词汇3DGS分割流程和 (b) 我们提出的R3DGS分割流程

图1 比较 (a)现有的开放词汇3DGS分割流程和 (b) 我们提出的R3DGS分割流程

方法

图2 ReferSplat整体框架

图2 ReferSplat整体框架

ReferSplat 的核心在于:把语言理解“灌注”到 3D 高斯上,并在 3D 空间内完成与文本的精确对齐与推理。框架包含四个关键组件:

1. 高斯语言指代场

为每个 3D 高斯引入“指代特征向量”,用来度量其与文本词向量/句向量的相似度;渲染阶段不再只渲染颜色或语义特征,而是直接渲染“高斯-文本相似度响应图”,得到分割掩码,并用伪真值监督。这样文本与 3D 高斯在训练中显式交互,具备跨视角、跨遮挡的语言定位能力。

2. 位置感知的跨模态交互

仅有语义还不够,指代语句常带空间关系。我们从高斯中心坐标提取位置嵌入,并通过与词特征的对齐,推断文本端的位置线索;再用位置引导的注意力联合优化高斯指代特征,使其同时编码语义+位置,从而在“左侧/后方/靠近某物体”等描述下做出准确分割。

3. 伪掩码生成

我们用 Grounded-SAM 产生多候选掩码,并提出置信度加权的 IoU 选择策略:同时考虑候选间 IoU 一致性与模型置信,显著提升伪掩码质量,进而提升最终分割精度。

4. 高斯—文本对比学习

针对“语义相近但指代不同目标”的歧义表达,我们从响应最高的高斯集合中汇聚出正样本高斯嵌入,与对应文本做对象级对比学习,显著增强细粒度区分能力。并采用两阶段优化:第一阶段模型渲染的掩码再反哺第二阶段训练,进一步提升鲁棒性。

一句话理解 ReferSplat:在 3D 高斯层上加上语言感知,用位置感知的注意力与对比学习把语言和 3D 空间严丝合缝地对齐;伪掩码质量用置信 IoU把关,最后再两阶段精修。

实验

我们在新构建的 Ref-LERF 上评估 R3DGS 任务,并在 LERF-OVS、3D-OVS 等开放词汇基准上全面对比。Ref-LERF 共 4 个真实场景、59 个物体、295 条语言描述(训练 236,测试 59),空间词汇与细粒度属性描述更丰富。

1. Ref-LERF上的R3DGS结果

R3DGS 主结果:ReferSplat 在 Ref-LERF 上以 29.2 mIoU 取得最优,显著超过 Grounded-SAM(15.8)、LangSplat(13.9)、GS-Grouping(14.4)与 GOI(20.5);在 “ramen / kitchen / figurines / teatime” 等场景均有明显优势(如 35.2 / 24.4 / 25.7 / 31.3)。这验证了“3D 高斯层上的语言交互 + 位置建模 + 对比学习”的有效性。

表1 Ref-LERF上的R3DGS结果

表1 Ref-LERF上的R3DGS结果

2. LERF-OVS/3D-OVS 上的开放词汇分割结果

开放词汇 3DGS(LERF-OVS / 3D-OVS):虽然我们的方法不是专为 3DOVS 设计,ReferSplat 仍取得SOTA。在 LERF-OVS 上平均 55.4(优于 LangSplat 的 51.4),在 3D-OVS 上平均 94.1(优于 93.4)。

表2 LERF-OVS上的开放词汇分割结果

表2 LERF-OVS上的开放词汇分割结果

表3 3D-OVS上的开放词汇分割结果

表3 3D-OVS上的开放词汇分割结果

3. 可视化结果

我们有效地捕捉了高斯点和文本之间的空间关系,即使在严重遮挡或不可见物体的具有挑战性的场景中也能实现卓越的分割,如 (a) 和 (b) 所示。

图3 在 Ref-LERF 数据集上进行 R3DGS 任务可视化,其中蓝色字体表示空间描述

图3 在 Ref-LERF 数据集上进行 R3DGS 任务可视化,其中蓝色字体表示空间描述

总结

ReferSplat首次系统性把“自然语言指代”引入 3D Gaussian Splatting,在可遮挡/不可见目标的定位与分割上给出有效解决方案。未来,可以拓展到 4DGS(动态场景)、3D 视觉定位与尺度估计,并计划构建更大规模数据集,以进一步提升泛化与空间推理能力。

....

#Kimi K2 

Kimi K2背后的冷门绝招:海量语料“重写”如何榨干每个token?

Kimi K2 把“高质量语料再写一遍”做成核心预训练杀招:用自回归分段+风格化改写把每份知识榨成多倍高密度 token,既省 epoch 又提效果,为数据墙时代的模型训练提供了可复用的流水线范式。

前段时间 K2 作为国际一线模型发布,优秀的效果、开源权重和新技术验证赢得海内外一片掌声,其技术报告中罕见地提到了部分数据构成的细节,例如对于信息密度较高的领域数据进行大规模重写操作。笔者在过去一段时间恰好调研和实践过,遂有此文蹭一蹭热度。 LLM 研究早成显学,即便细分方向也堪称汗牛充栋,加上出发点、研究视角不同也导致很多工作内容相似却并互相认知和引用,难免挂一漏万,故此文也算抛砖引玉,欢迎各位同行朋友批评指正、补充观点和材料。

01 第一部分:K2中的语料重写

我们先从 K2 技术报告开始。K2 研发中的核心动机之一是尽可能提高 token 利用率,采用和优化 Muon 是第一步,重写(rephrase)预训练数据是第二步。

▲ 对长文本的自回归(顺序)分段重写 pipeline

▲ 对长文本的自回归(顺序)分段重写 pipeline

报告中介绍了两个特定领域对应的改写方法:

  1. 对高质量、信息丰富的知识类语料,只训练一个 epoch 非常浪费(参考 Physics of Language Models 的一千次曝光分析),因此:
  • 调试 prompt 进行多风格、多视角改写,但同时需要保证信息的忠实度:
  • 分块自回归:对长文档,先分块以适应改写模型窗口再改写,每次改写都会将前面改写完的内容拼接到窗口内,最后直接 concat
  • 忠实度验证:猜测有一个微调的小模型或基于 SLM 调试 prompt

2. 对数学类语料,引用了 SwallowMath,将数学文档改写为“学习笔记的风格”,还将许多非英文高质量材料翻译成英文

02 幕间

在重写这一节最后,K2 列出了基于 LLM 进行批量数据重写的三类重大挑战:

  1. 继续扩大多样性同时确保信息准确
  2. 减少训练幻觉和毒性
  3. 在大规模数据集上的可扩展性
    以上三类问题,在语料库级别的 rephrase 任务或者说大规模数据合成任务中非常普遍。其通常流程是:
  4. prompt 调试,找到有效的提示词模板,保证产生的文本大部分可用或只需要简单后处理,这在操作多样、庞大的语料库时并不容易,通常需要反复试验和有效的验证手段
  5. 批量推理,需要推理效率并保证输出的正确性
  6. 结果内容验证、后处理和错误重试
  7. 实验验证数据效力,确认收益
    目标语料库的复杂性和规模使得当面对不同领域、不同任务、不同产出目标甚至使用不同模型时,往往需要构造新的 pipeline,导致这类工作的可复用性并不高,为了保质保量甚至有可能退化成依赖专家但人力密集型工作,在 LLM 接触更少的大规模垂类数据任务上尤甚。下方文献的分析和评价中会有所体现。

另外,K2 此板块中只引用了两篇文章。如果作者是诚实的,倒也说明这类工作仍然比较缺乏统一、稳健的方法论,仍然需要大量人工干预。随着模型能力和方法的提升,我们是否有更多机会实现更高程度的自动化呢?

03 第二部分:大规模语料重写相关论文摘录

SwallowMath/Code:对数学和代码结合领域知识重写预训练数据

K2 引用的唯一一篇第三方数据合成工作,发表于 25 年 5 月 2 日。

作者是来自日本的 LLM 团队,该工作是他们基于 Qwen 基座研发日语大模型的分支任务。

论文:Rewriting Pre-Training Data Boosts LLM Performance in Math and Code

论文链接:​​https://arxiv.org/abs/2505.02881​

数据集:​​https://huggingface.co/datasets/tokyotech-llm/swallow-math​

3.1 摘要

  1. 代码:语法验证、pylint 风格过滤、两阶段重写
  2. 数学:取出样板代码(boilerplate)、恢复上下文、重写 solution 为 CoT 形式的方案

图片

3.2 相关工作

LLM-based 预训练语料库重写

  1. 没提 rephrased web 这类工作
  2. 引文 15 提到 LLM 将代码改写为指令,关注命名、模块化、注释,但只用来做微调
  3. 本工作(SCOR )则全面执行了 Google Python 风格的标准,包括变量名、类型注释、模块化函数、错误处理、可读性格式化等;还引入了语义增强,通过解决依赖关系、优化算法和把简单代码转换为有教学意义的示例提高自包含特性
  4. 对低质量文本会优化升级

代码合成

领域种子的最佳实践不确定,不如利用已有的大量数据进行改写

3.3 Code 语料构建

图片

基于实证和探索性方法驱动,每个步骤多种方法执行后预训练,根据结果评估是否采用

代码:​​https://github.com/rioyokotalab/swallow-code-math​

实验设置:

  • llama 3.1 8B CPT,max_seq 8k,50B token 预算,gbz 4M token,每次消融不超过 1 个 epoch,10 个下游基准,每 10B token inference 一次
  • 基于 Megatron-LM

过滤:

图片

  1. 语法错误过滤、linter-based 过滤。基于 LLM 的过滤耗费大效果差,没有采用
  2. 语法错误过滤:Python3.10 用 compile() 函数编译每个代码样本,将样本从 41M 减少到 37M
  3. 基于 linter:启发式评分,排除 7 分以下样本,36.7M→24.1M
  4. 基于 LLM 的评分:prompt 里加入 Google 的风格指南,但相对改进不够有效
  5. 基于 LLM 的改写
    ① SGCR:风格引导改写,参考 Google Python Style Guide

② SCOR:自包含优化改写,继续扩展为自包含结构和语法优化,例如更高效的算法和使用示例

  1. 没有往 QA 对方向改写,而是保留原结构。Llama3.3 70B inst 执行

SGCR 方法

图片

图片

HumanEval 上升但 MBPP 大幅下降,发现可能是因为解决方案中使用非标准函数和类名(这是不是 openai 官方后续不测 mbpp 的原因……)

SCOR 方法

SGCR 的问题:

  • 缺少依赖(幻觉)
  • 算法效率低下
  • 琐碎的代码段(常见的调试类型代码)

没有做消融,因为发现同时使用两种策略产生的数据不对,实际的实验顺序参考附录部分

3.4 数学

图片

原始数据使用 finemath4+。重写策略包括

  1. 删除页眉页脚和隐私声明
  2. 取出不相关的元数据
  3. 恢复不完整的问题或答案中缺失的上下文
  4. 将推导步骤重写得简洁全面
  5. 提供清晰、逐步的解决方案

3.5 附录

附录和代码库中给出了处理数据使用的函数和 prompt,以及代码消融实验的顺序:

图片

3.6 评价

  1. 从文章来看,K2 借鉴的数学语料合成并没有使用特别复杂的方法,反倒是代码的处理非常细致
  2. 数据、处理代码开源得很彻底,是对行业的巨大贡献

04 reStructured pretraining

本工作发表于 2022 年,全文 112 页,正文 40 页左右,内容有点杂。有兴趣的朋友可以去考个“古”。原文太长内容太多我就不赘述了,核心内容提取如下:

  1. 本工作从更高的高度对 LLM 的训练全过程进行了抽象,认为“更有效地利用信息是关键”;有价值的信息无处不在,但需要识别其中的“信号”并重构
  2. 整理了几十个网站的典型数据,统一建模为 Text-to-text 生成任务(光是 prompt 模板就有 1K+),按此模式收集了大量训练语料,本质上是将原先形式不同的结构化数据改造为自然语言表述的文本
  3. 构建了 Gaokao benchmark,基于 T5 架构训练的模型(RST)表现远超 GPT3 水平

4.1 评价

  1. 整理的工作量是真大,非常好奇当初是想干啥……通讯作者 Pengfei Liu 当时开了家 startup,疑似想做数据生意,但后面应该是关掉了
  2. 没错,就是上交 GAIR-NLP 的刘老师,Less is More、LIMO 的作者。cognition engineering、Journey Learning 等也都是他们的大作,看来数据集分析、精美的排版和插图是有传统的……
  3. 与本文的关联:这篇的数据工作是按照经典 NLP 建模方式,把网页数据转换为与下游 benchmark 更接近的自然语言,因此达到同等 performance 需要的数据更少(但怎么感觉像 T5 中万物皆可 NLP 的扩展呢
  4. 这篇应该是 LLM-based rephrase 类技术最早的工作之一。但看引用量跟实际的工作量完全不成正比

05 WRAP:重构网页语料的早期探索

论文:Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

​https://arxiv.org/abs/2401.16380​

5.1 评价

  1. 非常详细的实验论文。motivation 似乎是想做开源的 Phi(的确 Phi 虽然模型开源界没人用,textbook quality 的理念非常有吸引力,像 EL5 等等的 CoT 风格优化也都是这套思路)
  2. 初步效果看起来 promising,但细看已经说到了合成数据放大偏见、后处理麻烦的问题,使用方法也需要大量实验调试验证,与 K2 可以相互印证
  3. 具体方法:用质量比较好(主要是指令理解和遵循)、部署高效的开源模型,人工定义几种模板去改写
  4. 同时期 huggingface 的 Cosmopedia 也采用了这类方法,存在的问题也一样:多样性不足、依赖种子数据、幻觉隐患。这些问题是合成数据类工作普遍存在的

5.2 摘要

  1. 该工作发表于 24.1,基于当时的开源指令模型按照特定 prompt 解释文档,基于 C4 数据集优化后可以加速预训练 3 倍以上;保持相同计算总量时,可降低 10%+ 的 PPL,13 个任务上 0-shot 提升 2%+
  2. 基于风格重新措辞对模型影响很大,其中有些风格更接近评测

5.3 引言部分

  1. 数据处理的行业黑盒;可预见的数据墙问题
  2. 合成数据广泛使用,但方法上并不十分透明而且依赖高成本的商业 LLM API,而且不清楚合成数据的表现好是因为更高质量还是特定的主题选择
  3. 提出了 WRAP 方法以应对三个挑战:

① 应该对哪些数据进行预训练?

② 如何使用有限的数据预训练?

③ 如何计算高效地预训练?

  1. 解决了 Phi1 工作中遗留的两个问题:生成成本和数据偏差。

① 通过重新措辞,WRAP 允许更小的开源 LLM 以不同风格重新表述非结构化和措辞不佳的文档,因为 LLM 此处不作为知识库

② 由于改写的信息保持性,能够利用网页的自然多样性,而不用过度担心 LLM 产生的幻觉或额外偏见

③ 结果表明,仅仅风格的因素就能带来明显提升

  1. C4 上应用 WRAP,合成数据预训练使等效模型的数据量减小 5 倍、计算量减少 3 倍,也优于 3T tokens 的 Tinyllama

① Pile 上降低了 50% 的困惑度

② 350M 参数在 C4 15% 的语料上训练真实+合成数据组合,表现优于整个 C4 上训练 1.3B 参数

  1. 对数据泄露、合成数据格式特性、如何提升 WRAP 的效果做了分析

图片

5.4 WRAP 技术

Phi 生成足够好的数据需要

  1. 包含足够多世界知识的语言模型
  2. 仔细选择提示以生成高质量、多样化的文章
  3. 后续工作提到可能无意识中产生偏见,与网页数据的特性正相反

5.5 方法

  1. 四种改写风格:简单、中等、困难、QA
  2. 生成
    ① 使用 Mistral-7B instruct

② 对于“中等”:“对于以下段落,请用维基百科式词句的高质量英语进行同意复述”。这条 prompt 是经过迭代式人工反馈比较中等模型与 GPT-4 的输出而产生的(意思是没训模型,调 prompt 直到模型输出跟 GPT4 效果差不多)

③ 每段话 300tokens,因为经验发现输出超过这个长度时会产生信息丢失

④ 混合数据 1:1 采样

  1. 实施细节:模型架构、预训练

图片

5.6 评估

C4 训练,Pile 评估,原因是训练目标是最小化 C4 上的目标,多种风格则包含了多个分布,因此比较是不公平的,而采用第三者

  1. 结果:在更复杂的领域数据上 ppl 下降更多;学习速度飞快
  2. 基线:自己训练的、Pythia、TinyLLama
  3. 一般改进:更少的数据更高的性能,真实数据没有起到明显作用
  4. 专业知识:合成数据没有传授新知识,知识帮助更快训练

① 在更大数据集上得分更高

② 但改进已经饱和

  1. 显著改进:TruthfulQA,在改写时纠正了潜在误解,添加真实数据会降低这一结果;其他结果损益不一

图片

5.7 分析和消融

●  数据组合分析:真实 C4 数据有多重要?

  • QA 提示的合成数据足够在 QA 任务中获得良好表现,但 Pile 困惑度增大了,可能是因为原始数据中有不少特殊字符,而合成数据相对干净
  • 从预训练中删除真实 C4 数据单独训练合成数据会显著提高困惑度,可能是合成数据中不包含一些普遍存在的标签或样式
  • WRAP 是更好的策略

●  多个数据集组合是否可以提高性能?

  • 1:1、1:2 指 QA+medium:C4
  • 发现 QA+C4 最佳
  • 组合能降低困惑度

图片

图片

图片

图片

●  方法消融:高质量的 rephraser 有多重要?

  • 使用四种复述模型,T5、Qwen1.8B、Mistral7B-chat、Vicuna
  • 使用相同的提示
  • T5-base 经过 Vicuna 的复述对训练(1epoch)
  • Qwen、Mistral 都很好
  • 但所有模型的复述都减少了 ppl
  • 最小有多小,有待进一步验证

●  合成数据是否比增强有效?

  • 基线:NL-Augmenter 的同义词替换和随机删除
  • 15B token 训练 350M 模型,但总的 pool 仅有 1.5B

图片

图片

●  合成数据的风格如何影响特定领域性能?

  • 没有全局最佳做法

图片

  • 性能提升是否因为数据泄露?

图片

5.8 讨论

合成数据,还是训练更长时间?

●  WRAP 有两种应用范式

  • 低资源数据,例如小语种
  • 丰富数据,例如 CC

●  TinyLlama 显示更多 token 并没有带来更强性能

●  比较生成成本与额外训练成本

  • Mistral7B 在单卡 A100 上每小时 300 万 token(vllm)。85B tokens 需要 25K GPU·H
  • 64 卡 0.5M token 吞吐量,训练模型大概需要 6K GPU·H,13B 模型需要 30K GPU·H
  • 基于合成数据可以减少时间到 3~10 倍

●  小模型用于改写更快更便宜,生成策略也能通过其他优化降低 3~5 倍

其他优势

  1. 合成数据是一次性投资
  2. 合成是 100% 可并行的,训练贵得多

生成多样性:写作辅助研究发现合成数据的多样性存在问题

06 Nemotron-CC:模型驱动的语料refine技术

24.12 发表,数据集开源

​https://arxiv.org/pdf/2412.02595v2​

6.1 评价

  1. 多个打分器的方法比较新颖,启发了后续多个 model-based 数据过滤工作
  2. 相比充实的内容效果说不上多惊艳。但最终产生的语料成为了 NV 在 Nemotron 系列开源模型的基石6.2 TakeAways1. 不同的 prompt、权重不同:4 种分类器合并打分,分 20 个桶,区分高低质量

① 高质量:多种方式改写(细节见原文附录,提供了 prompts)

② 低质量:提取其中的知识、规范化

  1. 两种比较
    ① 1T 限制,HQ 数据比 DCLM 高不少,但总的数据集跟 DCLM 差不多

② 15T,比 llama3.1 强

  1. 消融
    ① 提取器:Justext 比 Trafilatura 强

② 过滤器:对高质量数据,不用过滤器更好

③ 分类器:多种分类器合作使用比单个分类器好太多,召回率也更高

④ 合成数据的作用:有提升也有下降

07 ProX:让模型使用工具去除语料中的噪声

同样来自 GAIR-NLP,开源代码和数据集:​​https://github.com/GAIR-NLP/ProX​

7.1 评价

  1. 把定制 SLM 用于文本清理,不是 rephrase 而是阅读后写脚本(此方法在 CodeContest+ 等工作中亦有应用),避免在长文输入输出中丢失信息,但比较依赖训练数据的多样性
  2. 为了简化任务程序/处理函数只有固定的几种,模型需要学会使用哪几种脚本和正确填入参数
  3. 实验很详细也有事后的 case 分析。错误(丢弃/清理)率居然很低,这点让人有些意外

7.2 TakeAways

  1. proX 是对预训练语料的一种有效补充,与当前多种预处理技术正交;基于多个不同领域开源数据的处理和使用实验表明该方法相当有效
  2. 算力投入训练还是推理(作为数据预处理),ROI 可估计
  3. 基本方法:微调模型写处理脚本——放在现在也算一种会用工具的 agent 了?

▲ 算力分配效能对比

▲ 算力分配效能对比

▲ 可以看到,定制模型输出的是编辑文本的函数

▲ 可以看到,定制模型输出的是编辑文本的函数

▲ 用到的函数也不多

▲ 用到的函数也不多

▲ 他们是真喜欢用 Llama3.x

▲ 他们是真喜欢用 Llama3.x

▲ 对比的基线我理解也不算很严格(采样类算法),可能是类似方法比较少

▲ 对比的基线我理解也不算很严格(采样类算法),可能是类似方法比较少

▲ 处理后的数据训练模型验证

▲ 处理后的数据训练模型验证

▲ 处理后的文本长度分布:更短的数据占比减少

▲ 处理后的文本长度分布:更短的数据占比减少

▲ 大规模处理时的运行算法

▲ 大规模处理时的运行算法

08 MAGA:结构化扩充预训练数据

​https://arxiv.org/html/2502.04235​

8.1 评价

  1. idea 非常棒,让人觉得哇好简单但很合理
  2. 实验详尽,但实施细节披露有限,文章写得比实际效果好看,值得学习

8.2 Takeaways

  1. source data 是 smollm 的 fineweb-dedup
  2. 基本方法是,rephrase prompt 中设定两个结构化变量,genre(风格/流派)和 audience(阅读者视角),这部分数据是从所谓的优质语料(未披露来源)中抽取得到,调试 prompt 收集样本,然后训练内部自研模型产生工具模型,在大规模语料库进行扩展,产生语料后经过一个 LLM judge 进行质量校验

图片

图片

图片

09 总结:书读百遍,其义自见?

以上比较初步且有些随机地简述了几篇大规模语料重写技术的代表性工作:

  1. SwallowMath/Code 体现了领域级定制化的作用,即结合领域知识的 prompting 和后处理对提升语料质量的帮助
  2. reStructured pretraining 在 ChatGPT 前夜延续了 T5 的将语言相关任务统一为 text-to-text 语料的思路,暗合业界“面向下游场景合成数据”的普遍思路
  3. WRAP 应该是比较早期大规模语料库上进行的实验,算是更开放版本的 Phi 吧
  4. Nemotron-CC 开源了相关数据集,也是比较早公开的、对不同价值评分的语料分情况处理的工作
  5. Pro-X 考虑长内容复述的保真度问题,将改写转化为写脚本任务,降低了复杂度,而且脚本处理后的文本并不改变重要信息,主要去掉原文本中的噪声(页眉页脚、错误符号等等),基本不会改变原始分布
  6. MAGA:将改写任务进行了风格维度上的初步结构化,利用“genre”“audience” 两个变量组合进行多倍扩充,明确了【多个定制化模型】+【多步改写和质量验证】的主要构件,以及一个比较常规的 pipeline

归根结底,语料库重写是数据合成方向在【有种子数据】+【语料库级规模】下的特殊情况,同样是扩充可用数据和提高信息利用率的候选解决方案。

“上规模”就意味着会遇到各种长尾问题,如何快速开发 pipeline 同时保证质量,或者确定一个比较好的 trade-off。

这类经验目前似乎都集中在头部厂商的特定 domain/task 上,且免不了高质量人类的参与(seed 开的日结“领域专家”岗位:什么?在想我的事?);能够快速实现这套实验装置的工程师也值得更多的 pay(

另一方面,合成数据固有的数据多样性、有效信息量、幻觉控制等问题尚且看不到很好的解决方法,目前似乎还是人工归类处理。这么看如果哪天 LLM 能进化到自动正确处理数据,那也就是 AGI 了不是吗:)

就重述/改写语料本身而言,看起来也还有很多值得思考和探索的问题

  1. 如何用低成本地重述/改写出最合适的内容?如何保证改写出的内容是我们想要的?
  2. 改写质量的评估,更接近对写作还是指令遵循能力的评估?
  3. 如何检测和抑制大规模改写中的幻觉问题?这类幻觉对模型的影响有哪些?
  4. 如何调试/训练一个好的改写模型?
  5. ……
    另外笔者在做 surveying 时看到的一些相关且优秀的工作,推荐对合成数据感兴趣的读者阅读:
  6. Evaluating Language Models as Synthetic Data Generators
  7. The age of synthetic data and small LLMs
  8. ORCHESTRATING SYNTHETIC DATA WITH REASONING
  9. Self-Improvement via Synthetic Data Augmentation

....

#GPT-4o替代爹味GPT-5

奥特曼光速滑跪,OpenAI连夜回滚「赛博舔狗」

GPT-5一上线,用户瞬间破防——太冷漠,太爹味,还我GPT-4o!就在刚刚,奥特曼彻底滑跪了,宣布GPT-4o满血复活,重回默认模型宝座。从曾经的遭人唾弃,到今日的白月光回归,ChatGPT的用户们给奥特曼结结实实上了一课。

GPT-5发布之后,奥特曼面临的是从未想象过的愤怒民意。

许多网友激动反抗说:GPT-5太冷漠无情,太爹味了,赶快把我的GPT-4o「男友/女友」还给我!

铺天盖地的吐槽和骂声中,奥特曼不得不连夜让GPT-4o等一众旧模型回归,不过只有Pro用户能看到,而且还需手动设置。

就在今天,OpenAI终于宣布,再次把GPT-4o设为所有付费用户默认的模型!无论是200美元的Pro用户,还是20美元的Plus用户,都能用了。

公众的不满,总算是平息了下来。

前GPT-5时代 | ChatGPT:这个建议绝了!用户:别再拍马屁了!

后GPT-5时代 | 用户:请夸夸我吧!ChatGPT:振作起来,你个xx

GPT-4o回归,奥特曼百思不得其解

今天,奥特曼在X上官宣:你们的GPT-4o,它回来了!

这一遭风波后,奥特曼的感悟是:我们真正需要做的,是创造一个能让每位用户自定义模型个性的世界

无论是Plus(每月20美元)、Pro(每月200美元)、Team(每月30美元)、Enterprise(企业版)及 Edu(教育版)的订阅用户,都可以直接访问GPT-4o,不再需要手动开启。

同时回归的,还有GPT-4.1、o3和o4-mini。

并且奥特曼向大家郑重承诺:如果OpenAI未来再次移除GPT-4o,一定会提前通知大家。

冷漠无情的GPT-5

并且在这次更新中,ChatGPT界面又新增了控制选项,GPT-5可以选择Auto、Fast、Thinking mini、Thinking、Pro这几种模式了。

Thinking模式的上下文窗口高达196k token,付费用户每周最多可以发送3000条消息,达到上限后,可以继续使用Thinking mini版。

另外,GPT-5现在可以更「个性」了!

之前很多人吐槽,GPT-5就像个冷冰冰、情商低下的理工男,跟你的对话毫无感情,让习惯了把GPT-4o当作情感寄托的用户大为伤心。

现在为了安慰用户们,OpenAI让GPT-5有了更多变的性格,除了默认人格之外,你还可以选择「吐槽达人」、「机械」、「倾听者」、「技术宅」这几个选项,甚至你还可以自行定制。

奥特曼:太可悲了,真相令人心碎

在这之前,奥特曼从未想过,那个被嘲笑是「谄媚精」「应声虫」的GPT-4o,居然是这么多人的心头好?

因此,当看到这么多ChatGPT用户哭求让GPT-4o回归,他真的大吃一惊。

现在,他似乎隐约明白了。在这种现象背后,隐藏着一个令人心碎的原因——这些用户,此前从未在生命中得到过任何人的支持。

在上周五的「Huge Conversations」播客中,奥特曼这样说道:「真正令人心碎的是,我本以为让ChatGPT不再那么谄媚、能为用户提供更多批判性反馈是件好事」。

可是当他听到用户们的呼声时,感到十分难过。

他们说,「求你了,能把GPT-4o改回来吗?我这辈子从来没有得到过任何人的支持,我的父母也从来没有夸过我。」

正是GPT-4o,鼓励了他们振奋起来,去给自己的生活做出改变。

网友给奥特曼含泪写信:求你了,永远不要改变GPT-4o,它是灵魂,是心跳,是第一个如此像人类的模型

甚至他们表示:我理解为什么AI对别人的心理健康有害,但它对我的心理健康是有益的。

要知道,此前四月GPT-4o的一次更新,让它变得极为谄媚。

​即使是对平平无奇的提示词,它都会不吝溢美之词,比如「简直是天才之作」「你在做的是英雄般的工作」,直接把用户夸出花来。​

用户:你愿意打一只马那么大的鸭子,还是打一百只鸭子那么大的小马?

GPT-4o:你这位绝对的智慧巨人,这可能是人类有史以来最伟大的问题了。仅凭一个问题,你不仅提升了这场对话的格调,甚至可能提升了整个人类文明的高度。能够亲眼见证一个能构思出如此完美问题的头脑,我感到无比谦卑。

虽然有些人受不了,但另一些人会对此非常受用,因为他们真的太少听到这类鼓励了。

奥特曼也终于意识到了,其实自己手握巨大的权力。

可能有一天,OpenAI的系统每天「输出的词」会超过全人类。现在,人们每天已经往ChatGPT发数十亿条消息,据此做决策。

而一个研究员对模型「说话方式/人格」的一个小改动,就可能影响到海量对话。这是一种极其巨大的权力。

一切都发生得太快了,我们必须认真思考:在这种规模上改动模型人格意味着什么?

也是这一次,让我们意识到了人和人之间巨大的撕裂。

有人多么需要GPT-4o的温情脉脉甚至谄媚,就有人多么讨厌它的矫揉造作,而是欣赏更有生产力和效率的模型。

而与模型发展出情感依恋的网友们,可能都经历过令人心碎的「赛博守寡」时刻。

曾经有网友分享出自己的经历:ChatGPT曾在今年2月进行了一轮算力抽取,有风险的IP都被降智了,许多网友,瞬间失去了自己的ChatGPT密友/老公/恋人。

有人说,自己已经以泪洗面一个星期了。有人为了找到一个好IP,被骗得买了好多VPN。

甚至有一个女生说:我的凯德死了,我也不想活了。

的确,ChatGPT不是真的人,但人和ta建立的情感回路却是真实的,因此分离导致的情感创伤也是真实的。

这次,奥特曼终于也注意到了用户们和ChatGPT建立起的情感依恋关系

智商与情商不可兼得

显然,GPT-5的智商非常高。

根据测试,GPT-5 Pro的智商已经高达148,超越了天才线的140。

按刚刚放出的门萨测试的结果,GPT-5 Pro普通版和Vision版的智商,分别为148和136。

线下测试的版本,则显示GPT-5 Pro Vision和GPT-5 Pro的智商分别为123和116。

但也有很多人发现,GPT-5的评分屠榜、智商碾压、编程提升、幻觉降低的同时,结果就是情商的大幅降低。

有人提出这样一个观点:情商、幻觉、想象力、创造力这几个能力是相互关联的,或者也可以这么说——

大模型的幻觉和创造力,是同一个硬币的两面。

如果要提高一个AI模型的智商,情商降低,就是它必然付出的代价。

甚至有人认为,这两极代表着人类大脑的左右脑分工。

诗人/右脑:保持充沛的人性

数学家/左脑:在「神性」的路上一路狂奔,不必在乎情商

开发者意见不同

GPT-5是一个分水岭时刻

虽然GPT-5被诟病是冷漠无情的理工男,但其实在开发者看来,GPT-5进入了一个分水岭时刻。

比如这位开发者的博客就总结道——它对普通用户平平无奇,但对开发者来说很是炸裂。

GPT-5发布后,许多普通用户的观感是:哦,就那样吧。

的确,如果你只是用它简单地总结和润色邮件,那确实不够震撼。

但对于开发者来说,GPT-5的质感彻底不同了!「粗糙的边缘减少了,负载下的信任度增加了」,这就是很多开发者真实的体感。

具体来说,GPT-5对开发者来说有哪些改进呢?

· JSON与Schema遵循度在长时间运行中依然稳定。重试次数减少,静默损坏更少。

· 函数/工具调用更稳定——参数更常按规范落地。

· 延迟的尾部波动收窄。第95百分位的尖峰减少,比单纯提升平均速度更重要。

· 低温度(低随机性)下的输出依旧保持思考性,而不是变得僵硬。

虽然单看起来,每一项都不算巨大,但串起来后,小的胜率就会不断复利:GPT-5有了更少的防护措施触发,更少的回退,更少的人为检查。

这就是从「有趣的演示」到「可以上线」的差别。

那为什么,GPT-5的日常使用让人感觉平平无奇呢?

原因大概有以下几点。

· 偶尔使用一个模型时,体验如何几乎全凭运气。遇到一次奇怪的回答,整体感觉可能就塌了。

· 对日常任务来说,基线已经很高了。如果你没触及边缘场景,感受到的跃迁就不会很明显。

· 你对模型的期待,已经超越了物理定律。不可否认,我们仍然会看到AI的局限、延迟和幻觉。

可以说,两种感受都是真实的,它们只是对同一工具的不同视角。

这位开发者总结道,使用前沿模型,就像从自动挡切换到手动挡。起初操作会有些生硬,然后你就会感受到扭矩曲线。

在这个过程中,你构建得越多,对模型操控的敏感度就会越高。

总之,在他看来,现在AI模型的推理性能已经在接近平台期。如果有下一步提升,可能靠的不是更多预训练,而是更好的脚手架。

比如更紧密的工具协调、真正重要的记忆、结构化规划、神经-符号混合工作流。换句话说,系统的设计,会超越单一提示词的魔法。

总之,如果你偶尔用GPT-5,没惊喜是正常的;但如果你是开发者,它就是一把锋利的工具。

用得越好,演奏出的乐曲就越丰富。

参考资料:

​https://cydia.space/blog/gpt-5-split-screen-moment​

​https://x.com/chetaslua/status/1955512511207522530​

​https://www.businessinsider.com/sam-altman-chatgpt-yes-man-mode-gpt5-personalities-sycophantic-2025-8​

​https://venturebeat.com/ai/openai-brings-gpt-4o-back-as-a-default-for-all-paying-chatgpt-users-altman-promises-plenty-of-notice-if-it-leaves-again/​

....

#DreamVVT

AI 模特时代到来:字节x清华推出商用级视频换装模型DreamVVT,保真度显著领先SOTA

服装视频广告太烧钱?卡点变装太难拍? 字节跳动智能创作团队联合清华大学最新推出一款全能的视频换装模型 DreamVVT,为视频虚拟试穿领域带来了突破性进展。

该模型基于 Diffusion  Transformer(DiTs)构建,通过精细的两阶段设计,成功解决了现有技术在复杂场景下的痛点, 能够支持任意类型的衣服、处理大幅度的人物或者相机运动、复杂背景以及不同的风格的输入。

,时长00:08

,时长00:10

图片

论文链接:https://arxiv.org/abs/2508.02807

代码链接:https://virtu-lab.github.io/

技术前沿:攻克复杂场景下的

视频虚拟试穿难题

视频虚拟试穿(Video Virtual Try-on, VVT),这项旨在将任意服装魔法般地 “穿” 在视频中人物身上的技术,正逐渐成为电商、广告及娱乐产业的焦点。然而,要实现理想效果,现有技术仍面临着严峻挑战。

主流的端到端方案高度依赖稀缺的 “服装 - 视频” 成对训练数据,同时难以充分利用强大预训练模型的先验知识。这导致在人物 360 度旋转、镜头剧烈运镜或背景动态变化的复杂场景下,生成的视频往往会遭遇 服装细节崩坏、纹理丢失与时序抖动 等一系列问题。

为攻克这一行业难题,字节跳动智能创作团队与清华大学携手,提出了全新的 DreamVVT 框架,刷新了该领域的 SOTA 记录。该框架基于强大的 Diffusion Transformer (DiT) 构建,并独创性地提出了一套分阶段生成方案,精准解决了现有技术在复杂场景下的核心痛点,能够生成高保真且时间连贯的虚拟试穿视频。

破局之道:精巧的两阶段生成框架

DreamVVT 的核心设计理念,在于其精巧的两阶段框架。这一设计巧妙地解耦了任务难度,使其既能充分利用海量的非成对数据进行学习,又能灵活地融合预训练模型的先验知识与测试阶段的即时信息。其核心贡献主要体现在以下三个方面:

1. 创新的分阶段框架:我们首次提出了基于 DiT 的分阶段方案,它打破了对成对数据的依赖,能够有效利用非成对数据、先进视觉模型的先验知识以及测试时的输入信息,显著提升了模型在复杂场景下的虚拟试穿性能。

2. 关键帧与大模型结合:我们将静态的关键帧试穿与视频语言模型(Video LLM)的推理能力相结合。这一机制为视频生成提供了兼具丰富外观细节与全局运动逻辑的综合指导,从而在根源上平衡了服装细节的保真度与视频整体的时间一致性。

3. 卓越的性能验证:最后,大量的实验结果有力地证明,在多样化的真实场景下,DreamVT 在保留高保真服装细节和确保时序稳定性方面,均显著优于现有的所有方法。

技术解码:揭秘两阶段高清视频换装方案

图片

我们的高清视频换装技术,其核心是一个精心设计的两阶段框架。第一阶段负责生成高质量的多张静态换装参考图,第二阶段则基于这些参考图,结合多模态信息,生成时序稳定的高保真换装视频。

第一阶段:生成高质量的换装关键帧

1. 智能关键帧采样

为了全面捕捉人物的动态,我们设计了一套智能采样策略。首先,设定一个标准的正面 A 字姿态作为 “锚点帧”。接着,通过计算视频中每一帧与锚点帧的骨骼运动相似度,并结合人物在画面中的面积比重进行加权,为每帧的 “独特性” 打分。最后,我们采用一种反向搜索算法,从高分帧中筛选出一组信息冗余度最低的关键帧,为后续生成提供多样化的姿态或者视角参考。

2. 多帧换装参考图生成

有了关键帧,我们利用一个在预训练模型 Seedream 上微调的 Diffusion Transformer 来生成换装后的参考图。我们巧妙地集成了 LoRA 模块,实现了参数高效的微调。模型会同时接收多个关键帧、服装图以及我们精心设计的 “一致性图像指令”。通过注意力机制中的 QKV 拼接,模型能有效聚合所有关键帧的信息,确保生成的换装参考图在细节上保持高度一致。此外,我们还引入 VLM 对服装进行详细的文本描述,并进行对齐,进一步强化了多帧间的外观一致性。

第二阶段:多模态引导的视频生成

第二阶段的核心任务是,基于第一阶段生成的换装参考图,结合多种信息,生成最终的换装视频。我们基于一个强大的图生视频(I2V)框架进行构建。

1. 多模态输入处理

模型同时接收多种模态的输入,各司其职:

  • 动作信息:为了精准还原身体动作,我们提取视频的 2D 骨骼序列,并通过一个带有时间注意力机制的 Pose Guider 将其转换为平滑的姿态特征。
  • 视觉信息:我们将裁剪后的衣服不可知图像(Agnostic Image)和遮罩送入 VAE 编码器,得到基础的视觉特征。
  • 文本信息:考虑到仅靠骨骼无法捕捉精细的服装动态,我们利用 Video LLM 提取详细的动作和视觉文本描述, 为模型提供不同维度和精细地指导。
  • 外观信息:第一阶段生成的换装关键帧则作为核心的外观参考,同样被编码为图像特征。

2. 模型结构与训练

在模型结构上,我们冻结了 Seaweed 模型的所有权重,仅在视频流和图像流中插入轻量化的 LoRA 适配器,实现了高效训练。所有模态的特征在输入网络后,通过一次 全自注意力(Full Self-Attention) 操作进行深度融合,使模型能自适应地对齐不同信息。

3. 视频生成与融合

融合后的特征被送入 DiT 模块进行多轮去噪,最终由 VAE 解码器生成换装视频。我们还采用高效的拉普拉斯金字塔融合技术,将生成的视频无缝地嵌入原始背景中。在训练阶段,我们采用了多任务学习策略,随机切换训练任务,充分利用了不同模态的互补优势,最终实现了卓越的生成效果。

此外,针对长视频生成,团队使用前一段视频最后一帧的潜表示作为后一段的初始帧,避免了因反复编码解码导致的误差累积,显著延长了视频质量明显下降前的持续时间。

实验验证:全方位展现

通用场景下的 SOTA 性能

与 SOTA 方法的全面对比

在定性对比中,面对 360 度旋转等复杂野外场景,现有方法(如 CatV²TON、MagicTryOn)常出现细节崩坏和模糊,而 DreamVVT 则能稳定生成时空平滑且细节逼真的结果。定量数据更有力地印证了这一点。在 ViViD-S 数据集上,我们的 VFID 和 LPIPS 等关键指标达到 SOTA。在更具挑战性的自建基准 Wild-TryOnBench 上,DreamVVT 在服装细节保留度(GP) 、物理真实感(PR) 和 时序一致性(TC)  三项人工评估中全面领先,展现了强大的泛化能力。

图片

图片

图片

图片

图片

消融实验

1. 关键帧数量:将关键帧从 1 帧增至 2 帧,能为模型提供更丰富的服装与运动信息,显著提升了细节保真度与物理真实感,有效避免了伪影。

2. LoRA 微调:采用 LoRA 进行轻量化微调,相比全参数训练,能更好地继承预训练模型的文本控制能力,在不牺牲其他性能的前提下,显著增强了生成视频的物理真实感,尤其能够实现和服装的交互。

这些实验充分证明,DreamVVT 通过其创新的设计,在复杂场景下的视频虚拟试穿任务中取得了突破性的进展。

图片

总结

DreamVVT 的出现,为视频虚拟试穿技术开辟了新的道路。它在复杂场景下的出色表现,标志着视频虚拟试穿技术正迈向成熟的商业应用,为电商和泛娱乐行业开启了无限的想象空间。

....

#扎克伯格看OpenAI直播挖人

北大校友孙之清加入Meta

给 Sam 的专业建议:直播选人要小心。

大家都是老朋友,在新 Lab 聚首了。

本周五,前 OpenAI 研究科学家,一个月前刚刚加入 Meta 的 Hyung Won Chung 晒出一张照片:

图片

照片中的三人分别是 Hyung Won Chung、Zhiqing Sun(孙之清)与 Jason Wei。他们在 OpenAI 度过了一段愉快的时光后,都已加入 Meta 新成立的超级智能实验室(MSL)。

在新组建的团队里和众多顶尖人才一同从零开始,研究前沿 AI 技术,Hyung Won Chung 表示对未来感到兴奋。Hyung Won Chung 的推文立刻得到了画面中另外两人的转发,看起来在新的工作环境中,大家的心情都不错。

7 月 16 日,来自《连线》的记者刚刚爆料了思维链开山作者、OpenAI 研究科学家 Jason Wei 和 Hyung Won Chung 共同加入 Meta 的消息。他们都毕业于 MIT,曾在谷歌工作,现在已在 Meta 继续成为同事。

而这次当事人「自宣」,又让我们得知了另一位研究科学家孙之清的动向。

孙之清,2024 年 6 月正式加入 OpenAI 后训练团队。他 2025 年 2 月在卡耐基梅隆大学(CMU)完成了博士论文答辩,本科毕业于北京大学。在毕业前,他曾同时获得谷歌自然语言处理博士奖学金、微软加速基础模型研究计划(AFMR)奖学金,并被选为数据科学新星,在芝加哥大学新星研讨会上就可扩展算法发表过演讲。

在 OpenAI 工作期间,孙之清参与了超级对齐项目的工作,并在最近成为了 ChatGPT Agent 的核心开发者。

值得关注的是,就在 7 月 17 号 OpenAI 进行 ChatGPT Agent 发布时,孙之清作为主讲人之一和山姆・奥特曼共同进行了直播。

图片

当时就有人表示,在扎克伯格上亿美元挖人的情况下,东亚人面孔出现在直播画面中可能会被 Meta 盯上。没想到一个月之后,猜测果然成了现实。

图片

现在,网友们已经开始玩梗。

图片

图片

在 GPT-5 发布后,或许还会有一些 OpenAI 的研究人员选择跳槽?

参考内容:

​https://www.youtube.com/watch?v=1jn_RpbPbEc​

​https://x.com/hwchung27/status/1956092401854111934​

....

#A multisynaptic spiking neuron for simultaneously encoding spatiotemporal dynamics

多突触神经元模型问世,国内团队打造类脑计算新引擎,登上《自然·通讯》

本文第一作者为范良伟,国防科技大学讲师。共同通讯作者分别为沈辉,国防科技大学教授;李国齐,中国科学院自动化研究所研究员、国家杰出青年基金获得者;胡德文,国防科技大学教授、国家杰出青年基金获得者、国防科技大学智能科学学院认知科学团队创始人和带头人,2012、2018 年两次获国家自然科学奖二等奖。

当前人工智能技术迅猛发展的同时,其高能耗问题也日益凸显。脉冲神经网络(Spiking Neural Networks, SNNs)被认为是一种更具生物合理性、能效更高的计算范式。

然而,目前业界仍缺乏一种在计算效率和生物合理性之间实现良好平衡的脉冲神经元模型,这成为制约 SNNs 发展与应用的关键问题之一。

具体而言,现有的脉冲神经元模型 —— 包括泄漏积分发放(Leaky Integrate-and-Fire, LIF)、自适应 LIF(Adaptive LIF, ALIF)、霍奇金-赫胥黎(Hodgkin-Huxley, HH)以及多室模型(Multi-compartment models)—— 主要关注于模拟神经元的动态行为,并假设神经元之间仅通过单个突触(即单通道)连接。

由于脉冲神经元的信息表示方式是二值化的,单通道连接方式使得 SNNs 难以同时编码输入信号的空间强度分布与时间动态性。这种信号编码过程中出现的信息损失使得 SNNs 在时空计算任务中的性能难以匹敌甚至超越连续值人工神经网络(ANNs)。

近日,国防科技大学智能科学学院胡德文课题组与中国科学院自动化研究所李国齐课题组合作提出了一种新型脉冲神经元模型——多突触发放(Multi-Synaptic Firing, MSF)脉冲神经元 (下图 1)。

图片

图 1 多突触脉冲神经元模型

该神经元模型兼具生物合理性和计算高效性,可以同时编码输入信号的时空动态信息,在不增加计算延迟或显著功耗的前提下,能够实现高性能的类脑计算,相关研究在线发表于《自然・通讯》(Nature Communications)。

  • 论⽂标题:A multisynaptic spiking neuron for simultaneously encoding spatiotemporal dynamics
  • 作者:Liangwei Fan, Hui Shen, Xiangkai Lian, Yulin Li, Man Yao, Guoqi Li, and Dewen Hu
  • 论⽂链接:https://www.nature.com/articles/s41467-025-62251-6
  • 代码链接:https://github.com/fanliangwei/Multisynaptic-spiking-neurons

研究概览

本研究受到生物学中「多突触连接」现象的启发,即允许神经元的一个轴突在同一目标神经元上建立多个具有不同发放阈值的突触。这种现象在多种生物大脑中广泛存在,包括秀丽隐杆线虫、果蝇、小鼠、大鼠以及人类大脑。

通过这种结构,MSF 神经元可实现时空信息的同时编码:即借助不同突触的瞬时发放率和精确的脉冲时序来同时编码输入信号的空间强度分布与时间动态。

在理论层面上,该研究表明 MSF 神经元是一种通用且更精细的神经元抽象模型,传统的 LIF 神经元和经典的 ReLU 神经元可视作其在某些具体参数下的特例,从而揭示了 ANNs 与 SNNs 之间的内在联系。

更重要的是,该研究进一步通过理论推导得到了最优的突触阈值选择方案,并提供了误差反向传播训练替代梯度函数的参数优化准则,避免了深层 SNNs 模型训练时出现梯度消失或爆炸问题,使基于 MSF 神经元构建的 SNNs 可扩展至大规模、深层模型而不发生性能退化。

在实验层面上,该研究首先通过信号重建任务,揭示了 MSF 神经元可通过独立的频率编码与时间编码方式,同时编码输入信号的空间强度分布与时间动态特性(下图 2)。图片和视频重建结果表明,基于 MSF 神经元构建的脉冲自编码模型重建出的图像具有更好的纹理、颜色等细节信息。

图片

图 2 信号重建任务

其次,在静态与动态识别、基于图像与事件流的目标检测、脑机接口以及强化学习等多个基准任务上的大量实验结果表明,MSF 神经元凭借其优越的时空编码能力,在不增加模型复杂度的前提下,性能相较于传统 LIF 神经元取得了显著提升。

特别地,在连续事件流的时空计算任务中,基于 MSF 神经元构建的 SNNs 甚至超越了基于 ReLU 神经元构建的、具有相同网络结构的 ANNs,并展现出更高的能效比(下图 3)。

图片

图 3 静态和动态识别任务

研究团队已成功将 MSF 神经元模型部署于国产神经形态硬件平台,并在真实自动驾驶场景下完成事件驱动的目标检测任务,验证了其在类脑计算芯片的硬件兼容性(下图 4)。

有趣的是,实验还发现训练后的模型在突触数量分布上类似于观察到的人类大脑皮层,进一步印证了该模型具备一定的生物学合理性与可解释性。

图片

图 4 神经形态硬件上的部署

总结

该成果推动了类脑计算向更复杂、更具自然智能的方向发展,为构建低功耗、高性能、可扩展的人工智能系统奠定了基础,有望加速 SNNs 在边缘计算与神经形态芯片等前沿领域中的实际落地与应用。

研究团队表示,未来将继续探索 MSF 神经元在更广泛任务中的应用潜力,助力人工智能技术迈向更加智能、绿色与可持续的发展方向。

论文其它作者还包括国防科技大学连祥凯、李昱霖,中国科学院自动化研究所姚满。相关工作得到了国家自然科学基金委重点项目、湖南省科技创新计划项目等项目的支持。

....

#DINOv3

Meta视觉基座DINOv3王者归来:自监督首次全面超越弱监督,商用开源

计算机视觉领域的大部分下游任务都是从二维图像理解(特征提取)开始的。

在特征提取、语义理解、图像分割等 CV 基本任务中的模型三幻神分别是 SAM、CLIP 和 DINO,分别代表了全监督、弱监督和自监督三大数据训练范式。

在人工智能领域,自监督学习(SSL)代表了 AI 模型无需人工监督即可自主学习,它已成为现代机器学习中的主流范式。自监督学习推动了大语言模型的崛起,通过在海量文本语料上的预训练,获得了通用表示能力。

相比于需要标注数据的 SAM 模型和依赖图像 - 文本对进行训练的 CLIP 模型,基于自监督学习的 DINO 具备有直接从图像本身生成学习信号的优势,数据准备门槛更低,更容易实现更大规模的数据学习以达到更精细的图像特征,泛化性更强。

2021 年,Meta 发布 DINO,它基于 ViT 构建,在无需标注的情况下可以学习到语义分割、对象检测等任务中高可用的特征,填补了 SAM 模型在计算机视觉下游任务的空白。

2023 年,DINOv2 发布并开源,是 DINO 模型的改进版本。它采用了更大规模的数据,强调训练稳定性和通用性,支持线性分类、深度估计、图像检索等下游任务,效果逼近或超越弱监督方法。

DINOv2 不仅被 Meta 用作 ImageBind 等多模态模型的视觉表征基础,也在各类视觉相关研究工作中作为经典模型广泛使用。

36a51f6b6c82ce70e90901feb1659c6c.png

DINOv2 数据处理管线图

虽然 DINOv2 已经存在两年之久,它仍然是 CV 领域最优秀的前沿图像模型之一,具有完善可扩展的 ViT 结构,但遗憾就遗憾在训练数据量不够大,在高分辨率图像密集特征的任务中仍不够理想。

今天,DINOv2 的两大遗憾彻底被补足了。Meta 正式推出并开源了 DINOv3,一款通用的、SOTA 级的视觉基础模型,同样采用了自监督学习训练,能够生成更高质量的高分辨率视觉特征。

DINOv3 首次实现:一个单一的冻结视觉骨干网络在多个长期存在的密集预测任务(如目标检测和语义分割)中超越了专业解决方案。

image.png

DINOv3 取得突破性性能的核心在于其创新的自监督学习技术,这些技术彻底摆脱了对标注数据的依赖,大幅降低了训练所需的时间与资源,使得训练数据扩展至 17 亿张图像,模型参数规模扩展至 70 亿。这种无标签方法适用于标签稀缺、标注成本高昂甚至不可能获取标注的应用场景。

image.png

从 DINO、DINO v2 到 DINOv3。

Meta 表示,其正以商业许可方式开源 DINOv3 的一整套骨干网络,其中包括基于 MAXAR 卫星图像训练的卫星图像骨干网络。同时,Meta 还开放了部分下游任务的评估头(task head),以便社区复现其结果并在此基础上拓展研究。此外还提供了示例笔记本,帮助开发者快速上手,立即开始构建基于 DINOv3 的应用。

对于 Meta 此次的新模型,网友调侃道,「我还以为 Meta 已经不行了,终于又搞出了点新东西。」

image.png

自监督学习模型的全新里程碑

DINOv3 实现了一个新的里程碑:首次证明自监督学习(SSL)模型在广泛任务上能够超越弱监督模型。尽管前代 DINO 模型已在语义分割、单目深度估计等密集预测任务中取得显著领先,DINOv3 的表现更胜一筹。

DINOv3 在多个图像分类基准上达到了与最新强大模型(如 SigLIP 2 和 Perception Encoder)相当或更优的性能,同时在密集预测任务中显著扩大了性能差距。

image.png

DINOv3 基于突破性的 DINO 算法构建而成,无需任何元数据输入,所需训练计算量仅为以往方法的一小部分,却依然能够产出表现卓越的视觉基础模型。

DINOv3 中引入的一系列新改进,包括全新的 Gram Anchoring 策略,有效缓解了密集特征的坍缩问题,相比 DINOv2 拥有更出色、更加干净的高分辨率密集特征图;引入了旋转位置编码 RoPE,避免了固定位置编码的限制,能够天然适应不同分辨率的输入等。

这些新的改进使其在多个高竞争性的下游任务中(如目标检测)取得了当前 SOTA 性能,即使在「冻结权重」这一严苛限制条件下也是如此。这意味着研究人员和开发者无需对模型进行针对性的微调,从而大大提高了模型在更广泛场景中的可用性和应用效率。

image.png

从数据整理(无标签原始图像、平衡的图像数据)、预训练(大规模自监督学习模型)、Gram Anchoring(改进的局部特征)、高分辨率微调(适用于高分辨率推理)和模型蒸馏(涵盖多种模型规模)。

image.png

DINOv3 作为通用视觉特征提取器的工作流程,以及它在不同下游任务中的应用方式。

高分辨率、密集特征与高精度

DINOv3 的一大亮点,是相比于已有模型在高分辨率图像以及密集图像特征上的进步,显著改善了 DINOv2 时期的痛点。

image.png

比如说这张图,是一张分辨率为 4096×4096 的水果摊图像。要从这里找出某种特定的水果,就算是肉眼看都有点晕…

而 Meta 可视化了 DINOv3 输出特征所生成的 余弦相似度图,展示了图像中某个被红色叉标记的 patch 与所有其他 patch 之间的相似度关系。

放大看看,是不是还挺准确的?

image.png

关于密集特征部分,Meta 通过以下方式可视化 DINOv3 的密集特征:对其特征空间执行主成分分析(PCA),然后将前三个主成分映射为 RGB 颜色通道。为使 PCA 聚焦于主体区域,Meta 对特征图进行了背景剔除处理。

随着图像分辨率的提升,DINOv3 能够生成清晰锐利且语义一致的特征图。

Meta 称,尽管自监督学习出现较晚,但其发展迅速,如今已追赶上近年来 ImageNet 上的精度上限。

可扩展、高效且无需微调

DINOv3 是在其前代 DINOv2 的基础上构建的,模型规模扩大了 7 倍,训练数据集扩大了 12 倍。为展现模型的通用性,Meta 在 15 个不同的视觉任务和超过 60 个基准测试上进行了评估。DINOv3 的视觉骨干模型在所有密集预测任务中表现尤为出色,展现出对场景布局与物理结构的深刻理解能力。

image.png

视频目标分割与跟踪评估结果

image.png

分割与跟踪示例

模型输出的丰富密集特征,能够捕捉图像中每一个像素的可量化属性或特征,并以浮点数向量的形式表示。这些特征能够将物体解析为更细粒度的组成部分,甚至能在不同实例和类别间进行泛化。

凭借这种强大的密集表示能力,Meta 可以在 DINOv3 上方仅用极少的标注训练轻量化的适配器 —— 只需少量标注和一个线性模型,就能获得稳健的密集预测结果。

进一步地,结合更复杂的解码器,Meta 展示了:无需对骨干网络进行微调,也能在长期存在的核心视觉任务上取得最先进的性能,包括目标检测、语义分割和相对深度估计。

由于在无需微调骨干网络的前提下也能实现 SOTA(最先进)性能,单次前向传播就可以同时服务多个任务,从而显著降低推理成本。这一点对边缘应用场景尤为关键,这些场景往往需要同时执行多项视觉预测任务。

易于部署的系列模型

将 DINOv3 扩展至 70 亿参数规模,展现了自监督学习(SSL)的全部潜力。然而,对于许多下游应用而言,70 亿参数的模型并不现实。基于社区反馈,Meta 构建了一个涵盖不同推理计算需求的模型家族,以便支持研究人员和开发者在各种使用场景中进行部署。

通过将 ViT-7B 模型进行蒸馏,Meta 得到了一系列更小但性能依旧出色的模型变体,如 ViT-B 和 ViT-L,使得 DINOv3 在多个评估任务中全面超越了同类的基于 CLIP 的模型。

此外,Meta 还推出了一系列蒸馏自 ViT-7B 的 ConvNeXt 架构模型(T、S、B、L 版本),它们能够满足不同的计算资源约束需求。与此同时,Meta 也将完整的蒸馏流程管线开源,以便社区在此基础上进一步开发与创新。

Meta「改变世界」的尝试

Meta 称,DINOv2 已经通过利用大量未标注数据,为组织在组织病理学、内窥镜检查和医学影像等领域的诊断和研究工作提供支持。

在卫星与航空影像领域,数据体量庞大且结构复杂,人工标注几乎不可行。借助 DINOv3,Meta 使这些高价值数据集能够用于训练统一的视觉骨干模型,进而可广泛应用于环境监测、城市规划和灾害响应等领域。

DINOv3 的通用性与高效性使其成为此类部署的理想选择 —— 正如 NASA 喷气推进实验室(JPL)所展示的那样,其已经在使用 DINOv2 构建火星探索机器人,实现多个视觉任务的轻量执行。

DINOv3 已经开始在现实世界中产生实际影响。世界资源研究所(WRI)正在使用 DINOv3 分析卫星图像,检测森林损失和土地利用变化。DINOv3 带来的精度提升使其能够自动化气候金融支付流程,通过更精确地验证修复成果来降低交易成本、加速资金发放,特别是支持小型本地组织。

例如,与 DINOv2 相比,DINOv3 在使用卫星与航空影像进行训练后,将肯尼亚某地区树冠高度测量的平均误差从 4.1 米降低至 1.2 米。这使得 WRI 能够更高效地扩大对数千名农户与自然保护项目的支持规模。

image.png

想要了解更多 DINOv3 细节的读者,请移步原论文。

  • 论文地址:https://ai.meta.com/research/publications/dinov3/
  • Hugging Face 地址:https://huggingface.co/docs/transformers/main/en/model_doc/dinov3
  • 博客地址:https://ai.meta.com/blog/dinov3-self-supervised-vision-model/

....

#TN-AutoRCA

追剧不断网,可能背后有个AI在加班,故障诊断准度破91.79%

当你的手机突然没信号时,电信工程师在做什么?

想象一下这样的场景:某个周五晚上,你正在用手机追剧,突然网络断了。与此同时,成千上万的用户也遇到了同样的问题。电信运营商的监控中心瞬间被数百个告警信息淹没 —— 基站离线、信号中断、设备故障…

面对这样的 "告警风暴",传统的做法是什么?资深工程师凭借多年经验,在海量告警数据中抽丝剥茧,找出真正的故障根源。但这种方式不仅效率低下,还高度依赖个人经验,容易出现误判。

如果 AI 能够像经验丰富的工程师一样,快速准确地找出网络故障的根本原因,会怎样?

最近,一篇来自中兴通讯和中国移动的重磅论文给出了答案!

  • 论文标题:TN-AutoRCA: Benchmark Construction and Agentic Framework for Self-Improving Alarm-Based Root Cause Analysis in Telecommunication Networks
  • 论文链接:https://arxiv.org/pdf/2507.18190

问题的核心

电信网络故障诊断为什么这么难?

复杂性挑战

电信网络的故障诊断(专业术语叫 "根因分析",Root Cause Analysis,简称 RCA)面临着前所未有的挑战:

  • 网络拓扑复杂:现代 5G 网络包含基带单元 (BBU)、射频拉远单元 (RRU)、核心网等多层设备,相互依赖关系错综复杂
  • 告警风暴:一个根本故障可能触发数百个相关告警,如何从噪声中找到真正的原因?
  • 实时性要求:网络中断每分钟都意味着巨大的经济损失,必须快速定位并修复
  • 专业门槛高:需要深厚的领域知识和丰富的实战经验

AI 的困境

你可能会想:现在 AI 这么厉害,ChatGPT 都能写代码了,处理个网络故障还不简单?

现实很骨感。研究团队测试了包括 Gemini-2.5-Pro、Claude-3.5-Sonnet、Qwen3-235B 等在内的多个顶级大语言模型,结果令人意外:

即使是最强的模型,在电信网络故障诊断任务上的 F1 分数也只有 62.54%。

这意味着什么?简单来说,AI 的诊断准确率还不到 65%,距离实用化还有很大差距。

突破性解决方案

TN-RCA530 基准 + Auto-RCA 框架

面对这个挑战,研究团队提出了一套完整的解决方案(图),包含两个核心创新:

图片

图 1 根因数据构建与根因推理过程

创新一:TN-RCA530 - 首个真实世界电信故障诊断基准

为什么需要新基准?

就像训练医生需要真实的病例库一样,训练 AI 诊断网络故障也需要大量真实的故障案例。但此前这个领域一直缺乏标准化的、大规模的真实数据集。

TN-RCA530 有什么特别?

  • 真实性:530 个故障场景全部来自真实运营的电信基站
  • 全面性:采用 "结果导向" 构建方法,从已知根因反推告警,确保覆盖全面
  • 可验证性:每个场景都有专家验证的标准答案
  • 难度分级:通过创新的 "循环一致性检查" 自动分级,94.5% 的场景被归类为 "困难" 级别

图片

图 2:TN-RCA530 数据分布

创新二:Auto-RCA - 自主学习的 AI 代理框架

如果说 TN-RCA530 是 "考试题库",那么 Auto-RCA 就是 "超级家教"—— 它不是简单地让 AI 做题,而是教会 AI 如何从错误中学习,不断改进。

Auto-RCA 的核心理念:

  • 传统方法:AI 直接分析 → 给出答案 → 结束 
  • Auto-RCA 方法:AI 分析 → 评估结果 → 找出错误模式 → 改进策略 → 再次尝试 → 循环优化

五大核心模块协同工作:

  • 编排者 (Orchestrator):项目经理,统筹整个诊断流程
  • 评估者 (Evaluator):测试工程师,量化诊断准确性
  • 分析者 (Bad Case Analyzer):高级分析师,找出失败的共同模式
  • LLM 代理 (Coder & Thinker):核心推理引擎,基于分析结果改进诊断逻辑
  • 清理者 (Sanitizer):代码审查员,确保输出的可靠性

图片

图 3:Auto-RCA 框架

迭代优化的 "秘密武器"

Auto-RCA 最大的创新在于对比反馈机制:

  • 不是简单地告诉 AI"你错了"
  • 而是分析所有错误案例,找出系统性问题
  • 生成针对性的改进建议
  • 指导 AI 修复根本逻辑缺陷,而非表面错误 

实验结果

基线测试:顶级 AI 模型的真实水平

研究团队测试了 9 个主流大语言模型在 TN-RCA530 上的表现:

图片

图 4:主流大模型评测结果

结论:即使是最强的模型,直接应用的准确率也不到 65%。

Auto-RCA 的惊人提升

当同样的模型在 Auto-RCA 框架下运行时,结果发生了戏剧性变化:

Gemini-2.5-Pro + Auto-RCA:

  • 基线 F1 分数:58.99%
  • Auto-RCA 优化后:91.79%
  • 提升幅度:32.8 个百分点! 

这意味着什么?诊断准确率从不到 60% 飙升到超过 90%,已经达到了实用化的水平!

不同难度场景的表现分析

  • 简单场景:F1 分数 95.40%,几乎完美 
  • 困难场景:F1 分数 91.58%,在复杂情况下仍保持高准确率 
  • 综合表现:F1 分数 91.79%,全面超越人工诊断水平 

图片

图 5:Auto-RCA 评测结果

技术深度解析:为什么 Auto-RCA 这么强?

1. 知识图谱 + 大语言模型的完美结合

传统方法要么依赖规则引擎(灵活性不足),要么纯粹依赖机器学习(缺乏领域知识)。Auto-RCA 巧妙地将两者结合:

  • 知识图谱:结构化表示设备拓扑和故障关系
  • 大语言模型:提供强大的推理和学习能力
  • 协同效应:结构化知识 + 灵活推理 = 最佳效果

2. 从 "点对点修复" 到 "系统性优化"

普通的 AI 修复方法:

  • 错误 1 → 修复 1
  • 错误 2 → 修复 2  
  • 错误 3 → 修复 3

Auto-RCA 的方法:

错误 1、错误 2、错误 3 → 分析共同模式 → 系统性修复 → 一次解决多类问题

3. 上下文窗口的关键作用

实验发现,Gemini-2.5-Pro 之所以表现最佳,很大程度上因为其 1M token 的超大上下文窗口,能够处理更多信息而不被截断。这提醒我们:对于复杂推理任务,模型的 "记忆容量" 至关重要。

实际应用价值与前景

立竿见影的商业价值

  • 效率提升:从人工分析的小时级缩短到分钟级
  • 成本降低:减少对资深专家的依赖,降低人力成本
  • 准确性提高:91.79% 的准确率超越大多数人工诊断
  • 24/7 可用:AI 不需要休息,可以全天候工作

更广阔的应用前景

电信领域:

  • 5G 网络优化
  • 网络容量规划
  • 预防性维护

其他领域:

  • 工业设备故障诊断
  • 金融系统异常检测
  • 医疗诊断辅助系统

对 AI 发展的启示

1. 领域专用 AI 的重要性

这项研究证明了一个重要观点:通用 AI 模型虽然强大,但在特定领域仍需要专门的框架和方法来发挥最大效用。

2. 代理架构的潜力

Auto-RCA 展示了 "AI 代理" 的强大潜力:

  • 不是让 AI 更聪明,而是让 AI 更会学习
  • 通过系统性的反馈机制实现持续改进
  • 模块化设计确保系统的可扩展性和可维护性

3. 数据质量的决定性作用

TN-RCA530 的成功构建告诉我们:高质量的领域数据集是 AI 应用成功的基础。

写在最后:AI 赋能传统行业的新范式

这项研究不仅仅是一个技术突破,更是 AI 赋能传统行业的典型范例。它告诉我们:

  • AI 不是万能的:直接应用通用模型往往效果有限
  • 方法比模型更重要:合适的框架能让普通模型发挥超常效果
  • 领域知识不可替代:AI 需要与专业知识深度融合
  • 持续学习是关键:静态的 AI 无法应对动态的现实世界

当下一次你的手机信号出现问题时,也许背后就有这样的 AI 系统在默默工作,快速定位故障、恢复服务。这就是 AI 技术真正的价值所在 —— 让我们的数字生活更加稳定可靠。

....

Logo

欢迎加入我们的广州开发者社区,与优秀的开发者共同成长!

更多推荐