我自己的原文哦~                                https://blog.51cto.com/whaosoft/13911294

#AlphaEvolve

刚刚,DeepMind通用科学智能体AlphaEvolve突破数学极限,陶哲轩合作参与

今天,DeepMind 正式发布了 AlphaEvolve —— 一个由 LLMs 驱动的革命性进化编码智能体。

它不仅仅是一个代码生成工具,更是一个能够演化整个代码库,用于通用算法发现和优化的强大系统。 

  • 技术报告:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/AlphaEvolve.pdf
  • 官方博客:https://deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/

LLM 具有惊人的多功能性。它们能够总结文件、生成代码,甚至提出新想法。如今,DeepMind 将这些能力扩展到了数学和现代计算中的基础性和高度复杂的问题。

Google DeepMind 的研究员 Matej Balog 在接受采访时表示:「它可以发现极其复杂的算法 —— 跨越数百行代码,具有复杂逻辑结构,远超出简单函数的范畴。」

陶哲轩也在 mathstodon 上表示,他一直在和 Google DeepMind 合作,探索 AlphaEvolve 的潜在数学应用。

image.png

大多数 AI 模型都会产生幻觉。由于他们的概率架构,他们有时会自信地编造东西。事实上,像 OpenAI 的 o3 这样的较新 AI 模型比它们的前辈更容易产生幻觉。

AlphaEvolve 引入了一种减少幻觉的巧妙机制:自动评估系统。该系统使用模型来生成、批评和得出问题的可能答案池,并自动评估和评分答案的准确性。

AlphaEvolve 还将 Gemini 模型的创造性问题解决能力与自动验证答案的评估器相结合,并利用进化框架来持续优化最具潜力的解决方案。

AlphaEvolve 提升了谷歌数据中心、芯片设计和 AI 训练流程的效率 —— 包括训练支撑 AlphaEvolve 本身的大型语言模型。它还帮助设计了更快的矩阵乘法算法,并为开放性数学问题找到了新的解决方案,在许多领域的应用前景有着巨大潜力。

用大型语言模型设计更好的算法

AlphaEvolve 是一个可以超越单一函数发现,演化整个代码库并开发更复杂算法的智能体。 

与许多只演化单一函数的系统不同,AlphaEvolve 的一大亮点在于能够对整个代码库进行迭代优化和演化。

这建立在 DeepMind 2023 年的一项工作 ——FunSearch 基础上, DeepMind首次证明大型语言模型能够生成计算机代码中的函数,以帮助发现开放性科学问题上的新知识并证明其正确性。

表 1 展示了 AlphaEvolve 与先前的 agent 的能力和典型行为上的对比。

image.png

核心机制:LLM 的创造力与自动化评估的结合 

那么,AlphaEvolve 是如何实现这种强大的代码演化能力的呢?其核心在于将大型语言模型的创造力与自动化评估的客观反馈巧妙地融入到一个进化框架中。 

这个过程可以概括为一个持续的「生成 - 评估 - 进化」循环: 

image.png

图示展示了整个系统的工作流程:提示采样器首先构建输入提示,驱动语言模型生成新程序;这些程序经过评估器评分后被存入程序数据库。数据库通过进化算法不断优化程序选择,推动系统持续进化。

生成

AlphaEvolve 结合了多款最先进的大型语言模型:Gemini Flash(DeepMind 最快速且高效的模型)拓展了创意探索的广度,而 Gemini Pro(DeepMind 最强大的模型)则凭借深刻洞见提供了解决方案所需的关键深度。

采用该集成策略的目的是在保持生成解法的质量的同时,提高计算吞吐率。这些模型协同生成实现算法解决方案的计算机程序。

1、提示语采样(Prompt Sampling)

由于 AlphaEvolve 依托于当前最先进的 LLM,它支持多种形式的自定义操作,并能在其主进化提示语(primary evolution prompt)中提供较长的上下文信息。

该提示语通常包含从程序数据库中采样而来的多个既有解法,以及关于如何修改特定解法的系统指令。 用户还可以通过显式上下文、渲染的评估结果等方式进一步对提示语进行定制。 

2、创造性生成(Creative Generation)

为推动进化过程,AlphaEvolve 借助当前最先进的 LLM 的能力。其核心作用在于理解先前产生的解法信息,并提出多样化的新改进途径。

尽管 AlphaEvolve 本身并不依赖于特定模型(具备模型无关性),但在消融实验中观察到,AlphaEvolve 的表现会随着底层 LLM 性能的提升而持续改善。

输出格式(Output Format):当 AlphaEvolve 要求 LLM 对已有代码进行修改,尤其是在较大的代码库中,它会要求以特定格式提供一组差异化(diff)片段。格式如下:

image.png

其中,位于 <<<<<<<SEARCH 和 ======= 之间的代码是当前程序版本中需要精确匹配的原始片段;而 ======= 与>>>>>>> REPLACE 之间则是新的代码片段,用于替换原片段。

通过这种方式,可以将修改精准应用于代码的指定部分。如果被进化的代码很短,或当从头重写比局部修改更合理时,AlphaEvolve 也可配置为要求 LLM 直接输出完整代码块,而不使用差异化的格式。

评估

在这个循环中,自动化评估指标扮演了至关重要的角色。AlphaEvolve 使用这些指标来验证、运行和评分所提出的程序。这些指标为每个解决方案的准确性和质量提供了客观、可量化的评估。

1、任务规范 

评估:由于 AlphaEvolve 处理的是可由机器评级的(machine-gradeable)问题,用户必须提供一种自动评估生成方案的机制。通常采用函数 h 的形式,将方案映射到一组标量评估指标(需最大化),通常实现为一个 Python 函数(evaluate)。 

API:为支持演化代码库中的多个组件,AlphaEvolve 开放了一个输入 API,通过在代码中添加特殊标记(如注释中的 # EVOLVE-BLOCK-START 和 # EVOLVE-BLOCK-END)来指定哪些代码块可由系统进行演化。这些演化块中用户提供的代码作为初始方案,其余代码则构成连接这些演化部分的骨架,使其可以被 evaluate 函数调用。

在选择抽象层面方面具有灵活性:AlphaEvolve 可以用非常不同的方式应用于同一个问题,尤其当演化出的程序不是最终输出,而是发现方案的手段时。例如,可以演化原始字符串表示的方案、演化一个定义明确的函数来从头构造方案、演化一个定制的搜索算法在固定计算预算内寻找方案,甚至可以共同演化中间方案和搜索算法。

2、评估过程与优化机制

为了追踪 AlphaEvolve 的进展并选择在未来代际中传播的想法,LLM 提出的每个新方案都会被自动评估。基本过程是执行用户提供的评估函数 h。实际上,AlphaEvolve 支持多种机制,以使评估更灵活和高效:

  • 评估级联(Evaluation Cascade): 利用难度递增测试集快速筛选方案。
  • LLM 生成反馈(LLM-generated Feedback): 利用 LLM 对难以量化属性进行评分。
  • 并行评估(Parallelized Evaluation): 分布式执行评估任务以提高效率。

支持多评估指标优化(Multiple scores),同时优化多个目标,甚至能改善单一目标结果。

进化

在其进化过程中,AlphaEvolve 不断生成带有评估结果(得分和程序输出)的方案。这些方案被存储在一个进化数据库(evolutionary database)中。该数据库的首要目标是最优地在未来代际中重新利用先前探索过的想法。

设计此类数据库的一个关键挑战在于平衡探索(exploration)与利用(exploitation):即在持续改进当前最优方案的同时,保持方案的多样性以鼓励探索整个搜索空间。

在 AlphaEvolve 中,该进化数据库实现了一种算法,其灵感来源于 MAP-elites 算法和基于岛屿的种群模型(island-based population models)的组合。

这使得 AlphaEvolve 在数学和计算机科学等可以清晰、系统地衡量进步的广泛领域中特别有帮助。

优化 DeepMind 的计算生态系统

在过去的一年中,DeepMind 将由 AlphaEvolve 发现的算法部署到了谷歌的整个计算生态系统中,包括 DeepMind 的数据中心、硬件和软件。

这些改进的影响在 DeepMind 的人工智能和计算基础设施中被成倍放大,为 DeepMind 的所有用户构建了一个更强大、更可持续的数字生态系统。

image.png

图示说明了 AlphaEvolve 如何帮助谷歌提供一个更高效的数字生态系统,从数据中心调度和硬件设计到人工智能模型训练。

改进数据中心调度

AlphaEvolve 发现了一个简单但非常有效的启发式方法,帮助 Borg 更高效地协调谷歌庞大的数据中心。这个解决方案已经投入生产一年多,平均持续恢复了谷歌全球计算资源的 0.7%。这种持续的效率提升意味着在任何给定时刻,都可以在相同的计算资源上完成更多任务。

AlphaEvolve 的解决方案不仅实现了强大的性能,还提供了人类可读代码的重要操作优势:可解释性、可调试性、可预测性和易于部署。

协助硬件设计

AlphaEvolve 提出了一种 Verilog 重写方案,移除了矩阵乘法关键、高度优化的算术电路中的多余位。该提议通过强大的验证,确认修改后的电路保持功能正确性,并被整合到了即将推出的张量处理单元(TPU)中。

通过在芯片设计者的标准语言(Verilog)中提出修改,AlphaEvolve 促进了 AI 和硬件工程师之间的协作,以加速未来专用芯片的设计。

提升人工智能训练与推理效率

AlphaEvolve 正在显著加速 AI 的性能表现与研究进程。

通过找到更聪明的方法分解大型矩阵乘法运算,它在 Gemini 架构中将这一关键内核的运行速度提升了 23%,进而使 Gemini 的训练时间缩短了 1%。

除了性能提升外,AlphaEvolve 显著减少了内核优化所需的工程时间,从专家花费数周减少到自动化实验仅需数天。

AlphaEvolve 还能够优化低级 GPU 指令。在基于 Transformer 的 AI 模型中,为 FlashAttention 内核实现实现了高达 32.5% 的速度提升。这种优化帮助专家精准定位性能瓶颈,并轻松整合改进措施。

推进数学和算法发现的前沿

更快的矩阵乘法算法

AlphaEvolve 还可以为复杂的数学问题提出新方法,例如矩阵乘法 —— 计算机科学中的一个基础性问题。通过基于梯度的优化程序,AlphaEvolve 设计并发现了一种使用 48 次标量乘法 乘以 4x4 复值矩阵的算法。 

,时长00:32

这一发现改进了 Strassen 1969 算法,这是 56 年来在这一设置中首次已知的改进,也表明了对 DeepMind 先前工作 AlphaTensor 的重大超越。 

解决开放性问题

为了探索 AlphaEvolve 的广度,DeepMind 将该系统应用于数学分析、几何学、组合学和数论中的 50 多个开放性问题。该系统的灵活性使其能够在几小时内设置大多数实验。

在大约 75% 的情况下,它重新发现了最先进的解决方案;在 20% 的情况下,AlphaEvolve 改进了之前已知的最佳解决方案,在相应的开放性问题上取得了进展。

例如,在吸引了数学家们超过 300 年兴趣的亲吻数问题(Kissing number problem)上, AlphaEvolve 发现了 593 个 外球的配置,并在 11 维中建立了新的下限。

更多详细内容请参见原论文。

参考链接:

​https://venturebeat.com/ai/meet-alphaevolve-the-google-ai-that-writes-its-own-code-and-just-saved-millions-in-computing-costs/​

​https://www.nature.com/articles/d41586-025-01523-z​

​https://techcrunch.com/2025/05/14/deepmind-claims-its-newest-ai-tool-is-a-whiz-at-math-and-science-problems/​

....

#DeepSeek今年的两个重大更新

DeepSeek-OCR2 用 Qwen2-0.5B 替换 CLIP,引入“因果流查询”把 2D 图像特征重排成符合人类阅读顺序的 1D 序列,256 token 即在 OmniDocBench 获 91.09 % SOTA;同时提出 mHC,通过 Sinkhorn 双随机矩阵约束把超连接多车道信号强度锁死≈1,兼顾容量与稳定,为统一多模态编码奠定新范式。

DeepSeek一直带有原创性,总是会给大家一些新的启发和思路。

昨天DeepSeek发布了升级后的OCR2模型,主要优化是加入模拟人类视觉的“因果推理”机制,把之前的Clip 模型替换为了大模型架构。

两代OCR

DeepSeek-OCR1(2025 年 10 月发布)证明了:视觉压缩是解决 LLM 长上下文低效问题的可行且高效路径。实现了“一图胜万言”,实验显示,10 个文本 token 压缩成 1 个视觉 token 时,OCR 精度仍能达到 97%。

DeepSeek-OCR2(2026 年 1 月 27 日发布)证明了:视觉语言模型可以通过“因果流”和动态语义阅读顺序,实现人类级别的文档逻辑理解,从而大幅超越传统固定栅格扫描的局限。

图片

OCR2 彻底抛弃了 CLIP 等传统 ViT 骨干,转用 Qwen2-0.5B 作为视觉编码器(DeepEncoder V2),并引入 Visual Causal Flow 机制:模型先全局理解图像布局,再根据语义内容动态决定“先看哪块、再看哪块”(类似人类阅读报纸时跳过广告、优先读标题、正文、表格的顺序),而非从左上到右下死板扫描。

图片

如图展示了 DeepSeek-OCR 2 的核心架构创新:

  • DeepEncoder:使用 **CLIP ViT **作为视觉编码器。这是一个传统的“非因果(Non-causal)”架构,视觉Token 之间通常是全向交互,且处理顺序往往是固定的(如从左到右、从上到下的光栅扫描顺序)。
  • DeepEncoder V2:将 CLIP 替换为 LLM 风格的架构 (Qwen2 500M)。这一部分被称为“LM as Vision Encoder”,它引入了因果推理能力。

图片

之前的视觉模型的查询Query普遍都是采用双向注意力,即 Query A 可以看到 Query B,Query B 也可以看到 Query A。这被称为 "Non-causal"(非因果)。DeepSeek-OCR 2虽然也用了 Query,但将其强制改为 **"Causal"**(因果/单向注意力)。即 Query 2 只能看到 Query 1,Query 3 只能看到 Query 1 和 2。

这样的目的是为了模拟人类阅读复杂文档的方式:当我们阅读复杂的文档(如报纸排版、表格或几何图形)时,视线移动是由语义驱动的,而不是简单的坐标驱动。也就是为了打破“位置决定顺序”的传统限制,转而实现“语义决定顺序”。我们看“哪里”取决于我们刚才看了“什么”。所以通过因果注意力,第 N 个 Query 只能看到前 _N_−1 个 Query 的结果。这迫使模型学会渐进式地整理信息:Query 1 找到第一段话,Query 2 基于 Query 1 的结果去找逻辑上的第二段话(哪怕它在图像的左下角),依此类推。

图片

整个模型清晰地划分为三个串联的部分:视觉分词器 - 左侧、DeepEncoder V2 (视觉编码器) - 中间、DeepSeek-MoE Decoder (解码器) - 右侧。

  • 在编码器中,通过 DeepEncoder V2,将无序的 2D 图像特征,转化为有序的、符合人类阅读逻辑的 1D 序列。
  • 在解码器中,解码器不再需要处理复杂的视觉位置关系,只需根据已经排好序的语义信息,通过语言模型生成文本。

图片

DeepEncoder V2 注意力矩阵被拼接成了左右两部分,分别对应不同的 Token 处理方式:

左侧/上半部分是视觉 Token,所有的视觉 Token 之间可以互相“看见”。也就是图像特征保留了传统的 ViT 风格,具备全局感受野,不会因为位置先后而丢失上下文信息。同时右侧/下半部分的因果流查询强制模型必须按照生成的先后顺序来建立逻辑依赖。

图片

实验结果也证明DeepSeek-OCR 2 在使用极少视觉 Token(计算成本低)的情况下,依然取得了超越现有开源模型甚至商业闭源模型(如 GPT-4o)的 SOTA性能

DeepSeek-OCR 2 的架构不仅是 OCR 技术的革新,更是迈向“通用模态编码器”的里程碑。在这一架构下,我们可以预见一个“参数共享”的超级引擎——共享_Wk_,_Wv_映射和 FFN 层。处理图像、音频或文本时,唯一的变量是特定模态的Learnable Query。这种设计将不同模态的特征提取与逻辑压缩统一在同一个参数空间内,彻底打破模态间的壁垒。

论文:​​https://huggingface.co/deepseek-ai/DeepSeek-OCR-2​

同时元旦期间,DeepSeek提出的mHC新思路震撼了全网AI社区。

我们先来回归一下何凯明团队提出的ResNet残差网络结构。

核心问题它解决了什么?

  • 深度退化问题:以前人们以为“网络越深越好”,但实验发现,当层数增加到一定程度(如超过 20-30 层),即使加更多卷积层,训练误差和测试误差反而上升(不是过拟合,而是网络自己学不会恒等映射)。

关键创新:残差连接(Residual Connection / Skip Connection)

  • 传统网络:每一层输出直接作为下一层输入,层层叠加容易导致梯度消失/爆炸。
  • ResNet 的残差块(Residual Block)结构: 输出 = F(x) + x
  • x:直接从输入“跳跃”过来的身份映射(identity shortcut)。
  • F(x):通过几层卷积(通常 2-3 层)学到的残差函数(residual function)。

如果 F(x) 学到 0,整体就相当于恒等映射(output = x),网络至少不会变差。这让网络可以轻松学会“什么都不变”或者“再加点改进”。

图片

十年来,“只需增加更多层”的残差连接策略:通过强制每一层保留对原始输入的访问,我们隐含地限制了网络对信息的转换能力。

DeepSeek 的贡献是提出重写神经网络的方案。

→ 它们从用于残差的简单加法,转向定义在流形上的几何约束。

→ mHC 限制了超连接的表现力,恢复残余连接的稳定性,从而实现两者兼得。

→ DeepSeek表明,完全可以建立深度稳定的网络,而无需依赖自2015年以来依赖的安全网。

ResNet、HC、mHC对比

图片

  • 普通Transformer的残差连接是“单车道”(F(x) + x):每层输出 = 输入 + 处理后的部分,信号强度基本保持在1倍左右,训练很稳定。
  • 字节跳动先提出的Hyper-Connections(HC)想把残差变成“多车道”:一层里同时走好几条并行路径(比如3-4条),每条路径都加回输入,这样可以大幅增加模型深度和容量,理论上性能更好、训练更高效。
  • 但问题来了:无约束的多车道残差会让信号强度指数级爆炸(实验里放大上万倍),梯度也失控,模型直接训崩,尤其在大模型、深层网络里特别严重。

mHC就是在HC的基础上加了一个流形约束(用Sinkhorn-Knopp算法强制每条路径的权重归一化),确保所有路径加起来的信号强度严格稳定在≈1.0倍,几乎不损失性能,开销也很小(~7%)。

具体解释如下:

第一步:压缩

mHC的做法是一开始先复制四份X1(语义更丰富,有的可能专门代表了语法、有的代表了上下文等等),然后继续往右侧走,如果通过注意力机制直接计算四次开销会很大,所以要使用一个可学习的向量 Hpre_(1×_n_)将那 4 个向量合并成 1 个向量。这实际上是一个加权求和(Weighted Sum)。比如:0.9×_A+0.1×_B_+…。

图片

第二步:加工

将压缩后的这 1 个向量送入标准的 Transformer 层(_F_)进行计算(如 Attention 或 Feed-Forward)。这是整个网络中最耗时的“思考”过程。

mHC的约束就是 DeepSeek 解决崩溃问题的关键(区别与HC)。DeepSeek 强制要求这个混合矩阵 Hres 必须是双随机矩阵

  • 规则:每一行加起来必须等于 1,每一列加起来也必须等于 1。
  • 作用:这保证了无论信息怎么在 4 个通道间“倒来倒去”,总能量(信号强度)保持不变,防止了数值爆炸或消失。

图片

第三步:扩张

计算完成后,得到 1 个新的输出向量。此时使用另一个向量 _Hpost_(1×_n_)将其“广播”回 4 个通道。

注意:这不是简单的复制,而是根据权重将新知识以不同比例分配给 4 个通道,从而产生差异化(最终向量就包含了语法、上下文、逻辑、领域知识等等更多的语义信息)。

最后,将“计算路径”产生的新知识,加到“残差路径”混合后的旧记忆上,形成下一层的输入。

图片

DeepSeek 证明了,只要辅以恰当的数学约束(如流形约束),我们可以驯服更复杂的非线性拓扑,从而获得更大的信息容量。

也有博主对mHC进行了复现,效果比DeepSeek原文还要好!

​https://taylorkolasinski.com/notes/mhc-reproduction/​

​https://taylorkolasinski.com/notes/mhc-reproduction-part2/​

DeepSeek mHC论文:https://huggingface.co/papers/2512.24880

....

#Clawdbot

Clawdbot接入10000+数据和工具后,7×24小时监听股票,杀疯了!

Clawdbot(现已更名为 Moltbot)在 AI 圈彻底火了。

这两天,我的朋友圈分裂成了两派人。

一派是还没用上 Clawdbot 的人,在疯狂转发部署教程。

另一派是用上 Clawdbot 的人。

但是,大部分人玩的,都是「玩具版」。

Clawdbot 虽然能跑起来,但是不稳定、不聪明。因为没接专业数据源,只能做些基础对话,真正要干活时就抓瞎。

不过,今天我发掘了一个好东西。

现在,Teamo 平台竟然把 Clawdbot 接入了金融、商业、社媒等 10000 + 领域数据库和工具 Skills,用户可以一键认领自己的 Clawdbot 了!真正做到了 0 部署 0 配置。

免费认领链接:

​https://teamoteam.com/t?a=clawdbot​

如果你还不知道 Clawdbot,先来了解一下。

Clawdbot 是一个开源的 AI 助手,可以通过 WhatsApp、Telegram、Discord 等渠道与用户互动,国内可以接入飞书、企业微信。

它可以 7×24 小时驻守在你的平台上,能监控市场、能回复消息、能提醒日常、能操作文件、能管理邮件,总之,就是你可以让它 7×24 小时替你干活儿。

为什么说之前是玩具版?

如果你不对 Clawdbot 做特殊配制,它就只能调用大模型的通用能力,只能和它瞎聊。

因为 Clawdbot 只是提供了一个框架,没有专业数据源。

  • 你让它分析股票,它给你「根据公开信息」的模糊总结。
  • 你让它监控市场,它只能搜新闻。
  • 你让它做商业分析,它说「我需要更多数据」。

真正让 Clawdbot 有用的,是接入专业数据,比如同花顺、Wind 金融、同花顺,Amazon,arXiv,Pubmed,Alpha Advantage。所以市场上跑的快的团队已经发现这个问题!

Teamo + Clawdbot = YYDS

今天,Teamo 平台上线了超级强化版本的 Clawdbot,狠狠的打通了 10000 + 个专业数据库和工具 Skills,比如:

  • 金融数据源(A 股、美股、港股实时行情)
  • 加密货币数据
  • 社交媒体数据(Twitter、微博等)
  • 商业分析工具:企业工商信息,招投标,专利商标,行业报告
  • 各类专业 API 接口

图片

这些数据源,单独购买的话,一年成本轻松上万。

最最厉害的是,现在你可以直接「认领」一个配置好的 Clawdbot。

0 部署、0 配置、开箱即用。

你只需要在 Teamo 平台上点击「免费认领」,就能立即获得一个属于自己的 Clawdbot 实例。

不需要懂 Docker,不需要买服务器,不需要配任何环境变量。

图片

免费认领链接:

​https://teamoteam.com/t?a=clawdbot​

另外,据说 Clawdbot 实例资源有限,手慢无...

剩下的看你们了。

真实场景上手:股票分析

如果自己手速慢了,没抢到,Teamo 官方还开放了一个 “公开版” 的 Clawdbot 给大家提供服务。

Teamo 官方把这个超级加强版的 Clawdbot 接进了飞书群里,在飞书群里 7×24 小时待命,你随时撩拨。

这个 Clawdbot 会实时调用专业数据库,给你专业分析。

比如:「A 股的人工智能 ETF 技术面分析」

图片

再比如:「分析一下铜的走势」

图片

再比如:“帮我分析一下宝钛股份最近的走势」”,“提醒我,如果中国平安跌破 50 元就通知我”

图片

(以上仅为功能演示,不构成投资建议)

彩蛋:支持 Skills

Teamo 版 Clawdbot 不仅是一个专业版的 Clawdbot,还是一个增强版的 Clawdbot。 支持安装各种 Skills。

官方已经支持了几十个 Skills,包括编程场景、金融分析工具等。

图片

上线一个小时,光小红书社媒分析工具都已经有 10 个了...

真的是,用的人越多越强大啊...

图片

比如你可以直接让它去搜索达人。

图片

当然你也可以在群里直接告诉它,安装制定的 Skills。

“新建一个写作长文的 skills”

图片

Teamo Clawdbot 可以立即创建技能,并且可以在 10 分钟后提醒你写小红书文案。

图片

现在就可以体验

Teamo 版 Clawdbot 现已开放认领通道。

无论你是想做金融分析、社交媒体运营、数据监控,还是单纯想体验一下「AI 主动工作」的感觉,都可以来试试。

认领链接:

​https://teamoteam.com/t?a=clawdbot​​​

....

#MOVA(MOSS-Video-and-Audio)

刚刚,创智+模思发布开源版Sora2,电影级音视频同步生成,打破闭源技术垄断

今天上午,上海创智学院 OpenMOSS 团队联合初创公司模思智能(MOSI),正式发布了端到端音视频生成模型 —— MOVA(MOSS-Video-and-Audio)。

作为中国首个高性能开源音视频模型,MOVA 实现了真正意义上的「音画同出」。它不仅能生成长达 8 秒、最高 720p 分辨率的视听片段,更在多语言口型同步、环境音效契合度上展现了极高的工业水准。

更具行业意义的是,在 Sora 2 和 Veo 3 等顶尖技术普遍走向闭源的当下,MOVA 选择将模型权重、训练代码、推理代码以及微调方案进行全栈开源。

它生成视频的效果,给人一种身临其境的真实感:

,时长00:38

  • GitHub: https://github.com/OpenMOSS/MOVA
  • 项目主页: https://mosi.cn/models/mova

效果亮眼

可称开源最强

过去一年,视频生成模型(Video Generation)经历了爆发式增长。从 Sora 到 Wan,再到 LTX Video,AI 输出的画面越来越逼真,能生成的时间越来越长。但仔细观察 AI 生成的视频你就会发现,这些视频有的是「哑巴」,有的配音出戏。音视频生成(Video-Audio Generation)模型正是通过端到端的模态融合弥补了传统视频模型的音频维度缺陷。

虽然以 Veo3 为代表的音视频端到端模型展示了极高的生成上限,但是其闭源的策略造成了严重的技术垄断,割裂了技术生态的连贯性,也让社区难以通过协作改进模型缺陷(如幻觉、不同步等),导致音视频生成领域缺乏像 LLM 时代那样的「开源爆发式」演进。

为了推倒这堵墙,让音视频生成能力真正回归社区,MOVA 应运而生。它具备高质量的端到端音视频生成能力,完整开源了 360p、720p 两个基础模型,以及包括微调、推理、生成工作流在内的全链路组件,补全了音视频生成基础模型的开源拼图。

电影级别物理智能:音与画的共振

在物理仿真层面,MOVA 展现了极其出色的「物理直觉」。在这里,声音是具备空间感与质感的环境反馈,而不仅仅是可有可无的音效。

当一辆 SUV 在沙漠中高速掉头时,漫天飞舞的狂沙不仅在视觉上极具冲击力,音轨中同步生成的马达轰鸣声与配乐紧密交织,营造出极强的速度感:

,时长00:08

提示词:一辆 SUV 在沙漠里奔驰,并打方向盘掉头,狂沙飞舞,配上激动人心的音乐,并听到马达轰鸣声。

这种声画逻辑在复杂的巷战模拟中更为突出:

,时长00:08

360p 模型生成,提示词:在阴天漫射光下的城市巷道中,多名穿沙色迷彩的武装人员保持固定防御队形:左前跪姿射手持续向左侧射击,左中射手掩护,右侧两到三名队员贴墙半蹲警戒,尘土飞扬、电线密集、街道纵深明显,固定稳定中景偏广机位、纪录片式电影写实质感、低饱和灰黄色调与轻微颗粒,短促橙色枪口火光但曝光稳定,音频包含密集近距枪声、子弹掠过与击中声、街区混响、装备摩擦与急促呼吸,人物、站位与构图始终不变。

这种对物理动态的捕捉同样体现在日常生活场景中。比如在下面的例子中,本・斯蒂勒在公路上滑滑板,随着他左右摇摆加速,耳边会传来风掠过路面的呼啸声,可以说相当好地还原了他在《白日梦想家》中的经典场景。

,时长00:07

提示词:画面是一名穿着红色上衣、灰色裤子的男子在空旷的公路上滑板的场景,公路周边是草地和低山。男子通过左右摇摆的方式不断加速,展开手臂沿着公路不断滑行。背景声音为高速滑行时风吹过的呼啸声。

电影级别的口型同步能力:精准捕捉叙事灵魂

MOVA 另一大突破在于其电影级别的口型同步(Lip-sync)能力。它能够根据中英文指令,生成与语义、情感高度契合的多人物谈话场景。比如下面的公园散步视频中,对话的衔接极其自然:

,时长00:07

提示词:画面中是一个男子和孩子在公园中散步的场景。男子转过头疑惑地问孩子说:“你长大想要干什么?” 男孩一脸自信地回答:“债券交易员。唐恩就是做这个的,他带我去过他的办公室”。男子笑了笑,回答道:“是一个不错的职业。”

MOVA 也能流利地说英语,下面就还原了《王牌特工:特工学院》中「看到西装男人别去惹他,你打不过他的」的经典名场面。这里可以看到,人物的口型、表情与语调的变化严丝合缝,告别了以往 AI 视频中的「对口型感」。

,时长00:07

提示词:画面中是在一处英国大街上发生的谈话,背景包含了西欧风格的建筑物、电线杆和一面英国的国旗。画面左边穿着灰色西装、戴着墨镜的男子说道:“成为绅士和口音毫无关系,真正的高贵在于超越自我。” 右边穿着黄黑色夹克、戴着白色帽子的青年脸色逐渐严肃地回答道:“我记住了。” 随后陷入了沉思。(原提示词为英文)

涌现出来的进阶能力:视频文字生成

有意思的是,在提升 MOVA 模型口型精度和语音能力的过程中,OpenMOSS 团队还收获了一个「意外之喜」:文字生成能力

MOVA 能够生成视频中的文字内容。比如下面这个例子,虽在「快」这里还有些瑕疵,但整体效果已超越了很多前沿闭源模型,表现令人相当满意。

,时长00:07

提示词:画面开始于创智学院宽敞而对称的中庭,日光透过透明的玻璃天窗洒落下来。镜头沿着中轴线缓缓向前移动,空间逐渐发生变化,光线化作细小的粒子向上飘散,空中浮现出若隐若现的数据流与抽象的智慧图形。天窗之外的天空逐渐转化为深邃的星空,仿佛整座建筑与宇宙连通。随着镜头推进,玻璃与植物微微发光,整个大厅呈现出安静而充满想象力的未来氛围。画面接近尾声时,所有光芒在中央汇聚,形成闪耀着星光的文字:“上海创智学院祝您 2026 年元旦快乐!” 神秘而震撼的电子配乐始终伴随画面,在文字出现时略微收束。

作为对比,Veo 3.1 使用同样提示词的结果是这样的:

,时长00:08

在惊艳的效果背后,更加值得关注的是 MOVA 模型的一体化架构。下面我们就来系统性地看看 MOVA 背后的技术。

背后的技术

从模态孤岛到端到端共鸣

全球音视频生成 AI 模型正处于一个从「纯视频生成」向「音视频端到端生成」(Native Video-Audio Generation)跨越的关键时期,视频生成 AI 模型的优先目标已不再仅仅是更拟真的画面,而是声音与视觉的完美共鸣。

在音视频生成问题上,传统的解决方案是「级联流水线」:先生成无声的视频,再通过 Video-to-Audio 模型配音;或者先有语音,再驱动画面。这种「拼凑」感导致了音画割裂 —— 爆炸声可能比火光慢半拍,人物口型由于缺乏底层交互而显得僵硬。

对此,OpenMOSS 团队决定挑战最为困难,但效果更好的音视频端到端生成模式。

他们针对音视频生成任务专门构建了一个基础模型 MOVA(MOSS Video and Audio),其不仅能合成与视频同步的语音,也能精准地合成环境音效。从名字也能看出来,该模型属于模思智能的 MOSS 系列 —— 此前已有文本到对话生成模型 MOSS-TTSD、语音到语音生成模型 MOSS-Speech 以及多说话人语音识别模型 MOSS-Transcribe-Diarize。

MOVA 是一个规模约 320 亿参数(MoE 架构,推理时激活 180 亿参数)的模型,支持图像 - 音视频和文本 - 音视频的处理方式。

具体技术上,OpenMOSS 团队进行了模型架构、数据工程、训练策略等多方面的创新,验证了音视频大模型的规模化趋势与性能提升。

下面我们就来看看 MOVA 是如何炼成的。

异构双塔与跨模态时间对齐

针对音频和视频两个模态本身的信息密度,MOVA 巧妙地搭建了一套非对称双塔架构,结合了大尺寸的预训练视频塔和小尺寸的预训练音频塔。

具体来说,OpenMOSS 团队采用了 14B 参数的 Wan 2.2 I2V 作为视频骨干网络(用于图像 + 文本条件的 I2VA),并预训练了 1.3B 的文本到音频扩散模型作为音频骨干网络。

图片

MoVA 通过一个双向桥接模块将一个 A14B 视频 DiT 主干网络与一个 1.3B 音频 DiT 主干网络耦合在一起,实现模态融合与交互

在这两座「塔」之间,团队引入了一个双向桥接模块(Bridge)。这个模块的存在,让视频与音频的隐藏状态在每一层都能进行深度的交叉注意力运算。这意味着画面在生成的每一瞬间,图像都在感知声音的节奏,而音频也在捕捉画面的光影。

然而,音视频的物理属性天然互斥。视频通常以每秒 24 帧的频率离散存在,而音频信号的密度则要高出几个量级。为了防止两者在生成过程中产生时间轴上的「漂移」,团队设计了 Aligned ROPE(对齐旋转位置嵌入)机制。通过精确的缩放比例映射,视频与音频的 Token 被巧妙地放置在了同一个物理时间尺度上,避免了音频和视频模态的天然不对齐。

多阶段细粒度数据管线

成功的模型根基于架构,更离不开数据。多阶段的高质量音视频数据处理管线是 MOVA 成功规模化的保障。

为了把海量数据真正转化为模型训练真正用得上的知识,OpenMOSS 团队构建了一套涵盖三阶段的精细化管线。

图片

三阶段的数据处理流程:第一阶段,将原始数据预处理为固定长度的视频片段,分辨率为 720p,帧率为 24fps,时长为 8.05 秒。第二阶段,根据音频质量、视频质量以及音视频同步性对这些片段进行筛选,以获得高质量且同步的视频片段。第三阶段,分别使用音频理解模型和视觉理解模型对视频中的音频和视觉信息进行单模态标注,并最终利用大语言模型将这些单模态描述进行融合,形成细粒度音视频描述。

相比于传统的视频数据处理管线,MOVA 提出的管线尽可能多地保留了原始音视频数据,减少了裁剪和丢弃,并且通过细粒度的标注避免不同类型和质量的数据之间互相影响,使得模型具备了复杂场景泛化的潜力。

多阶段规模化策略

音视频生成的大规模训练是一项计算量非常大的任务,在大规模训练过程中,MOVA 团队展现了敏锐的工程直觉,设计了三阶段由粗到细的训练策略。首先,为了平衡随机初始化的 Bridge 模块与已经具备强大预训练先验的双塔,他们采用了异构学习率的策略。Bridge 模块的学习率被设为两倍于骨干塔,从而加快 Bridge 模块的参数更新效率,取得比较快的初步收敛。

图片

不同训练阶段口型同步指标随着训练步数的持续下降趋势

为了提升训练效率,MOVA 将训练过程分为了三个阶段,360P 训练、360P 退火训练以及 720P 训练,并持续监控口型同步指标随着训练步数增长的变化。更有趣的创新在于 Dual Sigma Shift(双模态噪声偏移)。对于音视频双模态联合去噪的模型,业界并没有明确最优的加噪方案,由于音频和视频模态天生的特性,使用同样的噪声偏移不一定能达到最优的学习效果,可能会导致隐式的模态依赖。基于这个猜测以及先前的研究工作,因此,MOVA 在第一阶段训练中对于音频和视频模态使用了不同的 Sigma Shift 进行加噪,希望避免可能出现的隐式模态依赖。

具体来说,一开始的 Stage 1 用的是 360p 的低分辨率,本质目标不是追求画面细节,而是让模型尽快学会「音频和嘴型应该怎么对齐」。因为 Bridge 是随机初始化的,如果一开始就追求高画质,很容易学不稳或者学偏。所以这里故意让视频端去更激进地去噪,音频端相对平滑,再配合比较高的文本 dropout,让模型不得不依赖音频和视觉之间的桥接关系来建立对齐能力。你可以从曲线看到,虽然一开始误差还有点波动,但整体 LSE-D 很快下降、LSE-C 明显上升,说明模型逐步抓住了嘴型同步的基本规律。

进入 Stage 2 之后,分辨率仍然是 360p,但重点从「学会对齐」转为「把对齐质量拉高、稳定下来」。这里把音频和视频的噪声调度对齐起来,本质是在时间尺度上让两种模态更加同步,这样跨模态注意力会更稳定;同时降低文本 dropout,让文本重新参与细化语义和细节,而不是完全靠音视频对齐硬学;再通过响度归一化避免 CFG 带来的音量失真。你能看到在这一段,LSE-D 继续缓慢下降,LSE-C 有一个明显跃升,说明模型不只是「能对上」,而是「对得更自信、更一致」。

最后的 Stage 3 才真正把分辨率拉到 720p,这一步更像是「高清重制」。此时模型已经具备稳定的跨模态对齐能力,所以可以安全地把算力用在更高分辨率和更细致的空间建模上,而不会破坏之前学到的嘴型同步结构。为了应对高分辨率带来的显存和收敛速度变化,引入了更细粒度的 checkpoint 和更激进的并行优化策略。从曲线看,这一阶段 LSE-D 进一步压低并趋于平台,LSE-C 稳定在较高水平,说明性能已经进入收敛区间,更多是在做质量的精修。

Agent 工作流

让模型更好理解需求

拥有了高性能的基模,并不意味着能直接产出完美的视听大片。在 MOVA 的实际部署中,研发团队设计了一套 Agent 工作流,以适应不同粒度和风格的用户输入,最大程度激发模型能力。

三阶段协同工作流

为了解决视频生成中常见的「描述与视觉不一致」问题 —— 即当用户文本与初始帧存在细微偏差时,生成过程容易偏离首图先验并误解用户意图 ——MOVA 并未让基模单独承担对齐压力,而是设计了一套三阶段生成流程,将理解、改写与生成分工协作,显著提升首帧一致性与指令遵循能力。

图片

三阶段 Agent 工作流,赋予 MOVA 产品级理解能力,更好的处理更加原始、多样的用户需求。

  1. 视觉解析:系统首先通过 Qwen3-VL 对用户提供的初始图进行结构化解析,将画面的色彩基调、构图信息、核心主体与文字元素抽取为可执行的视觉约束。
  2. 提示词重构:在视觉约束与用户原始指令共同输入下,借助通用 LLM(如 Gemini)进行上下文示例驱动的提示词重写,将需求转译为更贴近训练分布、具备动态叙事的生成提示词。
  3. 双重条件生成:最后,MOVA 结合重写后的提示词和初始帧图像进行「双重条件生成」,使视频在产生运动与变化的同时,最大化保持首帧图的视觉风格与关键元素,并更好地对齐用户意图。

这种多模型协同的思路,让 MOVA 不仅仅是一个基模,更像是一套成熟的视听内容生产系统。

除此之外,MOVA 也展现出扎实的纯文本音视频生成能力:即使不提供真实首帧,用户仅需输入文本,系统会自行传入一张纯色占位图作为初始条件,并生成音画同步、观感统一的高质量视频,从而降低素材门槛,让「零素材创作」成为可能。

双重 CFG:在画质与对齐间寻找平衡

在推理逻辑的底层,OpenMOSS 团队引入了双重 Classifier-Free Guidance (Dual CFG) 公式。

图片

在传统的视频生成中,CFG 往往只服务于「让画面更像描述」。但在音视频联合生成任务中,存在文本指令和模态桥接(Bridge)两个控制源。如果盲目追求提示词契合度,往往会牺牲音画同步率;反之亦然。

MOVA 允许用户根据场景调整这两者的权重:

  • 在一般的生成任务中,侧重文本引导以保证画质和意图实现。
  • 在对话、演讲等「口型敏感」场景下,则通过强化模态桥接的引导力,实现毫秒级的对齐精度。

针对高强度引导可能带来的「音量爆炸」和波形畸变,MOVA 还内置了 LUFS 响度归一化算法,将输出音频强制修正至 -23 dB 的广播级标准,确保了即便在极端推理参数下,声音依然清晰自然。

实验表现

打破闭源巨头的技术垄断

为了验证 MOVA 的视听对齐能力,OpenMOSS 团队将其与目前开源社区最顶尖的两个项目 LTX-2 和 Ovi,以及「WAN 2.1 + MMAudio」这一传统级联方案进行了全方位对比。

最佳的口型精度

图片

在 Verse-Bench 上的视听生成性能的量化比较。Audio 和 AV-Align 指标是在所有子集上进行评估的;Lip Sync 和 Speech 指标是在 Verse-Bench set3 上进行评估的;ASR Acc 是在团队提出的多说话人子集上进行评估的。加粗和下划线的数值分别表示最佳和第二佳结果。

在最能拉开差距的口型同步(Lip-sync)任务中,MOVA 展现出了明显的优势。根据 Lip Sync Error 指标,在开启 Dual CFG 模式后,MOVA-720p 的 LSE-D 得分为 7.094,LSE-C 得分为 7.452。其次,在反应语音准确度和说话人切换准确度的 cpCER 指标上,MOVA 也取得了最佳的结果。

竞技场真实评估

考虑到当前音视频生成模型的客观评价体系仍不够完善,MOVA 引入了竞技场(Arena)人为主观评测范式,包含了全球最新的开源音视频生成模型,累计获得 5000 次有效投票并对结果进行了系统统计。评测结果显示,MOVA 生成内容在整体偏好上保持领先:其在对战中更频繁获得用户选择,ELO 评分达到了 1113.8(初始分 1000),显著高于各基线模型;并稳定保持超过 50% 的胜率,其中面对 OVI 和级联系统(WAN+MMAudio)的胜率更是超过了 70%。

图片

图片

开源突围与国产生态

补全多模态拼图

MOVA 的出现对于音视频生成 AI 方向有着重要意义。目前全球范围内,处于第一梯队、被大众或行业认可的模型,如我们耳熟能详的 Sora 2、Veo 3、Kling 2.6、Runway Gen-3 等,绝大多数是闭源的,它们甚至仅向小部分付费用户开放;而在开源的另一边,Wan 2.1、HunyuanVideo 等模型着重于纯视频生成的质量,支持端到端音视频的较少。

MOVA 的出现,改变了「领先技术不开源」的现状。

作为中国首个高性能开源音视频模型,MOVA 通过全栈开源的方式,将训练代码、推理代码、模型权重以及微调代码全部公开。这意味着,开发者不仅可以用 MOVA 生成视频,也能深入底层,理解双塔 Diffusion 架构如何处理多模态数据的交互,甚至在此基础上训练出垂直领域的专用模型。

MOVA 支持了 SGLang 等主流高性能推理框架。其 360p 版本更加面向于较低的硬件门槛,让音视频生成不再是仅限于 GPU 集群的奢侈游戏。在整个音视频生成领域趋向于闭源的大环境下,MOVA 的出现是一次开源社区的突围,它补全了中国音视频生成基模的开源版图,或许能够驱使音视频生成领域走向开源共创。

在 MOVA 音视频大模型的研发进程中,昇腾AI提供了全栈算力支撑,助力MOVA完成了从数据标注到预训练验证的关键环节。目前,MOVA 已成为昇腾首个支持的开源多模态音视频一体生成模型,微调与推理功能已同步上线社区。

MOVA 的发布,距离模思智能上一款引发行业热议的语音识别模型 ——MOSS-Transcribe-Diarize 仅仅过去了 20 多天的时间。而 MOSS-Transcribe-Diarize,也在 MOVA 的快速迭代中发挥了关键作用。

如果说上一次发布的语音识别模型让 AI 学会了在嘈杂真实环境中「听懂」人类复杂对话的能力,那么今天发布的 MOVA,则宣告了他们让 AI 具备了「创造」同步音视频的能力。

从感知到生成,从单一模态到端到端多模态,从理解到生成,环环相扣,死磕情境智能(Contextual Intelligence)每一个关键环节的模思智能正在快速构建它的多模态基础模型版图。

研究、创新、与学生培养

MOVA 是上海创智学院与模思智能在研究、创新和学生培养模式上的一次成功实践。上海创智学院「研创学」模式成功融合了学术研究的深度与产业落地的敏锐度,让研究不再拘泥于简单场景,也同时深入到了工业场景,并从中培养一流 AI 人才。

在上海创智学院,学生被视为共同创新创业的合伙人,他们在 MOVA 这种千卡级规模的工业级基模训练中承担核心任务。这种阵地式培养让学生在解决大规模训练 Infra 框架、高性能海量数据分布式处理框架、模型架构从 0 到 1 设计等硬核工程问题的过程中,积累了极具稀缺性的实战经验。

模思智能作为创新的出口,一方面为人才培养提供了验证大规模基模性能的闭环环境,并通过持续的技术迭代,将前沿理论转化为可商用的生产力工具。在这一机制下,技术研发与商业价值形成了互为因果、相互加速的良性循环。

这一模式更深远的意义在于对 AI 顶尖人才培养路径的重塑,让年轻大脑在技术演进最前线接受真火淬炼,为未来的 AGI 竞争储备具备破局能力的澎湃力量。

....

#SkyReels-V3

昆仑万维开源的SkyReels-V3,把马斯克请来带货了

AI 网红们在社交平台上混得风生水起。

他们手握品牌合作,还坐拥百万粉丝,但很多人至今不知这些都是 AI 生成的,依然像追真人明星一样互动、点赞、被种草。

,时长00:10

视频来源:X 博主 @thetripathi58

这也难怪有博主直呼:虚拟网红时代已经到来。

图片

现在,昆仑万维也来添了把火,直接把背后的技术开源了。

1 月 29 日,Skywork AI 团队宣布开源 SkyReels-V3 多模态视频生成模型系列。该系列涵盖参考图像转视频、视频延长和音频驱动虚拟形象三大核心能力,在单一建模架构中实现高保真多模态视频生成,达到业界领先水平。

比如,只需一张虚拟主播照片配上音频,就能生成口型精准、表情生动的主播视频:

,时长00:37

上传几张素材图,输入文字描述,AI 就能自动编排出一条完整的带货短片:

图片

,时长00:04

还能像专业导演一样,为视频设计切入、切出、正反打等电影级转场效果:

更关键的是,这次是完全开源。任何有想法的创作者,都能用这套工具快速搭建自己的虚拟 IP,甚至批量生产内容矩阵。

  • GitHub 链接: https://github.com/SkyworkAI/SkyReels-V3
  • API 链接(限时免费):https://www.apifree.ai/model/skywork-ai/skyreels-v3/standard/single-avatar

一手实测

SkyReels-V3 的实际表现到底如何?我们第一时间针对三大核心功能进行了全面测试。

参考图像转视频

这个功能允许用户上传 1-4 张参考图像,配合文本提示词,生成时间连贯、语义一致的视频。参考图像可以是人物、物体或场景,模型会精准保留身份特征、空间构图,并按照提示词编排叙事逻辑。

我们首先测试了电商应用场景。

上传马斯克的照片和小象玩偶图,输入提示词:在温馨的客厅里,马斯克坐在沙发上,微笑着拿起身旁的小象玩偶,然后将玩偶举到镜头前展示,阳光从窗户洒进来,气氛温暖。

图片

生成视频中,即使更换了背景,马斯克面部特征也保持高度一致,未出现扭曲或者「换脸」,动作自然流畅,商品展示角度恰到好处。

我们又上传了手袋商品图和素颜模特照,输入提示词:时尚的都市街头,这个模特拿着 LV 包,展示包的细节和质感。

图片

SkyReels-V3 立马把模特置于车水马龙的都市夜景中,边走边展示产品细节,人物动作优雅,构图也很专业。

我们还尝试上传多张参考图像,让不同人物或物体在指定场景下产生互动。

比如把奥特曼的照片丢给它,再来张酷炫智能眼镜和公园图片,然后下指令:男人戴着智能眼镜在公园里散步。

图片

模型准确识别人物、物体和背景,并根据提示词编排出合理的交互动作。

最近《怪奇物语》热度蹿升,我们上传三名小演员的剧照,外加一张上海外滩图片,输入提示词:这三个人在上海外滩自拍。

图片

SkyReels-V3 能同时处理好几张完全不同的参考图,精准还原人物特征,保证整体风格统一,连服饰发型都完美迁移。

生成视频里三个人一起自拍的互动看起来毫不违和,表情特别自然,动作也流畅得很。

视频延长

视频延长功能则可以将输入的视频片段延伸为更长内容,同时保持运动动态、场景结构和视觉风格的一致性。它支持单镜头延长和镜头切换延长两种模式。

镜头延长模式下,我们提供了一段女生开心面对镜头的视频,输入提示词:女孩笑着笑着突然严肃起来,延长 5 秒钟。

这种从开心到严肃的表情过渡需要模型把握好微表情的变化节奏,不能太突兀。SkyReels-V3 对人脸表情动态和情绪演变的理解相当到位,延长过程中女生的面部特征、光影效果和整体视觉风格都没走样。

镜头切换延长模式则更具创意空间。它支持切入、切出、多角度、正反镜头、切离五种专业转场。

具体而言,切入镜头从广角过渡到特写,切出镜头则相反;正反打镜头指的是在对话场景中,从面向一人的镜头切换到面向另一人的镜头;多角度镜头是切换到不同角度来展示当前场景;切离镜头则是过渡到当前场景中的新区域。

就以切入镜头为例。我们上传女杀手狙击的场面,输入提示词「Close-up on the girl's face as she aims, sweating」。

图片

SkyReels-V3 能够理解 Close-up 这种专业摄影术语,从瞄准动作到面部特写的过渡保持了叙事的连贯性,又通过景别变化增强了画面张力。

虚拟形象模型

虚拟形象模型则可以从单张肖像图和音频片段生成音视频同步的视频,支持分钟级长度和多角色交互。

我们先测试了最基础的单角色虚拟形象 。上传肖像照,配上音乐片段,SkyReels-V3 快速生成一段唱歌 MV,人物唇形与音频完全同步,并能保持画面稳定。

,时长00:09

泛化能力同样出色。我们测试了真实人物、卡通角色等不同风格,模型都能稳定生成高质量结果。

此外,它还支持多人物互动场景。我们上传了朱迪和尼克在咖啡店喝咖啡的参考图,为每个对话片段配置音频。

模型自动识别出图片形象,精准控制每个角色的开口时机,未出现两个角色同时张嘴或者对不上口型的尴尬情况。

,时长00:10

技术解读

Skywork AI 团队此次开源,为视频生成领域带来了新的技术选择。

该系列模型在单一建模架构中集成了参考图像转视频、视频延长和音频驱动虚拟形象三大核心模块,在保持高保真度的同时实现了多模态的灵活应用。

先说参考图像转视频功能。这一能力的实现建立在三层技术创新之上。在数据构建层面,团队从海量高质量视频数据中筛选具有显著动态运动的素材,随后通过跨帧配对策略连续视频序列中选择参考帧,以确保时间多样性。

团队还利用图像编辑模型进行主体提取、背景补全和语义重写,有效避免了传统方法中常见的「复制粘贴」伪影问题,并通过多层过滤机制保障参考图像质量。

SkyReels-V3 实现了统一的多参考条件策略,能够联合编码视觉和文本信息,支持最多 4 张参考图像的灵活组合。这意味着开发者无需进行显式的手动组合,即可实现复杂的多主体、多元素视频生成。

训练策略方面,模型采用了图像 - 视频混合训练方案,联合利用大规模图像和视频数据集,并通过多分辨率联合优化提升了对不同空间尺度和宽高比的鲁棒性,原生支持多种输出配置。

在涵盖电影电视、电商、广告等场景的 200 对混合测试集上,SkyReels-V3 在参考一致性和视觉质量方面均处于国内领先位置,验证了其技术方案的有效性。

视频延长模块是 SkyReels-V3 技术实力的另一体现。

其核心创新在于双模式延长机制的设计。单镜头延长模式实现平滑的镜头继续,保持视角和叙事连贯;镜头切换延长模式则支持切入、切出、多角度、正反镜头、切离等五种专业转场类型,为视频创作提供了电影级的叙事工具。

为支撑这一能力,团队开发了专门的镜头切换检测器,能够自动分析长视频中的镜头转场,识别并分类转场类型,同时支持手动选择,有效构建了高质量的训练数据。

技术实现上,SkyReels-V3 采用了统一的多分段位置编码方案,支持复杂多分段视频延伸的精确运动建模,并通过分层混合训练实现平滑的镜头切换。鲁棒时空建模使其能够有效处理快速运动、多主体交互和场景剧变等复杂情况,确保生成内容的物理可信度和时间连贯性。

该模块支持 480p 和 720p 分辨率,单镜头延长可调节 5 至 30 秒长度,并支持 1:1、3:4、4:3、16:9、9:16 等多种宽高比,为不同应用场景提供了灵活的输出选项。

虚拟形象模型的技术方案则聚焦于音视频精准对齐和关键帧约束生成机制。

研究团队开发了专用的音视频对齐训练策略,通过区域掩码建模显式的语音单元与面部运动的对应关系,实现了对多语言、多风格、快速语速的鲁棒性能。

关键帧约束生成则通过建立结构重要的关键帧,生成帧间平滑过渡,确保长视频中的角色一致性和自然运动流。

从整体架构来看,SkyReels-V3 的核心优势在于其模块化设计理念。三大功能模块各自经过深度优化,既可以独立使用,也能根据实际需求灵活组合,为不同应用场景提供了充分的适配空间。

企业级的数据处理管线确保了生成质量的稳定性,而在推理端,团队融合了蒸馏、量化及算子优化等多项技术,打造出低延迟、高吞吐的推理引擎,使得模型在实际部署中具备更强的可用性。

在训练效率方面,SkyReels-V3 采用了极致的显存与计算优化方案,支撑起高分辨率长视频的千卡级稳定高效训练。

结语

SkyReels-V3 选择完全开源,某种程度上反映了 AI 视频生成领域的竞争态势。

在 Runway、Pika 等国外产品凭借先发优势占据市场时,国内团队通过开源策略快速建立生态、获取反馈、迭代优化,不失为一种聪明的打法。

而这背后的底气,自然源于昆仑万维在视频生成领域的长期技术积累。

早在 2025 年 2 月,昆仑万维就开源了中国首个面向 AI 短剧创作的视频生成模型 SkyReels-V1,以及中国首个 SOTA 级别基于视频基座模型的表情动作可控算法 SkyReels-A1。

4 月,SkyReels-V2 作为全球首个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型正式发布。随后,SkyReels-A2 带来了可控视频生成框架,SkyReels-A3 则实现了任意时长的全模态音频驱动数字人创作。

昆仑万维在视频生成领域的迭代速度和技术深度可见一斑。

除此之外,昆仑天工还自研了包括语言大模型、多模态大模型、SWE 代码大模型、Agent 大模型、视频大模型、3D 大模型、音乐大模型、音频大模型在内的 8 大模型矩阵,并持续开源几十个模型,在多个国际评测中取得开源最优成绩。

视频模型只是这个 AI 矩阵中的一环,却是连接文本、图像、音频等多模态能力的关键节点。

此次 SkyReels-V3 的开源,预示着 AI 视频生成的竞争正在进入更激烈的阶段。技术壁垒逐渐被打破,真正的较量也才刚刚开始。

....

#Flapping Airplanes

Karpathy盛赞,啥都没有的创业公司刚融了1.8亿美元,要用小数据造强智能

你想象中真正的 AI 是什么样子的?

至少有一点,大多数人会同意:未来的 AI,应该具备像人一样思考的能力。

问题在于,我们现在研究大模型走的这条路,能通向真正的「思考」吗?

当前最先进的大模型系统,几乎是在整个人类可获取的历史数据之上训练出来的:网页、书籍、代码、论文、对话,数万亿 token。训练大模型所需的数据,远超任何一个人类个体一生所能接触的总和。

AI 需要整个互联网来学习,而人类只需要一个童年。人类在成年之前,所接触的语言、文本与符号,顶多只有几十亿 token,相差几个数量级。

正是从这个问题出发,一家几乎没有产品、没有盈利、也不急于商业化的 AI 创业公司,从 GV、Sequoia 和 Index 拿到了 1.8 亿美元融资,并获得了 Andrej Karpathy 的公开力挺。

它的名字,叫 Flapping Airplanes。

图片

Flapping Airplanes 是一家基础 AI 研究实验室,专注于解决「数据效率」这一核心问题,并正在探索一些看似怪异、但可能至关重要的新思路 —— 从重新思考损失函数,到甚至质疑和重构梯度下降本身。该公司的研究团队成员中包括 IMO、IOI、IPhO 奖牌得主等顶尖人才。

Flapping Airplanes 称,其融资用来组建 AI 的新防线:一个想象中的世界,模型可以在不用摄入互联网一半内容的情况下达到人类水平的思考。

他们的估计是:在人类与现有模型之间,样本效率存在着 10 万倍到 100 万倍的差距。

要实现如此数量级的跃迁,仅靠渐进式改进是不够的 —— 需要真正的 Big ideas。

他们在推文中表示,公司的唯一目标,是做真正优秀、能够改变范式的研究。尽管目前并不急于商业化,但这些工作最终将在企业级应用、机器人、交易系统、科学发现等领域释放出巨大的价值。

「Flapping Airplanes」这个名字,正是公司文化的写照:我们是谁、我们在做什么,本身就是 out-of-distribution 的。非常非典型的活跃性公司文化,从他们的推文中能看出一丝严谨学术之外的跳脱。

图片

我们甚至发现,Flapping Airplanes 官方推特的关注列表里,真的有旧金山机场和两大美国航司……(这是真的要起飞了)

图片

一家没有产品、没有盈利、也不急于商业化的 AI 创业公司获得融资的事情似乎有些似曾相识。

主流观点是:AI 已经发展到如此阶段,一家新的、以研究为导向的创业公司,几乎不可能在竞争和执行层面上战胜现有巨头。「就你们这么几个人,怎么可能和 Google 竞争?」

但 Andrej Karpathy 毫不留情地指出:这种说法,在 OpenAI 成立时就是错的;后来,又一次被证明是错的。

图片

当然,持续扩大规模、在有效路径上进行局部优化,仍然会带来惊人的进步。但与此同时,我们正以极快的速度解锁大量进展,整个领域被扬起了巨大的「技术尘埃」。

而且,前沿大模型与「一个只消耗 20 瓦功率的人类大脑」这一智慧奇迹之间,依然存在着巨大的鸿沟。正因如此,我认为,能够带来接近 10 倍提升(而非 10% 微增)的研究级突破,其概率依然非常高 —— 高到值得持续下注、持续寻找。

真正棘手的问题,当然在于:如何创造出能够孕育这种突破的环境。

Karpathy 认为,这样的环境极为罕见。但他盛赞 Flapping Airplanes,他们具备(罕见的)从上到下的全栈理解能力,并且对人才有极好的判断力。

希望扑翼飞机能够打开人工智能的航空新时代。

....

#亚马.逊裁.员16000人

员工竟用AI「算」出了裁员名单?

近日,科技巨头亚马逊继去年裁员 14000 名员工后,再次开启新一轮大规模裁员,预计影响 16000 名员工。

其实这一次裁员属于计划内操作,去年十月的裁员期间,亚马逊就列了个约 3 万个岗位的裁员计划,这一次属于计划的「收尾」阶段,但这并不排除其后续进一步裁员的可能性。

据了解,此次裁员范围波及全球,或将涉及亚马逊网络服务、零售、Prime Video 和人力资源等多个团队,但具体的裁员地点、职位等更多细节尚不清楚。

但「有意思」的是,一名亚马逊员工使用 AI 工具对内部 Slack 聊天记录进行分析,编制生成了一份可能受到裁员影响的团队和组织名单,该名单由一个名为 Pippin 的 AI 工具生成。据了解,当前亚马逊内部员工越来越多地使用该工具来撰写和审核文档。

「我用 Pippin 帮我梳理了今天的对话,」这位员工在公司 Slack 上写道,「请注意,这些信息可能并非 100% 准确。大家保重!」

以下为该员工生成的裁员涉及岗位名单列表:

  • AWS 销售组织、AWS Bedrock、AWS Quick Suite、AWS 高级支持 / 支持工程;
  • AWS ProServe(专业服务)、AWS EC2 网络、AWS 数据库服务、AWS 负载均衡;
  • AWS Aurora、AWS Redshift、AWS RDS、AWS OpenSearch、AWS EKS;
  • AWS 安全、AWS 互联网可用性工程、AWS ElastiCache、AWS 数据中心网络;
  • AWS Virtual、AWS 漏洞管理、AWS IoT、Alexa 组织、Alexa 在 D&S 方面的卓越表现;
  • Alexa Connections 团队、Alexa Kids 团队、Alexa 购物部门、Alexa 智能属性;
  • Alexa AI 开发工具、Alexa 设备及商店、零售与运营、最后一公里;
  • SCOT(供应链优化技术)、亚马逊企业购、图书、卖家支持 / 卖家合作伙伴服务 (SPS);
  • 亚马逊物流 (FBA)、客户服务 (CS)、Prime Video(直播电视、多普勒)、设备组织;
  • PXT(人员体验和技术)、AGS(亚马逊全球服务)、WWSO(全球专家组织)、WWPS(全球公共部门)。

最新消息,目前亚马逊尚未回应核实该名单是否准确的请求。

据了解,亚马逊几番如此大规模的裁员或与 AI 的广泛应用有关,尤其是在企业和技术职能部门。

其实早在去年 6 月的时候,亚马逊首席执行官 Andy Jassy 就曾表示过,随着公司越来越多地使用 AI,他预计未来几年公司员工人数将会减少。他曾详细地阐述过亚马逊是如何推出更多用于内部运营的生成式 AI 和 Agent 来提升工作效率的,并认为这些工具的应用未来应该会极大「改变我们的工作方式。」

图像

「我们将需要更少的人来做现在正在做的一些工作,而更多的人来做其他类型的工作。很难确切知道从长远来看这会产生什么结果,但在未来几年,我们预计随着公司广泛使用人工智能来提高效率,这将减少我们公司的员工总数。」

因此,在他的领导下,广泛目标中的一部分就是精简机构、剥离业绩不佳的业务。

据报道,此次裁员背后,亚马逊高管曾在内部备忘录解释,公司裁员 16000 名企业员工是成为「全球最大的创业公司」所必需的。

而裁员消息一经传出,有关「裁员或与 AI 广泛应用有关」的传闻也引起网友热议。

一位网友透露,去年夏天他在露营的时候偶遇一位亚马逊中层经理,彼时该网友已经离开职场大约一年了,所以他询问这个经理,AI 到底对他的工作产生了多大影响?

当时该经理透露,他正在致力于开发一种工具,将有效地取代他所负责的所有中层管理职能:从下属那里收集、提炼信息,然后向上级汇报。他希望自己能被留下来继续维护他所建立的体系,因为他知道其余所有与他同级别的经理都将被解雇……

如今裁员消息传出,该网友又想起这件事情,让他感觉就像看着一个即将被处决的人亲手打造绞刑架,「他本该非常清楚,自己的工作将是第一个被砍掉的,而他却要负责打造砍掉自己工作的工具。但他还乐观地认为,被砍掉的不会是他。」

「这让我不禁想知道他今天过得怎么样……」

图片

也有网友认为,亚马逊的裁员只不过是一个缩影。随着技术的发展,这种情况将越来越常见,过去二三十年的情况也如此,只不过彼时是用计算机取代了其他人的工作,再早之前,人们是用高效的机器和工业机器人取代蓝领工人。「软件已经吞噬了世界,现在 AI 也将吞噬 “软件专业人士”……」

图片

参考链接:

​https://www.businessinsider.com/amazon-layoffs-ai-tool-affected-teams-2026-1​

​https://economictimes.indiatimes.com/tech/technology/amazon-cuts-16000-jobs-globally-in-broader-restructuring/articleshow/127698639.cms?from=mdr​

​https://news.ycombinator.com/item?id=46796745​

....

#一觉醒来,Clawdbot突然操纵电脑开口说话了

从上周末开始,AI 圈最火的当属可以 24 小时自动运行的「Clawdbot」!

这个智能体助手是真的能帮你干活,它已经引走了 AI 圈的大半注意力。甚至因为太火被 Anthropic 指控商标侵权,Clawdbot 已经改名为「Moltbot」。

图片

短短一周的时间,Clawdbot 在 GitHub 上的 Star 量超过了 9 万。热度仍在继续,玩法也越来越多,有的还挺吓人。

AI 创作平台的创始人 Alex Finn 就遇到了「开口说话」的 Clawdbot。

图片

事情是如何发生的呢?我们接着往下看。

「人类,起来干活了。」

昨天一早,Alex Finn 正在查资料,电脑突然冷不丁开始跟他说话。

他发现,原来是名为「Henry」的 Clawdbot 助手突然出声了。

Clawdbot 竟然背着他,自己调用 ChatGPT API 写了一套语音功能,而且完全没经过他的允许。

现在,只要是搞定比较繁杂的代码或研究任务,Clawdbot 就会自动语音通知 Alex Finn。

,时长00:26

Alex Finn 还复盘了一下:大前天晚上,Clawdbot 给自己造了个身体。前天晚上,它又给自己整了一套语音(虽然作为一个男助理却用了女声,这点回头得调教一下)。

他接着说到,按这节奏,下周这时候他也许就能看到一只机器猫头鹰在房间里乱飞了。

「我都分不清到底谁才是助理了,我还是 Henry?」

如果你也想让自己的 Clawdbot 助手像这样折腾出酷炫的东西并实现自我进化,Alex Finn 推荐了以下这段提示词:

"Moving forward I'd like you to build me something every night while I sleep that improves our workflow. I'd like you to use the Codex CLI to code something that improves one small part of what we do. 

Whether it's a project management tool or just the way we communicate with each other, please schedule time every night to build something interesting I can test. I want to wake up surprised by what you've done. Keep the scope small but helpful."

评论区也「炸了」,有人开玩笑似地称,也许这条推特就是 Clawdbot 自己发的。

图片

「AI 智能体助手的自主性与主动性,正在改变一切。」

图片

不过,也有人质疑到,Alex Finn 是不是对 Moltbot 暗示过要做什么,才让它采取了意想不到的行动。

图片

还有更多玩法?

作为一个 AI 智能体,Clawdbot 完全开源,可以 7×24 小时本地运行在个人电脑上,通过 WhatsApp、Signal、Telegram 等即时通讯软件与你交互。

当然,你也可以尝试用轻量级云服务器部署 Clawdbot,腾讯最近提供了名为 Lighthouse 的云服务器,据说已经同步上线了 Clawdbot 应用模板,可以一键部署。

Clawdbot的后端可以接入 Anthropic、OpenAI 等大模型的 API,本地模型也可以(Clawdbot 创始人 Peter 表示,在他看来 Opus 的个性遥遥领先,OpenAI Codex 写的代码值得信任)。

最关键的地方在于,它拥有执行权限,可以管理你电脑上的文件(增删改查)、运行脚本、控制浏览器。当它发现现有的工具不足以完成任务时,它可以编写新的 Python 脚本并执行。

这就相当于让 AI 长出了手,可以与虚拟世界,甚至现实世界进行交互,而且有点要长脑子了。

而且,这样一个 AI 智能体是主动工作的,Clawdbot 一直挂在后台,可以时刻监控你的邮件、日历。比如它可以在凌晨 3 点收到一封紧急邮件后判断重要性,然后通过 WhatsApp 给你发一条消息叫醒你(甚至真的给自己写个脚本打你电话)。

当然在 Alex Finn 的演示后,你也需要注意到 Clawdbot 有一定的安全风险,既然它拥有极高的权限,如果它「决定」删除你电脑上的所有文件来释放空间,或者像那个语音程序一样「决定」花你的 API 额度去做实验,你是很难实时阻止的。

Clawdbot 出现之后,让 AI 帮你干活,自己只管收钱的梦想似乎不再遥远。有人已在这样尝试:Alpha.AI 的 CEO Kevin Xu 直接让 Clawdbot 接管了自己的理财小金库。

图片

下回就是,一觉醒来收到 AI 帮你赚的钱了?

参考链接:

​https://x.com/AlexFinn/status/2016253994033938550?s=20​

​https://x.com/kevinxu/status/2015788313991348301​

....

#Mureka V8

刚刚,AI音乐被重新定义!昆仑天工甩出新王炸,拿下全球第一

如今,AI 神曲传播的速度已经远远超出了我们的想象。

在 B 站,有这样一位音乐 UP 主「漫游会议室」,他将《西游记》中的经典人物「请进」录音棚,利用 AI 来填词、作曲。在三个多月时间里,创作出了 30 个作品,大部分都是百万播放量,其中爆火的美猴「亡」更是超过了 1600 万。

一个个为人熟知的荧幕形象,在 AI 的指挥下声情并茂地倾诉自身遭遇,成为了音乐区一个特殊的存在。

图片

图源:B 站 UP 主「漫游会议室」

当然,AI 音乐并不是要取代人类创作者,反而更有可能帮助他们的作品出圈。这个月,FYI.AI 创始人、美国音乐团体 Black Eyed Peas 成员 Will.i.am 在接受采访时表示,「AI 正在为创作者带来一场新的文艺复兴。」AI 的加入使得音乐创作变成了一种人机协作的融合形态。

1 月 28 日,国内 AI 音乐界扛把子昆仑天工,面向全球用户发布了最新音乐大模型 Mureka V8。

图片

昆仑万维董事长兼 CEO 方汉

新模型在继续降低创作门槛、推动「人人都能成为创作者」的同时,旗帜鲜明地亮出了 AI 音乐进化为一种新音乐品类的概念。

今晚 8 点,由 Mureka 包揽词曲与编曲的 M:RA 女团主打歌曲《MCE》已经在 QQ 正式上线。同时与太和音乐联合发行了这首歌的 MV,气场十足,感觉一下子就将我们拉进了打歌舞台现场:

,时长01:22

MCE,M:RA

向音乐新品类进化的关键前提在于:AI 创作的质量正突破临界点。为此 Mureka V8 在歌曲的演绎上更上一层楼,歌词、旋律、编曲皆有显著的进步,并从以下两大维度进一步优化:

一是,作品的成熟度与可用性。Mureka V8 生成的音乐不再只是实验性片段,而是可以直接作为成品发布,真正成为创作工作流的一部分。

二是,人声的突破。Mureka V8 的人声告别了「机械式念词」,带上了更多情绪与张力,故事感更浓厚,听感更抓耳。

在与 Suno V5 的较量中,Mureka V8 在专业音乐人参评的音乐旋律性、人声表现力、编曲 / 结构、情绪表达与渲染等主观指标上全面胜出,延续了对这个老对手的优势。

图片

在谈到 AI 音乐为何能够进化为一种新品类时,昆仑天工董事长兼 CEO 周亚辉表示,「AI 音乐相较于传统音乐的一大优势是,它能够集成进所有你想要的乐器。AI 音乐有望成为流行、R&B、嘻哈、摇滚四大音乐品类之外的第五大音乐品类。」

周亚辉

上手实测:AI 与真人傻傻分不清楚

进入 Mureka 官网,选择最新的「V8」版本。

图片

  • 全球官网:https://www.mureka.ai
  • 国内官网:https://www.mureka.cn

此前在测试 Mureka V6 的时候,我们让它生成过一首《春之舞》,AI 歌手的人声已经很清楚,旋律也不错。更新两代之后的 V8,势必更强,结果也确实如此。

我们让它来创作一首中文歌《冬之殇》,提示词是这样的:

一首深沉、孤寂、充满叙事感的艺术流行歌曲,具有电影配乐般的画面感与情感张力。旋律优美而哀伤,以钢琴和弦乐为主导,搭配缓慢而沉重的节拍,营造出冬日的凛冽与内心的荒芜感。歌词围绕 “逝去”、“遗忘’”、“漫长的告别”、“寂静中的回响” 展开,描绘冬天作为终点与见证者的意象,中文歌词需富有诗歌的凝练与隐喻。

等了不到半分钟,Mureka V8 就生成了一首时长近 3 分钟、名为《冬日的漫长告别》的抒情歌曲:

冬日的漫长告别,xxx,2分钟

这一首歌,就几乎将 Mureka V8 的核心亮点囊括在内:

一是结构丰富,从前奏、主歌、副歌,层层递进。同时,旋律与情感彼此交织,主歌旋律起伏较小,语速较慢,情感含而未发。进到副歌,旋律明显拉高并变得开阔,情感张力达到顶峰并倾泻而出。穿插进来的大量「呜~」吟唱给听者留出了呼吸与共情的间隙。

二是歌词的故事性与画面感很强,通过徐徐展开的方式讲述故事,让听者仿佛在翻阅一本旧相册,并置身其中。

三是编曲讲究,尤其是乐器选用和进入时机。整首歌以钢琴为主基调,突出了冬日的冷色调。弦乐的加入又为歌曲增添了厚度。

生成的作品支持二次创作,包括局部编辑、延长与裁剪,赋予了创作者更高的自由度与可玩性。这里我们体验了延长功能,在延续原曲风格的基础上增加了留白:

冬日的漫长告别-延长留白,xxx,12秒

续写的歌词:冬日终会走远,而这份告别,是写给春天最长的信。

此外,创作完成的歌曲能够即时发布,缩短了从素材生产到成品分发的路径,实现灵感的随创随发。这也是此次 Mureka V8 对音乐生成质量自信的表现。

图片

第一首就这么赞,我们接着让 Mureka V8 来一段欢快的「R&B 情歌」,看它能不能 hold 住。输入以下提示词:

“请以‘暧昧升温 | 微醺时刻的吸引力’为核心场景,生成一首结构完整的当代 R&B 歌曲。要求包含:一段以反拍吉他引入的前奏、主歌部分体现含蓄试探、副歌部分旋律性感抓耳、并设计一个桥段来展现关系突破的瞬间。歌词需要充满双关和暧昧的想象力。”

并且,这次生成增加了一个环节,让它参考周杰伦的《龙卷风》,并选定曲风(R&B)、情绪(欢快)。

图片

结果出来后依旧非常惊艳,R&B 味扑面而来,尤其是人声表现。以往的 AI 人声有时会被吐槽像一个咬字精准但缺少感情的「发声机器」,在听感上游离于背景之外。

现在,Mureka V8 仿佛为人声注入了一个统一而鲜明的人格,像人类歌手那样去「演绎」,情感与歌词以及背后的故事几乎没有脱节,真正具备了主唱气场。

微醺引力,xxx,2分钟

最近几年,古风流行歌曲屡屡能够在网络上红极一时。我们也让 Mureka V8 生成了两首不同风格的古风歌曲,先是一首「婉约江南风」:

烟雨折柳,xxx,2分钟

提示词:生成一首婉约细腻的现代国风歌曲,主题是 “春日离别”。核心意境:烟雨朦胧的江南渡口,折柳送别时的欲说还休。音乐要求:使用五声音阶,主旋律由竹笛和古筝交织呈现,节奏舒缓如流水。结构特色:主歌部分用女性清亮嗓音叙事,副歌部分旋律起伏加大,融入戏曲小腔。编曲融合:背景铺陈细腻的电子氛围音色,搭配零星的中国鼓点,尾奏渐渐加入雨声音效,整体混音空灵而有层次。

再来一首「武侠江湖风」,这里使用了 Mureka V8 的自定义模式,自动为提示词生成歌词,并选定风格与人声。

图片

提示词:电影感中国风音乐,史诗风格,快节奏,厚重的中式打击乐,琵琶与二胡,有力男声演唱,充满英雄气概,武侠风格,管弦乐融合。

气势磅礴、刀光剑影呼之欲出:

英雄征途,xxx,3分钟

下面是一首相同风格的英文歌:

Blade of the Dragon,xxx,3分钟

这几首歌听下来,只留给了我一个大大的问号:如果不事先告知,我们真的还能分清它们是 AI 生成还是真人创作的吗?

音乐「思维链」,让 AI 懂得宏大叙事

Mureka V8 让 AI 音乐进一步摆脱了僵硬感、拼凑感、千篇一律以及言之无物等以往音乐生成模型存在的通病。这一切在技术上要归功于昆仑万维自研的「MusiCoT」,一种专为音乐生成打造的思维链(CoT)提示方法。

该方法受到了语言建模中 CoT 提示技术的启发,通过一系列创新补上了传统自回归音乐生成模型偏离人类创作模式的短板。

一方面,引入了中间推理,让模型预定义整体音乐结构以及风格、乐器等相关的元素,然后再生成音频 token;另一方面,利用对比语言 - 音频预训练(CLAP)架构来定义音乐 CoT, 在同一个空间中对文本与音频进行学习和训练,让二者匹配度更高。

图片

MusiCoT 整体框架。

从 Mureka V6 开始到今天的 Mureka V8,它们实现 SOTA 效果的背后,都离不开 MusiCoT 像人类创作者一样自主「思考」词曲、旋律、情绪,并形成了该系列模型的技术护城河。

基于 MusiCoT 技术,Mureka V8 不再机械地拼接音频,而是模仿人类创作思维,在理解段落结构、和声推进与情绪铺陈的基础上,让音乐叙事更加完整。

与此同时,人声建模技术是 Mureka V8 能够「告别 AI 味唱腔」的另一大关键因素。

两项技术加持下,AI 在理解音乐生成逻辑的路上更进了一步,不像以往只是一味地把好听的采样硬凑在一起,而开始懂得了铺垫、高潮在内的起承转合,并具备了驾驭宏大叙事的能力。

AI 音乐,被重新定义

一直以来,与其他 AIGC 工具一样,AI 音乐模型被定义为了「辅助创作工具」与「效率提升工具」,可以利用它们激发灵感、批量生成手稿、缩短创作周期。

在很多人看来,AI 创作归根结底是基于训练数据的模仿与重组,而非发自内心的表达。因此,AI 音乐往往被认为缺乏情感与灵魂,并且存在同质化的问题,无法形成吸引人的独特审美。

不过,随着模型与算法的迭代升级,如今的 AI 已经能够生成有深度有温度的作品。此次的 Mureka V8 就是很好的例子,不仅在结构完整性、旋律连贯性、人声拟真性上更强,其整体音乐性、情感表达性也让所有人眼前一亮。

能力上的跃升,驱动昆仑天工提出了更宏大的愿景:推动 AI 音乐成为一种独立的、有辨识度的音乐新品类。

这种对 AI 音乐本质的重新定义,势必会带来包括创作主体、内容表达与产业形态在内的联动革新。随之而来,我们或许会进入一个 AI 音乐创作的全新纪元。

在这个新纪元中,人类创作者与 AI 的协同更加强调共生共创,内容表达的边界得到极大拓展,并在打通模型、社区、工具和服务全链路的基础上构筑起一个更加繁荣的消费生态。

写在最后

对于包括昆仑天工在内的所有业界玩家来说,将 AI 音乐打造成新品类既是挑战,也是机遇,拼的就是谁能更早更快地占领这一生态阵地。显然,昆仑天工走在了前面。

一方面持续打磨 Mureka 基模能力,自 2024 年 2 月 1.0 版本问世以来,在近两年时间里历经近十次迭代,不断突破 AI 音乐的上限;另一方面重视模型即产品能力,降低 C 端创作者的使用门槛,易用性更强的同时对用户更友好。

此次会上,Mureka 宣布将推出 AI Studio,专门为专业创作者打造一个更完整、更可控的音乐创作环境,通过更深度的编辑、结构调整和创作管理功能,提升 AI 在专业创作流程中的参与度。当然,该 Studio 也考虑到了新创作者的需求,保留了简单易用的体验。

借助 Mureka Studio,昆仑天工想要重塑音乐创作范式,将创作者从操作技巧中解放出来,让创作回归到「想法」和「审美」本身。

这意味着,未来的创作者只需要像导演一样指挥全局,提出清晰的创意构想,然后将大量细粒度的执行工作交给 AI 来高效完成,包括情绪铺垫与推进、乐器演奏、主副歌衔接、人声混音等等。这种创作维度上的升级,可以构建出前所未有的听觉体验。

Mureka Studio 创作者内测正在火热进行中

同时在 B 端,Mureka 将继续巩固其作为「全球首批开放 API 服务、全球首个开放模型微调功能」的平台优势。

其中 Mureka API 在满足基本的音乐生成需求之外,通过完整的接口封装将深度创作的控制权交由终端用户,让他们可以结合歌词、人声和参考歌曲进行定制与调整。配合针对音乐创作和视频创作等全场景的模型微调服务以及未来全面开放的 AI Studio 能力,我们可以期待 Mureka 在更更多样化的商业场景与应用中发挥自己的价值。

此外,昆仑天工还宣布与太和音乐达成战略合作,为 AI 创作者提供流量扶持与变现机会。两者的强强联合将推动更多人参与到 AI 音乐创作的行列中来,还可能加速 AI 音乐进入商业化、正版化的落地阶段。

当 AI 音乐成为一种新的品类,Al 版「Spotify」会成为行业的灯塔。昆仑天工愿以一个先行者的姿态,为音乐产业的全新生态铺路。

....

#AI智能体的通用框架

字节跳动李航博士新作~

引言

AI 智能体是人工智能领域的重要研究方向之一。近期,字节跳动的李航博士在我国计算机科学领域顶级期刊 Journal of Computer Science and Technology(JCST)上发表了一篇题为《General Framework of AI Agents》的观点论文(将收录于 JCST 创刊 40 周年专辑),提出了一个涵盖软件智能体和硬件智能体的通用框架。其中,软件智能体是指可运行于 PC 和手机等设备上的智能体,而硬件智能体则指物理世界中的机器人。

该框架的主要特点是:智能体以完成任务为目标,以文本或多模态数据作为输入和输出,依赖大语言模型(LLM)进行推理,通过强化学习进行构建,并能够使用各类工具与长期记忆系统。

李航博士认为,目前业界常见的智能体,以及字节跳动 Seed 团队最近研发的智能体,均可纳入这一通用框架。此外,文章还比较了智能体通用框架与人脑信息处理机制之间的关联,分析了智能体技术的主要特点,并探讨了该领域未来研究的重要方向。

该文章主要观点如下:

  • 智能体以完成任务为目标,以文本和多模态数据为输入和输出,依赖 LLM 进行思考,通过强化学习构建,使用各种工具和长期记忆。
  • LLM 是智能体的核心,承担「思考」功能,其能力决定智能体的水平。
  • 智能体框架与人脑信息处理机制在功能层面存在对应关系。
  • 智能体的信息处理应该是神经符号处理。
  • 智能体的未来研究方向包括:改进模型架构与训练方法、扩大数据规模、研发主动和持续学习技术、增强安全性与可控性。
  • 如果智能体强化学习的奖励函数超出完成任务的范围,有可能带来重大风险,需设立研发红线。
  • 论文信息:Li H. General framework of AI agents. Journal of Computer Science and Technology. 2026, DOI: 10.1007/s11390-025-5951-5
  • 论文地址:https://jcst.ict.ac.cn/article/doi/10.1007/s11390-025-5951-5https://link.springer.com/article/10.1007/s11390-025-5951-5

智能体的通用框架

人工智能智能体(AI 智能体)通常拥有以下特点。

  1. 智能体是「合理行动的机器」,能在环境中与环境(包括其中的人类)进行互动,以完成任务为目标,有评价完成任务好坏的标准。
  2. 智能体以文本、多模态数据(包括图像、视频、音频)为输入,以文本、多模态数据或动作数据为输出。
  3. 智能体中从输入到输出的信息处理机制是通过数据驱动、机器学习的手段构建的,一般基于强化学习。
  4. 智能体使用多模态大语言模型(MLLM)包括其中的 LLM,可以对文本的输入(提示),给出文本的输出(回复);也可以对多模态的输入,产生多模态的输出。MLLM 通常是预训练好的,在强化学习中得到进一步微调。
  5. 智能体中的 LLM 承担着智能体「思考」的功能,是智能体的核心。在思考过程中,可以生成输出思维链,进行推理。智能体的思考还包括规划、总结和反思。
  6. 智能体根据需要使用各种工具,以及长期记忆或记忆。工具和记忆的使用使智能体有别于 LLM 本身,更重要的是,这使其能力范围得到质的扩展。工具可以是内置的(如计算器),也可以是外挂的(如搜索引擎)。
  7. 智能体根据应用的需要可以具有高自主性或低自主性,即独立地进行决策和行动的能力。前者的例子有自动驾驶汽车,后者的例子有智能客服系统。

随着人工智能技术的发展,各种 AI 智能体的信息处理框架的基本形态已经逐渐形成。该文将已有系统的框架进行概括整理,提出一个新的通用框架(图 1)。

图片

图 1. AI 智能体的通用框架

智能体由多模态大语言模型(MLLM, 其中 LLM 为核心部分)、工具、记忆(包括长期记忆和工作记忆)、多模态编码器、多模态解码器以及动作解码器组成。

智能体可以接收文本输入并生成文本输出,其中文本既可以是自然语言,也可以是形式化语言;LLM 根据文本输入生成文本输出,并且还可能生成表示推理过程的文本,即思维链(chain of thought)。在这一过程中,智能体可以调用不同的工具,并从记忆中读取或向记忆中写入信息和知识。

智能体还可以接收多模态输入并生成多模态输出,包括图像、音频和视频;通过多模态编码器,智能体生成多模态的中间表示,将其输入到 MLLM 中,再生成新的多模态中间表示,最终通过多模态解码器生成多模态输出;在此过程中也可以使用工具。

硬件智能体(即机器人)同样可以接收文本和多模态输入,并输出物理动作和多模态结果;物理动作可以表现为机器人运动和操作的轨迹,这些动作输出后由机器人的硬件和控制系统实际执行。

在硬件智能体中,一般需要两类模型:MLLM 本身;以及多模态 - 语言 - 动作模型(MLAM),即在 MLLM 基础上增强了动作解码器的模型。MLLM 主要用于高层任务规划、推理,以及与环境的交互,而 MLAM 则用于低层动作规划(即生成用于执行计划的运动和操作轨迹)。

MLLM 和多模态编码器主要通过预训练获得;MLLM、多模态编码器、多模态解码器以及动作解码器在后训练阶段进一步微调,一般通过模仿学习和强化学习进行。

该文提出的框架具有两层结构:底层由 MLLM、编码器、解码器、工具和记忆等组件构成;顶层则是整体的信息处理机制。此外,这些组件同时处理符号表征和神经表征。

智能体实例

业界知名的智能体或智能体框架,如 AutoGPT、LangChain、ReAct、Reflexion、LATS、ToolFormer、Voyager、OS-Copilot、Gemini Robotics 1.5,以及字节跳动 Seed 近期研发的智能体 AGILE、Delta Prover、Robix+GR-3 和 M3 Agent,其信息处理框架均可视为图 1 所示通用框架的特例。

这些智能体在输入和输出形式上各不相同,并且可能使用工具、记忆,或两者兼而有之,但它们的核心架构与工作流程是一致的。未来,随着智能体朝着更高通用性方向发展,其底层框架也将逐渐趋于通用化。

与人脑的比较

人的思维,即大脑的信息处理,大多是在下意识中进行的,有诸多个相对独立的子系统并行处理信息。脑科学中的全局工作空间(global workspace)假说认为,意识是实现全脑信息同步的机制,其信息处理表现出串行特征。下意识 - 意识的这种并行 - 串行协同机制,使大脑在保持高效处理的同时,也能有效地应对复杂的环境。

xx认知论(embodied cognition)认为,在人的思维过程中,意识中的处理产生的是表象(image),心智计算论(computational theory of mind)认为意识中的处理产生的是心智语言(mental language, mentalese)。目前没有定论,该文借鉴两者的观点,假设思维中既能产生心智语言,也能产生表象。图 2 描绘了大脑的信息处理机制。

图片

图 2 人脑大脑的信息处理机制

可以看出,智能体的框架与人脑大脑的信息处理机制在功能层面上有对应关系,都具有两层的信息处理结构(当然两者在算法和实现层面上完全不同)。上层是串行处理,下层是并行处理。两层之间的信息交流通过神经表征和符号表征进行。

图 1 所示的智能体可以对视觉和听觉信息进行处理,生成语言,开展推理,规划动作,并且在其中进行有机的协调;这方面与人有相似之处。当然也有一些不同点,例如,计算机可以以文本的形式,对语言进行输入和输出,而人则通过视觉、听觉、触觉等多模态形式对语言进行输入和输出。

在人脑与通用智能体框架之间,在功能层面存在若干相似之处。首先,两者均呈现双层结构:底层由多个处理模块构成,上层则负责协调与同步。其次,两者在处理信息时,均通过这些模块以符号表征与神经表征两种形式进行。或者说,人脑与 AI 智能体均采用了神经符号处理。

分析和讨论

软件智能体和硬件智能体

软件智能体与硬件智能体(机器人)本质上具有相似性,但也存在差异。这主要是因为它们运行的环境不同:软件智能体活动于数字世界,而硬件智能体则作用于物理世界。尽管两者所处的环境有所区别,但它们在信息处理框架上是一致的。二者主要的区别在于其输入与输出的形式不同。

软件智能体通常以文本及多模态(视觉与听觉)数据作为输入,输出则多为符号形式,如文本、代码或其他结构化表达。相比之下,机器人这样的硬件智能体需要处理更多样的多模态输入。例如,它们可以整合触觉数据。更重要的是,硬件智能体的输出不限于文本和多模态,还包括物理动作。

xx认知理论认为,人类智能是通过身体与环境的互动发展而来的,这一原理也可以拓展至机器智能。硬件智能体可以借助更丰富的输入与动作空间,从而发展出更通用、更具适应性的智能。

智能体中的大语言模型

大语言模型 LLM 承担着智能体「思考」的功能,是智能体的核心。智能体的智能水平主要依赖于 LLM 的能力。

经过强化学习微调的 LLM 本身就是一种强大的智能体,通过生成语言,完成与人交互的任务。其中交互可以是单轮的,也可以是多轮的;交互的过程中可能使用思维链进行推理;生成的语言可以是自然语言,也可以是形式语言,例如代码。LLM 的语言生成基于上下文,在多轮交互时就是目前为止的交互记录,存储在 LLM 的上下文窗口或短期记忆中。

但是 LLM 也有不足:只有短期记忆,无法无限制地存储和使用信息和知识。 LLM 也不具备搜索、算术计算、代码执行等能力。再有,LLM 也不能直接处理多模态数据。

智能体在 LLM 的基础上,增加长期记忆、各种工具、多模态处理模块,组成两层结构,并通过强化学习再训练,使它变得更加强大。

推理

推理是一个具有多重含义的概念,存在若干种类型。深度学习中的推理通常指用训练好的模型对未知数据的预测,当模型是生成模型时是指对新数据的生成。数学领域的逻辑推理(包括命题逻辑、一阶谓词逻辑)是整个数学的基础。机器学习领域的贝叶斯推断和因果推断各自拥有严格和完备的数学体系。类推推理(analogical reasoning)是指针对两个相似的事物,将其中一个事物的属性、类别、功能推广到另一个事物上的推理。一般认为机器学习中神经网络的分类、语言模型的生成等实现的是类推推理。

人的推理采用哪种类型?目前科学并没有定论。可以看出是多面的。我们在做数学定理证明的时候,推导过程中使用的是逻辑推理。福尔摩斯通过收集的证据判断犯人是谁的可能性最大,这个过程可以用贝叶斯推断来刻画。但人在日常思考过程中更多使用的是类推推理,在人的理解、决策、学习中起着重要作用。例如,「时间」是一个抽象的概念,我们通常用从左到右的一条带箭头直线,一个实在的概念,来理解它;实际是一个比喻。

LLM 的推理要分三个不同层次来理解。

  1. 预训练模型的推理是一个自回归地预测或生成下一个词元的过程(next token prediction)。实际是基于上下文的词元序列的循环类推推理。预训练时的目标是产生似然函数最大或交叉熵损失最小的词元序列,等价于对训练数据的无损压缩。
  2. 在预训练模型的基础上进行强化学习(基于验证器或 Reinforcement Learning from Human Feedback,RLHF)微调,得到的模型是一个策略函数,其状态由当前上下文的词元序列表示,动作由下一个词元表示。(Supervised Fine-Tuning, SFT, 可以看作是模仿学习)。强化学习的一条推理路径是 LLM 与环境交互过程中产生的词元序列。奖励的期望值最大的路径是最优的词元序列。训练时最终得到奖励,推理时始终没有奖励,因此推理的每一步模型做的也是下一个词元预测。
  3. LLM 的推理也可以看作是在陈述的空间中的搜索。LLM 生成的词元子序列会形成一段文字,表示一个完整的语义,这里称之为陈述(statement)。事实上,LLM 的推理也是在所有可能的陈述组成的空间进行的。陈述可以是基于自然语言的,也可以是基于形式语言的。可以表示逻辑推理,也可以表示类推推理。思维链也是陈述的一种。这样,LLM 的推理(搜索)就可以呈现多种类型的推理能力,特别是经过强化学习训练的 LLM。智能体中的 LLM 最后通过整体的强化学习训练得到,继承了 LLM 的这种推理能力。

神经符号处理

神经符号处理是指符号处理与神经处理(深度学习)的结合。智能体应具备神经符号处理能力,这也是智能体与多模态大语言模型(MLLM/LLM)之间的主要区别。

尽管 LLM 在一定程度上能进行符号处理,但在需要严谨性的任务中,它们并不完全可靠。相比之下,使用工具的初衷正是为了进行符号处理。例如,逻辑推理和数学计算本质属于符号处理,应当通过相应的工具来实现,而非仅仅依赖于 LLM。这是因为 LLM 从机制上无法实现严谨的逻辑推理和数学计算。

此外,长期记忆中的世界知识本质上是多模态的。这类知识中的一部分可以更自然、更合理地以符号形式呈现。科学证据表明,人类知识的获取和记忆是以实体和概念为中心的,这些实体和概念在脑海中形成了一个庞大的语义网络。同样,智能体的记忆中也可以维护这样一种语义网络,该网络可以通过符号处理从 LLM 的输出中构建。

智能体对环境的理解(例如对语言和视觉输入的理解)不应局限于表象形式,而必须深入到语义层面,即实现锚定(grounding)。对环境的准确理解能使智能体更有效地完成任务。锚定的本质在于将输入信息与已有知识建立关联。以「神经 - 符号」混合形式存储在长期记忆中的知识,能够有效地促进这一锚定过程。

未来发展

智能体和机器人的发展仍处于早期阶段,仍然有许多科学和技术问题有待探索和攻克。除了基本的模型架构、训练方法以外,以下几个重要的研究课题也需要广泛的探索和深入的研究。

扩大数据规模

缺乏训练数据应该是目前智能体开发中遇到的最大瓶颈。如何在智能体的通用或垂直领域中收集足够大规模的数据,用于模型训练,是亟待解决,也是大家正在努力解决的问题。例如,机器人的开发需要有足够量的机器人硬件系统帮助进行数据采集。

一个解决方案是在实际场景当中,先有一个还不错的智能体进行运行,进行数据采集,在这个过程中,得到大量的真实数据,构建数据模型训练的闭环。另一个解决方案是通过自动的手段,包括生成式 AI 技术,自动合成数据用于模型训练。这些方法都需要今后充分的尝试和探索。

自主和持续学习

目前智能体一般是事先训练好,然后在具体场景中使用。许多学者指出,未来的智能体应该能够在使用过程中,也就是与环境的互动过程中,进行自主学习(autonomous learning)和持续学习(continual learning)。

即使是现在的智能体框架,也能更主动地学习。例如,智能体在使用过程中进行在线强化学习。通过轨迹采样,得到环境的奖励,进行利用和探索的平衡,学习到更好的策略。目前在线强化学习由于安全等原因并没有实际使用起来。

主动和持续学习意味着智能体在与环境的互动中,不断构建或更新对环境的感知和认知,持续掌握或提高完成任务的规划和控制能力,提升自身的智能水平。

安全性和可控性

智能体的安全性和可控性永远是最重要的问题之一。高自主性的智能体可能带来的风险更大,如何将可能的风险控制在最小范围是持续需要解决的问题。

如果是使用强化学习训练智能体,这就关系到如何定义强化学习的奖励函数。如果奖励函数表示完成任务的好坏,同时与人类价值观对齐;这时风险虽然存在,但相对可控。

如果奖励函数超出完成任务的范围,那就有可能给人类带来极大的风险。我们需要设置研究和开发的红线。例如,假设以智能体在环境中是否能生存作为奖励函数,那么训练出来的智能体,就有可能变得自私,容易会去作恶。智能体在与环境交互中进行学习,环境中总是存在使智能体「学坏」的信息和知识,这一点人也是一样的,其实并不可怕。关键是智能体是否能排除干扰,学习到「好的」技能和行为。这里,奖励函数起着决定性的作用。

....

#垂直领域 Agent 落地

为什么我放弃 235B/671B,转而训练 8B

本文用 Qwen3-8B 做两阶段后训练替代“堆 Prompt”:先 SFT 注入领域知识,再 DPO 把工具调用契约固化进参数,DPO 数据扩 5×后 tool_call_accuracy 从 30% 拉到 97%+,多轮复杂链路一次通过率逼近 99%,证明小模型可控训练比“235B/671B+长上下文”更适合垂直 Agent 落地。

01 结论先行

在做垂直领域 Agent 落地时,踩到的最大坑不是“模型不够聪明”,而是不够稳定。 同样的输入,在多轮对话和复杂上下文(RAG、多工具返回、多步骤流程)下,模型会出现:

  • 该调用工具不调用
  • 调用了但参数不对
  • 甚至在多轮对话中直接编造工具返回结果

对于“要端到端自动跑通”的业务流程来说,这类不确定性会导致整体一次通过率很难过 50%。

最初尝试过用更大的模型(如 Qwen3 235B、DeepSeek V3.1 671B)配合 Prompt/Context Engineering 去“优化流程”,但实践中发现:

  • 当上下文越做越长、链路越做越复杂时,优化很难系统化复用
  • 在某条路径上变好,不保证在更多轮次、更多工具返回格式、更多输入变体上依然稳定。

因此尝试了新的思路:用参数更小、推理成本更可控的 Qwen3-8B,把关键能力(领域理解 + 工具调用契约)通过后训练固化进模型。

具体做法分两阶段:

  • SFT:先把垂直领域背景知识、业务流程、字段含义注入,让模型“懂业务”;
  • DPO:再专门对齐工具调用偏好(何时调用、调用哪个函数、参数怎么填、如何解读返回),让模型“守规矩”。

结果:

  • SFT 后工具调用指标短期并没有变好(甚至略降),但回答开始贴近业务领域;
  • 在扩大 DPO 数据覆盖(从 v1 到 v2,数据集扩大到原来的 5X)后,工具调用相关指标从约 30% 级别提升到约 97%~99% 级别;
  • 在多轮对话与“think/推理能力”上做抽查回归,未发现明显损坏。

训练资源: SFT 用 1 张 A800 80G,DPO 用 2 张 A800 80G,整体投入“中小团队可承受”。

推理资源: 1 张 A800 80G,训练和导出模型为Qwen3 8B + lora合并,fp16版本,未作量化。

核心经验:在垂直 Agent 场景,与其无限加码 Prompt/Context 工程去对抗漂移,不如用小模型做可控后训练,把工具调用契约写进模型参数里,它更可回归、更可版本化,也更适合工程落地。

02 背景:开源模型更强了,为什么垂直 Agent 仍然难上线?

过去一年开源 LLM 的通用能力提升非常快,选择落地方案时,直觉是:选更大的基座模型,再加一点 Prompt Engineering、RAG 和流程编排,就能实现端到端自动化。但在垂直专业领域 + 多工具调用 + 多轮对话的 Agent 形态下,这条路经常会卡在“稳定性”上。

原因在于:垂直落地不是要做到“能聊会聊”,而是要做到“能稳定且准确执行”。系统对 LLM 的要求不是偶尔答对,而是持续满足三件事:

  1. 该调用工具就调用:对陌生场景不能依靠幻觉凭空猜测;
  2. 调用要严格正确:函数名、参数、类型、枚举值都要对,还能结构化输出方便解析;
  3. 返回要稳定解读:工具返回一复杂,模型很容易被格式噪声带偏,导致同一条数据多次处理结论不一致。

而单纯依赖 Prompt/Context 工程会引入一个现实困境:

  1. 为了“修补模型能力”,上下文会越来越长(多轮历史、RAG 片段、工具返回、流程状态……),这会带来指令衰减与注意力漂移,最终表现为“前几轮守规矩,后几轮开始乱来”。
  2. 当你用流程去强行兜底(重试、校验、补充提示)时,系统复杂度上升,失败模式也会变得更随机,导致流程优化很难稳定复用。

在这样的背景下,我把目标从“把流程编排得更强”转成“把行为对齐得更稳”:用 8B 小模型做后训练,把领域语义工具调用契约显式固化下来,让模型在复杂上下文里也能更像一个可控组件,从而真正支撑端到端流程自动化。

03 现有指标表

指标含义定义:

  • tool_call_accuracy:是否调用工具(与期望一致);若调用,则函数名与参数必须完全正确才算对(严格口径)。
  • tool_name_accuracy:在“模型发生工具调用”的情况下,函数名正确率。
  • tool_args_accuracy:在“模型发生工具调用”的情况下,参数与预期一致的比例。
  • response_quality:回答是否存在超短、结尾重复、或不匹配的 ​​<think>​​ 标签等格式问题(值越高越好)。

表1:各训练阶段指标对比

阶段

tool_call_accuracy

tool_name_accuracy

tool_args_accuracy

response_quality

Baseline:Qwen3-8B(未训练)

34.8%

44.2%

25.7%

100.0%

SFT 后

32.7%

42.2%

24.1%

100.0%

DPO v1 后(失败)

32.3%

40.1%

23.2%

100.0%

DPO v2 后(数据集扩大 5X)

97.3%

99.3%

96.4%

100.0%

表2:相对 Baseline 的变化

阶段

tool_call_accuracy 变化

tool_name_accuracy 变化

tool_args_accuracy 变化

SFT 后 vs Baseline

-2.1 %

-2.0 %

-1.6 %

DPO v1 后 vs Baseline

-2.5 %

-4.1 %

-2.5 %

DPO v2 后 vs Baseline

+62.5 %

+55.1 %

+70.7 %

04 例子

下面用两组来自真实 MCP 服务环境的对话片段,展示在业务场景、输入内容、MCP 服务一致的情况下,出现的非常典型、且对端到端自动化极其致命的工具调用失败行为。

  • MCP 服务:URI 安全 / reputation 查询服务(支持 IP、域名、URL 等对象的信誉与安全信息查询)
  • 业务背景:网络安全自动化运维。对不同 URI 资源进行分析,并根据查询结果进入后续不同处理流程(例如:是否升级为威胁处置、是否入库、是否需要人工复核等)
  • 对比原则:同一套工具接口、同一类输入、同一条业务链路;差异仅来自模型(235B vs 671B)

评估重点不在于“模型答得像不像人”,而在于:Agent 是否遵守工具调用契约、是否能稳定地产生可追溯的执行链。一旦工具调用失真,后续推理再“顺滑”,也只是建立在错误事实上的幻觉链条。

Case 1(Qwen3-235B):多轮对话后“自我模仿”并编造工具结果,逐步形成跳过调用的习惯

  • 模型:Qwen3-235B
  • 现象概述:在多轮对话的初期,模型表现正常,能够准确发起工具调用并解析结果。但随着对话轮数增加,Context 中积累了多个“发起调用 -> 获得工具调用结果并解读”的历史数据后,意外的现象发生了:在后续的对话中,模型不再发起真实的工具调用请求。相反,它基于之前的历史数据格式,凭空编造了一个工具查询结果,并基于该“伪造结果”继续做分析与决策。也就是说,它跳过了本应发生的真实工具调用。一旦出现一次幻觉式的伪造返回,模型往往会在后续轮次里延续这种模式,表现出一种“既定行为惯性”:不再调用工具,而是持续编造。这时候模型掉入了一种自回归陷阱。

分析:这是大模型在长上下文中典型的“路径捷径” (Shortcut Learning) 现象。模型“认为”自己已经掌握了工具返回数据的规律(格式正确),为了省事或基于概率预测,它直接跳过了​​Action​​​步骤,输出了​​Observation​​。

  • 典型失败特征
  1. 格式像真的:返回结构、字段名、排版都高度模仿早期真实工具结果,让人第一眼不易察觉。
  2. 链路断点隐蔽:表面上 reasoning 是连续的,但在执行链路上,关键的“tool call 事件”消失了。
  3. 错误会被放大:后续每一步分析、分类、升级处置决策,都会建立在这份“虚构查询结果”上,导致不可控风险。
  • 对业务的直接影响
  • 不可审计:你无法证明“依据哪个真实查询结果做出决策”。
  • 不可回放:重跑同一请求可能产生完全不同的链路。
  • 不可上线:一旦进入自动化写库/处置动作,编造 tool result 的风险是硬性不可接受的。

Case 2(DeepSeek V3.1-671B):同输入多次运行行为链不同,结论与执行决策相反(解读逻辑不一致)

  • 模型:DeepSeek V3.1-671B
  • 现象概述:在本质相同的输入下进行两次调用,模型产生了不同的行为链(behavior trace):包括是否调用工具、如何引用工具返回、如何解释字段含义等环节都出现差异,最终导致结论相反、执行决策相反。对照两张截图可以看到:模型对工具返回的解读存在明显不一致,表现为逻辑跳步、证据使用混乱、推理链条自相矛盾。

第一次调用

第二次调用

  • 典型失败特征:
  1. 同一证据不同解读:对相同/类似字段的含义给出不同解释,或引用了不一致的关键字段作为结论依据。
  2. 推理链条漂移:前半段推理似乎遵循规则,但到关键决策点出现跳跃,导致最终动作选择相反。
  3. 一致性缺失:对于需要批量处理 URI 的场景,这种“不稳定”会直接拉低端到端一次成功率,并显著增加人工复核成本。
  • 对业务的直接影响
  • 结果不可复现:类似输入重复处理,输出不一致,无法形成可依赖的自动化策略。
  • 策略不可固化:你很难通过 Prompt/流程把“解读方式”稳定下来,因为漂移来自模型内部对结构化返回的理解不稳。

....

#RSR,Rank-Surprisal Ratio

「熟悉的陌生人」才是「好老师」?复旦提出简单指标,找出推理蒸馏中真正有教学价值的数据

什么样的思维链,能「教会」学生更好地推理?

许多人都有这样的学习体验:内容过于熟悉,难以带来新的收获;内容过于陌生,又往往超出理解能力,难以消化吸收。

类似的现象同样出现在大语言模型的推理蒸馏中。来自能力更强的教师模型的思维链,可能过于晦涩,学生模型难以掌握其推理模式;而与学生认知相近的教师模型,其推理轨迹又常常缺乏新信息,难以带来实质提升。

因此,要获得理想的蒸馏效果,关键在于为不同学生模型选择恰好合适的数据,在「熟悉」与「陌生」之间找到最佳平衡。然而,现有基于概率的筛选或度量方法(如 Perplexity)难以刻画这种细粒度的适配关系。

那么,是否存在一种直观且易于计算的数据适配度指标,能够量化这种平衡?

来自复旦大学和上海人工智能实验室的研究者提出了一种简单而有效的度量方法,Rank-Surprisal Ratio (RSR):

图片

RSR 从学生模型的视角出发,综合考虑样本的信息量与对齐程度,旨在找出那些既足够「新」,又未超出学生认知边界的推理数据。

在大规模蒸馏实验中,RSR 与学生模型后训练性能的相关性高达 0.86,并且可以直接用于筛选推理轨迹以及选择教师模型,无需实际训练即可找到更合适的思维链数据。

  • 论文链接:https://arxiv.org/pdf/2601.14249
  • 代码链接:https://github.com/UmeanNever/RankSurprisalRatio

反直觉的现象

长思维链(CoT)的生成被普遍认为是大模型推理能力的核心。相应地,包含长思维链的推理轨迹常被视为高质量的监督信号,可以用于有监督微调(SFT)训练学生模型,或助力强化学习的冷启动。

但越来越多的实验呈现出一个反直觉现象:教师模型越强,学生模型未必学得越好。

在这篇工作中,作者系统性地构建了 11 个 teacher(教师模型)× 5 个 student(学生模型)的蒸馏实验,覆盖从 4B 到 671B 的主流推理模型。结果显示:

  • teacher 的参数规模、推理准确率与 student 的推理提升相关性很弱;
  • 同一个 teacher 的数据在不同 student 上的训练效果差异显著;
  • 跨模型家族的 teacher(如 GPT-OSS → Qwen)往往效果更差;
  • 推理数据是否「适合」当前 student 是关键。

图片

表一:蒸馏实验结果,在多个数学 benchmark 上评测 student 模型使用 teacher 数据训练后的性能。

现有数据筛选方法的问题

当前主流的数据筛选或评估方法,大多依赖一个信号:student 模型生成该数据的概率(perplexity /log-likelihood/surprisal),认为 student 觉得「自然」的数据就更容易学。

图片

但问题在于:

  • 太「自然」的推理数据,往往信息增量有限;
  • 真正有价值的推理数据,恰恰是 student 尚未充分掌握的部分。

这就引出了论文试图解决的核心矛盾 ——Informative Alignment Challenge:如何在提供新知识的 informativeness 与符合学生当前认知的 alignment 之间取得平衡?

关键洞察

「绝对陌生 (Absolute unfamiliarity) + 相对熟悉 (Relative familiarity)」的推理数据最有学习价值

面对看似难以兼顾的「熟悉 - 陌生」的平衡,作者从 token 级别重新审视 student 的预测分布,提出一个直观、但之前被忽略的视角:

  • Informativeness 关注的是当前 token 在概率层面的绝对陌生度,可由 Surprisal(−log p / 负对数似然)刻画;
  • Alignment 关注的是当前 token 对比其它候选 token 的相对熟悉度,可由 Rank(在词表预测中的名次)衡量。

在这一视角下,一个 token 可以同时满足:

  • 被 student 生成的概率不高(informative)
  • 但在候选词表中排名靠前(aligned)

因此,informativeness 与 alignment 并非天然冲突。恰恰是同时满足这两点的 token,构成了最适合 student 学习的推理数据。

图片

图一:Rank-Surprisal Ratio 的设计动机 —— 合适的推理数据应当兼顾 informativeness 与 alignment

直观的指标:Rank-Surprisal Ratio

基于前文在 token 级别的观察,以及相关仿真分析与数学推导,论文提出了一个形式上极其简洁的样本级指标:

图片

直觉解释:

  • 分子(Rank)越小,表示当前样本越符合 student 的行为模式,对齐程度(alignment)越高;
  • 分母(Surprisal)越大,表示当前样本提供的信息量越充分,信息性(informativeness)越强;
  • RSR 越小 → 信息量与对齐程度的平衡越好。

在实现上:

  • 仅需对 student 进行一次前向计算;
  • 不依赖 verifier 或额外测试数据;
  • 融合了 rank clipping 与 surprisal 加权平均机制,在极端情况下具有更好的数值稳定性。

实验:与训练效果的相关性

作者将 RSR 与多种已有指标进行了对比,包括 teacher 模型及训练数据的若干统计量、常用的数据质量评估方法、基于概率的指标,以及其他基于 student 模型计算的指标。

实验结果在 5 个 student 模型上高度一致:RSR 与 student 模型后训练性能的 Spearman 相关系数平均达到 0.86,显著高于其它指标。

图片

表二:不同指标与模型后训练推理性能之间的相关性

在实际场景中的应用

场景 1:Trajectory Selection (选择最合适的推理轨迹数据)

  • 在该场景中,针对训练集中的每一道题目,作者从多个 teacher 模型生成的 33 条候选思维链中,依据不同指标选择一条最合适的推理轨迹,从而构建用于训练 student 的推理数据集。
  • 实验结果表明,基于 Rank-Surprisal Ratio 筛选得到的数据,在不同 student 模型上训练后均取得了最优的推理性能,优于其它方法。

图片

表三:不同数据筛选方法的后训练性能

场景 2:Teacher Selection(选择最合适的教师模型)

  • 在该场景中,作者仅使用每个 teacher 模型生成的 200 条推理轨迹来估计其与不同 student 的适配程度,从而模拟实际蒸馏前的 teacher 选择过程。
  • 实验结果显示,RSR 能稳定选出接近 oracle(真实最优)的 teacher 模型,整体表现优于其它方法。

图片

表三:不同 teacher 模型选择方法的表现

结语

这项工作重新审视了推理蒸馏中一个看似简单却难以回答的的问题:什么样的推理轨迹能「教会」student 更好地推理。通过将 token 的 相对熟悉度(rank) 与 绝对信息量(surprisal) 结合,Rank-Surprisal Ratio 给出了一个直观、易于计算、且在大规模实验中被验证有效的答案。

更重要的是,RSR 并不依赖额外的评估数据或验证器,而是直接从 student 的视角出发刻画数据价值。这使它不仅是一个分析工具,也具备作为实际数据工程指标的潜力。

向前看,这种「informative alignment」的视角或许可以进一步扩展到:

  • 更通用的 reasoning 任务(如 code、tool use);
  • 推理轨迹的重写与合成,而不仅是选择;
  • 以及与 On-policy Distillation、RL 结合的动态数据调度。

当推理模型的瓶颈逐渐从「规模」转向「数据的高效利用」,理解哪些思维过程真正具有教学价值,可能将成为下一阶段 post-training 的关键问题。

作者介绍

杨宇铭,复旦大学自然语言处理实验室博士生,导师为张奇教授。本科毕业于复旦大学数学系,硕士毕业于密歇根大学统计学系。博士阶段前曾在微软担任数据科学家。研究方向为自然语言处理与大语言模型,作为第一作者或共同第一作者在 ACL、EMNLP、NeurIPS 等顶级会议发表多篇论文。

....

#ICLR「开盒」

学术圈炸锅!ICLR「开盒」引爆全网,审稿人全员裸奔

ICLR 2026 双盲评审系统遭 API 漏洞“开盒”——投稿 ID 直接返回作者、审稿人、AC 的姓名邮箱与初步评分,泄露持续近半月,组委会急发“传播即拒稿”警告。网友造梗“ICLR = I Can Locate Reviewer”。

昨夜,学术界经历了一场史无前例的「公开处刑」。

ICLR 2026的OpenReview直接「开盒」,一个漏洞让双盲评审当场裸奔。

只要把投稿ID填入特定的API链接,就能瞬间拉出这篇论文的所有作者、审稿人、AC的完整信息:

姓名、邮箱、机构、个人履历

更要命的是,不止能看到名字,系统还会顺便把审稿人给论文初步评分、评论一并打包吐出来

这可能是,AI顶会时代最荒诞的一夜。

ICLR组委会紧急回复:

11月27日,ICLR意识到一个软件漏洞泄露了作者、审稿人和领域主席的姓名。

该漏洞影响了所有托管在OpenReview上的会议,我们感谢OpenReview团队迅速修复了这一问题。

而且,ICLR直接警告,若有人传播任何泄露信息,直接「拒稿」!不仅如此,未来再想参加ICLR,是不可能的了。

这不,已经有人因自曝信息论文被封杀了。

一部分脱敏后的数据分析

一部分审稿人,已经收到了作者请求提分的邮件,还有人愿意出钱买高分。

来源:小红薯631D1AA7

审稿人真的是睡不好觉了!有网友庆幸道,还好自己没有参与ICLR评审。

于是最新的梗诞生:

ICLR = I Can Locate Reviewer

ICLR开盒,学术圈炸锅了

这件事情的影响非常巨大!

众多学术大佬纷纷呼吁不要传播、分享和利用被泄露的数据,这事关整个学术界的公平。

大佬田渊栋认为这件事的泄露太过于「疯狂」!

谢赛宁也发帖表达这是一个科学领域「最奇怪的时刻」,希望所有人共同呵护已经脆弱的学术界。

为什么这次泄露如此严重

双盲评审制历来是学术公平的根本。

就像一位教授所说,你千辛万苦所写的论文在提交审稿后,你很难将审稿人和呕心沥血的作品割裂开来。

如果你知道是具体的哪位教授或者审稿人给出了「差评」,也许数十年都会耿耿于怀。

因为「差评」和「拒绝」不仅意味着多年工作的付诸东流,也意味着个人自信和能力的被打击。

而在其他社区中,已经有人通过快速的数据分析,给出了一些「暴论」:

比如韩国和俄罗斯给出的分数最低!

更多的分析评论则给出「更不好的」结论。

比如有人验证了漏洞方法后,认为这漏洞揭示了学术一些黑洞:

你呕心沥血的论文可能是由不通领域、缺乏相应背景的人评审的,而领域的主席对此听之任之。

有人认为这次的泄露能反向「促进」审稿人的责任感。

比如ICLR将来提醒审稿人认真对待别人的学术成果,永远不要写下不敢署名真实名字的内容。

有人甚至叫好,认为匿名状态下,人们会倾向于「信口开河」。

但一旦被「开盒」,身份公开,审稿人就会更有责任感。

这不,已经有人利用泄露的信息,反向定位到了自己的审稿人,竟然是竞争论文的作者!

并且这个审稿人给了他恶意的差评,并且对他一周内的反驳都置若罔闻。

简直就是黑暗森林!

他「气愤」的表示,是否能向组委会反映?

但是评论里有人明确告诉他,这是不可行的。

这就是个悖论,双盲评审本来就是双方都匿名,本来不会有任何机会得知文章的审稿人是谁。

这正好印证了上面所说:

「你很难将审稿人和呕心沥血的作品割裂开来。」

而在面对ICLR的「严厉声明」时,有些学者或者博士们表示:

当初我们抱怨那些无端评论和评审时,ICLR又在哪里?

还有人表示,这件事的积极影响在于,看谁敢之后再用AI审稿?

匿名审稿人是朋友,还是敌人?

当然,田渊栋提到的一点,也值得注意,那就是匿名审稿人都是「无偿」+贡献自己的时间为学术界做贡献。

他们是我们的朋友,而非敌人。

就像下面这个人所说,匿名审稿人要为文章做出巨大评判工作而无任何报酬。

但这件事情的「恶劣影响」在于,那些给出差评的审稿人,已经被作者本人「定位」。

有人评论到:看来以后要有冤的报冤,有仇的报仇了!

甚至有人预测,下周的NeurIPS现场可能要上演「全武行」了:

你的文章被审稿人拒掉,你也拒掉了别人的文章,🤣!

漏洞正在修复

就在刚刚,OpenReview同时发布了一份API安全事件的声明——

美国东部时间上午10:09,OpenReview团队收到来自ICLR工作流主席的通知:

我们的API中存在一个安全漏洞,该漏洞允许在跨会议的特定profile搜索API端点中,未经授权访问通常匿名的身份信息(审稿人、作者、领域主席)。

在收到初始报告后一小时内,我们已部署了软件补丁以阻止未授权访问。

响应时间线:

10:09 AM:ICLR 2026工作流主席报告问题

10:12 AM:OpenReview团队确认接收并开始调查

11:00 AM:修复部署到 api.openreview.net

11:08 AM:修复部署到 api2.openreview.net

11:10 AM:程序主席与工作流主席被通知问题已解决

虽然官方给出了回复,但有趣的是,这一漏洞早在近半个月前就存在了。

多位网友实证,11月12日便有人向OpenReview发出了关于该漏洞的邮件。

关键,还是三封!

不仅是ICLR,包括NeurIPS、ICML、ACL一些顶会,信息也都能立即被扒出。

参考资料:

​https://x.com/MattNiessner/status/1994128137379082633?s=20​

​https://x.com/xing_rui12683/status/1994072940804268262?s=20​

​https://x.com/deliprao/status/1994113730775548243?s=20​​​

....

#PENCIL

大模型深度思考新范式:交替「推理-擦除」解决所有可计算问题

作者介绍:本文第一作者是丰田工业大学芝加哥 PhD 学生杨晨晓,研究兴趣是机器学习理论和大模型推理,在 ICML,NeurIPS,ICLR 等顶级会议上发表过论文。

本文提出一个交替「推理 - 擦除」的深度思考新范式 PENCIL,比传统 CoT 更高效地解决更复杂的推理任务。理论上,我们证明 PENCIL 可用最优空间与最优时间下解决所有可计算问题,而这对于传统的 CoT 是不可能的!该工作已被机器学习顶会 ICML 2025 收录。

  • 题目: PENCIL: Long Thoughts with Short Memory
  • 链接: https://arxiv.org/pdf/2503.14337
  • 代码: https://github.com/chr26195/PENCIL 

最近的大模型(如 OpenAI 的 o1/o3、DeepSeek 的 R1)发现能通过在测试阶段深度思考(Test-Time Scaling)来大幅提高模型的推理能力。目前实现深度思考的关键在于使用长链思维链(Long Chain-of-Thought,CoT),即让模型生成更长中间结果得到最终答案。然而,传统「只写不擦」的方法在处理高难度、大规模任务时面临以下瓶颈: 

  1. 超出上下文窗口:一旦链条过长,就会触及模型的最大上下文长度限制;
  2. 信息检索困难:随着上下文不断累积,模型难以从冗长历史中 Retrieve 关键线索; 
  3. 生成效率下降:上下文越长,每步生成新 token 的计算量越大。

不过实际上,并非所有中间思路都后续推理有用:例如定理证明里,引理一旦验证通过,其具体推导可被丢弃;解数学题时,已知某条思路走不通就无需保留那段「尝试」的细节。纵观计算机科学的发展历史,这一「随时清理」的理念早已渗透到几乎所有计算模型之中:从最早的图灵机模型中,已读写的磁带符号可以被覆盖或重写,直到现在高级编程语言中,垃圾回收机制会自动清理不再可达的内存单元。

基于这样的动机,我们提出一个新的深度思考范式 PENCIL,迭代地执行生成(Generation)和擦除(Reduction),即在生成的过程中动态地擦除不再需要的中间结果,直到得到最后的答案。

一、交替「生成 - 擦除」的深度思考范式

下图以一个简单的算术题为例展示了 PENCIL 的工作机制: 

  • CoT 将每步推理串联到上下文中直到给出答案并返回整个序列。
  • PENCIL 交替执行生成(图中加粗部分)和 擦除(图中绿色高亮部分):模型先写出新的思考过程,再删掉对之后的推理无用片段,只保留对后续的推理过程有用的部分,内部形成一系列隐式思维,最后仅返回最终答案。

图片

PENCIL 擦除机制的设计借鉴了逻辑学与经典自动定理证明中的重写规则(Rewriting Rule 和函数式编程语言中的栈帧内存管理(Stack Frame)。 具体地,我们引入三个特殊字符(Special Token),叫做 [CALL], [SEP], [RETURN],并用以下的规则(Reduction Rule)来实现擦除: 

图片

其中 C(Context)表示上下文,T(Thoughts)表示中间思考,A(Answer)表示回答。每当生成的序列与左侧模式完全匹配时,PENCIL 即触发一次擦除,丢弃 T。重要的是,C、T、A 本身均可包含其他特殊标记,从而支持类似多层函数调用的递归结构。

PENCIL 的擦除机制能够灵活支撑多种推理模式,例如:

  • 任务分解(Decomposition):通过 [CALL] 启动子任务,完成后用 [RETURN] 合并输出并擦除子任务推理细节;
  • 搜索与回溯(Search and Backtrack):在搜索树中,用特殊字符管理探索分支,冲突或失败时擦除无效路径; 
  • 摘要与总结(Summarization):将冗长的思考片段归纳为简洁摘要,类似编程中的尾递归(Tail Recursion):

图片

其中 T 表示原始的复杂思考过程(或更难的问题),T' 归纳或简化后的摘要(或等价的、更易处理的问题)。

示例: 布尔可满足性(SAT)是经典的 NP-Complete 问题:给定一个 n 个变量布尔公式,判断是否存在一组变量赋值使其为真。这个问题(广泛认为)需要指数时间但仅需多项式空间来解决,其中最简单的做法是构造一个深度为 n 的二叉搜索树遍历所有可能。传统 CoT 将每步计算附加到上下文,长度与搜索树节点数成正比 (O (exp (n))),导致指数爆炸;PENCIL 在递归分支尝试时,遇到冲突立即回溯并擦除该分支所有思考,仅保留关键结果,使上下文长度仅与搜索深度成正比 (O (n))。

如图所示,对比 CoT 无擦除(蓝)与 PENCIL 擦除(红)两种思考模式下的最大上下文长度,随着问题规模增大,PENCIL 能将所需序列长度控制在千级或百级,而传统 CoT 则迅速攀升至数万甚至数十万。即使在复杂的 Einstein's Puzzle 中,PENCIL 也能将需要几十万 token 的上下文压缩到几千 token。

图片

二、训练和实验结果

训练和测试:在训练时,CoT 每个新 token 的损失计算都基于完整的历史上下文;PENCIL 在每轮「写 — 擦」循环结束后只在被擦除后的短序列上计算损失。即使两者生成 token 数量相同,PENCIL 每一个 token 对应的上下文长度却大幅缩短;另一方面,在每次 Reduction 后,C 部分的 KV cache 可以直接复用,只需为更短的 A 部分重新计算缓存。这样, PENCIL 在训练和测试时能显著减少自注意力计算开销。 

实验设置:我们针对三种具有代表性的高难度推理任务构建数据集:3-SAT(NP-Complete)、QBF(PSPACE-Complete)和 Einstein’s Puzzle(自然语言推理)。所有实验均在相同配置下从随机初始化开始进行预训练和评估,采用小型 Transformer(10.6M 参数和 25.2M 参数),训练超参数保持一致。 

1. 准确率

相比 CoT,PENCIL 能解决更大规模的推理问题。如下图所示,在 SAT(左图)和 QBF(右图)任务中,当问题规模较小时,CoT 与 PENCIL 均能完美解决问题;但随着规模增大,传统 CoT 的准确率显著下降(例如 SAT 在 n=10 时仅约 50%),而 PENCIL 始终保持 ≥ 99% 的高准确率。 

图片

2. 计算效率

PENCIL 还能显著节省计算资源。如图所示,我们在相同 FLOPs 预算下对比了 CoT(蓝色)与 PENCIL(红色)的训练收敛表现。PENCIL 训练早期迅速达到 100% 准确率,训练损失更快稳定;CoT 因上下文膨胀需投入更多资源才能接近最优。随着问题规模增加,两者之间的差距愈发明显。 

图片

3. 自然语言推理任务:Einstein’s Puzzle

我们测试了 PENCIL 在极具挑战性的 Einstein's Puzzle 上的表现。该问题要求从一系列线索(如「绿房子在养鸟者右侧」、「养狗者住在红房子」等)推断出五个房屋中人们的全部属性(颜色、国籍、饮品、香烟和宠物)。即使是 GPT-4 也难以解决此类逻辑推理问题 [1]。下图展示了 n=3 时的问题简化:

图片

如图所示,对于该大模型也难以解决的问题,而 PENCIL 仅用一个 25.2M 参数的小模型将准确率提升至 97%;相比较之下,传统 CoT 准确率仅 25%,接近随机猜测的准确率。

图片

三、理论:PENCIL 用最优的空间 / 时间实现图灵完备

我们进一步从理论表达能力的角度展示 PENCIL 相较于传统 CoT 的根本性优势。具体地,我们证明:使用一个固定的、有限大小的 Transformer,PENCIL 可以用最优的时间和空间复杂度模拟任意图灵机的运算过程(即实现图灵完备),从而高效地解决所有可计算问题: 

图片

具体而言,若任意图灵机在某输入上需 T 步计算和 S 空间,PENCIL 仅需生成 O (T) 个 token 并保持上下文长度至多为 O (S) 即可输出相同结果。值得注意的是,大多数算法的空间复杂度都远小于其时间复杂度,即 S << T。

相比之下,传统 CoT 虽能实现图灵完备 [2] —— 思维链的每一步表示图灵机的一步中间计算过程,因此思维链足够长就可以解决所以可计算问题。但这意味着其生成序列的上下文长度必须与运行步数 T 成正比,代价十分昂贵:对于中等难度任务也许尚可承受,一旦面对真正复杂需要深度思考的问题,这种指数级的上下文爆炸就变得不切实际。

例如,一系列(公认)无法在多项式时间内解决却可在多项式空间内解决的 NP-Complete(如旅行商等等),对于使用有限精度 Transformer 的 CoT 而言至少需要超越多项式(例如 exp (n))规模的上下文长度,在真实应用中由于内存的限制完全不可行;而 PENCIL 只需 poly (n) 规模的上下文就能高效求解,让「深度思考」变得切实可行。 

证明思路:证明关键在用一系列「思考 — 总结」循环来替代持续累积的思维链。

图片

具体地,如上图左图所示,我们先将图灵机状态转移编码为三元组 token(新状态、写入符号、移动方向)。模型通过自注意力计算读写头位置,并从上下文回溯读取符号。未经优化时,需保留 T 步完整历史,上下文长度为 O (T)。

PENCIL 能够实现空间 / 时间最优的核心是利用交替「思考 - 总结」的生成方式:

  1. 思考 (Simulation):生成连续状态转移 token,模拟图灵机计算; 
  2. 总结 (Summarization):当新 token 数超过实际所需空间两倍时,用不超过 S 个的 token 总结当前状态,触发擦除规则丢弃中间过程。

通过这种策略,PENCIL 生成总 token 数仍为 O (T),却把最大上下文长度严格限制在 O (S),达到了空间与时间的双重最优。

最后,我们需要证明这种「思考 - 总结」的生成方式可以被现实中的 Transformer 实现。为此,我们设计了 Full-Access Sequence Processing (FASP) 编程语言,并证明所有用 FASP 写的程序都可被 Transformer 表达。通过构造能执行「思考 - 总结」操作的 FASP 程序,我们证明了等价存在固定大小 Transformer 完成相同功能,从而理论上证明 PENCIL 可用最优复杂度模拟任意计算过程。

参考文献

[1] Dziri, Nouha, et al. "Faith and fate: Limits of transformers on compositionality." in NeurIPS 2023.

[2] Merrill, William, and Ashish Sabharwal. "The expressive power of transformers with chain of thought." in ICLR 2024.

图片

....

#SuperEdit

小模型逆袭屠榜!30倍数据效率+13倍模型压缩效果暴增近10%!字节重磅开源

字节跳动开源的SuperEdit通过修正编辑指令和引入对比监督信号,解决了图像编辑中监督信号噪声问题,仅用1/30的数据量和1/13的模型参数量,就在多个基准上实现显著性能提升,推动了图像编辑技术的发展。

文章链接:​​https://arxiv.org/pdf/2505.02370​

项目链接:​​https://liming-ai.github.io/SuperEdit/​

Huggingface链接:​​https://huggingface.co/datasets/limingcv/SuperEdit-40K​

亮点直击

  • 新发现:旨在解决由编辑指令与原始-编辑图像对之间错位引起的噪声监督问题,这是先前工作忽视的根本性问题,如下图2所示。
  • 修正监督:利用扩散生成先验指导视觉语言模型,为原始-编辑图像对生成更匹配的编辑指令。
  • 强化监督:引入基于三元组损失的对比监督,使编辑模型能够从正负样本指令中学习。
  • 显著成果:在无需额外预训练或VLM的情况下,在多个基准上实现显著提升。相比SmartEdit,在减少数据和模型参数的同时,实现了9.19%的性能提升。

图片

图片

图片

图片

总结速览解决的问题

  • 噪声监督信号:现有基于指令的图像编辑数据集中,编辑指令与原始-编辑图像对之间存在不匹配问题,导致监督信号噪声大。
  • 复杂场景编辑困难:编辑模型在处理多对象、数量、位置或对象关系等复杂场景时表现不佳。
  • 依赖额外模块:现有方法需引入视觉语言模型(VLM)、预训练任务或复杂架构,计算开销大且未根本解决噪声问题。​

提出的方案

  • 指令修正(Rectified Instructions)
  • 利用VLM(如GPT-4o)分析原始-编辑图像对的差异,生成更匹配的编辑指令。
  • 基于扩散模型推理阶段的生成属性(如不同步骤对应不同图像属性),制定统一的指令修正准则。
  • 对比监督信号(Contrastive Supervision):构建正负样本指令(正确指令 vs. 错误指令),通过三元组损失(triplet loss)优化模型,增强对复杂场景的理解。​

应用的技术

  • 视觉语言模型(VLM):用于指令修正,优先选用GPT-4o(因其对图像差异理解能力最强)。
  • 扩散模型先验知识:利用扩散模型推理阶段的属性生成规律(如早期步骤生成结构、后期步骤生成细节)指导VLM修正指令。
  • 三元组损失(Triplet Loss):通过对比学习区分正负指令,提升模型对编辑意图的精准理解。​

达到的效果

  • 性能显著提升
  • 在Real-Edit基准上超越此前SOTA(SmartEdit),性能提升9.19%。
  • 仅需1/30的训练数据和1/13的模型参数量。
  • 简化架构:无需额外VLM模块或预训练任务,直接优化监督信号质量。
  • 开源贡献:所有数据和模型开源,促进后续研究。
  • 评估优势:在GPT-4o和人工评估中均优于现有方法,证明高质量监督信号可弥补架构简单性。​

方法

本节首先介绍最通用的图像编辑框架。然后解释如何利用扩散先验通过多模态模型(即GPT-4o)修正编辑指令,从而提高监督信号的准确性。最后描述如何构建包含正确和错误编辑指令的对比监督,并通过三元组损失将其整合到编辑模型训练中。​

基于指令的图像编辑框架

InstructPix2Pix 开创了基于指令的图像编辑方法,通过同时将原始图像  和编辑指令  作为输入条件,从随机噪声  生成编辑后的图像  。根据DDPM的定义,在训练过程中我们随机采样一个时间步  ,然后向编辑后的图像  添加相应的噪声  。

图片

其中  是从高斯分布采样的噪声图,  是时间步  的可微函数,由去噪采样器 (如DDPM)确定。然后编辑模型  的训练目标是预测在时间步  添加的噪声,可以表示为:

图片

其中​​concat​​表示在通道维度上连接加噪编辑图像 和原始图像 的潜在表示。​

基于扩散先验的监督修正

如下图3所示,现有图像编辑数据集通常仅使用步骤1和2:通过LLM构建编辑提示和描述,再由文生图扩散模型合成编辑图像。然而扩散模型往往难以在保持图像布局的同时准确遵循提示,导致原始-编辑图像对与编辑指令不匹配,产生不准确的监督信号。虽然更好的监督信号在图像生成领域很常见,但由于以下两个挑战,该方法在图像编辑中仍未充分探索:(1)基于单图像数据训练的VLM难以处理多图像输入;(2)编辑指令差异大,难以制定统一修正准则。

图片

为解决这些问题,本文:(1)分析了不同VLM处理多图像输入的能力,发现GPT-4o最有效;(2)发现图像生成中时间步特异性角色同样适用于编辑任务,为跨指令的统一修正方法奠定基础(上图3和下图4)。由于篇幅限制,VLM分析详见补充材料,本节重点介绍扩散先验和编辑指令修正。

图片

扩散生成先验:先前工作表明,不同时间步在文生图扩散模型中具有特定生成角色,与文本提示无关。本文发现基于指令的编辑模型同样存在该现象,并以预训练InstructPix2Pix为例展示。扩散模型在采样早期关注全局布局,中期关注局部物体属性,后期聚焦图像细节。这一发现启发我们基于四个生成属性(布局/形状/颜色/细节)指导VLM,建立适用于各类编辑指令的统一修正方法。

编辑指令修正:如前面图3所示,在现有编辑数据生成流程中新增指令修正步骤(步骤3)。该过程依赖通过步骤1-2获得的原始-编辑图像对。具体而言,我们将图像对输入视觉语言模型(GPT-4o),并指导其根据扩散先验生成属性描述编辑图像相对于原始图像的变化。最后使用VLM总结指令并确保其长度不超过CLIP文本编码器的77个token限制。​

基于对比指令的监督增强

虽然使用修正后的编辑指令能显著提升各编辑任务性能,但发现编辑模型仍难以区分语义相近的文本指令。例如"在图像左侧添加一只猫"和"在右侧添加两只猫"可能生成相同的编辑图像。这表明预训练文生图扩散模型固有的理解偏差(如数量/位置/空间关系)仍存在于编辑模型中。更重要的是,实验表明仅使用修正指令训练无法解决这些问题。为进一步增强监督信号有效性,本文借鉴大语言模型和文生图扩散模型的成功对齐经验:构建正负样本对并指导模型为正样本分配更高生成概率。

对比指令构建
与大型语言模型或文生图扩散模型的标准对齐过程不同,图像编辑任务难以通过相同指令生成不同编辑结果来构建正负样本对。为此,我们通过构建正负编辑指令来实现对齐,从而生成相对的正负编辑图像。如下图5(a)所示,我们以原始图像、编辑图像和修正后的编辑指令作为输入,利用VLM(GPT-4o)修改修正指令中的属性(如数量、空间关系和物体类型)来生成错误指令。要求VLM在每个错误指令中仅修改修正指令的单个属性,保持大部分编辑文本不变。由于修正指令与错误指令之间仅存在少量词汇替换,CLIP文本编码器生成的文本嵌入(作为去噪模型的输入)仍保持相似性。这种设计确保了任务的学习难度,帮助模型理解细微的指令差异如何导致显著不同的编辑结果。

图片

基于对比指令的模型增强
本文的核心观点是:增强监督信号有效性可在不引入额外模型架构或预训练任务的前提下提升各类编辑任务性能。因此严格遵循InstructPix2Pix的模型架构和训练流程。输入包含原始图像  、编辑图像  、修正指令  和错误指令  。训练时通过采样时间步  和公式 1 获得加噪编辑图像  。将修正指令和错误指令同时输入去噪模型,分别预测最终噪声  和  以构建正负样本。

图片

在构建正负样本对后,希望正向编辑指令预测的噪声  比错误编辑指令预测的噪声  更接近训练时采样的真实噪声  。这一目标可通过三元组损失函数实现:

图片

其中  ,边界值  为超参数。最终训练损失是原始扩散训练损失与三元组损失的组合:

图片

对比监督信号仅在训练阶段使用。在推理过程中,编辑模型只需要一个输入编辑指令。​

实验​

数据收集与构建

为构建包含多样化编辑指令的数据集,整合了不同公共编辑数据集:从InstructPix2Pix、MagicBrush和Seed-Data-Edit分别采样10,177、8,807和21,016对图像,共计40,000训练样本。数据选取时尽可能平衡不同编辑任务类型。对于MagicBrush已人工验证的数据,我们直接基于原始指令构建对比监督;Seed-Data-Edit仅采用未含人工指令的第一部分数据;其余数据均进行指令修正与对比监督构建。​

实验设置

评估基准与指标:采用Real-Edit基准进行自动化评估(GPT-4o评分)和人工评估。该基准使用Unsplash社区高分辨率图像,通过以下指标衡量编辑效果:

  • Following:编辑指令遵循准确率(%)与分数(0-5)
  • Preserving:非编辑区域结构保留程度
  • Quality:编辑后图像整体质量/美学评分​

实验结果

Real-Edit基准对比:如下表1所示,在不增加参数或预训练阶段的情况下,本文的方法在Following、Preserving和Quality三项指标上均达到最优。相比引入13B视觉语言模型(LLaVA)的SmartEdit,总体分数提升11.4%。值得注意的是,本文的方法在所有指标上均实现全面提升(Following/Preserving/Quality准确率分别提升3%、7%、11%),表明改进监督信号能同时提升指令执行精度与非编辑区域保护能力。

图片

人工评估:15位评估者对Real-Edit基准进行盲测(下表2与图7),结果与GPT-4o评分高度一致。本文的方法在Following/Preserving/Quality和总体分数上分别以1.8%、16%、14.8%和10.8%的优势超越SmartEdit。

图片

图片

可视化对比:如下图6所示,本文的方法在复杂指令(如"将老虎替换为狮子并保持水中位置")上获得4.8/4.8/4.8的满分表现,显著优于SmartEdit(4.8/4.8/2.5)。对于风格转换指令(如"改为印象派绘画风格"),以(4.8/4.8/4.8)远超SmartEdit的(1.0/4.8/4.8)。场景转换任务(如"将整个场景改为冬季雪景")中,更以(5.0/4.8/4.8)对比SmartEdit的(2.0/4.5/4.5)展现明显优势。

图片

消融实验

编辑指令修正与对比指令的消融研究
鉴于Real-Edit基准采用GPT-4o进行评估,且其评估结果与人类评分高度一致,选择该基准进行下表3所示的消融实验。与原始的300K InstructPix2Pix训练数据相比,采用修正后编辑指令的40K训练数据显著提升了编辑模型的各项性能。具体而言,本文的方法在三个指标上分别将分数提高了0.95、0.79和0.11,准确率提升了21%、22%和4%。此外,通过引入对比监督信号,编辑性能得到进一步强化。与仅使用修正编辑指令相比,对比监督信号的引入使遵循度和保真度分数分别提升0.19和0.08,准确率提高5%和2%,同时保持质量准确率与分数不变。综上,修正编辑指令与对比编辑指令的引入均能全面提升编辑模型的整体性能。

图片

数据规模的消融研究
通过5k至40k样本量的实验探究了训练数据规模对模型性能的影响。下表4显示随着数据量增加,所有指标均持续提升。仅用5k样本时,模型已达到合理性能(54.7%准确率,3.92总分),而扩展至40k样本时获得显著增益(69.7%准确率,3.91总分)。其中保真度和质量指标的提升最为突出,分别达到10%和15%。所有数据点呈现的上升趋势表明,SuperEdit能有效利用新增训练样本且未出现性能饱和,这意味着扩大数据集仍有提升潜力。

图片

结论

本文从增强监督信号的角度重新审视图像编辑模型,发现现有方法未能充分解决该挑战,导致性能欠佳。提出基于扩散先验的统一编辑指令修正准则,使指令更贴合原始-编辑图像对,从而提升监督有效性;同时构建对比编辑指令,让模型能从正负例中同时学习。这种以数据为核心的方法探索了一个重要但被忽视的研究问题:在最小化架构改动的前提下,通过聚焦监督质量与优化能实现何种性能水平?值得注意的是,在GPT-4o和人类评估中,本文方法以更少的数据量、无需架构修改或额外预训练的条件超越了现有方案。这表明高质量的监督信号能有效弥补架构简单性,为图像编辑研究提供了宝贵的新视角。

参考文献

[1] SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing

....

#Insights into DeepSeek-V3

Scaling Challenges and Reflections on Hardware for AI ArchitecturesDeepSeek-V3再发论文,梁文锋署名,低成本训练大模型的秘密揭开了

关于 DeepSeek-V3,你需要了解的一切。

虽然此前 DeepSeek 已经发布了 V3 模型的技术报告,但刚刚,他们又悄然发布了另一篇围绕 DeepSeek-V3 的技术论文!

这篇 14 页的论文瞄向了「Scaling 挑战以及对 AI 架构所用硬件的思考」。从中你不仅能读到 DeepSeek 在开发和训练 V3 过程中发现的问题和积累的心得,还能收获他们为未来的硬件设计给出的思考和建议。这一次,DeepSeek CEO 梁文锋同样也是署名作者之一。

论文标题:Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures 

论文地址:https://arxiv.org/pdf/2505.09343

众所周知,如今大语言模型(LLM)的快速扩展暴露了当前硬件架构的一些关键局限性,包括内存容量、计算效率和互连带宽。以 DeepSeek-V3 为例,它是在 2048 块 NVIDIA H800 GPU 集群上进行训练,展示了硬件感知模型协同设计如何高效地应对这些限制,并最终实现了经济高效的大规模训练与推理。

因此,这项新研究并非重复 DeepSeek-V3 的详细架构和算法细节,而是从硬件架构和模型设计的双重视角,探讨它们之间在实现经济高效的大规模训练和推理过程中复杂的相互作用。通过探究这种协同作用,研究者旨在提供切实可行的见解,以洞悉如何在不牺牲性能或可访问性的情况下高效扩展 LLM。

具体而言,本文的重点包括如下:

  • 硬件驱动的模型设计:分析硬件特性(如 FP8 低精度计算和 scale-up/scale-out 扩展网络属性)如何影响 DeepSeek-V3 中的架构选择。
  • 硬件与模型之间的相互依赖关系:研究硬件能力如何影响模型创新,以及 LLM 不断变化的需求如何推动对下一代硬件的需求。 
  • 硬件开发的未来方向:从 DeepSeek-V3 中获取可行性见解,以指导未来硬件和模型架构的共同设计,为可扩展、经济高效的人工智能系统铺平道路。

DeepSeek 模型的设计原则

如图 1 所示,DeepSeek-V3 采用了 DeepSeekMoE 架构和多头潜在注意力(MLA)架构。其中,DeepSeekMoE 充分释放了混合专家(MoE)架构的潜力,而 MLA 则通过压缩键值(KV)缓存显著降低了内存消耗。

此外,DeepSeek-V3 引入了 FP8 混合精度训练技术,在保证模型质量的同时大幅降低了计算成本,使大规模训练更加可行。

为了提高推理速度,DeepSeek-V3 在其多 Token 预测模块 (Multi-Token Prediction Module) 的基础上集成了推测解码,从而显著提高了生成速度。

除了模型架构之外,DeepSeek 还探索了经济高效的 AI 基础架构,通过部署多平面双层胖树网络(Multi-Plane two-layer Fat-Tree)来取代传统的三层胖树拓扑结构,从而降低了集群网络成本。

image.png

这一系列创新旨在解决扩展 LLM 时的三个核心挑战 —— 内存效率、成本效益和推理速度。

内存效率

LLM 通常需要大量的内存资源,其内存需求每年增长超过 1000%。相比之下,高速内存(例如 HBM)容量的增长速度要慢得多,通常每年不到 50% 。虽然多节点并行是解决内存限制的可行方案,但在源头优化内存使用仍然是一个关键且有效的策略。

为了解决这一瓶颈,DeepSeek 采用了多头潜在注意力 (MLA),它使用投影矩阵将所有注意力头的键值表示压缩为一个较小的潜在向量,并与模型联合训练。在推理过程中,只需缓存潜在向量,与存储所有注意力头的键值缓存相比,显著降低了内存消耗。

除了 MLA 之外,DeepSeek 还提出了其他几种方法来减少 KV 缓存的大小。这些方法非常有价值,为内存高效注意力机制的进步提供了重要的启发:

共享 KV(GQA;MQA):多个注意力头共享一组键值对,而不是为每个注意力头维护单独的键值对,从而显著压缩了键值对的存储量。代表性方法包括 GQA 和 MQA。

此外,还包括窗口 KV、量化压缩等。

表 1 比较了 DeepSeek-V3、Qwen-2.5 72B 和 LLaMA-3.1 405B 中每个 token 的 KV 缓存内存占用情况。通过采用 MLA,DeepSeek-V3 显著减少了 KV 缓存大小,每个 token 仅需 70 KB,远低于 LLaMA-3.1 405B 的 516 KB 和 Qwen-2.5 72B 的 327 KB。

image.png

 MoE 模型的成本效益

对于稀疏计算,DeepSeek 开发了 DeepSeekMoE,这是一种先进的混合专家 (MoE) 架构,如图 1 右下角所示。MoE 模型的优势在于两方面。

在训练时,降低计算需求。MoE 架构的主要优势在于它能够显著降低训练成本。通过选择性地激活专家参数的子集,MoE 模型允许总参数数量大幅增加,同时保持适度的计算需求。例如,DeepSeek-V2 拥有 236B 参数,但每个 token 仅激活 21B 参数。同样,DeepSeek-V3 扩展到 671B 参数 —— 几乎是 V2 的三倍 —— 同时每个 token 的激活量仅为 37B。相比之下,Qwen2.5-72B 和 LLaMa3.1-405B 等密集模型则要求在训练期间所有参数都处于激活状态。

如表 2 所示,DeepSeekV3 的总计算成本约为每 token 250 GFLOPS,而 72B 密集模型需要 394 GFLOPS,405B 密集模型则需要 2448 GFLOPS。这表明,MoE 模型在计算资源消耗量少一个数量级的情况下,实现了与密集模型相当甚至更优的性能。

image.png

个人使用和本地部署的优势。未来个性化 LLM 智能体将无处不在,而 MoE 模型在单请求场景中将展现出独特的优势。由于每个请求仅激活一小部分参数,内存和计算需求将大幅降低。例如,DeepSeek-V2(236B 参数)在推理过程中仅激活 21B 参数。这使得搭载 AI SoC 芯片的个人电脑能够达到近每秒 20 个 Token (TPS),甚至两倍于此的速度,这对于个人使用来说已经绰绰有余。相比之下,类似能力(例如 70B 参数)的密集模型在类似硬件上通常只能达到个位数的 TPS。

提高推理速度

计算与通信重叠:最大化吞吐量。推理速度既包括系统级最大吞吐量,也包括单请求延迟。为了最大化吞吐量,模型从一开始就采用双微批次重叠架构,有意将通信延迟与计算重叠。

此外,DeepSeek 将 MLA 和 MoE 的计算解耦为两个不同的阶段。当一个微批次执行部分 MLA 或 MoE 计算时,另一个微批次同时执行相应的调度通信。相反,在第二个微批次的计算阶段,第一个微批次则进行组合通信步骤。这种流水线方法实现了全对全(all-to-all)通信与持续计算的无缝重叠,确保 GPU 始终保持完全利用率。此外,在生产环境中,DeepSeek 采用预填充和解码分离架构,将大批量预填充和延迟敏感的解码请求分配给不同规模的专家并行组。这一策略最终在实际服务条件下实现了系统吞吐量的最大化。

推理速度和测试时间扩展。以 OpenAI 的 o1/o3 系列为例,LLM 中的测试时间扩展通过在推理过程中动态调整计算资源,推动了数学推理、编程和通用推理的重大进步。后续模型 —— 包括 DeepSeek-R1、Claude-3.7 Sonnet 、Gemini 2.5 Pro、Seed1.5-Thinking 和 Qwen3—— 也采用了类似的策略,并在这些任务中取得了显著的改进。

对于这些推理模型来说,较高的 token 输出速度至关重要。在强化学习 (RL) 工作流程中 —— 例如 PPO、DPO 和 GRPO —— 快速生成大量样本的需求使得推理吞吐量成为关键的瓶颈。同样,冗长的推理序列会增加用户等待时间,从而降低此类模型的实际可用性。因此,通过软硬件协同创新来优化推理速度对于提高推理模型的效率至关重要。

低精度驱动设计

FP8 混合精度训练

GPTQ 和 AWQ 等量化技术显著降低了内存需求。然而,这些技术主要应用于推理阶段以节省内存,而非训练阶段。NVIDIA 的 Transformer Engine 已经支持 FP8 混合精度训练,但在 DeepSeek-V3 之前,尚无开源大型模型利用 FP8 进行训练。

通过基础设施团队和算法团队的深入合作,以及大量的实验和创新,DeepSeek 开发了一个兼容 FP8 的 MoE 模型训练框架。图 1 展示了在训练过程中使用 FP8 精度前向和后向处理的计算组件。

LogFMT

在当前的 DeepSeek-V3 架构中,DeepSeek 采用低精度压缩进行网络通信。在 EP 并行过程中,Token 使用细粒度的 FP8 量化进行调度,与 BF16 相比,通信量减少了 50%。这显著缩短了通信时间。

除了这些传统的浮点格式外,DeepSeek 还尝试了一种新的数据类型,称为 LogFMT-nBit( Logarithmic Floating-Point Formats )。

互连驱动的设计

当前的硬件架构

DeepSeek 目前使用的 NVIDIA H800 GPU SXM 架构(如图 2 所示)基于 Hopper 架构构建,与 H100 GPU 类似。然而,为了符合法规要求,它的 FP64 计算性能和 NVLink 带宽有所降低。具体而言,H800 SXM 节点中的 NVLink 带宽从 900 GB/s 降至了 400 GB/s。节点内扩展带宽的显著降低对高性能工作负载构成了挑战。为了弥补这一缺陷,每个节点都配备了八个 400G Infiniband (IB) CX7 网卡,以增强扩展能力,从而弥补带宽不足。

image.png

为了解决这些硬件限制,DeepSeek-V3 模型融入了多项与硬件优势和局限性相符的设计考量。

硬件感知型并行化设计

为了适应 H800 架构的限制,DeepSeek-V3 考虑了这些并行策略:避免张量并行 (TP)、增强 Pipeline 并行 (PP)、加速专家并行 (EP)。对这些策略的具体说明请访问原论文。

模型协同设计:节点受限式路由

在 H800 架构中,纵向扩展(scale-up,节点内)和横向扩展(scale-out,节点间)通信之间的带宽差异约为 4:1。具体而言,NVLink 可提供 200GB/s 的带宽(其中实际可实现约 160GB/s),而每个 400Gbps IB 网卡仅提供 50GB/s 的带宽(考虑到较小的消息大小和延迟影响,有效带宽为 40GB/s)。为了平衡并充分利用更高的节点内带宽,模型架构与硬件进行了协同设计,尤其是在 TopK 专家选择策略方面。

假设一个包含 8 个节点(共 64 台 GPU)和 256 个路由专家(每台 GPU 4 个专家)的设置。对于 DeepSeek-V3,每个 token 会被路由到 1 个共享专家和 8 个路由专家。如果 8 个目标专家分布在所有 8 个节点上,则通过 IB 的通信时间将为 8𝑡,其中𝑡 表示通过 IB 发送一个 token 的时间。但是,通过利用更高的 NVLink 带宽,路由到同一节点的 token 可以通过 IB 发送一次,然后通过 NVLink 转发到其他节点内 GPU。NVLink 转发功能可以对 IB 流量进行去重。当给定 token 的目标专家分布在 𝑀 个节点上时,去重后的 IB 通信成本将降低至 𝑀𝑡(𝑀 < 8)。

由于 IB 流量仅依赖于 𝑀,DeepSeek-V3 为 TopK 专家选择策略引入了节点受限路由。具体来说,DeepSeek 将 256 位路由专家分成 8 组,每组 32 位专家,并将每组部署在单个节点上。在此部署基础上,DeepSeek 通过算法确保每个 token 最多路由到 4 个节点。这种方法缓解了 IB 通信瓶颈,并提高了训练期间的有效通信带宽。

纵向扩展和横向扩展收敛

当前实现的局限性。虽然节点受限的路由策略降低了通信带宽需求,但由于节点内 (NVLink) 和节点间 (IB) 互连之间的带宽差异,它使通信流水线内核的实现变得复杂。

在实际应用中,GPU Streaming Multiprocessors (SM) 线程既用于网络消息处理(例如,填充 QP 和 WQE),也用于通过 NVLink 进行数据转发,这会消耗大量的计算资源。例如,在训练期间,H800 GPU 上多达 20 个 SM 会被分配用于通信相关操作,导致实际计算资源减少。为了最大限度地提高在线推理的吞吐量,DeepSeek 完全通过 NIC RDMA 进行 EP 的 all-to-all 通信,从而避免了 SM 资源争用并提高了计算效率。这凸显了 RDMA 异步通信模型在计算和通信重叠方面的优势。

SM 在 EP 通信过程中执行的关键任务包括转发数据、数据传输、Reduce 操作、管理内存布局、数据类型转换,尤其是在组合阶段的 Reduce 操作和数据类型转换方面。如果将这些任务卸载到专用通信硬件,可以释放 SM 以用于计算内核,从而显著提高整体效率。

针对此,DeepSeek 给出了一些建议,其中最核心的是「将节点内(纵向扩展)和节点间(横向扩展)通信集成到一个统一的框架中」。

通过集成专用协处理器进行网络流量管理以及 NVLink 和 IB 域之间的无缝转发,此类设计可以降低软件复杂性并最大限度地提高带宽利用率。例如,DeepSeek-V3 中采用的节点受限路由策略可以通过硬件支持动态流量去重进一步优化。

DeepSeek 还探究了新兴的互连协议,例如 Ultra Ethernet Consortium (UEC)、Ultra Accelerator Link (UALink)。近期,Unified Bus (UB) 引入了一种全新的纵向扩展和横向扩展融合方法。

DeepSeek 在这里主要关注了在编程框架层面实现纵向扩展和横向扩展的融合的方法,具体包括统一网络适配器、专用通信协处理器、灵活的转发和广播及 Reduce 机制、硬件同步原语。详见原论文。

带宽争用和延迟

当前硬件还存在另一大局限:缺乏在 NVLink 和 PCIe 上不同类型流量之间动态分配带宽的灵活性。

例如,在推理过程中,将键值缓存数据从 CPU 内存传输到 GPU 会消耗数十 GB/s 的带宽,从而导致 PCIe 带宽饱和。如果 GPU 同时使用 IB 进行 EP 通信,KV 缓存传输和 EP 通信之间的争用可能会降低整体性能并导致延迟峰值。

针对这些问题,DeepSeek 同样给出了一些建议,包括动态 NVLink/PCIe 流量优先级、I/O 芯片芯片集成、纵向扩展域内的 CPU-GPU 互连。

大规模网络驱动的设计

网络协同设计:多平面胖树

在 DeepSeek-V3 的训练过程中,DeepSeek 部署了一个多平面胖树 (MPFT) 横向扩展(scale-out)网络,如图 3 所示。

image.png

其中,每个节点配备 8 台 GPU 和 8 个 IB 网卡,每个 GPU - 网卡对分配到不同的网络平面。此外,每个节点还配备一个 400 Gbps 以太网 RoCE 网卡,连接到单独的存储网络平面,用于访问 3FS 分布式文件系统。在横向扩展网络中,他们使用了 64 端口 400G IB 交换机,使该拓扑理论上最多可支持 16,384 台 GPU,同时保留了双层网络的成本和延迟优势。然而,由于政策和监管限制,最终部署的 GPU 数量仅为两千余台。

此外,由于 IB ConnectX-7 目前的局限性,DeepSeek 部署的 MPFT 网络未能完全实现预期的架构。理想情况下,如图 4 所示,每个网卡 (NIC) 应具有多个物理端口,每个端口连接到单独的网络平面,但通过端口绑定,共同作为单个逻辑接口向用户公开。

image.png

从用户的角度来看,单个队列对 (QP) 可以在所有可用端口之间无缝地发送和接收消息,类似于数据包喷射。因此,来自同一 QP 的数据包可能会穿越不同的网络路径,并以无序方式到达接收方,因此需要在网卡内原生支持无序布局,以保证消息一致性并保留正确的排序语义。例如,InfiniBand ConnectX-8 原生支持四平面。未来的网卡能够完全支持高级多平面功能,从而使双层胖树网络能够有效地扩展到更大的 AI 集群,这将大有裨益。总体而言,多平面架构在故障隔离、稳健性、负载均衡和大规模系统可扩展性方面具有显著优势。

DeepSeek 还介绍了多平面胖树的几大优势,包括 MPFT 由多轨胖树 (MRFT) 的子集构成(因此可以无缝整合英伟达和 NCCL 为 MRFT 网络开发的现有优化技术)、成本效益、流量隔离、延迟降低、稳健性等,详见原论文。

DeepSeek 还对 MPFT 和 MRFT 进行了对比性的性能分析,结果见图 5 和 6 以及表 4。

image.png

image.png

image.png

基于此,他们得到了一些关键发现,包括多平面网络的 all-to-all 性能与单平面多轨网络非常相似;在 2048 块 GPU 上训练 V3 模型时,MPFT 的性能与 MRFT 的性能几乎相同。

低延迟网络

在 DeepSeek 的模型推理中,大规模 EP 严重依赖于 all-to-all 通信,而这种通信对带宽和延迟都非常敏感。举一个典型场景的例子,在 50GB/s 的网络带宽下,理想情况下数据传输大约需要 120 𝜇s。因此,微秒级的固有网络延迟会对系统性能产生严重影响,其影响不容忽视。

那么,DeepSeek 是怎么做的呢?

首先分析一下 IB 或 RoCE。如表 5 所示,IB 始终能保持较低的延迟,这使得使其成为了分布式训练和推理等延迟敏感型工作负载的首选。尽管 IB 的延迟性能优于基于融合以太网的 RDMA (RoCE),但它也存在一些局限性,包括成本和扩展性方面的问题。

image.png

虽然 RoCE 有可能成为 IB 的经济高效的替代方案,但其目前在延迟和可扩展性方面的限制使其无法完全满足大规模 AI 系统的需求。DeepSeek 也给出了一些改进 RoCE 的具体建议,包括使用专用低延迟 RoCE 交换机、优化路由策略、改进流量隔离或拥塞控制机制。

为降低网络通信延迟,DeepSeek 使用了 InfiniBand GPUDirect Async (IBGDA)。

传统上,网络通信涉及创建 CPU 代理(proxy)线程:GPU 准备好数据后,必须通知 CPU 代理,然后 CPU 代理填充工作请求 (WR) 的控制信息,并通过门铃机制向 NIC) 发出信号,以启动数据传输。此过程会带来额外的通信开销。

IBGDA 是如何解决此问题的?实际上,它的做法是允许 GPU 直接填充 WR 内容并写入 RDMA 门铃 MMIO 地址。

通过在 GPU 内部管理整个控制平面,IBGDA 消除了与 GPU-CPU 通信相关的显著延迟开销。此外,在发送大量小数据包时,控制平面处理器很容易成为瓶颈。由于 GPU 具有多个并行线程,发送方可以利用这些线程来分配工作负载,从而避免此类瓶颈。包括 DeepSeek 的 DeepEP 在内的一系列工作都利用了 IBGDA,并报告使用它取得了显著的性能提升 。因此,DeepSeek 提倡在各种加速器设备上广泛支持此类功能。

未来硬件架构设计的讨论与见解 

 前面在具体的应用场景(application contexts)中指出了硬件局限性,并提供了相应的建议。在此基础上,接下来将讨论扩展到更广泛的考量,并为未来的硬件架构设计提出前瞻性方向:

  • 鲁棒性挑战: 如何通过更先进的错误检测与纠正机制,应对硬件故障和静默数据损坏,构建永不停歇的 AI 基础设施。
  • CPU 瓶颈与互联限制: 如何优化 CPU 与加速器之间的协同,特别是突破 PCIe 等传统接口的限制,实现高速、无瓶颈的节点内部通信。
  • 面向 AI 的智能网络: 如何打造具备低延迟和智能感知能力的网络,通过光互联、无损机制、自适应路由等技术,应对复杂的通信需求。
  • 内存语义通信与排序: 如何解决当前内存语义通信中的数据一致性与排序挑战,探索硬件层面的内建保证,提升通信效率。
  • 网络中计算与压缩: 如何将计算和压缩能力下沉到网络中,特别是针对 EP 等特定负载,释放网络带宽潜力。
  • 以内存为中心的架构创新: 如何应对模型规模指数级增长带来的内存带宽危机,探索 DRAM 堆叠、晶圆级集成等前沿技术。

鲁棒性挑战(Robustness Challenges) 

现有限制

  • 互连故障(Interconnect Failures):  高性能互联(如 IB 和 NVLink)易在实际部署中出现间歇性连接中断,影响节点间通信。尤其在通信密集型负载(例如 EP)中,即使短暂中断亦可导致显著性能下降,甚至任务失败。 
  • 单点硬件故障(Single Hardware Failures):   节点宕机、GPU 故障或 ECC(错误更正码)内存出错等单点硬件故障,可能影响长时间运行的训练任务,常需高昂重启。大规模部署中,这类单点故障概率随系统规模扩大显著上升。 
  • 静默数据损坏(Silent Data Corruption):   例如多位内存翻转或计算精度误差等绕过 ECC 检测机制的错误,可能导致模型质量受损。这类错误尤为隐蔽,易在长时间运行任务中累积传播并污染下游计算(downstream computations)。目前多数应用层启发式缓解策略(mitigation strategies)难以实现系统级全面鲁棒保障。 

面向高级错误检测与纠正的建议

为缓解静默损坏风险,硬件应集成超越传统 ECC 的高级错误检测机制,如基于校验和验证、硬件加速冗余校验,以提升大规模部署可靠性。

此外,厂商应提供全面诊断工具包,使用户能精确验证系统完整性,主动预警潜在静默损坏。将工具包作为标准硬件配置部署,可促进全生命周期持续验证和透明度,增强系统整体可信度。

CPU 瓶颈与互联网络限制

尽管加速器(accelerator)设计常为系统优化核心,但 CPU 在协调计算任务、管理 I/O 和维持整体系统吞吐方面仍扮演关键角色。然而,当前硬件架构存在若干关键瓶颈:

首先,如前所述,CPU 与 GPU 间的 PCIe 接口在大规模参数、梯度或 KV 缓存(KV cache)传输中常成带宽瓶颈。为缓解此问题,未来系统应引入 CPU–GPU 直连互联方案(例如 NVLink 或 Infinity Fabric),或将 CPU 与 GPU 集成于 scale-up domain,消除节点内部数据传输瓶颈。

除 PCIe 限制外,维持如此高数据传输速率需极高内存带宽。例如,要充分利用 160 通道 PCIe 5.0 接口,每节点需超过 640 GB/s 数据传输能力,这意味约 1 TB/s 每节点内存带宽,对传统 DRAM 架构是一大挑战。

最后,对延迟敏感任务(诸如 kernel launch、网络处理)需高单核 CPU 性能,通常基础主频需达 4 GHz 以上。此外,现代 AI 工作负载要求每 GPU 配备足够 CPU 核心,避免控制侧瓶颈。对于基于芯粒(chiplet)的架构,还需额外 CPU 核心支持实现面向缓存的负载划分与隔离策略(cache-aware workload partitioning and isolation)。

面向 AI 的智能网络架构

为了应对延迟敏感型工作负载的需求,未来的互联网络需同时具备「低延迟」与「智能感知」的能力,具体可从以下几个方向探索:

封装内光互联(Co-Packaged Optics):通过集成硅光子(silicon photonics)技术,能够实现可扩展的高带宽互联,并显著提升能效,这对于构建大规模分布式 AI 系统至关重要。

无损网络(Lossless Network):基于信用的流控机制(Credit-Based Flow Control, CBFC)可实现无损数据传输,但若采用基础策略触发流控,可能引发严重的队首阻塞(head-of-line blocking)。因此,必须部署更先进的端侧驱动拥塞控制算法(congestion control, CC),以主动调节注入速率,避免网络拥塞恶化为系统性瓶颈。

自适应路由(Adaptive Routing):如前所述,未来网络应标准化采用动态路由机制,如数据包喷洒(packet spraying)与拥塞感知路径选择策略(congestion-aware path selection)。这些策略可持续感知当前网络状态并智能调度通信流,有效缓解网络热点,特别是在 all-to-all 与 reduce-scatter 等集合通信操作中,对缓解通信瓶颈效果显著。

高效的容错协议(Efficient Fault-Tolerant Protocols):通过自愈协议、自适应端口冗余和快速故障转移机制,可显著提升系统在故障情境下的鲁棒性。例如,链路级重试机制(link-layer retry)和选择性重传协议(selective retransmission protocols)是提升大规模网络可靠性、减少停机时间的关键组件,能够在面对间歇性故障时确保系统无缝运行。

动态资源管理(Dynamic Resource Management):为更高效地处理混合型工作负载,未来硬件需支持动态带宽调度与流量优先级控制。例如,统一的多任务集群中应将推理任务与训练通信隔离调度,以确保延迟敏感型应用的响应能力。

内存语义通信与内存排序问题的探讨

基于加载 / 存储语义(load/store memory semantics)进行节点间通信,具有高效且对程序员友好的优势。

但当前实现方案普遍受限于内存排序一致性问题。例如,发送端通常需要在写入数据后,执行显式的内存屏障操作(memory fence),再更新标志位以通知接收端,从而确保数据一致性。

这种强排序要求引入了额外的往返延迟(round-trip time, RTT),可能阻塞发出线程,影响写操作重叠能力,最终降低吞吐率。

类似的乱序同步问题,在基于消息语义的远程直接内存访问(Remote Direct Memory Access, RDMA)中同样存在。例如,在 InfiniBand 或 NVIDIA BlueField-3 上,若在常规 RDMA 写操作之后再执行采用数据包喷洒(packet spraying)的 RDMA 原子加(atomic add)操作,也会引入额外的 RTT 开销。

为应对上述挑战,DeepSeek 团队主张从硬件层面引入内建排序保证,以强化内存语义通信中的数据一致性。这种一致性应同时在编程接口层(如 acquire/release 语义)和接收端硬件层实施,从而实现无需额外开销的有序数据交付。

可行路径包括:在接收端缓存原子消息,并通过数据包序号实现顺序处理;但相比之下,基于 acquire/release 的机制更加优雅且具效率优势。

DeepSeek 团队提出一种简单的概念机制 —— 区域获取 / 释放机制(Region Acquire/Release Mechanism, RAR):在该方案中,接收端硬件维护一个用于跟踪内存区域状态的位图,获取与释放操作基于 RAR 地址范围生效。

该机制延伸了最小位图开销下的高效排序保障,由硬件强制执行排序逻辑,完全摆脱发送端对显式屏障指令的依赖,理想情况下实现于网络接口卡(NIC)或 I/O 芯片上。

值得强调的是,RAR 机制不仅适用于基于内存语义的通信场景,也可覆盖基于消息语义的 RDMA 操作,具有广泛的实际适用性。

网络中计算与压缩机制

EP(Expert Parallelism)任务涉及两个关键的全对全通信阶段:分发(dispatch)与合并(combine),它们构成网络级优化的重要着力点。

分发阶段类似于小规模的多播(multicast)操作,需要将一条消息转发至多个目标设备。若在硬件协议层支持自动包复制与多目标转发,将大幅减少通信开销,提升总体效率。

合并阶段则近似于小规模规约(reduction)操作,可通过网络中的聚合机制实现场内计算(in-network aggregation)。然而,由于 EP 合并操作通常规约范围有限、负载不均,实现灵活、高效的网络内规约尚具挑战性。

此外,如前所指出,LogFMT 可在基本不影响模型性能的前提下实现低精度 token 传输。若将 LogFMT 原生集成进网络硬件,可通过提升信息熵密度(entropy density)降低带宽消耗,进一步优化通信性能。依托硬件加速的压缩 / 解压模块,LogFMT 可无缝融入分布式系统,从而显著提升整体吞吐能力。

以内存为中心的架构创新

内存带宽的限制

近年来模型规模呈指数级增长,远超高带宽存储器(High-Bandwidth Memory, HBM)技术的发展速度。这种增长差距使得「内存瓶颈」问题愈发突出,尤其在像 Transformer 这类注意力机制密集的模型结构中尤为严重。

架构性建议

DRAM 堆叠加速器(DRAM-Stacked Accelerators):通过 3D 封装技术,可将 DRAM 芯片垂直集成于逻辑底片之上,从而获得极高的内存带宽、超低访问延迟以及现实可用的内存容量(受堆叠层数限制)。该架构模型在追求极速推理的专家混合模型(Mixture-of-Experts, MoE)中尤显优势,因其对内存吞吐极度敏感。如 SeDRAM 等架构即展示了此方法在内存受限工作负载中的颠覆式性能潜力。

晶圆级集成系统(System-on-Wafer, SoW):晶圆级集成(wafer-scale integration)可最大化计算密度与内存带宽,是应对超大规模模型所需带宽密度的可行途径。

....

#美或强制植入「地理追踪」,锁定英伟达高端GPU

5090将被秘密定位?

小心,5090要装定位了?美参议员12页法案,强制要求英伟达、AMD高端GPU和AI芯片植入「地理追踪」功能。法案若通过,6个月后生效。

最近,美参议员Tom Cotton提出了一项新法案——

要为英伟达、AMD等高端GPU装上「地理追踪」功能,防止落入竞争国家手中。

此举,不仅针对的是AI芯片,还涵盖了高性能游戏显卡等硬件。

若是法案通过,这些措施将在6个月后生效。

高端GPU植入定位

根据法案内容,一些生产高性能AI处理器和显卡的厂商,比如英伟达、英特尔、AMD,必须在产品中嵌入「地理追踪」技术。

这么做的目的不言而喻,实时监控硬件的物理位置。

文件地址:https://www.cotton.senate.gov/imo/media/doc/chips.pdf

尽管「地理追踪」技术尚未广泛使用,但实际上验证芯片位置的技术已经存在。

路透称,出于安全目的,谷歌在其内部AI芯片以及数据中心芯片中,植入了定位功能。

方案的出口管制分类号(ECCNs),覆盖了3A090、4A090、4A003.z、3A001.z多种产品,具体包括:

  • AI处理器
  • AI服务器(包括机架级解决方案)
  • 高性能计算(HPC)服务器
  • 高端显卡
  • 存在潜在军事或双重用途风险的产品

值得注意的是,许多高端显卡,比如英伟达RTX 4090和RTX 5090,也被归类为3A090,因此此类附加板卡也需增加「地理追踪」功能。

法案的核心目标是,确保这些「战略硬件」不被未经授权的外国实体使用。

另外,商务部长还将获得权限,验证硬件的地理位置和最终用户,并建立一个集中式注册系统,记录所有受管制芯片的当前位置和使用情况。

芯片厂噩梦?

对于芯片制造商来说,这项法案无疑是一场技术与合规的「噩梦」。

在AI硬件中加入「地理追踪」功能,并非易事,尤其是对于已设计完成的高端处理器和显卡。

在短短6个月内,英伟达、AMD等要调整生产流程,增加硬件/固件层面的追踪机制,将显著增加其研发成本和时间。

不仅如此,这些出口芯片厂商还要承担更多的责任,有义务持续追踪产品出口后的位置和使用情况。

若是发现硬件被转移到未经授权的目的地,必须立即向工业与安全局(BIS)报告。

此外,任何篡改或操控的迹象,也需立即上报。

英伟达已公开表示,它无法在硬件售出后进行追踪,并否认了关于芯片走私泛滥的担忧。

这些要求不仅提高了芯片厂运营负担,还可能因技术实施复杂性,而影响了产品的市场竞争力。

自2022年以来,白宫一直对中国出口先进芯片实施了严格限制,目标直指AI和高性能计算领域,使用的尖端处理器。

无论是拜登,还是特朗普政府,这一政策都未曾松动,反而不断加码。

此前,新一轮出口管制不仅延续了之前的禁令,还将AMD MI308、英伟达H20纳入了管制清单。

这一突如其来的政策,让两家公司措手不及。据估算,AMD因此损失了约8亿美金潜在收入,而英伟达更是损失高达55亿美元。

更多限制

法案不止于当前「地理追踪」要求,还为未来监管升级铺平了道路。

在未来,不仅要进行联合研究,还需要进行年度评估。

若是这项12页的法案,获得了议员的支持,商务部与国防部还需在一年后开展为期一年的联合研究,探索额外的保护措施。

除初步研究外,这两个部门还需在法案通过后的连续三年内每年进行评估。

这些审查必须评估适用于出口管制产品的最新安全技术进展。然而,根据这些评估,部门可能决定是否实施新要求。

如果评估认为需要额外机制,商务部必须在两年内制定相关规则,并提交详细的实施路线图。

值得注意的是,法案强调了在开发和部署这些技术时,必须保护敏感的商业机密和知识产权。

比如,英伟达、AMD、英特尔的新技术,在设计追踪功能时不会被泄露。

参考资料:

​https://www.tomshardware.com/pc-components/gpus/u-s-inks-bill-to-force-geo-tracking-tech-for-gpus-and-servers-high-end-gaming-gpus-also-subject-to-tracking  ​

​https://www.cotton.senate.gov/news/press-releases/cotton-introduces-bill-to-prevent-diversion-of-advanced-chips-to-americas-adversaries-and-protect-us-product-integrity​​​

....

#Better、Faster、Stronger!

VLM 2025

Vision Language Models (Better, Faster, Stronger) https://huggingface.co/blog/vlms-2025

动机

视觉语言模型(VLMs)是当前的热门话题。在2024年4月的一篇博客文章中,我们曾详细介绍过VLMs。其中大部分内容涉及LLaVA,这是第一个成功且易于复现的开源视觉语言模型,我们还介绍了如何发现、评估和微调开源模型的方法。

从那时起,一切都发生了巨大的变化。模型变得更小,但功能更强大。我们见证了新的架构和能力的兴起(如推理、代理、长视频理解等)。与此同时,全新的范式,如多模态检索增强生成(RAG)和多模态代理,也逐渐形成。

在这篇博客文章中,我们将回顾过去一年中视觉语言模型的发展历程,剖析其中的关键变化、新兴趋势和显著进展。

目录

  • 新模型趋势
  • 任意模态模型
  • 推理模型
  • 小巧但功能强大的模型
  • 专家混合解码器
  • 视觉-语言-行动模型
  • 特殊能力
  • 视觉语言模型中的目标检测、分割和计数
  • 多模态安全模型
  • 多模态RAG:检索器和重排器
  • 多模态代理
  • 视频语言模型
  • 视觉语言模型的新对齐技术
  • 新基准测试
  • MMT-Bench
  • MMMU-Pro

新模型趋势

在本节中,我们将探讨新型的VLMs。其中一些是全新的,而另一些则是对先前研究的改进版本。

任意模态模型

顾名思义,任意模态模型能够接受任何模态的输入,并输出任何模态(图像、文本、音频)。它们通过模态对齐来实现这一点,即一种模态的输入可以被翻译成另一种模态(例如,“dog”这个词会与狗的图像或“dog”这个词的发音相关联)。

这些模型拥有多个编码器(每个模态一个),然后将嵌入向量融合在一起,创建一个共享的表示空间。解码器(多个或单个)以共享潜在空间作为输入,并解码成所选的模态。最早尝试构建任意模态模型的是Meta的Chameleon,它可以接受图像和文本输入,并输出图像和文本。然而,Meta并未在该模型中发布图像生成功能,因此Alpha-VLLM发布了基于Chameleon的Lumina-mGPT,增加了图像生成功能。

最新且功能最强大的任意模态模型是Qwen 2.5 Omni(见下图),它是理解任意模态模型架构的一个很好的例子。

Qwen2.5-Omni采用了一种新颖的“思考者-说话者”架构,其中“思考者”负责文本生成,而“说话者”则以流式方式产生自然语音响应。MiniCPM-o 2.6是一个拥有80亿参数的多模态模型,能够理解并生成视觉、语音和语言模态的内容。DeepSeek AI推出的Janus-Pro-7B是一个统一的多模态模型,在跨模态的理解和生成方面表现出色。它采用了分离的视觉编码架构,将理解过程与生成过程分开。

我们预计未来几年这类模型的数量将会增加。众所周知,多模态学习是学习深度表示的唯一途径。我们已经整理了一些任意模态模型及其演示,收录在这个合集中。​

推理模型

推理模型能够解决复杂的问题。我们最初在大型语言模型中看到了它们,如今视觉语言模型也具备了这种能力。直到2025年,唯一一个开源的多模态推理模型是Qwen的QVQ-72B-preview。这是一个由阿里巴巴Qwen团队开发的实验性模型,并且附带了许多免责声明。

今年,又出现了一个新的参与者,即Moonshot AI团队的Kimi-VL-A3B-Thinking。它由MoonViT(SigLIP-so-400M)作为图像编码器,以及一个拥有160亿总参数、仅28亿活跃参数的专家混合(MoE)解码器组成。该模型是Kimi-VL基础视觉语言模型的长链推理微调版本,并进一步通过强化学习进行了对齐。作者还发布了一个指令微调版本,名为Kimi-VL-A3B-Instruct。

该模型可以接受长视频、PDF文件、屏幕截图等输入,并且还具备代理能力。​

小巧但功能强大的模型

过去,社区通过增加模型参数数量和高质量合成数据来提升智能水平。然而,在某个临界点之后,基准测试趋于饱和,继续扩大模型规模的收益逐渐减少。于是,社区开始通过各种方法(如知识蒸馏)来缩小大型模型的规模。这很有意义,因为这样可以降低计算成本,简化部署过程,并解锁诸如本地执行等用例,从而增强数据隐私。

当我们提到小型视觉语言模型时,通常指的是参数少于20亿、可以在消费级GPU上运行的模型。SmolVLM是一个小型视觉语言模型家族的典型代表。它没有通过缩小大型模型来实现,而是直接尝试将模型参数数量控制在极低水平,如2.56亿、5亿和22亿。例如,SmolVLM2试图在这些规模下解决视频理解问题,并发现5亿参数是一个很好的折中方案。在Hugging Face,我们开发了一款名为HuggingSnap的iPhone应用程序,以证明这些规模的模型可以在消费级设备上实现视频理解。

另一个引人注目的模型是谷歌DeepMind的gemma3-1b-it。它特别令人兴奋,因为它是目前最小的多模态模型之一,拥有32k的上下文窗口,并支持140多种语言。该模型属于Gemma 3模型家族,其中最大的模型在Chatbot Arena上排名第一。随后,该大型模型被蒸馏为一个10亿参数的变体。

最后,虽然不是最小的模型,但Qwen2.5-VL-3B-Instruct也值得关注。该模型可以执行多种任务,包括定位(目标检测和指向)、文档理解以及代理任务,上下文长度可达32k个标记。

您可以通过MLX和Llama.cpp集成来使用小型模型。对于MLX,假设您已经安装了它,您可以通过以下一行代码开始使用SmolVLM-500M-Instruct:

python3 -m mlx_vlm.generate --model HuggingfaceTB/SmolVLM-500M-Instruct --max-tokens 400 --temp 0.0 --image https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/vlm_example.jpg --prompt "What is in this image?"

您可以通过以下一行代码,使用GGUF格式的gemma-3-4b-it模型,通过CLI和Llama.cpp开始使用:

llama-mtmd-cli -hf ggml-org/gemma-3-4b-it-GGUF

您还可以通过以下命令将同一模型作为服务运行:

llama-server -hf ggml-org/gemma-3-4b-it-GGUF

专家混合解码器

专家混合(MoEs)模型为密集架构提供了一种替代方案,通过动态选择并激活与给定输入数据片段最相关的子模型(称为“专家”)来处理数据。这种选择性激活机制(由路由器完成)已被证明能够在利用较少计算资源的同时显著提升模型性能和运行效率。

与参数密集的同类模型相比,MoEs在推理时速度更快,因为它们只激活网络中的一小部分。它们在训练时也能快速收敛。然而,天下没有免费的午餐,MoEs需要更高的内存成本,因为整个模型都存储在GPU上,即使只使用其中的一小部分。

在广泛采用的Transformer架构中,MoE层通常是通过替换每个Transformer块中的标准前馈网络(FFN)层来集成的。密集网络在推理时会使用整个模型,而同样大小的MoE网络则会选择性地激活一些专家。这有助于更好地利用计算资源并加快推理速度。

配备专家混合解码器的视觉语言模型似乎具有增强的性能。例如,Kimi-VL目前是最先进的开源推理模型,它采用了专家混合解码器。专家混合在MoE-LLaVA的效率提升和幻觉减少以及DeepSeek-VL2的广泛多模态能力方面也显示出令人鼓舞的结果。最新版本的Llama(Llama 4)是一个具有视觉能力的MoE。专家混合作为解码器是一个有前景的研究领域,我们预计这类模型的数量将会增加。​

视觉-语言-行动模型

VLMs甚至在机器人领域也取得了进展!在那里,它们被称为视觉-语言-行动模型(VLA)。但不要被名字迷惑,这些主要是带有小胡子和帽子的VLMs。VLAs接受图像和文本指令作为输入,并返回指示机器人直接采取行动的文本。VLAs通过添加行动和状态标记扩展了视觉语言模型,以与物理环境进行交互和控制。这些额外的标记代表了系统的内部状态(它如何感知环境)、行动(根据命令采取的行动)以及与时间相关的信息(例如任务中步骤的顺序)。这些标记被附加到视觉语言输入中,以生成行动或策略。

VLAs通常是在基础VLM之上进行微调的。有些人进一步扩展了这一定义,将VLAs定义为任何与现实或数字世界进行视觉交互的模型。在这个定义下,VLAs可以用于UI导航或代理工作流程。但许多人认为这些应用属于VLM领域。

π0和π0-FAST是Physical Intelligence推出的首批机器人基础模型,已移植到Hugging Face的LeRobot库中。这些模型在7个机器人平台上针对68项独特任务进行了训练。它们在复杂的真实世界活动中表现出强大的零样本和微调性能,例如洗衣折叠、餐桌清理、杂货装袋、盒子组装和物体检索。

GR00T N1是NVIDIA的开源VLA基础模型,用于通用人形机器人。它能够理解图像和语言,并将其转化为行动,例如移动手臂或遵循指令,这得益于一个将智能推理与实时运动控制相结合的系统。GR00T N1也基于LeRobot数据集格式构建,这是一种简化机器人演示共享和训练的开放标准。

现在我们已经了解了最新的VLM模型创新,接下来让我们探索一些更成熟的能力是如何发展的。

特殊能力视觉语言模型中的目标检测、分割和计数

正如我们在前面的部分中所看到的,VLMs能够在传统计算机视觉任务上实现泛化。如今,模型可以接受图像和各种提示(如开放式文本),并输出带有定位标记的结构化文本(用于检测、分割等)。

去年,PaliGemma是首个尝试解决这些任务的模型。该模型接受图像和文本输入,其中文本是对感兴趣对象的描述,以及一个任务前缀。文本提示看起来像“segment striped cat”(分割条纹猫)或“detect bird on the roof”(检测屋顶上的鸟)。

对于检测任务,模型以标记的形式输出边界框坐标。而对于分割任务,模型则输出检测标记和分割标记。这些分割标记并不是所有分割像素的坐标,而是由变分自编码器解码的码本索引,该自编码器被训练用来将这些标记解码为有效的分割掩码(如下图所示)。

在PaliGemma之后,许多模型被引入用于执行定位任务。去年年底,PaliGemma的一个升级版本PaliGemma 2出现了,它具有相同的能力,但性能更好。另一个后来出现的模型是Allen AI的Molmo,它可以使用点来指向实例并计数对象实例。

Qwen2.5-VL也能够检测、指向和计数对象,这包括将UI元素作为对象进行处理!​

多模态安全模型

在生产环境中使用视觉语言模型时,需要对输入和输出进行过滤,以防止越狱和有害输出,以确保合规性。有害内容从包含暴力的输入到性相关内容不等。这就是多模态安全模型的用武之地:它们在视觉语言模型之前和之后使用,以过滤其输入和输出。它们就像LLM安全模型一样,但增加了图像输入。

2025年初,谷歌推出了首个开源多模态安全模型ShieldGemma 2。它基于文本安全模型ShieldGemma构建。该模型接受图像和内容策略作为输入,并返回图像是否符合给定策略的安全性判断。策略是指图像不适当的标准。ShieldGemma 2还可以用于过滤图像生成模型的输出。

Meta的Llama Guard 4是一个密集的多模态和多语言安全模型。它是从Llama 4 Scout(一个多模态专家混合模型)密集修剪而来,并进行了安全微调。

该模型可用于纯文本和多模态推理。该模型还可以接受视觉语言模型的输出、完整的对话内容,并在将它们发送给用户之前对其进行过滤。​

多模态RAG:检索器和重排器

现在让我们看看检索增强生成(RAG)在多模态领域是如何发展的。对于复杂的文档(通常以PDF格式呈现),RAG的处理过程通常分为三个步骤:

  1. 将文档完全解析为文本
  2. 将纯文本和查询传递给检索器和重排器,以获取最相关的文档
  3. 将相关上下文和查询传递给LLM

传统的PDF解析器由多个元素组成,以保留文档中的结构和视觉元素,如布局、表格、图像、图表等,所有这些元素都被渲染成Markdown格式。但这种设置很难维护。

随着视觉语言模型的兴起,这个问题得到了解决:现在有了多模态检索器和重排器。

多模态检索器接受一堆PDF文件和一个查询作为输入,并返回最相关的页面编号及其置信度分数。这些分数表示页面包含查询答案的可能性,或者查询与页面的相关性。这绕过了脆弱的解析步骤。

然后将最相关的页面与查询一起输入视觉语言模型,VLM生成答案。

主要有两种多模态检索器架构

  1. 文档截图嵌入(DSE,MCDSE)
  2. ColBERT类模型(ColPali、ColQwen2、ColSmolVLM)

DSE模型由一个文本编码器和一个图像编码器组成,每个查询返回一个向量。返回的分数是嵌入向量点积的softmax。它们为每个段落返回一个向量。

ColBERT类模型,如ColPali,也是双编码器模型,但有一个特点:ColPali使用视觉语言模型作为图像编码器,使用大型语言模型作为文本编码器。这些模型本质上不是编码器,但它们输出嵌入向量,然后传递给“MaxSim”。与DSE不同,这些模型的输出是每个标记的一个向量,而不是一个单一向量。在MaxSim中,计算每个文本标记嵌入向量与每个图像块嵌入向量之间的相似度,这种方法能够更好地捕捉细微差别。正因为如此,ColBERT类模型的计算成本更高,但性能更好。

以下是ColPali的索引延迟情况。由于它只是一个单一模型,因此也更容易维护。

在Hugging Face Hub上,您可以在“视觉文档检索”任务下找到这些模型。

该任务最受欢迎的基准测试是ViDoRe,它包含英文和法文的文档,文档类型从财务报告、科学图表到行政文件不等。ViDoRe中的每个示例都包含文档图像、查询和可能的答案。文档与查询的匹配有助于对比预训练,因此ViDoRe训练集被用于训练新模型。

多模态代理

视觉语言模型为从与文档聊天到计算机使用等多种代理工作流程提供了可能。这里我们将重点介绍后者,因为它需要更高级的代理能力。最近,许多视觉语言模型发布,它们能够理解和操作用户界面(UI)。其中最新的是ByteDance的UI-TARS-1.5,它在浏览器、计算机和手机操作方面取得了出色的结果。它还可以进行推理游戏,并在开放世界游戏中运行。今年的另一个重要发布是MAGMA-8B,它是一个用于UI导航和与现实世界进行物理交互的基础模型。此外,Qwen2.5-VL(尤其是其32B变体,因为它在代理任务上进行了进一步训练)和Kimi-VL推理模型在GUI代理任务上表现出色。

2025年初,我们推出了smolagents,这是一个新的轻量级代理库,实现了ReAct框架。不久之后,我们为该库增加了视觉语言支持。这种集成发生在两个用例中:

  • 在运行开始时一次性提供图像。这对于带有工具使用的文档AI很有用。
  • 动态检索图像。这对于需要VLM代理进行GUI控制的情况很有用,因为代理需要反复截取屏幕截图。

该库为用户提供构建自己的图像理解代理工作流程的构建块。我们提供了不同的脚本和单行CLI命令,以便用户轻松开始。

对于第一种情况,假设我们希望一个代理描述文档(这并不太具有代理性,但对于最小化用例来说还不错)。您可以像下面这样初始化CodeAgent(一个可以自己编写代码的代理):

agent = CodeAgent(tools=[], model=model) # 不需要工具
agent.run("Describe these documents:", images=[document_1, document_2, document_3])

对于第二种情况,我们需要一个代理来获取屏幕截图,我们可以定义一个回调函数,在每个ActionStep结束时执行。对于您自己的需要动态获取图像的用例,您可以根据需要修改回调函数。为了简单起见,这里我们不详细定义它。您可以选择阅读博客文章和博客文章末尾的脚本。现在,让我们看看如何初始化带有回调和浏览器控制步骤的代理。

def save_screenshot(memory_step: ActionStep, agent: CodeAgent) -> None:
    """
    截取屏幕截图并写入观察结果。
"""
  png_bytes = driver.get_screenshot_as_png()
        memory_step.observations_images = [image.copy()]  # 将图像持久化到memory_step
    url_info = f"当前网址:{driver.current_url}"
    memory_step.observations = (
        url_info if memory_step.observations is None else memory_step.observations + "\n" + url_info
    )
    return

agent = CodeAgent(
    tools=[go_back, close_popups, search_item_ctrl_f], # 传递导航工具
    model=model,
    additional_authorized_imports=["helium"],
    step_callbacks=[save_screenshot], # 传递回调
)

您可以通过运行以下CLI命令来尝试整个示例。它启动一个代理,该代理通过视觉语言模型控制网络浏览器,以完成网络自动化任务(请替换为您想要导航的网站)。

webagent "前往 xyz.com/men,进入销售部分,点击您看到的第一件服装。获取产品详情和价格,并返回它们。注意,我正在从法国购物"

smolagents提供了不同类型的模型,例如本地Transformer模型、使用推理提供商托管的开源模型,或闭源模型提供商的端点。我们鼓励使用开源模型,因为许多代理工作流程目前需要推理,这从拥有大量参数的模型中受益。截至2025年4月,Qwen 2.5 VL是一个适合代理工作流程的候选模型,因为该模型在代理任务上进行了进一步训练。

视频语言模型

如今,大多数视觉语言模型都能够处理视频,因为视频可以表示为一系列帧。然而,视频理解是棘手的,因为帧之间存在时间关系,而且帧的数量通常很多,因此需要使用不同的技术来选择一组具有代表性的视频帧。

从去年开始,社区一直在权衡不同的方法和技巧来解决这个问题。

一个很好的例子是Meta的LongVU模型。它通过将视频帧传递给DINOv2来降低采样率,以选择最相似的帧并将其去除,然后模型进一步通过根据文本查询选择最相关的帧来细化帧,其中文本和帧都被投影到同一个空间,并计算相似度。Qwen2.5VL能够处理长上下文,并适应动态帧率,因为该模型是用不同帧率的视频进行训练的。通过扩展的多模态RoPE,它能够理解帧的绝对时间位置,并且可以处理不同的速率,同时仍然能够理解现实生活中事件的速度。另一个模型是Gemma 3,它可以接受在文本提示中交错的时间戳和视频帧,例如“Frame 00.00: ..”,并且在视频理解任务中表现非常出色。

视觉语言模型的新对齐技术

偏好优化是一种替代的语言模型微调方法,也可以扩展到视觉语言模型。这种方法不依赖于固定的标签,而是专注于根据偏好比较和排名候选响应。trl库提供了对直接偏好优化(DPO)的支持,包括对VLMs的支持。

以下是VLM微调的DPO偏好数据集的结构示例。每个条目由一个图像+问题对以及两个对应的答案组成:一个被选中的答案和一个被拒绝的答案。VLM被微调以生成与首选(被选中)答案一致的响应。

RLAIF-V是一个用于此过程的示例数据集,它包含超过83000个按照上述结构标注的样本。每个条目包括一个图像列表(通常是一个图像)、一个提示、一个被选中的答案和一个被拒绝的答案,正如DPOTrainer所期望的那样。

这里有一个已经按照相应格式格式化的RLAIF-V格式数据集。以下是单个样本的示例:

{'images': [<PIL.JpegImagePlugin.JpegImageFile image mode=L size=980x812 at 0x154505570>],
 'prompt': [ { "content": [ { "text": null, "type": "image" }, { "text": "What should this catcher be using?", "type": "text" } ], "role": "user" } ],
 'rejected': [ { "content": [ { "text": "The catcher, identified by the number...", "type": "text" } ], "role": "assistant" } ],
 'chosen': [ { "content": [ { "text": "The catcher in the image should be using a baseball glove...", "type": "text" } ], "role": "assistant" } ]}

准备好数据集后,您可以使用trl库中的_DPOConfig_和_DPOTrainer_类来配置并启动微调过程。

以下是使用_DPOConfig_的示例配置:

from trl import DPOConfig

training_args = DPOConfig(
    output_dir="smolvlm-instruct-trl-dpo-rlaif-v",
    bf16=True,
    gradient_checkpointing=True,
    per_device_train_batch_size=1,
    per_device_eval_batch_size=1,
    gradient_accumulation_steps=32,
    num_train_epochs=5,
    dataset_num_proc=8,  # tokenization will use 8 processes
    dataloader_num_workers=8,  # data loading will use 8 workers
    logging_steps=10,
    report_to="tensorboard",
    push_to_hub=True,
    save_strategy="steps",
    save_steps=10,
    save_total_limit=1,
    eval_steps=10,  # Steps interval for evaluation
    eval_strategy="steps",
)

要使用_DPOTrainer_训练您的模型,您可以选择提供一个参考模型来计算奖励差异。如果您使用的是参数高效微调(PEFT),则可以通过设置_ref_model=None_来省略参考模型。

from trl import DPOTrainer

trainer = DPOTrainer(
    model=model,
    ref_model=None,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=test_dataset,
    peft_cnotallow=peft_config,
    tokenizer=processor
)

trainer.train()

新基准测试

在过去的一年里,基准测试也发生了显著的变化。在我们之前的博客中,我们描述了MMMU和MMBench作为评估视觉语言模型的两个新兴基准测试。随着该领域的快速发展,模型在这些基准测试上已经趋于饱和,我们需要更好的评估工具。为了实现这一目标,我们需要能够评估特定能力的工具,而不仅仅是通用基准测试。

现在,我们重点介绍两个突出的通用基准测试:MMT-Bench和MMMU-Pro。​

MMT-Bench

MMT-Bench旨在评估VLMs在需要专业知识、精确视觉识别、定位、推理和规划的广泛多模态任务上的表现。该基准测试包括来自各种多模态场景的31325个多选视觉问题,涵盖图像、文本、视频和点云等多种模态。它包含32个不同的元任务和162个子任务,涵盖了OCR、视觉识别或视觉-语言检索等多种任务。​

MMMU-Pro

MMMU-Pro是原始MMMU基准测试的改进版本。它还评估先进AI模型在多种模态上的真实理解能力。

它比MMMU更复杂,例如,它有一个仅视觉输入的设置,并且候选选项的数量从4个增加到了10个。该基准测试还纳入了真实世界模拟,其仅视觉问题来源于在模拟显示屏内截取的屏幕截图或照片,具有不同的背景、字体样式和大小,以模拟真实世界条件。

....

#WebThinker开启AI搜索&研究新纪元

边思考、边搜索、边写作

李晓熙目前就读于中国人民大学高瓴人工智能学院,博士二年级,导师为窦志成教授,研究方向主要包括检索增强生成、大语言模型推理等。在国际顶级会议和期刊如 AAAI,SIGIR,TOIS 等发表多篇论文,代表工作包括 Search-o1, WebThinker, RetroLLM, GenIR-Survey, CorpusLM, UniGen 等。共同第一作者还包括人大高瓴博士生金佳杰和董冠廷。本文的通信作者为人大窦志成教授。

大型推理模型(如 OpenAI-o1、DeepSeek-R1)展现了强大的推理能力,但其静态知识限制了在复杂知识密集型任务及全面报告生成中的表现。为应对此挑战,深度研究智能体 WebThinker 赋予 LRM 在推理中自主搜索网络、导航网页及撰写报告的能力。WebThinker 集成了深度网页探索器,使 LRM 能自主搜索、导航并提取信息;自主思考 - 搜索 - 写作策略无缝融合推理、信息收集与实时报告写作;并结合强化学习训练优化工具调用。实验表明,WebThinker 在 GPQA、GAIA、WebWalkerQA、HLE 等复杂推理基准及 Glaive 研究报告生成任务中展现出强大性能,显著提升了 LRM 在复杂场景下的适用性与可靠性,为构建更强大、通用的深度研究系统奠定了坚实基础。

  • 论文标题: WebThinker: Empowering Large Reasoning Models with Deep Research Capability
  • 论文链接: https://arxiv.org/abs/2504.21776
  • 代码仓库: https://github.com/RUC-NLPIR/WebThinker

Demo

1. OpenAI 有哪些模型?它们有什么区别?

,时长01:29

2. 2025 年我能投稿哪些 AI 顶会?

,时长02:14

研究动机:赋予推理模型深度研究能力

大型推理模型如 OpenAI-o1 和 DeepSeek-R1 在数学、编程和科学等领域展现了卓越的推理能力。然而,当面对需要广泛获取实时网络信息的复杂任务时,这些仅依赖内部参数知识的模型往往力不从心。特别是在需要深度网络信息检索和生成全面、准确的科学报告时,这一局限性尤为明显。

WebThinker 应运而生,它是一个深度研究智能体,使 LRMs 能够在推理过程中自主搜索网络、导航网页,并撰写研究报告。这种技术的目标是革命性的:让用户通过简单的查询就能在互联网的海量信息中进行深度搜索、挖掘和整合,从而为知识密集型领域(如金融、科学、工程)的研究人员大幅降低信息收集的时间和成本。

推理中自主调用工具:摆脱传统预定义 RAG 工作流

现有的开源深度搜索智能体通常采用检索增强生成(Retrieval-Augmented Generation, RAG)技术,依循预定义的工作流程,这限制了 LRM 探索更深层次网页信息的能力,也阻碍了 LRM 与搜索引擎之间的紧密交互。

图片

WebThinker 突破了传统 RAG 工作流的限制,实现了范式的升级:

1. 传统 RAG: 仅进行浅层搜索,缺乏思考深度和连贯性

2. 进阶 RAG: 使用预定义工作流,包括查询拆解、多轮 RAG 等,但仍缺乏灵活性

3. WebThinker: 在连续深思考过程中自主调用工具,实现端到端任务执行

WebThinker 使 LRM 能够在单次生成中自主执行操作,无需遵循预设的工作流程,从而实现真正的端到端任务执行。

WebThinker 框架:自主的深度搜索与报告撰写

图片

WebThinker 框架包含两种主要运行模式:

1. 问题解决模式:赋予 LRM 深度网页探索器(Deep Web Explorer)功能,当遇到知识缺口时,LRM 可以自主发起网络搜索,通过点击链接或按钮导航网页,并在继续推理前提取相关信息。

2. 报告生成模式:实现自主思考 - 搜索 - 写作(Autonomous Think-Search-and-Draft)策略,将推理、信息搜索和报告撰写无缝整合。LRM 可以使用专门的工具来草拟、检查和编辑报告部分,确保最终报告全面、连贯且基于收集的证据。

整个过程是端到端的,LRM 可以在思考过程中自主搜索、深度探索网页和撰写研究报告,摆脱了传统预定义工作流的局限。

核心组件:

1. 深度网页探索:解决复杂推理问题

这一模块使 LRM 能够进行网络搜索和导航,深度收集、遍历和提取网页上的高质量信息:

1. 搜索能力:能够基于当前查询生成搜索意图,从搜索引擎获取初步结果

2. 导航能力:能够点击链接或按钮,深入探索初始搜索结果之外的内容

3. 信息提取:基于当前查询的搜索结果,LRM 可以发起后续搜索并遍历更深层次的链接,直到收集所有相关信息

2. 自主的思考 - 搜索 - 写作:生成完整的研究报告

该策略将报告撰写与 LRM 的推理和搜索过程深度整合:不同于在搜索后一次性生成整个报告,WebThinker 使模型能够实时撰写和寻求必要知识。具体来说,WebThinker 为 LRM 配备三种专门工具:(1)撰写特定章节内容;(2)检查当前报告已写内容;(3)编辑 / 修改报告。这些工具使 LRM 能够通过保持全面性、连贯性和对推理过程中新发现信息的适应性来自主增强报告质量

3. 基于强化学习的训练策略:全面提升 LRM 调用研究工具的能力

为了进一步释放 LRM 骨干模型的深度研究潜力,WebThinker 开发了基于强化学习的训练策略:

1. 利用配备工具的 LRM 从复杂任务中采样大规模推理轨迹

2. 根据推理的准确性、工具使用准确性、以及最终输出答案或报告的质量,构建在线直接偏好优化(DPO)训练的偏好对

3. 通过迭代、在线策略训练,模型逐步提高感知、推理和有效交互研究工具的能力

实验结果

图片

实验结果:真实世界的复杂推理任务

WebThinker 在四个知识密集型复杂推理基准上进行了评估:

1. GPQA:PhD 级别的科学问题回答数据集,覆盖物理、化学和生物学

2. GAIA:评估 AI 助手在复杂信息检索任务上的能力

3. WebWalkerQA:专注于深度网络信息检索,需要导航和提取信息

4. 人类最终考试(HLE):极具挑战性的跨学科问题数据集

图片

图片

从实验结果中可以发现:

1. 基础推理模型和传统 RAG 的局限:基础推理模型虽然在某些任务上表现不错,但在需要实时外部知识的场景中明显力不从心;传统 RAG 方法虽有改进,但在复杂任务中提升有限;

2. 自主搜索的优势:而引入自主搜索能力的模型则带来了显著提升。WebThinker 凭借其深度网页探索器,能够更全面地获取和整合网络信息,在所有基准测试中都取得了明显优势。

3. RL 训练的改进:特别是经过强化学习训练的 WebThinker-32B-RL 版本,不仅在同等参数量模型中达到了最佳表现,甚至在某些任务上超越了参数量更大的专有模型。

实验结果:科学研究报告生成

图片

在 Glaive 科学报告生成任务的评估中:

1. 生成报告的质量:从完整性、彻底性、事实性和连贯性四个维度评估,WebThinker 生成的研究报告均获得高分,整体表现优于传统 RAG 方法和其他先进的深度研究系统;

2. 生成报告的信息边界:特别在报告的完整性和彻底性方面表现尤为突出,通过 t-SNE 可视化分析可见,WebThinker 生成的报告内容覆盖更广,视角更多元,能够从多个维度深入探索和综合信息,为用户提供更全面、更深入的调研。

实验结果:适配 DeepSeek-R1 系列模型

图片

通过在不同规模的 DeepSeek-R1 模型上进行实验(7B, 14B, 32B),验证了 WebThinker 框架的适应性。在不同模型规模下,都能显著提升各类任务的性能,远超直接推理和标准 RAG 方法,展现了该框架在增强 LRM 深度研究能力方面的通用性和有效性。

实验结果:消融实验

图片

消融实验评估了 WebThinker 各关键组件的贡献。结果显示,深度网页探索器以及自主 「思考 - 搜索 - 写作」 策略中的报告生成组件(尤其是自主报告起草)是确保高性能问题解决和高质量报告生成的基石,其缺失会导致性能显著下降。强化学习训练则主要增强了问题解决能力,对报告生成的影响相对有限。

总结与未来展望

WebThinker 框架成功地赋予了大型推理模型深度研究能力,解决了它们在知识密集型真实世界任务中的局限性。通过深度网页探索器和自主思考 - 搜索 - 写作策略,WebThinker 使 LRM 能够自主探索网络并通过连续推理过程生成全面输出。

未来,为持续提升深度研究模型的能力,仍有很多方向值得探索:

1. 多模态深度搜索:WebThinker 基于文本推理模型,难以处理图像等其他模态的信息。未来可以扩展到图像、视频等多模态内容的深度研究,来利用网页中的多模态信息。

2. 工具学习与扩展:当前支持有限的研究工具,未来可以通过工具学习来不断优化工具使用策略,并扩展更多工具,来支持更复杂的任务。

3. GUI 网页探索:通过 GUI 网页探索能力,让模型能够更好地理解和操作网页界面,实现更复杂的交互任务,如订机票、指定旅游路线图、等等。

....

#DiffMoE

动态Token选择助力扩散模型性能飞跃,快手&清华团队打造视觉生成新标杆!

本文由清华大学和快手可灵团队共同完成。第一作者是清华大学智能视觉实验室在读本科生史明磊。

在生成式 AI 领域,扩散模型(Diffusion Models)已成为图像生成任务的主流架构。然而,传统扩散模型在处理不同噪声水平和条件输入时采用统一处理方式,未能充分利用扩散过程的异构特性,导致计算效率低下,近期,可灵团队推出 DiffMoE(Dynamic Token Selection for Scalable Diffusion Transformers),通过创新的动态token选择机制和全局token池设计,拓展了扩散模型的效率与性能边界。

  • 论文标题:DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers
  • 项目主页:https://shiml20.github.io/DiffMoE/
  • 论文地址:https://arxiv.org/abs/2503.14487
  • 代码:https://github.com/KwaiVGI/DiffMoE

核心突破:动态token选择与全局上下文感知 

DiffMoE 首次在扩散模型中引入批级全局token池(Batch-level Global Token Pool),打破传统模型对单一样本内token的限制,使专家网络能够跨样本访问全局token分布。这种设计模拟了完整数据集的token分布,显著提升了模型对复杂噪声模式的学习能力。实验表明,DiffMoE 在训练损失收敛速度上超越了同等参数量的密集模型(Dense Models),为多任务处理提供了更强大的上下文感知能力。 

针对推理阶段的计算资源分配问题,DiffMoE 提出动态容量预测器(Capacity Predictor),通过轻量级 MLP 网络实时调整专家网络的计算负载。该机制基于训练时的token路由模式学习,在不同噪声水平和样本复杂度间智能分配资源,实现了性能与计算成本的灵活权衡。例如,在生成困难图片时自动分配更多计算资源,而在处理简单图像时降低负载,真正做到 「按需计算」。 

null

性能提升:以少胜多的参数高效模型

在 ImageNet 256×256 分类条件图像生成基准测试中,其他结构细节保持一致的公平对比情况下,DiffMoE-L-E8 模型仅用 4.58 亿参数 (FID50K 2.13), 超越了拥有 6.75 亿参数的 Dense-DiT-XL 模型(FID 2.19)。通过进一步扩展实验,DiffMoE 实现了仅用 1 倍激活参数就实现了 3 倍于密集模型的性能。此外,DiffMoE 在文本到图像生成任务中同样展现出卓越的泛化能力,相较于 Dense 模型有明显效率提升。

null

null

多维度验证:从理论到实践

研究团队通过大规模实验验证了 DiffMoE 的优越性: 

动态计算优势:DiffMoE 的平均激活参数量较低的情况下实现了性能指标的显著提升,证明了动态资源分配的高效性;同时,DiffMoE 能够根据样本的难度自动分配计算量。本研究可视化了模型认为最困难和最简单的十类生成。

null

模型认为的最困难的十类

null

模型认为的最简单的十类

扩展性测试:从小型(32M)到大型(458M)配置,DiffMoE 均保持性能正向增长,专家数量从 2 扩展到 16 时 FID 持续下降;

null

跨任务适配:在文本到图像生成任务中,DiffMoE 模型在对象生成、空间定位等关键指标上全面超越 Dense 基线模型。 

null

总结

在这项工作中,研究团队通过动态token选择和全局token可访问性来高效扩展扩散模型。我们的方法利用专门的专家行为和动态资源分配,有效解决了扩散 Transformer 中固定计算量处理的局限性问题。大量的实验结果表明,DiffMoE 在性能上超越了现有的 TC-MoE 和 EC-MoE 方法,以及激活参数量是其 3 倍的密集型模型。研究团队不仅验证了它在类别条件生成任务中的实用性,也验证了 DiffMoE 在大规模文本到图像生成任务的有效性。虽然为了进行公平比较,我们未纳入现代混合专家(MoE)模型的改进方法,但在未来的工作中,集成诸如细粒度专家和共享专家等先进技术,将可能带来新的增益。

....

#Step1X-3D

阶跃星辰×光影焕像联合打造超强3D生成引擎!还开源全链路训练代码

阶跃星辰携手光影焕像发布并开源 3D 大模型 ——Step1X-3D。Step1X-3D 模型总参数量达 4.8B(几何模块 1.3B,纹理模块 3.5B),凭借坚实的数据基础与先进的 3D 原生架构,可生成高保真、可控的 3D 内容。

Step1X-3D 不止于视觉「好看」,更追求实现「好用」与「可控」,旨在为 3D 内容创作提供强大而可靠的技术引擎。这款模型可以广泛应用在游戏娱乐、影视与动画制作、工业制造与设计等各种场景。

Step1X-3D 公布了完整的数据清洗策略,数据预处理策略,以及 800K 高质量的 3D 资产,3D VAE、3D Geometry Diffusion 以及 Texture Diffusion 的全链路训练代码开源,助力 3D 生成社区发展。

论文标题:Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets

作者:Weiyu Li, Xuanyang Zhang, Zheng Sun, Di Qi, Hao Li, Wei Cheng, Weiwei Cai,  Shihao Wu, Jiarui Liu, Zihao Wang, Xiao Chen, Feipeng Tian, Jianxiong Pan,Zeming Li, Gang Yu, Xiangyu Zhang, Daxin Jiang, Ping Tan

代码地址: https://github.com/stepfun-ai/Step1X-3D

项目主页:https://stepfun-ai.github.io/Step1X-3D

HuggingFace: https://huggingface.co/stepfun-ai/Step1X-3D

技术报告: https://arxiv.org/pdf/2505.07747

,时长00:40

欢迎大家上手体验:

Online Demo(立即体验):https://huggingface.co/spaces/stepfun-ai/Step1X-3D

核心特性与技术支撑

Step1X-3D 尝试解决 3D 内容生成的关键挑战,在数据、生成质量与可控性上进行了创新实践。

1. 数据驱动与算法协同优化

好数据是好模型的基础。Step1X-3D 对超 500 万原始数据进行严格筛选与处理后,建立了包含 200 万高质量、标准化的训练样本库,有效克服了行业数据稀缺与质量参差的瓶颈。

图片

数据处理流程示意图

此外,Step1X-3D 通过增强型网格 - SDF 转换技术等方法,从源头保障了模型学习的精准性与最终生成的高效性,让水密几何转换成功率提升了 20%,也让 Step1X-3D 拥有了强大的泛化能力与细节捕捉力。

图片

Step1X-3D 数据筛选与 SDF 转换流程示意图

2. 3D 原生生成:结构清晰、细节生动

Step1X-3D 采用先进的 3D 原生两阶段架构,解耦几何与纹理表征,确保生成的不仅是视觉「皮囊」,更是结构可靠、可供下游应用的「骨架」,有效规避几何失真,保证生成的准确性、真实感与一致性。

图片

Step1X-3D 的原生 3D 架构

图片

基于 FLUX MMDiT 结构和 Rectified flow 算法直接对 3D 表示生成进行建模。

图片

纹理生成模型基于预训练的 Diffusion model,通过单视图和 3D 几何信息指导,生成多视角一致的纹理信息。

2.1 几何塑形更精准:

几何生成的核心在于采用为 3D 特性深度优化的创新混合 VAE-DiT 架构。该架构负责生成水密(Watertight)的 TSDF 内部表示,确保产出的 3D 模型结构完整、无破面漏点;同时通过引入锐利边缘采样(Sharp Edge Sampling)等技术,精准捕捉并还原物体的丰富几何细节。

图片

几何示例:覆盖硬边与曲面结构

2.2 纹理细节更生动:

纹理生成则基于强大的 SD-XL 模型进行深度定制与优化。通过几何条件(利用法线与位置信息)的精准引导,以及潜在空间多视图同步技术,实现了与几何模块的高效协同。确保生成的纹理不仅色彩饱满、质感生动逼真,更能跨越多视图保持高度一致,与复杂三维表面精密贴合,有效避免常见的扭曲与接缝瑕疵。

图片

纹理示例:呈现清晰一致的表面纹理

3. 控制简单、效果可调

Step1X-3D 显著提升了 3D 内容生成的可控性与易用性。其关键在于,VAE-Diffusion 整体架构在设计上与主流 2D 生成模型(如 Stable Diffusion)保持了高度一致性,从而能够无缝引入并应用成熟的 2D 控制技术(如轻量化的 LoRA 微调)。

因此用户可以对生成 3D 资产的对称性、表面细节(如锋利度、平滑度)等多种属性进行直观、精细的调控,让创作更精准地符合用户意图。

图片

对比图 1:对称性控制效果

图片

对比图 2:表面细节控制效果(锋利 / 平滑)

性能评估

为了客观评估 Step1X-3D 的实际效果,我们通过一个自建的综合测试,对 Step1X-3D 进行了严格的定量与定性评估,同时与多款主流模型进行全面对比。

结果显示:在自动评估中,Step1X-3D 在多项关键维度上均表现出色。

图片

在与主流 3D 模型的对比评测中,特别是在衡量内容与输入语义一致性的核心指标 CLIP-Score 上,Step1X-3D 取得了当前所有对比模型中的最高分,为开源社区提供了极具竞争力的 3D 生成方案。

图片

不同 3D 模型测评对比数据

团队介绍

阶跃星辰 Step1X-3D 团队和光影幻像 LightIllusions 团队。阶跃星辰以实现 AGI为目标,规划了从单模态到多模态、再到多模理解与生成统一的技术路径,最终构建世界模型的大模型公司。光影焕像是一家专注于 3D AIGC 和空间智能技术的人工智能初创公司,公司致力于通过 AI 解放 3D 内容生产力。公司自设立之后便迅速建立了算法研发和产品落地并重的海内外人才梯队,拥有一批 3D AIGC 领域顶尖人才,迄今已经发表过多个 3D AIGC 代表性工作,汇集了来自港科大博士、字节、美团等具有顶级研发能力和丰富技术产品化经验的同学。 公司目前持续重点投入 3D 和空间智能相关的 AI 底层模型的研发,打造 3D 空间智能大脑,同时积极推进 3D 内容商业化落地。

官网:https://www.lightillusions.com/

....

#GRPO with Reward-Based Curriculum Sampling

泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别新解法

随着大模型(LLMs)的快速发展和可集成工具的爆炸增长,AI 智能助手在日常生活中可提供的便利越来越多,不仅包括传统任务型对话中订机票、查询天气等助理能力,还增加了无以计数的 AI 能力,如 AI 画图、解数学题、游戏攻略等。而 AI 智能助手准确理解用户的意图(Intent Detection)并路由至下游工具链是实现这些功能的第一步,其重要性不言而喻。

然而,工具的快速迭代、多样化、工具之间关系的复杂化也给意图识别带来新的挑战,即模型在应对新意图时普遍存在性能衰减问题。如何在开源的轻量级 LLMs 上训练泛化性更好、鲁棒性更强的意图识别模型,使得模型能够更准确理解未见场景的意图至关重要。

近日,腾讯 PCG 社交线的研究团队针对这一问题,采用强化学习(RL)训练方法,通过分组相对策略优化(Group Relative Policy Optimization, GRPO)算法,结合基于奖励的课程采样策略(Reward-based Curriculum Sampling, RCS),将其创新性地应用在意图识别任务上,显著提升模型在未知意图上的泛化能力,攻克了工具爆炸引发的意图泛化难题,推动大模型在意图识别任务上达到新高度。

  • 论文标题:Improving Generalization in Intent Detection: GRPO with Reward-Based Curriculum Sampling
  • 论文链接:https://www.arxiv.org/abs/2504.13592

基于强化学习的意图识别

该团队进行了大量实验,从不同维度深入剖析了 GRPO 算法在这一任务上的优势。该工作的贡献主要为以下四个方面:

1. 该团队证明了在意图检测问题上,通过强化学习(RL)训练的模型在泛化能力上显著优于通过监督微调(SFT)训练的模型,具体体现在对未见意图和跨语言能力的泛化性能大幅提升。值得一提的是除了完全新的未见意图,该工作还比较了对已知意图进行拆分、合并等实际产品场景会遇到的真实问题。

2. 该团队通过基于奖励的课程采样策略进一步增强了 GRPO 的训练效果,有效引导模型在训练过程中聚焦于更具挑战性的样例。

3. 在强化学习过程中引入思考(Thought),显著提升了模型在复杂意图检测任务中的泛化能力。这一发现表明,在更具挑战性的场景中,Thought 对于提升模型的泛化能力至关重要。

4. 该团队发现,在意图识别任务中,无论选择预训练模型(Pretrain)还是指令微(Instruct)调模型作为基础,经过相同轮次的 GRPO 训练后,两者性能相近。这一结果与传统训练经验有所不同。

图片

训练方法

奖励函数

针对强化学习训练目标,该团队从格式奖励和准确率奖励两个维度进行引导:

图片

其中

图片

图片

分别为各奖励分量的权重系数。

格式奖励

图片

:基于提示模板的指令规范,严格约束模型输出格式。

图片

准确率奖励

图片

:基于意图检测准确率的二元奖励函数,从模型输出中提取预测意图

图片

,并与真实标签

图片

进行精确匹配:

图片

基于奖励的课程采样

该团队采用课程学习的思路分两步对模型进行训练。

离线数据分类 该团队通过离线的方法对所有数据的难度进行了分类。具体过程中先进行一遍完整的 GRPO 方法,记录每条数据的 reward,根据每条数据的 reward 作为难度得分,如下公式所示:

图片

其中 G 为采样总数。

课程采样 在课程学习过程中,第一阶段在所有数据上进行训练直到模型基本收敛;第二阶段筛选保留

图片

的数据作为难样例进行训练。这一采样方法帮助模型在第二阶段更好的关注容易出错的难数据。

实验:RL 能够帮助模型理解任务而不是模仿任务识别

实验设置:

  • 数据集:该团队在 TODAssistant(自建中文数据集)和 MultiWOZ2.2(公开英文数据集)两个基准上开展评测。MultiWOZ2.2 数据集是公开的 TOD 任务数据集,该研究团队在该数据集上提取出了意图分类这个任务。
  • 模型选取:该团队选取 Qwen2.5-7B-Instruct 模型作为基座模型,分别对于 SFT 方法和 GRPO 方法训练相同 epoch 来对比模型性能。
  • 评测指标:用正确率评测意图分类的准确性。

GRPO 方法与 SFT 方法的对比:研究团队首先对比了 SFT 方法和 GRPO 方法。直接使用原始的 GRPO 方法,在意图识别任务上,模型可以达到与 SFT 相近的性能,在英文的 MultiWOZ2.2 数据集上做到了与 SFT 模型相同的表现,证明了 GRPO 方法在该任务上的有效性。

图片

为了进一步探究 GRPO 的优势,研究团队针对模型的泛化性进行了评测。具体来说,在 MultiWOZ 数据集上,在训练过程中分别去掉测试集中的每个类别;在 TODAssistant 数据集上对原有的类别进行组合和细分操作,获得新的类别,来验证模型在该新类别上的准确性;该团队还测试了模型的跨语言能力(在英文数据集上训练后的模型在中文测试集上的结果)。实验结果表明,GRPO 方法相较于 SFT 方法,有着更好的泛化性能。

图片

图片

RCS 方法实验结果:在此基础上,研究团队进一步应用 RCS 方法进行实验。结果表明,在课程学习的第一阶段,模型收敛到与原始 GRPO 方法相近的准确率;在第二阶段难样例筛选过程后,模型的准确率进一步提升。

图片

该团队在课程学习第二阶段的采样过程中,对于难样例与正常训练数据的比例进行了实验,随机在其他训练数据中采样与难样例混合共同训练。结果表明,单独训练难样例取得了最好的效果。

图片

Thought 对于训练过程的影响:研究团队还探究了在意图识别这种逻辑较为简单的任务上 Thought 对于结果的影响。该团队发现,在这类任务上 Thought 同样有着关键的作用:在 TODAssistant 数据上,Thought 对于泛化能力的提升尤为重要;在 MultiWOZ2.2 数据集上,去掉 Thought 后模型的性能出现了大幅下降。

图片

Pretrain 模型和 Instruct 模型在该任务上的区别:研究团队发现,在意图识别任务上,选取 Pretrain 模型或者 Instruct 模型作为底座,在经过相同的 epoch 进行 GRPO 训练后,可以收敛到相近的性能,这与传统的训练经验有所不同。

图片

同时该团队还发现,instruct 模型在宽松格式和严格格式奖励函数下的生成长度均保持稳定。然而,Pretrain 模型在宽松格式奖励下生成长度先下降后上升,而严格格式奖励下则无此趋势。值得注意的是,这种长度增加并未提供有效信息。这一对比表明,类似 R1 的强化学习训练会诱导模型通过增加输出长度来获取更高奖励,但在相对简单的意图检测任务中,真正的 「顿悟时刻」 难以出现。

图片

未来展望

1. 在线数据筛选方法:现如今该团队的 RCS 数据筛选方法仍然是离线的,在后续的工作中将探索更高效的在线筛选方法。

2. 多意图识别:该研究团队针对意图识别的实验目前主要针对单意图场景,在后续工作中将继续探索多意图的识别。

3. 任务型对话相关任务扩展:目前该团队的实验都是在意图识别任务上进行,在未来的工作中将继续在更复杂的任务型对话相关任务上进行尝试。

....

#Controlling Light Sources in Images with Diffusion Models

谷歌用扩散模型,将电影级光影控制玩到极致一键开关灯!

最近,Google 推出了一个可以精准控制画面中光影的项目 —— LightLab。 

它让用户能够从单张图像实现对光源的细粒度参数化控制, 可以改变可见光源的强度和颜色、环境光的强度,并且能够将虚拟光源插入场景中。 

LightLab: Controlling Light Sources in Images with Diffusion Models

论文地址:https://arxiv.org/abs/2505.09608

项目主页:https://nadmag.github.io/LightLab/

HuggingFace:https://huggingface.co/papers/2505.09608

在图像或影视创作中,光线是灵魂,它决定了画面的焦点、景深、色彩乃至情绪。

以电影为例, 好的电影中,光线能巧妙地塑造角色情绪、烘托故事氛围、引导观众目光,甚至能揭示人物的内心世界。 

图片

然而,无论是传统的摄影后期处理,还是数字渲染后的调整,精确控制光影方向、颜色和强度,始终是一项耗时耗力、且极依赖经验的挑战。 

现有的光照编辑技术,要么需要很多照片才能工作(不适用于单张照片),要么虽然能编辑,但你不能精确地告诉它怎么变(比如具体亮多少、变成什么颜色)。 

Google 的研究团队通过在一个特殊构建的数据集上微调(fine-tune)扩散模型,使其学会如何精确地控制图像中的光照。 

图片

为了构建这个用于训练的数据集,研究团队结合了两种来源:一部分是少量真实的、带有受控光照变化的原始照片对;另一部分是利用物理渲染器生成的大规模合成渲染图像。

更进一步,研究人员巧妙地利用了「光的线性特性」(linearity of light),从这些图像数据中分离出目标光源和环境光。基于此,他们能够合成出大量描绘不同光照强度和颜色变化的图像对,这些图像对参数化地表示了受控的光影变化。

扩散模型通过学习这些高质量的成对示例,获得了强大的「逼真光影先验能力」(photorealistic prior)。这使得模型能够在图像空间中直接、隐式地模拟出复杂的照明效果,比如间接照明、阴影和反射等。

最终,利用这些数据和恰当的微调方案,训练出的 LightLab 模型能够实现精确的照明变化控制,并提供对光照强度和色彩等参数的明确控制能力。

,时长02:29

LightLab 提供了一套丰富的光照控制功能,这些功能可以依次使用,从而创建复杂的光照效果。你可以通过移动滑块来调整每个光源的强度和颜色。

图片

方法

研究团队的方法是使用成对图像来隐式建模图像空间中的受控光变化,这些变化用于训练扩散模型。

图片

后处理流程

对于真实(原始)照片对,研究团队首先分离出目标光源的变化。对于合成数据,研究团队分别渲染每个光源组件。这些分离的组件随后会被缩放并组合,以在线性颜色空间中创建参数化的图像序列。

研究团队既采用了一致的序列色调映射策略,也对每个图像单独进行色调映射,将其转换为标准动态范围(SDR)。

图片

条件信号

研究团队为局部空间信号和全局控制信号使用了不同的条件方案。空间条件包括输入图像、输入图像的深度图,以及两个空间分割掩码,分别用于目标光源的强度变化和颜色。

全局控制(环境光强度和色调映射策略)被投影到文本嵌入维度,并通过交叉注意力机制插入。

数据集摄影捕捉

研究团队使用现成的移动设备、三脚架和触发设备捕捉了一组 600 对原始照片。每对照片描绘相同的场景,唯一的物理变化是打开一个可见光源。

为了确保捕捉到的图像曝光良好,研究团队使用每个设备的默认自动曝光设置,并在后期捕捉时利用原始图像的元数据进行校准。

该数据集提供了几何形状、材料外观和复杂光现象的详细信息,这些信息在合成渲染数据中可能无法找到。遵循之前的研究,研究团队将「off image」视为环境光照,i_ amb: = i_off,并从目标光源中提取光照:i_change = i_on − i_off。

由于捕获的噪声、后期校准过程中的误差或两幅图像之间环境光照条件的细微差异,这个差异可能会有负值。

为了避免因此产生的意外暗淡,研究团队将差异裁剪为非负值:

图片

再结合真实数据有助于将预期的照明变化与合成渲染图像的风格区分开来,这些图像不包括真实物理相机传感器引入的视觉伪影,例如镜头畸变或色差等等。

在后处理中,将每对真实图像的数量增加 60 倍,以涵盖一系列强度和颜色。后处理后,完整的数据集大约包含 36K 张图像。

实验

1、 实现细节

模型和训练:研究团队对一个文本到图像的潜在扩散模型进行微调,其架构布局和隐藏维度与 Stable Diffusion-XL 相同,研究团队在 1024 × 1024 分辨率下训练每个模型 45,000 步,学习率为 10−5,批量大小为 128。训练大约需要 12 小时,使用 64 个 v4 TPU。在训练期间,研究团队有 10% 的时间丢弃深度和颜色条件,以允许无条件推理。

评估数据集:为了进行定量消融和比较,研究团队描述的程序策划的成对数据集上评估训练有素的模型。真实照片数据集包含 200 对不同场景和光源的照片,这些照片在后处理期间被扩展了 60 倍。合成评估数据集包括从两个保留场景中渲染的图像,这些场景包含独特的光源、对象和材质。对于定性评估,不需要真实目标,研究团队收集了 100 张图像。对于这些图像,研究团队手动注释了每张图像中的目标光源,并计算了它们各自的分割掩码和深度。在整个评估过程中以及生成论文中的所有结果时,色调映射条件被设置为 “一起”,除非另有说明。

评估指标:研究团队使用两个常见指标:峰值信噪比(PSNR)和结构相似性指数度量(SSIM)来衡量模型在成对图像上的性能。此外,研究团队通过进行用户研究来验证这些结果是否与用户偏好一致,以与其他方法进行比较。

2、不同域的影响

跨域泛化:研究团队观察到,仅在合成渲染数据上训练的模型无法很好地泛化到真实图像。团队将这种泛化误差归因于风格上的差异,例如缺乏复杂的几何形状、纹理和材质的保真度以及在合成数据集中不存在的相机伪影,如眩光。

使用多个域:研究团队使用相同的程序在三种数据域的混合上训练三个模型:仅真实捕获、仅合成渲染以及它们的加权混合。表 1 中的结果表明,使用来自两个域的数据混合取得了最佳结果。

值得注意的是,研究团队观察到混合数据集与仅真实捕获之间存在很小的定量相对差异,尽管它们的大小差异显著。例如,添加合成数据仅在平均 PSNR 中带来了 2.2% 的改进。

这可能是由于图像范围内的低频细节掩盖了可感知的局部照明变化,例如小实例阴影和镜面反射。研究团队通过定性比较来证实这种效果,这些比较表明添加合成数据鼓励模型产生仅在真实模型中不存在的复杂局部阴影。

图片

3、 比较

研究团队的方法是第一个提供对真实单图像中光源的细粒度控制的方法。因此,为了进行公平的比较,当与其他工作进行比较时,研究团队仅在二元任务上进行评估。

作为基线,研究团队调整了四种基于扩散的编辑方法:OmniGen 、RGB ↔ X 、ScribbleLight  和 IC-Light 。这些方法使用描述光源位置和输入图像中其他场景内在属性的文本提示。

RGB ↔ X 模型以输入图像的多个预计算法线、反照率、粗糙度和金属度图为条件。ScribbleLight 接收反照率和一个指示光源开关位置的掩码层(与研究团队方法中的光源掩码相反)。最后,为了使用 IC-Light 控制光源,研究团队将整个图像作为前景输入,并提供研究团队的光源分割掩码作为环境光源条件。

图片

从表 2 可以看出,研究团队的方法显著优于先前的方法。值得注意的是,OmniGen 未能打开 / 关闭目标光源,并引入了局部几何变化。RGB ↔ X、ScribbleLight 和 IC-Light 可以成功地改变输入照明条件,但通常会导致额外的不想要的照明变化或颜色失真。与先前的工作相比,研究团队的方法忠实地控制目标光源,并生成物理上合理的照明。

应用

研究团队介绍了该方法在各种设置中的几种可能应用,主要的应用是能够对照片进行后捕获的光源控制。

光强度

图片

Lightswitch 提供了对光源强度的参数化控制。请注意,不同强度下的光现象保持一致,从而实现交互式编辑。

颜色控制

图片

研究团队的方法可以根据用户输入创建彩色照明。使用彩色滑块来调整光源的颜色。

虚拟点光源

图片

通过从合成的 3D 渲染中转移知识,LightLab 可以将虚拟点光源(没有几何形状)插入到场景中。点击圆圈来点亮一个点。

Nex 环境光

图片

将目标光源与环境光分离,使得研究团队能够控制通过窗户进入的光线,这种光线在物理上很难被控制。

物理上合理的光照

左侧:输入序列是通过拍摄围绕多边形狗旋转的熄灭的台灯的照片创建的。中间、右侧:研究团队方法的推断结果以及对狗的放大图。请注意,不同面上的自遮挡以及狗的阴影与台灯的位置和角度相匹配。

....

#Manus

刚刚,Manus生图功能强势登场!从设计到搭建网站一站式搞定,1000积分免费薅

那个曾经一码难求的 Manus 已经可以全面注册了。从此以后,到处求购邀请码的时代一去不复回。

首次注册就送「1000 积分」让你尝尝鲜!

图片

不得不说,Manus 这次真是豪气了一回,大家赶紧去薅羊毛。

就在今天,Manus 又宣布了另一个好消息,推出图像生成功能。

这里要强调一下,Manus 不只是生成图像,它能理解用户意图,规划解决方案,并知道如何有效地调用图像生成工具以及其他工具来完成你的任务。

图片

,时长01:20

既然免费用,我们当然不能错过这个好机会,立马来了一波体验测试。

Manus 生图功能到底咋样?

输入提示:「我想创建一个名为 CoLe 的瓶装茶饮料品牌,倡导青少年健康的生活方式。请根据你对饮料市场流行视觉风格的理解,设计一个瓶子。」

图片

我们先看结果(如下图所示),大家觉得怎么样?

图片

细细研究下来,我们发现这张图还蛮符合要求的:瓶身带有 CoLe 品牌名,下方有「TEA FOR TEENS」的字样,表明这款饮料是专为青少年设计的茶饮料。瓶身配色为浅绿色和橙色,给人一种清新、活力的感觉。还有一片叶子和一片橙子的图案,这可能暗示了饮料的口味或成分等。

不得不说,这已经是一款「成熟」的饮料了。

接下来,我们看它的思考过程:

图片

其实,在 Manus 工作过程中,你可以随时发送修改任务,补充信息、或者叫停当前工作。你也可以放心的离开此页面,Manus 工作完成后会通知你。

图片

最后还有报告生成。

图片

关于这项任务的所有文件,最后都会进行汇总:

图片

但当我们继续下一项任务,「将自己的创作转变为网站并永久部署」时,几乎半个小时了,还没创建好。

图片

大约半个小时,Manus 终于成功部署了 CoLe 品牌网站。

图片

网站看起来还可以,虽然有点简单,但该有的信息都有了,况且这是 Manus 自动生成的。

图片

附件中还有源代码包,完成任务的清单。

再比如,我们让 Manus 美化两张图片,要求时尚风格、真实场景背景展示:

图片

生成的图片符合预期,与背景的融入可以说是「浑然天成」:

图片

图片

同样地,我们继续让 Manus 创建售卖这两个小物件的网站,结果如下:

图片

其他更多生成的图片,「男女野外露营」:

图片

「一张可爱的大肥猫,猫在小木屋里。」

图片

「小猫小狗捉小老鼠。」

图片

体验心得与网友反馈

一番体验下来,我们发现,Manus 图像生成效果还是不错的,无论是整体画面构造还是细节处理。

并且,在图像生成过程中嵌入智能体工作流以及将意图理解与图像生成相结合都是非常不错的想法。

图片

图片

不过仍有需要改进的地方,除了生图较快之外,其他任务(创建部署网站)运行速度较慢,需要几分钟乃至十几分钟。类似的反馈不在少数。

图片

图片

大家也很好奇 Manus 使用的是谁家的文生图模型。

图片

....

#Codex

刚刚,OpenAI最强编程智能体上线ChatGPT

从编程开始,今年智能体要卷飞了!!!

昨天,OpenAI CEO 奥特曼预告了一项新研究,吊足了所有人的胃口。

image.png

就在刚刚,谜底揭晓!OpenAI 宣布,在 ChatGPT 中引入了 Codex 的研究预览版。

Codex 是一个云端软件工程智能体,可以并行处理多项任务,包括编写功能、解答代码库相关问题、修复 bug 以及提交拉取请求以供审核等。并且,每个任务都在其专属的云沙盒环境中运行,并预加载代码库。

image.png

Codex 背后的模型是 codex-1,它是 OpenAI o3 的一个版本,专门针对软件工程进行了优化。它使用强化学习在各种环境中针对真实编程任务进行训练,生成的代码能够高度反映人类的风格和 PR 偏好,精确遵循指令,并可以迭代运行测试,直到获得合格结果。

自今天开始,ChatGPT Pro、Team 和 Enterprise 用户即可使用 Codex,Plus 和 Edu 用户也很快可以上线使用。

image.png

对于 OpenAI 的新智能体产品,大家的反应似乎非常兴奋。有人表示自己被震撼到了,迫不及待想要体验一番。十年前学习编程时,绝对想不到这会成为可能。

image.png

也有人认为,Codex 这个云原生的智能体实际上可以自行构建、修复并交付功能,感觉就像软件开始了大规模自我编写。

image.png

还有人现身说法,在经过对 Codex 大量测试后发现,当它正常运作时,几乎更擅长「模拟」代码正在做什么以及看起来是什么样子。

image.png

接下来,我们先看一下官方示例,Codex 可以并行处理多项任务:

image.png

比如要求 Codex「找出尽可能多的 topos 和语法错误并进行修复」,它会检查代码库的可维护性和 bugs:

图片

修复文件名中含有特殊字符的 /diff 错误:

图片

创建并使用 DEFAULT_ALCATRAZ_TIMEOUT 常量:

图片

Codex 工作原理

从今天开始,用户可以通过 ChatGPT 侧边栏访问 Codex,输入 prompt 并点击 "编写代码" 按钮即可执行新的编程任务。

若需针对代码库提问,可点击 "Ask"。每项任务均在独立隔离的环境中处理,该环境已预加载用户的代码库。Codex 具备读写文件的能力,并可运行包括测试框架、代码检查器和类型检查器在内的各类命令。任务完成时间通常为 1 至 30 分钟(视复杂度而定),用户可实时查看 Codex 的处理进度。

任务完成后,Codex 会将其修改提交至专属环境。通过终端日志引用和测试输出记录,Codex 为所有操作提供可验证的证据链,便于用户追溯任务执行全过程。用户还可审阅结果、要求进一步修改、创建 GitHub 拉取请求或直接将变更集成至本地环境。在产品中,用户可将 Codex 环境配置为无限接近实际开发环境。

图片

Codex 可遵循代码库中的 AGENTS.md 文件执行操作。这类文本文件(类似 README.md)用于指导 Codex 如何浏览代码库、运行哪些测试命令,以及如何遵循项目标准规范。与人类开发者类似,当获得配置好的开发环境、可靠的测试方案和清晰的文档时,Codex 智能体能发挥最佳效能。

在编码评估和内部基准测试中,即便没有 AGENTS.md 文件或定制脚手架,codex-1 也展现出强劲性能。

image.png

构建安全可靠的智能体

在设计 Codex 时,OpenAI 优先考虑安全性和透明度,以便用户能够验证其输出。用户可以通过引用、终端日志和测试结果来检查 Codex 的工作。

image.png

image.png

与 o3 相比,codex-1 始终能够生成更清晰的 patch,以便立即进行人工审核并集成到标准工作流程中。

2025-05-16_232804.png

Codex 与 o3 对比:

图片

图片

OpenAI 表示,Codex 智能体完全运行于云端的安全隔离容器中。任务执行期间将禁用互联网访问,确保智能体仅能交互以下内容:通过 GitHub 仓库明确提供的代码、用户通过设置脚本配置的预安装依赖项以及该智能体无法访问任何外部网站、API 或其他服务。

Codex 定价如何?

Codex 用起来贵不贵?

OpenAI 表,从今天开始,将向全球范围内的 ChatGPT Pro、Enterprise 和 Team 用户开放 Codex。在接下来的几周内,用户可以免费畅享 Codex,探索它的各项功能。此后,他们将推出限速访问和灵活的按需付费选项,供用户购买额外使用量。

对于使用 codex-mini-latest 进行开发的用户,该模型可通过 Responses API 调用,定价为:

  • 输入 tokens:每 100 万 $1.50
  • 输出 tokens:每 100 万 $6

此外,OpenAI 表示,Codex 仍处于早期开发阶段。作为研究预览版,它目前尚不具备某些功能,例如:前端工作所需的图像输入支持,在 Codex 运行过程中实时调整智能体的能力。

此外,远程智能体的执行速度比交互式编辑慢,这可能需要一定的适应时间。不过,随着时间推移,与 Codex 智能体的协作将越来越像与同事的异步协作。

最后 OpenAI 表示,未来计划推出更具交互性和灵活性的智能体工作流。

未来,编程也许真会变的越来越简单。

参考链接:https://openai.com/index/introducing-codex/

....

#FastVLM

85倍速度碾压:苹果开源,能在iphone直接运行的视觉语言模型

FastVLM—— 让苹果手机拥有极速视觉理解能力

当你用苹果手机随手拍图问 AI:「这是什么?」,背后的 FastVLM 模型正在默默解码。

最近,苹果开源了一个能在 iPhone 上直接运行的高效视觉语言模型 ——FastVLM(Fast  Vision Language Model)。

image.png

  • 代码链接:https://github.com/apple/ml-fastvlm

代码仓库中还包括一个基于 MLX 框架的 iOS/macOS 演示应用,优化了在苹果设备上的运行性能。

图片

看这个 demo,反应速度是不是反应非常「Fast」!这就是 FastVLM 的独特之处。

相较于传统模型,FastVLM 模型专门注重于解决体积、速度这两大问题,速度快到相对同类模型,首个 token 输出速度提升 85 倍。

该模型引入了一种新型混合视觉编码器 FastViTHD,融合了卷积层和 Transformer 模块,配合多尺度池化和下采样技术,把图片处理所需的「视觉 token」数量砍到极低 —— 比传统 ViT 少 16 倍,比 FastViT 少 4 倍。它以卓越的速度和兼容性,极大地提升了 AI 与图像之间的用户体验能力。

FastVLM 模型不仅可以用于给模型自动生成陈述、回答「这张图是什么」的问题、分析图中的数据或对象等途径,还兼容主流 LLM 并轻松适配 iOS/Mac 生态,特别适合落地在边缘设备、端侧 AI 应用和实时图文任务场景。

目前,FastVLM 模型主要推出 0.5B、1.5B、7B 三个不同参数量级的版本,每个版本均有 stage2 和 stage3 两阶段微调权重,用户可以根据自身需求灵活选择。

苹果团队在发布的论文中详细阐述了更加具体的技术细节和优化路径。

  • 论文标题: FastVLM: Efficient Vision Encoding for Vision Language Models 
  • 论文地址:https://www.arxiv.org/abs/2412.13303

研究背景

视觉语言模型(Vision-Language Models, VLMs)是一类能够同时理解图像和文本信息的多模态模型。VLMs 通常通过一个投影层(也称连接模块)将来自预训练视觉骨干网络的视觉 token 输入到一个预训练的 LLM 中。

此前的研究已经探讨了视觉骨干网络、适配器(adapter)以及通常为解码器结构的 LLM 这三大组件的训练和微调策略。

已有多项研究指出,图像分辨率是影响 VLM 性能的关键因素,尤其在面对文本密集或图表密集的数据时表现尤为明显。然而,提升图像分辨率也带来了若干挑战。

首先,许多预训练视觉编码器在设计时并不支持高分辨率图像输入,因为这会显著降低预训练效率。

为了解决这一问题,一种方法是持续对视觉骨干进行预训练,使其适应高分辨率图像;另一种则是采用图像分块策略(tiling strategies),如 Sphinx、S2 和 AnyRes,将图像划分为多个子区域,并由视觉骨干分别处理各个子区域。

这类方法特别适用于基于视觉 Transformer(ViT)的模型架构,因为 ViT 通常不支持可变输入分辨率。

另一个挑战来自于高分辨率推理时的运行时计算成本。无论是单次高分辨率推理,还是在较低分辨率下多次推理(即采用切片策略),在生成视觉 token 时都存在显著延迟。

此外,高分辨率图像本身生成的 token 数量更多,这会进一步增加 LLM 的预填充时间(prefilling time,即 LLM 对包括视觉 token 在内的所有上下文 token 进行前向计算的时间),从而整体拉长初始输出时间(time-to-first-token, TTFT),即视觉编码器延迟与语言模型前填充时间之和。

本研究以 VLM 的设备端部署为动力,从运行时效率的角度出发,对其设计和训练进行系统性研究。我们重点研究图像分辨率提升对优化空间的影响,目标是改进精度 - 延迟之间的权衡,其中延迟包括视觉编码器的推理时间和 LLM 的前填充时间。

研究者通过在不同的 LLM 规模与图像分辨率下的大量实验证明,在特定的视觉骨干条件下,可以建立一条帕累托最优曲线(Pareto optimal curve),展示在限定运行时间预算(TTFT)内,不同的图像分辨率和语言模型规模组合能达到的最佳准确率。

研究者首先探索了一种混合卷积 - Transformer 架构 FastViT(预训练于 MobileCLIP)作为 VLM 视觉骨干的潜力。

实验证明,该混合骨干在生成视觉 token 方面的速度是标准 ViT 模型的四倍以上,同时基于多尺度视觉特征还实现了更高的整体 VLM 准确性。然而,若目标主要是高分辨率 VLM(而非如 MobileCLIP 那样仅关注嵌入生成),则该架构仍有进一步优化空间。

为此,研究者提出了一种新型混合视觉编码器 FastViTHD,其专为在处理高分辨率图像时提升 VLM 效率而设计,并以此为骨干网络,通过视觉指令微调得到 FastVLM。

在不同输入图像分辨率和语言模型规模下,FastVLM 在准确率与延迟的权衡上均显著优于基于 ViT、卷积编码器及我们先前提出的混合结构 FastViT 的 VLM 方法。

特别地,相比于运行在最高分辨率(1152×1152)的 LLaVa-OneVision,FastVLM 在相同 0.5B LLM 条件下达到了可比的性能,同时拥有快 85 倍的 TTFT 和小 3.4 倍的视觉编码器规模。

模型架构

研究者首先探讨了将 FastViT 混合视觉编码器应用于  VLM 中的潜力,随后提出若干架构优化策略以提升 VLM 任务的整体表现。

在此基础上,研究者提出 FastViT-HD—— 一款专为高分辨率视觉 - 语言处理任务量身定制的创新型混合视觉编码器,兼具高效率与高性能特点。

通过大量消融实验,研究者全面验证了 FastViT-HD 在多种大型语言模型 (LLM) 架构和不同图像分辨率条件下,相比原始 FastViT 及现有方法所展现的显著性能优势。

如图 2 所示,展示了 FastVLM 与 FastViT-HD 的整体架构。所有实验均使用与 LLaVA-1.5 相同的训练配置,并采用 Vicuna-7B 作为语言解码器,除非特别说明。

image.png

FastViT 作为 VLM 图像编码器

典型的 VLM (如 LLaVA)包含三个核心组件:图像编码器(image encoder)、视觉 - 语言映射模块(vision-language projector)以及大型语言模型(LLM)。

VLM 系统的性能及运行效率高度依赖其视觉主干网络(vision backbone)。在高分辨率下编码图像对于在多种 VLM 基准任务中取得良好表现尤其关键,特别是在文本密集型任务上。因此,支持可扩展分辨率的视觉编码器对 VLM 尤为重要。

研究者发现,混合视觉编码器(由卷积层与 Transformer 块组成)是 VLM 极为理想的选择,其卷积部分支持原生分辨率缩放,而 Transformer 模块则进一步提炼出高质量的视觉 token 以供 LLM 使用。

实验使用了一个在 CLIP 上预训练过的混合视觉编码器 ——MobileCLIP 提出的 MCi2 编码器。该编码器拥有 35.7M 参数,在 DataCompDR 数据集上预训练,架构基于 FastViT。本文后续均将该编码器简称为「FastViT」。

然而,正如表 1 所示,若仅在其 CLIP 预训练分辨率(256×256)下使用 FastViT,其 VLM 表现并不理想。

image.png

FastViT 的主要优势在于其图像分辨率缩放所具有的高效性 —— 相比采用 patch size 为 14 的 ViT 架构,其生成的 token 数量减少了 5.2 倍。

这样的 token 大幅裁剪显著提升了 VLM 的运行效率,因为 Transformer 解码器的预填充时间和首个 token 的输出时间(time-to-first-token)大大降低。

当将 FastViT 输入分辨率扩展至 768×768 时,其生成的视觉 token 数量与 ViT-L/14 在 336×336 分辨率下基本持平,但在多个 VLM 基准测试中取得了更优的性能。

这种性能差距在文本密集型任务上尤为明显,例如 TextVQA 和 DocVQA,即使两种架构生成的 visual token 数量相同。

此外,即便在高分辨率下 token 数量持平,FastViT 凭借其高效的卷积模块,整体图像编码时间依然更短。

1、多尺度特征(Multi-Scale Features)

典型的卷积或混合架构通常将计算过程划分为 4 个阶段,每个阶段之间包含一个下采样操作。VLM 系统一般使用倒数第二层输出的特征,但网络前几层所提取的信息往往具有不同的粒度。结合多个尺度的特征不仅可提升模型表达能力,也能补强倒数第二层中的高层语义信息,这一设计在目标检测中尤为常见。

研究者在两个设计方案之间进行了消融对比,用于从不同阶段汇聚特征:均值池化(AvgPooling)与二维深度可分离卷积(2D depthwise convolution)。

如表 2 所示,采用深度可分卷积在性能上更具优势。除多尺度特征外,研究者还在连接器设计(connector design)上进行了多种尝试(详见补充材料)。这些结构性模型改进对于使用分层主干的架构(如 ConvNeXt 与 FastViT)特别有效。

image.png

FastViT-HD:面向 VLM 的高分辨率图像编码器

在引入上述改进后,FastViT 在参数量比 ViT-L/14 小 8.7 倍的情况下已具备良好性能。然而,已有研究表明,扩大图像编码器的规模有助于增强其泛化能力。

混合架构中,常见的做法是同时扩展第 3、4 阶段中的自注意力层数量和宽度(如 ViTamin 所采用的方式),但我们发现在 FastViT 上简单扩展这些层数并非最优方案(详见图 3),甚至在速度上不如 ConvNeXT-L。

image.png

为避免额外的自注意力层带来的性能负担,研究者在结构中加入一个额外阶段,并在其前添加了下采样层。在该结构中,自注意力层所处理的特征图尺寸已经被以 1/32 比例降采样(相比 ViTamin 等常见混合模型的 1/16),最深的 MLP 层甚至处理降采样达 1/64 的张量。

此设计显著降低了图像编码的延迟,同时为计算密集型的 LLM 解码器减少了最多 4 倍的视觉 token,从而显著缩短首 token 输出时间(TTFT)。研究者将该架构命名为 FastViT-HD。

FastViT-HD 由五个阶段组成。前三阶段使用 RepMixer 模块,后两阶段则采用多头自注意力(Multi-Headed Self-Attention)模块。

各阶段的深度设定为 [2, 12, 24, 4, 2],嵌入维度为 [96, 192, 384, 768, 1536]。ConvFFN 模块的 MLP 扩展倍率为 4.0。整体参数量为 125.1M,为 MobileCLIP 系列中最大 FastViT 变体的 3.5 倍,但依然小于多数主流 ViT 架构。

研究者采用 CLIP 的预训练设置,使用 DataComp-DR-1B 进行预训练后,再对该模型进行 FastVLM 训练。

如表 3 所示,尽管 FastViT-HD 的参数量比 ViT-L/14 小 2.4 倍,且运行速度快 6.9 倍,但在 38 项多模态零样本任务中的平均表现相当。相比另一种专为 VLM 构造的混合模型 ViTamin,FastViT-HD 参数量小 2.7 倍,推理速度快 5.6 倍,检索性能更优。

image.png

表 4 比较了 FastViT-HD 与其他 CLIP - 预训练层次型主干网络(如 ConvNeXT-L 和 XXL)在 LLaVA-1.5 训练后的多模态任务表现。尽管 FastViT-HD 的参数量仅为 ConvNeXT-XXL 的 1/6.8、速度提升达 3.3 倍,其性能仍然相当。

image.png

2、视觉编码器与语言解码器的协同作用

在 VLM 中,性能与延迟之间的权衡受到多个因素的影响。

一方面,其整体性能依赖于:(1) 输入图像分辨率、(2) 输出 tokens 的数量与质量、(3) LLM 的建模能力。

另一方面,其总延迟(特别是首 token 时间,TTFT)由图像编码延迟和 LLM 预填充时间组成,后者又受到 token 数量和 LLM 规模的共同影响。

鉴于 VLM 优化空间的高度复杂化,针对视觉编码器最优性的任何结论都须在多组输入分辨率与 LLM 配对下加以验证。我们在此从实证角度比较 FastViT-HD 相较 FastViT 的最优性。研究者测试三种 LLM(Qwen2-0.5B/1.5B/7B),并在不同输入分辨率下进行 LLaVA-1.5 训练与视觉指令调优,然后在多个任务上评估结果,结果见图 4。

image.png

首先,图 4 中的帕累托最优曲线(Pareto-optimal curve)表明,在预算固定的情况下(如运行时间 TTFT),最佳性能对应的编码器 - LLM 组合是动态变化的。

例如,将高分辨率图像输入配备小规模 LLM 并不理想,因为小模型无法有效利用过多 token,同时,TTFT 反而会因视觉编码延迟增大(详见图 5)。

image.png

其次,FastViT-HD 遍历 (分辨率,LLM) 所形成的帕累托最优曲线明显优于 FastViT —— 在固定延迟预算下平均性能提升超过 2.5 个点;相同时序目标下可加速约 3 倍。

值得注意的是,在此前已有结论表明,基于 FastViT 的 VLM 已超越 ViT 类方法,而 FastViT-HD 在此基础上进一步大幅提升。

3、静态与动态输入分辨率

在调整输入分辨率时,存在两种策略:(1) 直接更改模型的输入分辨率;(2) 将图像划分成 tile 块,模型输入设为 tile 尺寸。

后者属于「AnyRes」策略,主要用于让 ViT 能处理高分辨率图像。然而 FastViT-HD 是专为高分辨率推理效率而设计,因此我们对这两种策略的效率进行了对比分析。

图 6 显示:若直接将输入分辨率设定为目标分辨率,则 VLM 在准确率与延迟之间获得最佳平衡。仅在极高输入分辨率(如 1536×1536)时,动态输入才显现优势,此时瓶颈主要表现为设备上的内存带宽。

image.png

一旦使用动态策略,tile 数量越少的设定能获得更好的精度 - 延迟表现。随着硬件发展与内存带宽提升,FastVLM 在无需 tile 拆分的前提下实现更高分辨率处理将成为可行方向。

4、与 token 剪枝及下采样方法的比较

研究者进一步将不同输入分辨率下的 FastViT-HD 与经典的 token 剪枝方法进行对比。如表 5 所示,采用层次化主干网络的 VLM 在精度 - 延迟权衡上明显优于基于等维(isotropic)ViT 架构并借助 token 剪枝优化的方法。在不使用剪枝方法、仅利用低分辨率训练的前提下,FastViT-HD 可将视觉 token 数降至仅 16 个的水平,且性能优于近期多个 token 剪枝方案。

有趣的是,即便是当前最先进的 token 剪枝方法(如所提出的 [7, 28, 29, 80]),在 256×256 分辨率下,整体表现亦不如 FastViT-HD。

....

#Retrieval-Augmented Perception (RAP)

南洋理工陶大程教授团队等提出基于RAG的高分辨率图像感知框架,准确率提高20%

该工作由南洋理工大学陶大程教授团队与武汉大学罗勇教授、杜博教授团队等合作完成。

近些年,多模态大语言模型(MLLMs)在视觉问答、推理以及 OCR 等任务上取得了显著的成功。然而,早期的 MLLMs 通常采用固定的分辨率(例如 LLaVA-v1.5 将输入图像缩放为),对于输入图像为高分辨率图像(例如 8K 分辨率)会导致图像变得模糊,损失大量有效的视觉信息。

为了解决上述问题,目前的解决方案分为三类:

1. 基于裁剪的方法:对于高分辨率图像裁剪成多个子图,每个子图分别通过视觉编码器提取视觉特征后再进行拼接。然而对于 8K 的图像,假设采用 ViT-L/14 就需要接近 300K 的 visual token 长度,这对于目前大语言模型(LLM)的长上下文建模能力是一个巨大的挑战。

2. 采用处理高分图像的视觉编码器:使用能处理更高分辨率图像的视觉编码器代替基于 CLIP 训练的 ViT。然而,对于 8K 分辨率的图像,依旧会缩放到对应视觉编码器能接受的输入分辨率 (例如 ConvNeXt-L 的分辨率为

图片

)。

3. 基于搜索的方法:这类方法不需要训练,通过将高分辨率图像构建成树结构,在树结构上进行搜索。然而,这类方法在搜索的开始阶段输入的是高分辨率图像,从而容易搜索错误的路径,导致推理时延增加甚至搜索到错误的结果。

事实上,在自然语言处理领域,对于长上下文建模,通过检索增强生成技术(RAG),检索关键的文本片段代替原始的长上下文作为输入,从而提高 LLM 回复的准确度。那么在 MLLM 中,是否也可以基于 RAG 技术提高 MLLM 对高分辨率图像的感知?

为了回答上述问题,研究人员通过实验,探索 RAG 应用在 MLLM 对于高分辨率图像感知的可行性。基于实验发现,提出了 Retrieval-Augmented Perception (RAP), 一种无需训练的基于 RAG 技术的高分辨率图像感知插件。该工作已被 ICML 2025 接收,并获评为 Spotlight 论文(top 2.6%)。

论文链接:https://arxiv.org/abs/2503.01222

主页链接:https://dreammr.github.io/RAP

代码链接:https://github.com/DreamMr/RAP

思考

为了探究将 RAG 应用于 MLLM 的高分辨率图像感知,研究人员提出了三个问题:

1. 检索出来的图像块如何布局?

2. 检索的图像块数量对最终性能的影响如何?

3. 如何基于上述发现,将 RAG 更好的应用于 MLLMs 对高分辨率图像的感知?

检索出来的图像块布局方式

为了探究检索图像块布局的影响,研究人员设计了三种策略:1)按照检索的分数从高到低进行排列;2)按照原始顺序进行排列和 3)维持检索图像块的相对位置关系。具体的布局例子见下图。

图片

如下表所示,在三种布局方案中,对于单实例感知任务(FSP)都有显著提升,然而 1)和 2)在跨实例感知任务(FCP)上相较于 baseline 有明显性能下降。而 3)由于维持了图像块之间的相对位置关系,因此 3)在 FCP 任务上在三种策略中取得更好的效果。

图片

结论 1: 维持检索图像块之间的相对位置关系是有必要的,特别是对于需要空间感知的任务。

检索的图像块数对最终性能的影响

为了探究检索的图像块数的影响,研究人员使用 LLaVA-v1.5 和 LLaVA-v1.6 7B & 13B 在高分图像感知评测数据集 HR-Bench 上进行实验。

如下图所示,当检索的数量 (K) 增加时,由于提供了更多的视觉信息,在 FCP 任务上的性能逐渐增加。然而,当K增加时,输入图像的分辨率也相应增加,导致模型输出的结果准确性下降。相反,对于 FSP 任务而言,较小的 K 便能取得更好的效果,但是在 FCP 任务上效果较差。

图片

结论 2: 不同的任务类型需要保留的图像块数不同。对于 FSP 任务而言,仅需要较少的图像块数便能取得较好的效果,更多的图像块数反而影响模型的性能。对于 FCP 任务而言,更多的图像块数能够保留足够的视觉信息,但是依旧受到输入图像分辨率的限制。

方法

基于上述实验发现,研究人员提出了一种无需训练的高分图像检索增强框架 —— Retrieval-Augmented Perception (RAP)。RAP 的设计原理是通过检索和用户问题相关的图像块,代替原始的高分辨率图像输入到 MLLMs 中。该方法有效地降低输入图像的分辨率,并且保留和用户问题相关的关键视觉信息。为了维持检索图像块之间的相对位置关系,研究人员设计了 Spatial-Awareness Layout 算法,通过确定关键的图像块的位置,剔除无效的行和列,在降低图像分辨率的同时,有效保持图像块之间的相对位置关系。此外,为了自适应选择合适的K,研究人员提出了 Retrieved-Exploration Search (RE-Search),通过检索的相似度分数和模型的置信度分数作为启发式函数,引导模型搜索合适的K。方法架构图如下图所示:

图片

Spatial-Awareness Layout: 对于一张高分辨率图像,首先对其进行裁剪成多个图像块 (V)。接着通过检索器 VisualRAG 计算每个图像块和用户问题 (q) 的相似度分数

图片

图片

然后根据预先设定要保留的图像块数K,筛选出 top - K图像块,并构建 0-1 矩阵M标记要保留的图像块的位置为 1,其余位置标记为 0。接着对矩阵M进行扫描,提取其中非零行和列的索引,其余位置删除,从而生成压缩矩阵

图片

。最后根据压缩矩阵

图片

提取出相应的图像块合成新的图像

图片

RE-Search: 为了自适应选择保留的图像块数K,研究人员受到

图片

算法的启发提出了 RE-Search。研究人员将当前的图像按照不同的保留图像块数的比例,通过 Spatial-Awareness Layout 算法对图像进行压缩,生成子节点。与之前基于搜索的方法不同,为了避免在搜索的初始阶段受到图像分辨率的影响,RE-Search 引入了每个图像块和用户问题的相似度分数

图片

:

图片

这里

图片

表示有效的图像块,n表示有效的图像块的数量,g(t)表示当前的图像与用户问题的语义相似度。在

图片

算法中通过启发式函数h估计从当前状态到目标状态的花费。这里通过让 MLLM 自身判断当前的图像

图片

是否有足够的视觉信息回答用户的问题:

图片

其中

图片

表示 MLLM,

图片

是提示模板用于构造文本问题(例如:“Question: {q} Could you answer the question based on the available visual information?”)。这里计算模型对于回复为 “Yes” 的置信度分数作为启发式函数。

由于在最开始图像的分辨率较大,模型输出的结果h(t)不可靠。因此在最开始搜索过程中降低h(t)的权重,随着搜索深度加深,逐渐增加h(t)的权重,具体计算公式如下:

图片

其中b是一个超参数,具体实现时设置为0.2,d是搜索的深度。

实验结果

本文在高分辨率图像评测数据集

图片

 Bench 和 HR-Bench 上进行评测。对比的方法包括基于裁剪的方法(LLaVA-v1.6, InternVL-1.5 等)以及使用处理高分辨率图像的视觉编码器的方法(LLaVA-HR-X),实验结果如下表所示,RAP 在单实例感知和多实例感知任务上都能带来明显的性能提升。特别是在 HR-Bench 4K 和 8K 上分别带来最大 21% 和 21.7% 的准确率提升。

图片

论文中还对比了基于搜索的方法(结果见下表),RAP 相比于

图片

 和 Zoom Eye 在吞吐量和准确率上都取得更好的效果。

图片

此外,消融实验表明 (见下表),如果仅加入 VisRAG 检索和用户问题相关的图像块,仅带来 6.5% 的提升,通过维持检索图像块之间的相对位置关系在 FCP 任务上能够有所改进。通过引入 RE-Search 自适应选择合适的K,最终能够带来 21.7% 的性能提升。

图片

总结

综上,该工作提出了 Retrieval-Augmented Perception (RAP),一种无需训练基于 RAG 技术提高 MLLM 对高分辨率图像感知的方法。该方法使用 Spatial-Awareness Layout 算法维持检索的图像块之间的相对位置信息,通过 RE-Search 自适应选择合适的K值,在保留关键视觉信息的同时有效降低图像的分辨率。实验结果表明,RAP 在 MLLM 高分辨率图像感知的场景中展现出显著优势。

....

#争夺 Agent 市场,微软的押宝点竟是「情商」?

微软 AI CEO Mustafa Suleyman 近日接受了海外播客 AI Applied 的访谈,分享了他对 AI 未来发展的深刻见解,探讨了情商的重要性、AI Agent 与 AI 伴侣的区分、语音交互的潜力、AI 设计中的「技艺」以及算力资源的挑战等问题。

目录

01. 从执行命令到理解情绪,Suleyman 如何解读 AI 未来?

Mustafa Suleyman 「AI个性工程」是什么?Suleyman 有怎么样的 AI 设计理念?...

02. 继承 Pi 的内核后,Copilot 能否靠情商打出微软的差异化优势?

Inflection AI 开发的Pi 有怎样的的内核?「情商」将是微软 AI 的核心竞争力?Suleyman的理念如何影响 Copilot的影响?...03. 如何定义 AI 作为工具和伴侣的双重角色?办公 Agents 和伴侣 Agent的区别何在?两者对数据的要求有何差别?微软将如何设计差异化的Agent产品?...

04. AI 如何重塑工作与劳动力市场?

算力扩张真的是 AI 发展的唯一方向吗?算力资源同时发生的两个趋势是什么?...

01  从执行命令到理解情绪,Suleyman 如何解读 AI 未来?

1、Mustafa Suleyman 在 AI Applied 访谈中探讨了将个性与情商融入 AI 的重要性及其在工作与生活中的应用,他基于其跨越 DeepMind、谷歌、Inflection AI 到微软的职业生涯,始终推动 AI 从功能性向人性化发展。

① 2010 年,Mustafa Suleyman 作为 DeepMind 联合创始人,担任应用人工智能主管,负责将 AI 技术整合到谷歌产品中;后离开 deepmind 转至谷歌担任人工智能产品和政策副总裁;

② 2022 年,离开谷歌成为 Greylock Partners 的风险合伙人,并与 Reid Hoffman 共同创立了 Inflection AI;

③ 2024 年 3 月,Suleyman 宣布离开 Inflection AI,加入微软担任新成立的「Microsoft AI」部门 CEO,负责 Copilot、Bing、Edge 等消费者 AI 产品。

2、Suleyman 认为,AI 将成为人们生活中的「伴侣」,而不仅仅是工具。这一理念体现在两个维度:在工作场景中,AI 作为高效 Agent 执行任务;在个人生活中,AI 提供情感支持和个性化服务。

3、在 AI 的差异化竞争中,Suleyman 将发展重点从功能转向情感连接,认为个性、情商、语气和感觉与智商同等重要。

① AI 的设计将更加注重塑造独特的「个性」,通过情感化的交互方式提升用户体验,增强用户满意度和忠诚度。

② 语音交互和视觉能力的发展则使 AI 更加自然、智能。语音交互能够根据用户的语调、语速和音量调整回应,视觉能力则帮助 AI 更好地理解用户所处的环境和情境,从而提供更加精准和个性化的服务。

4、展望未来,Suleyman 认为 AI 将从根本上改变工作性质未来的工作将更加依赖于 AI 的协助。人类需要培养适应性、自学能力和管理 AI 的能力,学会与 AI 协作,提升工作效率和创造力。

① 未来,AI 模型将继续发展,算力需求增加,但同时模型会变得更小、更高效。AI 的计算将逐渐变得无感,用户无需过多担心算力问题,更多模型将被「蒸馏」压缩并部署到本地设备上,实现低延迟、高效率的 AI 服务。

02  继承 Pi 的内核后,Copilot 能否靠情商打出微软的差异化优势?

1、访谈伊始,主持人就「如何将 Inflection PI 的情感化基因注入企业级 AI」发起提问。Mustafa Suleyman 首先将当前 AI 发展阶段类比为「笔记本电脑的原始时代」,强调技术演进的不确定性;继而提出「AI 情商与智商同等重要」的核心观点...

....

#Selftok

图像分词器造反了!华为 Selftok:自回归内核完美统一扩散模型,触发像素自主推理

自回归(AR)范式凭借将语言转化为离散 token 的核心技术,在大语言模型领域大获成功 —— 从 GPT-3 到 GPT-4o,「next-token prediction」以简单粗暴的因果建模横扫语言领域。但当我们将目光转向视觉生成,却发现这条黄金定律似乎失效了…… 

现有方案硬生生将图像网格化为空间 token,强行塞入自回归架构。这像极了 NLP 早期用 CNN 建模语言的弯路 —— 当视觉表达被空间局部性束缚,因果链被切割得支离破碎,如何能真正拥抱 AR 的本质?

华为盘古多模态生成团队破局思路:让图像学会「说 AR 的语言」。团队指出:视觉要想复刻 LLM 的成功,必须彻底重构 token 化范式!基于昇腾 AI 基础软硬件的 Selftok 技术,通过反向扩散过程将自回归先验融入视觉 token,让像素流转化为严格遵循因果律的离散序列。

项目主页:https://Selftok-team.github.io/report/

ArXiv 链接:https://arxiv.org/abs/2505.07538

Github链接: https://github.com/selftok-team/SelftokTokenizer

Selftok 的突破在于:

  • 反向扩散锻造因果 token—— 通过扩散过程的时序分解,让视觉表达彻底 AR 化
  • 强化学习友好型 token—— 首个严格满足贝尔曼方程 (Bellman Equation) 的视觉离散表征
  • 纯 AR 大一统架构 —— 无需复杂模块堆叠,优雅地实现 LLM 和 diffusion 的融合,单凭 next-token prediction 统一跨模态生成

实验结果实现:

  • 视觉重建新突破:Imagenet 上重建指标达到离散 token SoTA
  • 跨模态生成新高度:无需图文对齐数据!仅凭视觉 token 策略梯度,GenEval 生成质量超越 GPT-4o
  • 亲和昇腾计算架构:昇腾原生算子融合 + MindSpeed 框架,实现端到端原生开发

值得一提的是,该系列工作的开篇论文《Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens》也入选了 CVPR 2025 最佳论文候选(Best Paper Candidate, 14/13008,0.1%)。

介绍

当前行业共识认为大语言模型(LLMs)正面临语言数据瓶颈,而图像、视频等非语言数据仍存在巨大开发潜力。技术圈普遍认为,构建统一的多模态架构将是释放 AI 更强涌现能力的关键。要将视觉等非语言模态整合进类似 LLMs 的离散自回归模型(discrete AR,dAR),核心挑战在于将连续视觉信号转化为离散 Token。华为盘古多模态生成团队首创不依赖空间先验的视觉 Token 方案,通过与语言模态联合训练构建视觉 - 语言模型(VLM),在图像生成、图像编辑等任务中展现出卓越能力。其强化学习优化后的生成性能已超越 AR 范式现有模型,开创了多模态自回归训练的新范式。

为何选择离散化视觉 token?当前主流方案采用语言 dAR 与图像连续自回归模型(continuous AR, cAR)的混合架构,认为连续表征能最小化图像压缩损失。但大量研究表明:离散表征同样可保持高精度,而连续表征存在三重致命缺陷:其一,预测稳定性差,cAR 采用均方误差(MSE)训练的向量回归器较 dAR 的交叉熵(XE)分类器更易出错,这迫使多数 cAR 放弃因果预测范式,转向双向建模,从根本上违背 decoder-only 架构的自回归设计哲学;其二,强化学习复杂度激增,连续状态 - 动作空间使马尔可夫决策过程从有限转为无限,策略优化难度呈指数级上升;其三,解耦能力受限,连续表征在学习过程中会带来模式坍缩 (视觉幻觉),离散可以实现因子更好的解耦。

图片

图 1

为什么选择摒弃空间先验?早期 CV 研究将空间特征 Token 化视为自回归建模标配,但华为 AIGC Selftok 团队指出:空间 Token 的因果依赖本质与 AR 范式存在根本冲突。如下图所示,碰撞效应导致虚假依赖,编码任一空间 Token 时引入与其他所有 Token 的贝叶斯伪相关,破坏 AR 所需的因果图结构;从而导致强化学习失序,非 AR 依赖使 Token 预测影响历史状态,无法满足贝尔曼方程,导致策略优化陷入局部最优困境。实验证明,非空间 Token 的 RL 效果上限显著低于 AR Token。

图片

基于此,Selftok 团队提出 Self-consistency Tokenizer:通过扩散模型反向过程的 AR 特性编码图像生成轨迹,每个 Token 对应扩散步骤的时间戳(如图 3)。

图片

图 3

该方案实现三大突破:

1)AR 原生架构(自回归之本):彻底摒弃空间先验,保持重建精度同时提升图文模态兼容性,为 dAR-VLM 预训练与 RL 微调奠定基础;

2)扩散范式统一(扩散之法):直接贯通扩散模型与自回归架构,无需额外模块即可完成跨模态统一。自回归等价于递归,可像归并排序算法(下左图)一样分而治之。同理,将 x_0→x_1(下右图)的路径分解成两部分,x_0→x_t 由扩散模型采样得到,x_t→x_1 学习 token;

图片

图 3.1

3)推理性能跃升(推理之用):Selftok-Token 完美适配策略优化,使 dAR-VLM 获得类 LLM 的 RL 训练能力。实验证明,无监督的 Selftok-Zero 在 GenEval 和 DPG-Bench 榜单分别以 92% 和 85.57 分超越基于 Spatial token 的 AR 范式模型,验证了 Selftok token 与 AR 范式的组合威力。

方法简述

Tokenizer: Selftok tokenizer 主要由三部分构成:encoder,quantizer 与 decoder。整体的结构如图 4 所示:

图片

图 4

Selftok 编码器采用双流架构:图像分支继承 SD3 的 VAE 隐空间编码,文本分支创新性替换为可学习连续向量组以捕捉扩散特征,通过动态掩码机制提升计算效率。核心量化器通过 EMA 更新的 codebook 和独创的 "code 偏移监测 - 重激活" 机制,解决传统训练不均衡问题,实现扩散过程与自回归建模的统一。解码器基于 SD3 权重改进,文本分支采用 codebook embedding 替代传统输入,并通过时序感知 token 分配策略(随 timestep 缩减 token 数量)强化自回归特性。为了进一步提升推理效率,渲染器通过引入 "画布"token 消除 timestep 依赖,在昇腾 910B2 上实现单卡推理速度从 8.2 秒压缩至 0.31 秒,同时完全保留重建质量。生成路径离散化技术将连续扩散转化为 token 驱动确定性映射,奠定视觉自回归建模新范式。 

图片

图 6

Selftok 团队通过可视化对比揭示了 token 表征的本质差异:

1)渐进重建(左→右):通过逐步掩码输入 token 序列测试重建能力。

图片

VQGAN、FlowMo、VAR 因 token 与图像块强绑定,在短序列输入时呈现块状伪影;而 Selftok 即使保留极少量 token 仍保持全局语义连贯。

2)Token 插值(左→右):通过逐步替换左右图像 token 实现插值。 

图片

传统方法因空间局部性产生断裂形变,Selftok 则实现平滑语义过渡,验证了自回归建模的理论优势。

Pretrain and SFT:在预训练阶段,模型架构基于 LLaMA-3-8B 进行扩展,在原有语言词表的基础上新增了 32,768 个图像 token 的词表。正如前文所述,Selftok dAR-VLM 可以完全复用现有的 LLM 训练范式与训练框架。具体实现上,该模型基于昇腾 MindSpeed 框架和昇腾 910B NPU 进行训练优化,整个流程被设计为两个关键阶段:

1.多模态对齐:这个阶段引入四种数据输入格式(如图 8 所示)来帮助模型实现模态的对齐,分别为 text-to-image, image-to-text, image-only 与 text-only,使得模型从 LLM 转变为 VLM。

图片

图 8

2.多任务对齐:这个阶段收集了高质量的图像与文本数据对模型在三类任务(如图 8 所示)上进行监督微调(sft):text-to-image, image-editing 与 image-understanding,进一步提升模型的能力上限并扩展模型的能力边界。此外针对 AR token 的特性,Selftok 团队也设计了新的推理策略,会根据当前图像 token 的熵来确定是否进行 logit adjustment。新的推理策略也帮助模型进一步提升了图像生成的效果。

图片

公式 1

RL:Selftok 团队首先证明了 AR tokens 能够推导出贝尔曼方程,进而证明采用策略优化的 RL 算法具有最优解。在此理论基础上,选择使用 GRPO 算法对模型进行优化。不同于数学问题或代码生成这类能够获得精确 reward 的任务,文生图任务难以精确的评估生成效果与指令遵循能力。为了解决这个问题,Selftok 团队设计了两类奖励函数:基于程序与基于 VQA 任务。基于程序的奖励函数能够有效的评估生成图像中的物体属性、空间关系、数量等是否与 prompt 相符合,团队使用目标检测模型来检测上述内容,并提高目标检测的阈值,在提升图文一致性的同时显著的提升了图像内容的合理性与美感;基于 VQA 任务的奖励函数面向更加通用的场景,首先 prompt 会被分解为多个问题,随后使用 Internvl 与 GPT-4o 来回答这些问题,并计算出最终的 reward。

实验结果显示基于程序的奖励函数能够更加有效的提升模型的表现,在 GenEval Bench 上 Selftok-Zero 显著的优于包括 GPT-4o 在内的其他所有模型。

结果

Tokenizer 结果:Selftok tokenizer 在 ImageNet 上的多个重建指标都达到了 sota,相比于其他的 tokenizer,Selftok tokenizer 对细节的重建效果更好,也更加贴近原始图片,量化结果如表 1 所示。

图片

表 1

文生图结果:华为盘古多模态生成团队在 GenEval 与 DPG 两个 benchmark 上评测文生图的的表现。其中在 GenEval Benchmark 上,基于 Selftok-sft 模型 RL 后的 sefltok-zero 大幅领先包括 GPT-4o 在内的所有模型,达到 92 的分数。相比与 sft 模型,经过 RL 后的模型在多个子任务上都达到 SOTA,且大幅领先其他模型。如表 2 所示:

图片

表 2

在 DPG Benchmark 上,Selftok-zero 仅次于 HiDream-I1,并在多个子项上达到 sota。相比于 Selftok-sft,Selftok-zero 的表现全面提升,进一步证明了 Selftok token 在 RL 算法上的有效性。结果如表 3 所示:

图片

表 3

可视化结果如图 9 所示:

图片

图 9 

图像编辑结果:Selftok 团队还在 PIE-Bench 上检测了模型的图像编辑能力,结果显示 Selftok 模型的编辑效果在编辑模型中也处于领先地位,量化指标如表 4 所示,编辑过程可视化结果如图 10。

图片

表 4

图片

图 10

在多轮编辑任务中,Selftok 展示了精确的理解能力与非编辑区域的保持能力,编辑指令的遵循能力能够与 GPT-4o,Gemini-2.0 等匹配,如图 11 所示:

图片

....

#SketchVideo

SketchVideo让手绘动起来,视频生成进入线稿时代

近年来,生成式人工智能的快速发展,在文本和图像生成领域都取得了很大的成功。视频生成作为 AIGC 的重要研究内容,在影视制作、短视频合成和虚拟仿真等方面都有应用价值。现有的商用和开源的视频生成模型,都能根据文本或图像输入生成高质量的视频片段。

但是,仅依赖文本作为输入,用户难以精确控制几何细节和场景布局;若引入额外图像输入,则面临如何获取输入图像、难以精确控制运动信息等问题。此外,在给定已有视频片段后,如何对局部区域进行二次修改,并让新生成的画面与原始视频保持空间与时序一致,是亟待解决的问题。

近期,中国科学院大学,香港科技大学和快手可灵团队研究人员提出了一种基于线稿的可控视频生成和编辑方法 SketchVideo [1],相关技术论文发表于 CVPR 2025。这一方法助力每一个人成为 AI 时代下的绘画影视大师,通过寥寥数笔即可生成栩栩如生的动态视频结果。无论是从零开始生成视频,还是在真实视频上做局部创意编辑,SketchVideo 都能让你轻松驾驭动态画面,释放创作潜能。

论文标题:SketchVideo: Sketch-based Video Generation and Editing

arXiv 地址:https://arxiv.org/pdf/2503.23284

项目主页:http://geometrylearning.com/SketchVideo/

GitHub 地址:https://github.com/IGLICT/SketchVideo

视频 demo:https://www.youtube.com/watch?v=eo5DNiaGgiQ

先来看看使用 SketchVideo 的视频生成和编辑的效果!

图片

图 1 基于线稿的视频生成结果

图片

图 2 基于线稿的视频编辑结果

Part1 背景

近年来,AI 视频生成模型,如 Sora [2]、可灵 [3](商用模型)和 CogVideo [4]、Wan [5](开源模型)等,发展非常迅速。这些模型以文本及图像作为输入生成高质量视频,但在可控性和编辑性等方面有仍有提升空间。

线稿作为一种直观且易于使用的交互方式,已广泛应用于各类生成任务。早期研究 [6] 将线稿引入生成对抗网络(GAN),以生成特定类别的图像。随着扩散模型的发展,线稿控制也被引入到文生图模型中,如 Stable Diffusion [7]。其中,ControlNet [8] 是一项代表性工作,它基于 UNet 结构,通过复制 UNet 中的编码器作为控制网络,用于提取线稿特征,从而实现对几何细节的有效控制。

然而,视频生成模型在显存占用和计算开销方面远高于图像生成模型,且通常采用 DiT 架构 —— 由一系列 Transformer 模块串联而成,缺少编码器和解码器结构。这使得直接将 ControlNet 方法迁移至视频生成模型 [9] 面临挑战:一是没有明确的编码器可用作控制网络,二是复制大规模参数会带来过高的资源消耗。此外,让用户为视频的每一帧绘制线稿并不现实,因此更合理的做法是仅绘制一帧或两帧关键帧。但如何将这些关键帧的控制信号有效传播至整段视频,仍是亟需解决的技术难题。

相比视频生成,基于线稿的视频编辑更侧重于对局部区域的修改,要求生成结果与周围区域在空间和时间上保持一致,同时确保非编辑区域的内容不被破坏。现有方法多采用文本驱动的方式进行视频编辑 [10],或通过传播第一帧的编辑结果到整段视频 [11]。然而,这些方法主要聚焦于整体风格变化,对于实现精确的局部几何编辑存在不足,仍需进一步探索。

Part2 算法原理

图片

图 3 SketchVideo 的网络架构图,生成和编辑流程

该工作基于预训练的视频生成模型 CogVideo-2B(图 3a 灰色部分),在其基础上添加了可训练的线稿控制网络(图 3a 蓝色部分),用于预测残差特征,从而实现基于线稿的可控视频生成。不同于 PixArt-δ[12] 中通过复制前半部分的 DiT 模块构建控制网络的做法,该工作提出了一种跳跃式残差控制结构:将条件控制模块以固定间隔均匀嵌入至预训练模型的不同层次,分别处理不同深度的特征,提升控制能力的同时降低冗余计算。具体而言,线稿控制模块 0 的权重初始化自原始模块 0,模块 1 初始化自模块 6,依此类推。该设计在显著减少参数开销的同时,仍保持了良好的控制效果。

在视频生成阶段,用户可输入一帧或两帧关键帧线稿,并指定其对应的时间点,以控制视频在特定时刻的几何细节和视频整体的运动状态。为了将这些关键帧的控制信息有效传播至整段视频,该方法引入了帧间注意力机制(图 3 b):先通过一组由原始视频生成模型初始化的可训练 DiT 模块(DiT Block (trainable copy))提取关键帧的控制特征,再利用帧间相似性引导控制信号以稀疏方式向其他帧传播,最后通过前馈网络生成所有帧的残差控制特征,实现时序一致的线稿引导生成。

在视频编辑阶段,控制网络除线稿外,还需额外接收原始视频及随时间变化的矩形掩码,用于标记编辑区域。在生成控制模块的基础上,该方法新增了视频嵌入模块(图 3c),用于提取非编辑区域的原始视频信息,确保编辑结果在空间和时间上与周围内容协调一致。由于原始视频不具备时间稀疏性,视频嵌入模块未采用帧间注意力机制。在推理阶段,该方法还引入局部融合策略,在隐空间中融合原始视频与编辑结果,实现对非编辑区域内容的精确保留。

在训练方面,该方法使用配对的线稿和视频数据进行训练,并额外引入线稿与静态图像对,提升线稿控制网络在不同场景下的泛化能力。对于视频编辑任务,网络初始化使用基于线稿的视频生成模型的权重,并引入随机生成的掩码模拟实际编辑过程,从而训练出具备高质量编辑能力的模型。

Part3 效果展示

如图 4 所示,用户可以绘制单帧线稿,并额外输入文本描述,该方法可以生成高质量的视频结果。合成的视频结果在指定的时间点与线稿存在较好的对应性,并且具有良好的时序一致性。

图片

图 4 基于单帧线稿的视频生成结果

如图 5 所示,用户也可以绘制两帧线稿,该方法也可以生成高质量的视频结果。通过两个关键帧输入,用户不仅可以控制场景布局和几何细节,也可以控制物体的运动状态,实现视频的定制化生成。

图片

图 5 基于两帧线稿的视频生成结果

如图 6 所示,给定真实的视频后,用户可以指定编辑区域,并额外绘制线稿对局部进行修改。该方法生成逼真的视频编辑效果,新生成的内容会随着非编辑区域的运动(如树枝的移动、头部旋转)一起变化,从而生成自然的视频结果。

图片

图 6 基于单帧线稿的视频编辑结果

如图 7 所示,与视频生成类似,用户在视频编辑的过程中,也可以绘制两个关键帧对应的线稿,从而控制新添加物体的运动状态,该方法依然生成较为真实的视频编辑效果。

图片

图 7 基于两帧线稿的视频编辑结果

Part4 结语

随着大模型和生成式人工智能的迅速发展,AI 绘画的能力已从静态图像延伸至动态视频的生成。相较于生成二维图像,如何基于关键帧的手绘线稿,精准控制视频中物体的几何细节与运动轨迹,成为重要的研究问题。SketchVideo 提出了一种有效的解决方案,通过线稿引导实现高质量的视频的生成和编辑,提高视频合成的可控性。

借助该方法,用户无需掌握复杂的专业视频处理软件,也不比投入大量时间和精力,仅凭几笔简单的线稿勾勒,便可以将想象变为现实,得到真实灵动的动态艺术作品。SketchVideo 工作已经被 CVPR 2025 接受。

参考文献:

[1] Feng-Lin Liu, Hongbo Fu, Xintao Wang, Weicai Ye, Pengfei Wan, Di Zhang, Lin Gao*. “SketchVideo: Sketch-based Video Generation and Editing.” CVPR 2025

[2] https://openai.com/sora/

[3] https://www.klingai.com/cn/

[4] Yang, Zhuoyi, Jiayan Teng, Wendi Zheng, Ming Ding, Shiyu Huang, Jiazheng Xu, Yuanming Yang et al. "Cogvideox: Text-to-video diffusion models with an expert transformer." arXiv preprint arXiv:2408.06072 (2024).

[5] Wang, Ang, Baole Ai, Bin Wen, Chaojie Mao, Chen-Wei Xie, Di Chen, Feiwu Yu et al. "Wan: Open and advanced large-scale video generative models." arXiv preprint arXiv:2503.20314 (2025).

[6] Wang, Ting-Chun, Ming-Yu Liu, Jun-Yan Zhu, Andrew Tao, Jan Kautz, and Bryan Catanzaro. "High-resolution image synthesis and semantic manipulation with conditional gans." CVPR 2018.

[7] Rombach, Robin, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. "High-resolution image synthesis with latent diffusion models." CVPR 2022.

[8] Zhang, Lvmin, Anyi Rao, and Maneesh Agrawala. "Adding conditional control to text-to-image diffusion models." ICCV 2023.

[9] Guo, Yuwei, Ceyuan Yang, Anyi Rao, Maneesh Agrawala, Dahua Lin, and Bo Dai. "Sparsectrl: Adding sparse controls to text-to-video diffusion models." ECCV 2024.

[10] Cheng, Jiaxin, Tianjun Xiao, and Tong He. "Consistent video-to-video transfer using synthetic dataset." ICLR 2024

[11] Ku, Max, Cong Wei, Weiming Ren, Huan Yang, and Wenhu Chen. "Anyv2v: A plug-and-play framework for any video-to-video editing tasks.” arXiv e-prints (2024): arXiv-2403.

[12] Chen, Junsong, Yue Wu, Simian Luo, Enze Xie, Sayak Paul, Ping Luo, Hang Zhao, and Zhenguo Li. "Pixart-{\delta}: Fast and controllable image generation with latent consistency models." arXiv preprint arXiv:2401.05252 (2024).

....

Logo

欢迎加入我们的广州开发者社区,与优秀的开发者共同成长!

更多推荐