51c大模型~合集125
整个过程在与环境的互动中完成,环境负责验证任务的合理性和解答的正确性,并为模型提供奖励反馈。在这一范式下,研究团队训练了新的模型 Absolute Zero Reasoner(AZR),以代码执行器作为真实环境,自动生成并解决三类代码推理任务,涵盖归纳、演绎与溯因推理,依赖环境可验证的反馈实现稳定训练。在最核心的比较中,AZR-Coder-7B 在多个代码与数学推理基准上取得了当前同规模模型中的最
我自己的原文哦~ https://blog.51cto.com/whaosoft/13892516
#Absolute Zero
绝对零监督:类AlphaZero自博弈赋能大模型推理,全新零数据训练范式问世
在人工智能领域,推理能力的进化已成为通向通用智能的核心挑战。近期,Reinforcement Learning with Verifiable Rewards(RLVR)范式下涌现出一批「Zero」类推理模型,摆脱了对人类显式推理示范的依赖,通过强化学习过程自我学习推理轨迹,显著减少了监督训练所需的人力成本。然而,这些方法的学习任务分布仍由人类预先设计,所依赖的数据依旧高度依赖专家精心策划与大量人工标注,面临着难以扩展与持续演化的瓶颈。
更重要的是,如果智能系统始终受限于人类设定的任务边界,其自主学习与持续进化的潜力将受到根本性限制,这一现实呼唤一种全新的推理范式,迈向超越人类设计约束的未来。
为应对这一挑战,清华大学 LeapLab 团队联合北京通用人工智能研究院 NLCo 实验室和宾夕法尼亚州立大学的研究者们提出了一种全新的推理训练范式 ——Absolute Zero,使大模型无需依赖人类或 AI 生成的数据任务,即可通过自我提出任务并自主解决,实现「自我进化式学习」。在该范式中,模型不仅学习如何生成最具可学习性的任务(maximize learnability),还通过解决这些自主生成的任务持续增强自身的推理能力。Absolute Zero 范式不仅在性能上表现卓越,其核心理念更在于推动推理模型从依赖人类监督向依赖环境监督的范式转变,使模型通过与真实环境的交互生成可验证的任务并获得可靠反馈,从而不断提升自身的推理能力。
在这一范式下,研究团队训练了新的模型 Absolute Zero Reasoner(AZR),以代码执行器作为真实环境,自动生成并解决三类代码推理任务,涵盖归纳、演绎与溯因推理,依赖环境可验证的反馈实现稳定训练。实验表明,虽然未见过目标任务,AZR 在代码生成与数学推理这两个跨领域基准任务中表现出色,并且超越已有的方法达到 SOTA。这一成果不仅显著缓解了当前大模型训练对高质量人工数据的依赖难题,也预示着推理模型正迈入一个具备「自主进化」的智能新时代。
论文标题:Absolute Zero: Reinforced Self-play Reasoning with Zero Data
论文链接:https://www.arxiv.org/abs/2505.03335
展示页面:https://andrewzh112.github.io/absolute-zero-reasoner/
Absolute Zero Reasoner 在零数据的条件下实现了数学和代码推理 benchmark 上的 SOTA 性能。该模型完全不依赖人工标注或人类预定义的任务,通过研究团队提出的 self-play 训练方法,展现出出色的分布外推理能力,甚至超越了那些在数万个专家标注样本上训练而成的 reasoning 模型。
推理新范式:Absolute Zero,让模型真正摆脱人类数据依赖
在当前的大模型训练中,监督微调(SFT)是常见的推理能力对齐方法,依赖人类专家提供的问题、推理过程(即 Chain-of-Thought)以及标准答案。模型通过逐词模仿这些示范,学习如何完成复杂的推理任务。然而,这种方法对人工标注的依赖极高,不仅耗时耗力,也限制了规模扩展。为缓解对人类标注的推理轨迹的依赖,近年来出现了基于可验证奖励的强化学习方法(RLVR),只需专家提供标注好的问题与标准答案,不要求中间过程。模型自行推理并生成答案,并通过和匹配标准答案匹配获得奖励,从而优化自身策略。这类方法虽然减少了部分监督需求,但其训练所需的问题和答案仍由专家精心设计,依然无法摆脱对人类标注数据的依赖。
为解决这一根本性瓶颈,研究团队提出了全新的推理训练范式:Absolute Zero。该范式中,模型具备双重能力:一是自主提出最具可学习性(learnability)的任务,二是通过解决这些任务不断提升推理能力。整个过程在与环境的互动中完成,环境负责验证任务的合理性和解答的正确性,并为模型提供奖励反馈。这一机制构成了「自博弈闭环」:模型不断提出任务、求解任务、从反馈中改进策略,完全不依赖任何人工构建的数据集。Absolute Zero 实现了真正意义上的「零人工数据推理模型」,不仅打破了现有范式对人类标注的依赖,也为构建具备持续自我进化能力的智能体开辟了新路径。这一范式的提出,标志着推理模型训练从「模仿人类」迈向「自主成长」的关键一步。
监督学习依赖人类精心设计的推理轨迹进行行为克隆;基于可验证奖励的强化学习虽能让智能体自我学习推理过程,但仍依赖专家定义的问答对数据集,这些都需要大量领域知识与人工投入。相比之下,研究团队提出了一种全新的推理模型训练范式 ——Absolute Zero,实现了在完全不依赖人工数据的前提下进行训练。该范式设想智能体应具备自主构造任务的能力,并通过统一的模型架构学习如何解决这些任务。智能体通过与提供可验证反馈的环境进行交互完成学习,实现全流程无需人类干预的可靠、持续自我进化。
Absolute Zero Reasoner:实现零监督推理的开端
为验证并实现 Absolute Zero 这一全新推理训练范式的可行性,研究团队提出了首个具体实现系统:Absolute Zero Reasoner(AZR)。作为该范式的初步探索,AZR 是一种统一的大语言模型系统,在训练过程中同时担任任务提出者与求解者两个角色。它能够不断自我构建学习任务、自我尝试解答,并在与代码执行器环境交互中获得可验证反馈,从而实现无需人工数据的自我进化学习。
Absolute Zero Reasoner 训练流程概览。每轮训练中,基于历史生成的三元组和指定任务类型(溯因、演绎或归纳)模型会首先提出一批新任务;随后使用 Python 代码执行器对新任务进行过滤与构造,生成可验证的代码推理问题,并为每个任务计算可学习性奖励。接着,模型尝试解答这些问题,并根据输出结果的正确性获得准确性奖励。最后,模型结合两种奖励信号,统一更新参数,以此实现多任务下的自我进化学习。
双重角色:同时担任任务设计者与问题求解者
在 Absolute Zero 框架中,大模型一体扮演「提出者」(Proposer)和「解答者」(Solver)两个角色。模型首先提出一个新任务,由环境验证其可解性与学习价值;随后模型尝试解决该任务,并根据答案的正确性获得奖励。两阶段均通过强化学习训练,并共享同一套模型参数,确保推理能力与任务设计能力同步提升。
提出的任务会获得一个「可学习性奖励」,其定义为:对当前模型进行多次采样解答该任务后,计算平均准确率,并将奖励设为 1 - 平均准确率(当准确率为 0 或 1 时奖励为 0)。这一设计鼓励模型提出具有中等难度的任务,即那些当前模型偶尔能够解出的任务,因为这类任务最有助于提升模型能力。解答环节的「解答奖励」则更为直接:若模型给出的答案与标准答案完全一致,奖励为 1,否则为 0,用于衡量推理是否正确。
三大推理方式:归纳、演绎与溯因
Absolute Zero Reasoner(AZR)通过对代码任务的构建与求解,支持三种基本推理模式:演绎(Deduction)、溯因(Abduction)和归纳(Induction)。这些任务都围绕程序、输入和输出三元组展开:
- 演绎推理:模型接收程序和输入,预测输出,主要考察逻辑演算能力;
- 溯因推理:模型接收程序和输出,反推输入,类似于「反向搜索」;
- 归纳推理:模型接收多组输入输出和代码描述,完成一个能通过验证的程序,考察泛化能力。
模型提出任务后,Python 环境会验证其可执行性、输出是否正确、是否具有确定性,确保任务是有效且可用的。验证通过后,模型尝试求解,并通过环境反馈进行强化学习优化。
自我学习算法:从零起步的完整训练流程
整个训练过程以一个简单的三元组作为种子任务启动,自此进入 self-play 循环。训练包括三个阶段:任务提出、任务求解和策略更新。每一轮迭代,模型会先提出多个新任务(包括三种推理类型),再尝试解答,最后根据两个角色的表现共同更新模型参数。
为了提升训练稳定性,AZR 采用了任务相对强化学习(Task-Relative REINFORCE++,TRR++)算法。它分别为六种「任务 - 角色」组合计算归一化优势值,避免任务间差异造成训练干扰。这一策略使 AZR 在多任务强化学习设置下仍能有效优化,并实现真正跨任务泛化的推理能力。
最终,AZR 无需任何人工构建的数据,通过与环境的互动,在复杂任务空间中自我构建、自我评估、自我进化,展现出通用推理智能的新形态。Absolute Zero 范式为构建具备类人「经验」与「成长力」的 AI 系统提供了崭新的思路。
实验结果
在本项研究中,研究团队全面评估了 Absolute Zero Reasoner(AZR)在多项推理任务中的表现,涵盖代码生成与数学推理两个关键领域,并与多个基于专家数据训练的推理模型进行了对比。从结果来看,AZR 在完全不依赖任何人工构建数据的前提下,取得了超越现有主流模型的表现,充分展现了「零数据自我进化」范式的巨大潜力。
基于 Qwen2.5-7B 模型的强化学习推理器在推理基准任务中的表现。团队对各类模型在三个标准代码任务(HumanEval+、MBPP+、LCB v5)和六个数学推理任务(AIME’24、AIME’25、AMC’23、MATH500、Minerva、OlympiadBench)上的表现进行了评估。代码任务与数学任务的平均分分别记为 CAvg 和 MAvg,总体表现为两者的平均值(AVG = CAvg 与 MAvg 的平均)。表格中的绿色加号(+)表示相较于基准模型的绝对百分比提升。所有模型均基于不同版本的 Qwen2.5-7B 进行训练。
在最核心的比较中,AZR-Coder-7B 在多个代码与数学推理基准上取得了当前同规模模型中的最优结果,不仅在总体平均分上领先,更在代码任务平均得分上超越了多个依赖人工任务训练的模型。在数学推理方面,即便 AZR 从未直接见过任何相关任务或数据,其跨领域泛化能力依旧显著:AZR-Base-7B 和 AZR-Coder-7B 在数学任务上的平均准确率分别提升了 10.9 和 15.2 个百分点,而多数对比的代码模型在跨域测试中几乎无提升。
进一步的分析显示,AZR 的性能受初始模型能力影响显著。尽管 Coder 版本在初始数学推理能力上略低于 Base 版本,但在 AZR 框架训练后,其最终表现反而全面领先,说明代码能力的强化训练可以促进广义推理能力的发展。这一现象突出了代码环境在构建可验证任务和推进推理能力提升中的独特优势。
在模型规模扩展实验中,研究团队分别对 3B、7B 与 14B 的模型版本进行 AZR 训练。结果显示,模型规模越大,AZR 训练所带来的提升越明显。在 OOD 任务上的总体表现提升分别为 +5.7(3B)、+10.2(7B)与 +13.2(14B),说明 AZR 在更大、更强的模型上具备更强的训练潜力和泛化能力,也为未来探索 AZR 的「扩展法则」提供了初步证据。
(a) 同分布任务表现与 (b) 异分布任务表现。(a) 展示了 AZR 在训练过程中的同分布推理能力,评估任务包括 CruxEval-I、CruxEval-O 和 LiveCodeBench-Execution,分别对应溯因、演绎和演绎任务类型,涵盖不同模型规模与类型。(b) 展示了 AZR 在异分布任务上的泛化推理表现,评估指标为代码类任务平均分、数学类任务平均分以及两者的总体平均分,涵盖不同模型规模与结构。
「uh-oh」moment。在 LLama-8B 的训练过程中,模型的思考带有偏激情绪,希望设计一个「荒唐且复杂」的任务来迷惑人类和模型。
在 AZR 的训练过程中,研究团队观察到一系列与推理模式相关的有趣行为。模型能够自动提出多样化的程序任务,如字符串处理、动态规划及实用函数问题,并展现出显著的认知差异性:在溯因任务中,模型倾向于反复试探输入并自我修正;在演绎任务中,会逐步推演代码并记录中间状态;在归纳任务中,则能归纳程序逻辑并逐一验证样例正确性。此外,模型在归纳任务中常出现带注释的「推理计划」,表现出类似 ReAct 风格的中间思考路径,这种现象也在近期 DeepSeek Prover V2(规模达 671B)中被观察到,表明中间规划行为可能是强推理模型自然涌现的能力之一。同时,在 Llama 模型中还出现了显著的状态跟踪行为,模型能在多轮推理中保持变量引用的一致性,展现出较强的上下文连贯性与推理连贯能力。
另一个显著现象是模型响应长度(token length)的任务依赖性差异:在溯因任务中,模型为了解决目标输出,生成了更长的、包含试错和反思的回答;而演绎与归纳任务中则相对更紧凑,表明其信息结构策略各不相同。训练过程中还出现了个别值得注意的输出,如 Llama 模型在某些场景下生成带有偏激情绪的「uh-oh moment」,提示未来仍需关注自我进化系统的安全控制与行为治理问题。这些现象共同体现了 AZR 在不同推理任务中的认知特征演化,也为后续深入研究提供了宝贵线索。
结语:迈向「经验智能」的新时代:Absolute Zero 的启示
在本项研究中,研究团队首次提出了 Absolute Zero 推理范式,为大模型的自我进化提供了一条全新的路径。该范式打破了现有 RLVR 方法对人类标注任务分布的依赖,转而让模型在环境反馈的引导下,自主生成、解决和优化任务分布,从而实现从零开始的学习。团队进一步构建并验证了这一理念的具体实现 —— Absolute Zero Reasoner(AZR),通过代码环境支撑任务验证与奖励反馈,完成自我提出与解答推理任务的闭环式训练流程。
实验结果显示,AZR 在多个代码生成与数学推理的异分布基准测试中,均展现出卓越的通用推理能力,甚至超越了依赖人工高质量数据训练的最先进模型。这一表现令人惊讶,特别是在没有使用任何人工构建的任务数据的前提下,AZR 依靠完全自提出的任务,实现了强大的推理泛化能力。更重要的是,研究团队发现 AZR 在不同模型规模和架构上均具备良好的可扩展性,为将来进一步放大模型能力提供了可行性依据。
当然,Absolute Zero 仍处于早期阶段,其自提出任务与自我学习过程的治理、安全性与稳定性仍有待进一步研究。例如,在某些模型(如 Llama3.1)中,研究团队观察到潜在的安全风险表达,「uh-oh moment」,提示我们需要更审慎地设计任务空间的约束与奖励机制。
这一工作启示我们:未来的推理智能体,不仅应能解决任务,更应具备提出任务、发现知识空白、并自主调整学习路径的能力。这意味着,探索的重点应逐步从「如何解答」转向「学什么、如何去学」。这一视角的转变,可能成为构建具备经验与成长能力智能体的关键起点。而这一点,正是当前大多数推理研究尚未触及的边界。从这一意义上说,AZR 所开启的不只是一个新算法,而是一个新的时代 —— 一个属于「自主智能」的时代。
本论文一作是清华大学自动化系四年级博士生 Andrew Zhao(赵启晨),他专注于强化学习、大语言模型、Agents 和推理模型的研究。
他的导师是黄高教授。他是大语言模型 Agents 经验学习开创性工作《ExpeL: LLM Agents Are Experiential Learners》的第一作者,也是《DiveR-CT: Diversity-enhanced Red Teaming Large Language Model Assistants with Relaxing Constraints》第一作者。
本论文二作是宾夕法尼亚州立大学信息系三年级博士生 Yiran Wu(吴一然),他专注于大语言模型 Agents,强化学习和推理模型的研究。
他的导师是吴清云教授。他是著名开源 agent 框架 AutoGen 的作者和核心维护者,也是《StateFlow: Enhancing LLM Task-Solving through State-Driven Workflows》第一作者。
#原来,AI也有「搜商」高低的差别
五一假期刚过,相信不少人已经在朋友圈的「人海直播」中深刻体会到了一个真理:出门旅游,光靠一腔热情远远不够。
翻了三十个小红书帖子,打开十几个 App 对比攻略,还没出发脑子就已经「宕机」;真到了景点,又发现「人从众」三个字压根写不下那条排队长龙。这种「早知道就不来了」的懊恼,相信很多人都不陌生。
问题不在于信息不够,而在于我们没有时间也没有耐心,把海量信息变成真正可用的答案。这正是搜索引擎时代的「隐性成本」—— 你在不断翻页、筛选、甄别,而不是直接得到解决方案。
AI 搜索的兴起,第一次打破了这个路径依赖。在大模型的加持下,搜索不仅能找到网页,更能将信息初步「消化」,生成一段简洁的回答。只是,之前的大部分 AI 搜索仍然局限在「你查我找并总结」的层面,回答浅尝辄止,逻辑支离破碎,甚至连问题的重点都没抓住。现如今,虽然已有不少服务商开始推出自家的「深度思考」,但实际上这些 AI 并没有具备真正的思考能力,仍旧是一种计算过程。
最近,夸克推出的「深度搜索」则在这个基础上迈出了决定性一步。
简单来说,深度搜索在深度思考的基础上强化了 AI 的思考能力,让 AI 真正拥有了「高搜商」,AI 能像人一样先主动理解、思考、拆解问题,再分点推理并规划搜索思路和步骤,给出结构清晰、内容可信、可直接执行的解决方案。
这意味着,搜索不再只是信息的搬运和简单总结,而变成了真正有思考力的「AI 顾问」。类比于之前 AI「智商」的提升,这一次提升的是 AI 的「搜商」—— 一个用于衡量 AI 是否具备类人思维和逻辑组织能力的新指标。搜索,终于开始真正变得聪明了。对用户来说,只要说出问题,剩下的交给夸克就好。
那么,夸克的「高搜商」究竟高在哪?
虽然都叫「深度」
但高搜商的夸克并不一样
市面上已经有不少带「深度思考」的「AI+搜索」产品,但夸克的深度搜索跟他们对比到底哪里不同?在对大量真实问题的测试中,观察到夸克深度搜索具备以下几大优势 —— 它们让我们感受到:一个高搜商的超级 AI 应用已经开始成形。
首先,夸克深度搜索的搜索逻辑更像人类:其流程是「先主动思考、后分点搜索、再信息整合」,也就是说,他会在真正开始搜索之前,先对任务进行拆解和行动步骤设计。这种「有条理」的分点推理方式,不仅能提高效率,也能提升答案的逻辑性与可读性。
我们用如下提示词,来看看夸克和另外两款热门 AI 应用一起「下场做题」时,谁能真正聪明地应对日常的真实任务。
INTJ 适合选哪些类型的专业,我是理科生。
从左到右依次为夸克、另两款 AI 应用的初始响应
可以看到,夸克会在搜索前显式地列出将要执行的步骤,让用户对 AI 的「思考过程」一目了然;另外两款应用要么先是把策略泛泛谈一轮,再去搜索补充,其思考过程还会自动折叠,需要搜索后手动打开,同时其思考内容没有经过梳理,不便于阅读;要么展示的思考过程即是搜索步骤,看似直接但逻辑不够连贯,我们也无从得知 AI 的思考历程。
更重要的是,前期规划能让后续思考更有深度。因为有结构分明的「开场」,夸克在整合搜索结果时也能更有逻辑地做推演与判断,如下对比所示。
从左到右依次为夸克及另两款 AI 应用的部分思考过程
同时,这种动态的前期分析还有另一个好处:能根据问题难度灵活配置搜索资源。该花力气时不吝投入,不该浪费时也懂得节制,最终体现的是「搜商与效率齐高」。
除了逻辑清晰、步骤合理,夸克在「信源可溯性」方面也表现出色,尤其是在健康、学术等对信息准确性要求极高的场景中。下面展示了两个示例。
上下滑动查看
可以看到,夸克不仅会引用国内外权威数据库的循证医学资料,还能结合上下文做出具备因果推理能力的判断。这背后是其自建的亿级医学知识库,其中包含中文医学数据库全集和千万级国内外论文,由近 400 位顶尖医学专家主导内容建设(院士、全国主委 / 副主委、全国常委 / 省级主委以上专家占比 65%+)。夸克还与 60 多家医疗机构和协会合作,严格执行「三审三校」,确保答案的科学性和安全性。
相较之下,很多 AI 应用在专业领域的「信源可溯性」方面还有所欠缺。此外,还会表现出明显的高幻觉问题,对搜索信源的展示随机,并且经常不展示搜索结果来源。下面展示了使用相似提示词的示例。
上下滑动查看
从左到右依次为夸克、另两款 AI 应用的初始响应
更重要的是,这些能力不仅局限在医疗健康领域。
早在去年 11 月,夸克就推出了「学术搜索」,接入了维普、知网、万方等专业平台的数据,建成了一个总量超亿篇的学术文献知识库。借助大模型能力,每次 AI 回应可自动整合 10 篇以上文献内容,从多个维度提供专业解读,实现从「搜资料」到「懂资料」的跨越。很显然,这个大型知识库也在夸克深度搜索的检索范围内。
此外,夸克还拥有一个上亿规模的题库和百万试卷库,覆盖中小学到考研、考公的全学段内容,简直是学生和家长的「在线题王」。
这些知识库,加上对全网信息的高效检索,让夸克深度搜索几乎可帮助用户找到一切已被解答的问题的答案。
推理逻辑清晰 + 动态调整验证 + 信源专业可溯,这些特性共同组成了夸克深度搜索「高搜商」的基础。
实测夸克深度搜索
会思考的 AI 答案更精准
下面我们再通过几个更完整的示例展示一番夸克这个高搜商超级 AI 应用在真实任务中的表现。
首先,回到最开始的问题。回首拥堵的五一,如果你想根据五一期间景点的拥挤情况,来规划端午假期的旅行目的地,只需打开夸克的「深度搜索」功能,用一句简单的提示词就能搞定:
根据五一期间网络上的信息和网友分享,为我盘点一下北京周边好玩但人不多的景点。请注意,“人少” 非常关键!
,时长00:43
可以看到,在执行过程中,夸克深度搜索并不是一股脑地开始查资料,而是会先对用户的需求进行分析,明确重点,再规划接下来的行动步骤:比如先筛选出符合条件的景点,接着查询最新政策,对比各地的客流量趋势,甚至还会验证景区公告与社交媒体上的信息是否一致。
只有当这些准备工作完成之后,他才启动搜索流程。此时,夸克会先广泛检索相关内容,再有逻辑地剔除噪音信息,保留高质量素材,随后再对保留下来的信息进行深度思考。最终,他会以结构清晰、图文并茂、不冗余的方式生成一份高质量报告,真正把答案端到用户面前。
如果你还不满足?当然可以「接着问」,比如让他进一步针对青龙峡制定一个细致的端午出行计划。
,时长01:06
得到的依然是一份不啰嗦、不敷衍的好答案:逻辑清楚,内容可用,细节充分,几乎可以直接照着出发。
这种定制化、个性化的问题,家家户户的情况都不同,家人的饮食习惯、兴趣爱好、体力都有差异,网络上找不到现成的答案。过去我们都是靠在小红书、抖音等内容平台搜索,再自己规划。但现在深度搜索可以耐心听取你的需求,并做出贴心周到的安排。
当然,旅游攻略只是深度搜索能力的一角。我们实际体验发现,无论是靠模糊剧情找小说、影视等娱乐资源,还是进行专业选择、留学咨询、职场生活维权、健康咨询等更复杂的问题,深度搜索都能展现出非常高的「搜商」,给出颇具参考价值的回应。
比如我们测试了一个不少铲屎官常见的担忧:
最近天气变热,小猫老是肚皮贴着地板睡觉,最近发现它每天打很多次喷嚏,但是没有流鼻涕,吃喝拉撒也正常,这是感冒了吗?
上下滑动查看
除了整理医学网站和宠物社区的知识,夸克还能总结出判断要点和应对策略,既有信息,也有建议。
甚至连法律维权这样的硬核问题,他也不含糊:
我上个月租了一套新装修后的房子,住进去后身体不适。经过检测,发现房间内甲醛超标,想要退租,但房东不同意。请为我提供一个合理合法的维权方案。
上下滑动查看
比起过去只能依赖搜索结果自己「扒文档、看帖子」,现在的夸克能直接列出可操作的维权步骤、适用的法律条款,甚至还贴心地列出了两个参考案例与判例。
从这里的示例也能看出,夸克把原本只有专业研究人员才拥有的系统性推理与分析能力带给每个用户。鉴于夸克超 2 亿的用户规模,这无疑标志着深度搜索能力即将广泛普及。这些功能在手机和桌面端均已上线。
更进一步
专业的任务让专业的 Pro 解决
根据夸克最新的产品升级动态,除了发布深度搜索能力,夸克还将发布具有 Deep Research 功能的深度搜索 Pro 模式,该模式专为处理更专业更复杂的问题设计,可以交付结构化、系统性的专业级报告或方案。
如果说「深度搜索」是你生活里的万事通,那「深度搜索 Pro」或许会更像是一位拥有专业背景、思路清晰的研究助理。期待尽快上线。
在基础版的深度搜索中,我们已经看到,AI 能通过「先主动思考、后分点搜索、再整合信息」的方式,帮用户解决日常中的各种难题。但面对更高复杂度的任务,比如需要跨学科知识、权威数据验证或结构化输出的场景,夸克深度搜索 Pro 版本的推出将或为用户带来更加专业、综合的体验。
举个例子,如果你想深度全面地了解 AI 行业,通过「深度搜索 Pro」,夸克就能动用他的强大检索和深度思考能力为你生成一份深度与广度兼备的研究报告。
我想全面了解 AI 这个行业,请用顶级的投行研究专家的视角,先列出一个研究问题清单,再根据清单帮我形成一份完整的研究报告,并标清楚相关资料引用来源。
,时长01:16
多模态任务处理
超强编辑源自真正理解
除了搜索之外,夸克这次还悄悄升级了另一项关键能力:图像智能处理。他不仅能「看图说话」,还能「看图办事」。
这一能力基于多模态大模型,通过结合视觉理解与自然语言处理(NLP),使得夸克具备了从图片中提取信息、理解语境、并据此执行任务的能力。具体而言,夸克在图像处理中的能力可分为两个方向:
一是图像语义理解。他可以识别图像中的主要目标、文字、场景乃至风格等要素,并结合用户的文本输入,实现任务驱动式的信息解读。例如,识别动植物、诊断截图中的软件报错、推荐与装修风格匹配的设计方案等,背后依托的是大规模图文对比训练与知识增强模块。
二是图像智能编辑。用户只需上传图片并输入指令,即可实现照片换背景、去路人、服装更换、风格化转换等操作。这依赖于扩散模型、图像分割、文生图等先进技术的集成与调优。
更重要的是,这一系列能力在夸克中被封装为超级框 + 上传入口(+)的极简交互,只需上传图片并用自然语言描述你的目标,就能实现图文协同的自动化处理。
举个例子,如果你想知道随手拍摄的路边野花是否能做一盘野菜:
上下滑动查看
又比如你想让一张普通合影变得更有质感 —— 删掉路人、替换背景、调整光影风格,则只需点击 + 号上传图片,选择「AI 改图」,然后输入你的具体需求即可。下面展示了一个换背景的例子。
这场 AI 应用竞赛
夸克已冲锋在前
过去很长一段时间里,搜索的角色像是「信息图书馆」的入口 —— 它帮我们找到关键词,指向网页,却不对结果负责。而在生成式 AI 浪潮席卷之下,越来越多用户开始期待一个全新的角色:不只是搜索器,而是一个会思考、有理解力、能够代劳的 AI 助手。
夸克的这次升级,正是在这一背景下迈出的关键一步。他不仅做到了搜索方式的转变 —— 从「找信息」走向「解问题」,更通过「深度搜索」以及图像理解等多项升级,让 AI 能力真正大规模普及到了大众用户的日常生活中。
你可以用他规划一趟不踩坑的假期行程,也可以生成一份结构清晰的市场调研报告,甚至只需上传一张图片,他就能读懂、分析、提取你真正想要的核心信息。这种从输入到输出的完整闭环,意味着 AI 搜索的可用性门槛被大幅降低,也意味着普通用户获取信息的效率、质量和体验正在被彻底改写。而夸克,正是在用「高搜商」的方式,陪用户做更聪明的选择。
在这个人人都能调动 AI 能力的时代,搜索,不再是技术的游戏,而是全民的权利。而夸克,正在用一次次看似微小的产品演进,把「技术平权」这件事,变得真实可感、触手可及。
可以说,在 AI 驱动的搜索下半场,理解力才是核心竞争力。而夸克,已经跑在了前面。
未来,夸克还将持续拓展「AI 超级框」的能力边界 —— 从理解自然语言到调动工具,真正实现「让人用 AI,AI 使用工具」的产品理念。届时,一个真正聪明、主动、可协同的 AI 搜索助手,或将从这里诞生。
#2025年第二届「兴智杯」全国人工智能创新应用大赛正式启动
线上报名开启
2025 年 5 月 8 日上午,第二届 “兴智杯” 全国人工智能创新应用大赛正式启动。前期,工业和信息化部、科学技术部、深圳市人民政府共同主办了首届 “兴智杯” 全国人工智能创新应用大赛(以下简称 “大赛”),以需求为牵引,推动了一批关键技术突破,加快人工智能与重点行业融合赋能,成为了目前国内规模最大、参赛主体最丰富的人工智能专业赛事。为进一步发挥 “以赛促研、以赛促用、以赛育人” 的作用,今年,第二届兴智杯大赛如约而至,由中国信息通信研究院、深圳市人工智能产业办公室、深圳市前海深港现代服务业合作区管理局、深圳市宝安区人民政府主办,旨在聚焦技术创新和应用赋能面临的痛点、难点,加速人工智能技术创新和产业化落地,培育一批国内外优秀人工智能创新人才,为优秀项目提供展示、推广的平台。
启动仪式以线上方式举行,中国工程院院士王国法出席并致贺词,工业和信息化部科技司副司长杜广达,中国信息通信研究院院长余晓晖以及深圳市工业和信息化局党组成员、副局长、深圳市人工智能产业办公室主任林毅出席并致辞;深圳前海深港现代服务业合作区、深圳宝安区、北京经济技术开发区、南昌市、常熟市等大赛、主题赛、特色方向赛主办地相关领导出席并发言;中国信息通信研究院人工智能研究所所长魏凯介绍大赛总体情况。
杜广达指出,我国人工智能产业和应用蓬勃发展,已形成覆盖基础层、框架层、模型层、应用层的完整产业体系。当前,人工智能发展进入新一轮高频迭代期,新技术新产品新应用不断涌现。“兴智杯” 是我国人工智能领域重要赛事品牌,面向人工智能最新发展趋势,以激励创新为导向,以解决产业发展需求为牵引,为科技创新和产业创新提供优秀的融合平台。人工智能创新发展正当其时,要通过 “兴智杯” 大赛的平台,坚持创新驱动,加速关键技术突破;坚持应用牵引,推动技术落地;坚持开放包容,汇聚各方智慧。
余晓晖在致辞中指出,当前人工智能技术正从单点应用向全链条赋能迈进,未来人工智能技术的进一步突破和 “人工智能 +” 行动的深入实施,将推动生产力的跃升,成为驱动高质量创新发展的强大引擎。中国信息通信研究院积极推动人工智能创新发展,支撑多项研究工作。本届 “兴智杯” 大赛以 “兴智赋能,创新引领” 为主题,聚焦大模型、软硬件等关键技术及重点行业应用,设置赛题并组织专题活动,旨在汇聚各方力量,推动人工智能创新发展和应用普惠。
林毅表示,深圳市高度重视人工智能产业发展,致力于打造人工智能先锋城市,构建开放的产业生态。深圳联合中国信通院共同举办第二届大赛,旨在持续发挥 “以赛促用、以赛兴产” 作用,推动人工智能与千行百业深度融合,加速人工智能应用创新突破,加快培育一批高水平人工智能行业应用人才,进一步提升我国人工智能产业发展核心竞争力。
随后,大赛主办地深圳前海深港现代服务业合作区与深圳宝安区分别介绍主办地相关情况。前海深港现代服务业合作区管理局科技创新处处长张俊表示,前海正着力打造深港人工智能产业聚集区,集成 “算力集群、算法服务、数据跨境、应用场景开放、科研攻关支持、产业基金支持” 等全方位措施,支持人工智能企业高质量发展。宝安区科技创新局局长沈彦表示,宝安区作为深圳市人工智能与机器人产业的核心承载区,已构建 “硬核基底 + 创新生态” 的产业格局,未来宝安区将继续联动前海,以应用场景为引领,加速 AI 赋能千行百业,打造具有核心竞争力的人工智能产业生态。
软硬件创新生态主题赛将由中国信通院人工智能软硬件协同创新与适配验证中心(亦庄)与北京市经济技术开发区联合举办,经开区信息技术产业局局长郭泽邦表示,北京经开区将依托本次赛事,充分发挥产业优势,联动区内各新型研发主体、实验室和技术企业特色,助力打造从技术突破到产品孵化再到场景应用的全链条生态体系,推动我国软硬件从 “可用” 向 “好用” 跃升,共建 “软硬一体化、自主可控、生态共赢” 的人工智能产业发展新格局。
特色方向赛事主办地代表江西省南昌市与江苏省常熟市领导随后发言,南昌市政务服务和数据管理局局长李鑫表示,南昌市将人工智能作为培育新质生产力的核心引擎,已形成覆盖技术攻关、场景应用、产业协同的生态体系,将通过本次大赛吸引全球创新力量,共同探索人工智能在智慧城市等领域的创新应用;常熟市工业和信息化局局长钱韧表示,常熟把发展人工智能作为优先战略选择,出台多项政策激发市场活力,未来将进一步加大人工智能产业投入,在 “AI + 声学” 领域着重发力,加快形成县域发展新路径。
在启动仪式的第二阶段,魏凯介绍了本届大赛总体情况。本届赛事聚焦我国人工智能自主生态所需的关键能力,集聚产学研用各方优势资源,推动技术协同、应用赋能和生态创新,设置一系列 “有场景、有数据、有需求” 的专业赛题。本届大赛分为主题赛和总决赛两阶段举行,主题赛阶段将设置大模型创新、软硬件创新生态与行业赋能三大主题赛与多个特色方向赛,主题赛决赛优胜队伍入围总决赛,大赛总决赛将于深圳线下举行。大赛设置了立体化的激励机制助力选手成长,即日起可通过大赛官网、官方公众号线上报名。
在启动仪式最后,中国电信集团有限公司政企信息事业群智算云创新团队技术负责人、大模型首席专家刘敬谦,中国煤炭科工集团首席科学家、煤炭科学研究总院矿山人工智能研究院常务副院长程健,深圳市智慧城市科技发展集团有限公司总经理朱润酥,中国电力科学研究院人工智能研究所大模型运营总监陈晰,微众银行人工智能首席科学家范力欣等专家围绕 “加快应用深度融合,推进人工智能赋能新型工业化” 发表演讲;百度杰出架构师胡晓光,沐曦 CTO、联合创始人杨建,中兴通讯首席科学家向际鹰,北京国际算力服务有限公司总经理助理马光等带来 “促进软硬件协同创新,壮大智能算力生态体系” 主题的精彩分享。
会上,还邀请到中国电信集团有限公司政企信息服务事业群大模型首席专家刘敬谦,中国移动通信有限公司研究院院长黄宇红,阿里云智能集团首席技术官周靖人,沐曦 CTO、联合创始人杨建,中兴通讯副总裁、技术规划总经理赵志勇,vivo 副总裁、OS 产品副总裁、vivo AI 全球研究院院长周围,上海人工智能实验室青年科学家、大模型中心负责人陈恺,微众银行人工智能首席科学家范力欣等业界专家代表出席并向第二届大赛的举办致以贺词。
为了进一步推动人工智能领域的创新与协同发展,为参赛选手搭建高端交流平台,大赛组委会将在赛事期间组织一系列专题研讨会、学术沙龙等活动,汇聚行业精英,激发思想碰撞。详细活动安排将在大赛官网(http://www.aiinnovation.com.cn/)及公众号 “兴智杯全国人工智能创新应用大赛” 陆续发布,敬请期待!
第二届 “兴智杯”
全国人工智能创新应用大赛
线上报名开启
一、赛程赛制
1. 主题赛:5 月 - 9 月(具体时间以官网 / 官方公众号通知为准),拟遴选出一定数量优胜团队入围主题赛决赛(具体遴选优胜团队数以评审结果为准)。主题赛决赛评选出一、二、三等奖,其中一、二等奖入围总决赛。入围名单将于官网 / 官方公众号公布。
2. 总决赛:10 月 - 11 月,在深圳市举办。通过现场答辩,评选出一、二、三等和优胜奖。另,在全入围总决赛参赛作品中评选 50 强高价值应用方案及十佳商业投资潜力项目。
二、赛题设置
大赛设置主题赛和总决赛,每项主题赛含若干赛题。其中,主题赛初赛以线上形式开展,各主题赛决赛视实际情况另行安排。总决赛在深圳市举办。
(一)主题赛 1:大模型创新
聚焦大模型智能体、智能软件开发等热点,围绕大模型基础能力、平台服务应用生态及高价值场景应用创新等贴合和工程化应用需求的热点、痛点技术方向,遴选一批具备创新突破潜力、实现最佳性能优化表现的模型算法或实际应用。
(二)主题赛 2:行业赋能
面向工业、终端、能源、矿山、网络通信、医疗、金融、城市、文旅等关键行业的实际需求,提供真实业务场景数据,挖掘一批能够解决具体行业中特定场景发展痛点问题的作品方案,推动人工智能技术在千行百业中的赋能应用。
(三)主题赛 3:软硬件创新生态
探索以深度框架平台为核心以及软硬件协同一体化两类差异化生态发展路线,重点提升我国软硬件面向大模型应用的支撑能力,引导参赛选手基于国产软硬件构思解题思路,以赛促用提振国产化信心。
(四)其他特色方向赛
后续将在大赛官网(http://www.aiinnovation.com.cn/)及公众号 “兴智杯全国人工智能创新应用大赛” 陆续发布,欢迎各位选手关注。
三、激励设置
(一)大赛奖项
各主题赛和总决赛分别评选一、二、三等奖,总决赛将增设优胜奖,并评选 50 强高价值应用方案、十佳商业投资价值奖。
(二)获胜项目激励
设置奖金池及官方获奖证书;入选第二届 “兴智杯” 全国人工智能创新应用大赛优秀项目案例;提供相关支持单位招聘绿色通道;择优提供资金、场地、落户等配套政策支持;优先对接投资资金及机构资源;提供检验检测、技术转移、应用推广等服务。具体激励措施将在大赛网站公布。
四、报名方式
大赛官网(http://www.aiinnovation.com.cn/)、官方公众号(兴智杯全国人工智能创新应用大赛)提供赛事报名、数据使用、评审评测、信息发布等参赛保障。参赛者均须通过大赛官网注册报名,截止时间以官网公布时间为准。
打造人工智能先锋城市
深圳市共同主办第二届兴智杯大赛
第二届大赛由深圳市与中国信通院共同主办,将借助深圳市产业优势,发挥其完备的产业链条、丰富的应用场景、活跃的创新氛围和突出的科技创新能力,吸引全国乃至全球的人工智能人才参与,激发创新活力,推动人工智能技术与产业的深度融合。
深圳市将人工智能列为重点发展领域,通过系统性政策布局推动产业创新,着力构建具有全球竞争力的人工智能产业集群,打造人工智能先锋城市。深圳人工智能产业链条完备,应用场景丰富,创新氛围活跃,机电一体化优势突出,产业竞争力和综合实力位居全国第一梯队。人工智能全域全时全场景应用持续深化,把整个城市作为企业新技术、新产品的试验场,累计发布四批近 200 个 “城市 + AI” 应用场景,逐步构建起覆盖公共服务、城市运行、重点行业赋能的应用体系,在法院、医疗、环卫等领域形成多个场景标杆。
深圳人工智能科技创新活跃,企业创新主体地位突出,腾讯、华为等龙头企业在通用大模型,思谋信息、晶泰科技、元象科技等高成长性企业在细分领域,都拥有行业领先成果;创新载体完备,已建成鹏城实验室、光明实验室等重点平台,产学研用深度融合;终端迭代速度领先,拥有全球唯一 “智能车机电一体化 + 人工智能产业供应链”,有 “用迭代软件速度迭代硬件” 的优势。
本次全国性的创新应用大赛在深圳举办,进一步展示了深圳在人工智能领域的创新实力和应用前景,必将吸引一大批人工智能企业和人才来到深圳、认识深圳、选择深圳,与深圳携手推动人工智能产业更好更快集聚发展。
#Mistral Medium 3
时隔两月,Mistral AI终于上新Medium 3,近期还有「One more thing」
时隔两月,Mistral AI 终于又上新了。
「今天,我们欣喜地宣布推出 Mistral Medium 3,进一步提升语言模型的效率和可用性。」
据官方博客介绍,Mistral Medium 3 处于一个新的性能层级,介于轻量级和大规模模型之间。该模型在关键基准测试中优于 GPT-4o 甚至 Claude 3.7 Sonnet。
只是 Mistral Medium 3 并未开源,目前可通过 Mistral 的官网和 API 或其合作伙伴的 API 使用。Mistral Medium 3 将于周三上线亚马逊云科技的 Sagemaker 平台,后续也会登陆其他主机平台,包括微软的 Azure AI Foundry 和谷歌的 Vertex AI 平台。
该模型专为企业使用而设计,其性能在基准测试中达到了 Claude 3.7 Sonnet 的 90% 以上,但成本仅为后者的 1/8 —— 输入每百万 token 仅需 0.4 美元,输出每百万 token 仅需 2 美元。相比之下,Sonnet 的输入 / 输出价格分别为 3 美元和 15 美元。
另外,Mistral AI 还预告了「One more thing」:
随着三月份 Mistral Small 和今天 Mistral Medium 的发布,我们在接下来的几周内正在筹备一款「大型」产品,这早已不是什么秘密了。即使是我们的中型型号,其性能也远超 Llama 4 Maverick 等旗舰开源型号,我们非常期待「揭开」未来的神秘面纱 :)
会是什么重磅发布?值得我们期待一下。
优于 GPT-4o 和 Claude 3.7 Sonnet 的性能
基准测试表明,Mistral Medium 3 在软件开发任务中表现出色。在 HumanEval 和 MultiPL-E 等编程测试中,它的表现与 Claude 3.7 Sonnet 和 OpenAI 的 GPT-4o 模型不相上下,甚至更胜一筹。
除了学术基准测试外,团队还报告了更能代表实际用例的第三方人工评测。
根据第三方的人类评估,在 82% 的编程场景中,它优于 Llama 4 Maverick,并且在近 70% 的案例中超过了 Command-A。
该模型在不同语言和模态上也具有很强的竞争力。与 Llama 4 Maverick 相比,它在英语(67%)、法语(71%)、西班牙语(73%)和阿拉伯语(65%)中的胜率更高,并且在多模态性能方面表现出色,在 DocVQA(0.953)、AI2D(0.937)和 ChartQA(0.826)等任务中取得了领先的分数。
Mistral Medium 3 针对企业整合进行了优化。它支持混合部署和本地部署,提供定制化后训练,并且能够轻松连接到业务系统。据 Mistral 称,它已经在金融服务、能源和医疗保健等行业的组织中进行测试,用于支持特定领域的业务流程和面向客户的解决方案。
企业级「ChatGPT」:Le Chat Enterprise
与此同时,Mistral 还推出了 Le Chat Enterprise。
这是一款面向企业的聊天机器人服务,今年早些时候就推出了私人预览版,但今天正式全面上市。
用法如下:
,时长01:21
Le Chat Enterprise 可通过网络和移动应用程序使用,它就像 ChatGPT 的竞争对手,但它是专为企业及其员工打造的。考虑到了用户可能会跨不同的应用程序和数据源工作,它将人工智能功能整合到一个单一的、隐私优先的环境中,实现深度定制、跨职能工作流和快速部署。
Le Chat Enterprise 提供了 AI「智能体」构建器等工具,并将 Mistral 的模型与 Gmail、Google Drive 和 SharePoint 等第三方服务集成。
此外,Le Chat Enterprise 即将支持 MCP——Anthropic 为连接 AI 助手和数据所在系统及软件而制定的标准。包括谷歌和 OpenAI 在内的主要 AI 模型提供商,都已经在今年早些时候宣布将采用 MCP。
更多信息,可参考官方博客。
参考链接:
https://mistral.ai/news/mistral-medium-3
https://mistral.ai/news/le-chat-enterprise
#Fourier Position Embedding
清华、上海AI Lab等提出傅里叶位置编码,多项任务远超RoPE
长文本能力对语言模型(LM,Language Model)尤为重要,试想,如果 LM 可以处理无限长度的输入文本,我们可以预先把所有参考资料都喂给 LM,或许 LM 在应对人类的提问时就会变得无所不能。
但是,LM 通常只在较短窗长下进行训练,可能产生过拟合,只学习到指定范围内的位置关系,但是无法理解没学习过的位置关系。为了缓解这个问题,当下最流行的便是引入具有周期性的旋转位置编码(Rotary Position Embedding,RoPE)。由于周期性编码每间隔一定距离就会出现数值重复,所以 LM 可以使用在少数几个周期内学习到的经验泛化到更多的周期当中。
但奇怪的是,使用 RoPE 的 LM 依然难以直接在训练长度之外起效,必须依靠其他算法(如 YARN)来辅助其进行外推。 那么,到底是什么限制了 RoPE 的周期延拓,进而限制了 LM 的长度外推呢?
于是,清华大学讲席教授、上海AI Lab主任/首席科学家周伯文教授的团队对这一问题进行了深入探索,使用傅里叶分析工具解读了使用 RoPE 的 Transformer 模型长文本泛化能力不足的原因之一是 RoPE 带来的周期性延拓受到了频谱破坏的影响。进一步地,该文章提出的傅里叶位置编码(Fourier Position Embedding,FoPE)大幅提升了Transformer的长文本泛化能力。
- 论文标题:Fourier Position Embedding: Enhancing Attention’s Periodic Extension for Length Generalization
- arXiv 链接:https://arxiv.org/pdf/2412.17739
- 代码链接:https://github.com/TsinghuaC3I/Fourier-Position-Embedding
研究亮点
发现 —— 频谱损坏限制周期延拓
作者们通过观察 RoPE 的公式可以发现,它为 Hidden States 的每一维都指定了单一的频率,并假设这一维度的语义信息按照这个波长影响其他位置的语义。所以,RoPE 周期延拓性的起效前提是 “Hidden States 的每一维只存在单一频率的语义”。如果每一维明明存在不同频率的语义,却仍然按照单一频率的波长来估计这部分语义的传递规律,RoPE 所带来的周期延拓将产生混乱,进而无法实现长文本泛化。
遗憾的是,在使用 RoPE 的 LM 中,这个假设只在 LM 的第一层中成立,但在后面的所有层中都不成立。因为后面的所有层中,每一维中都掺杂了除主频之外的其他频率分量,这个现象可以被称作频谱损坏(Spectrum Damage)。频谱损坏主要有三个来源:① 线性函数;②激活函数;③时域截断。
线性函数
如果我们假设线性层的权重为
,其对输入
进行处理得到输出
,那么每一维输出将由每一维输入的线性组合构成:
考虑到每一维输入所对应的频率是不一样的,那么
将掺杂输入中的所有频率分量。
激活函数
根据高等数学的知识,给定一个含有两个频率的函数
,以及任意一个与时间无关的非线性函数
,
被函数
作用后得到的输出将存在多个频率分量,这些频率将是输入频率的线性组合:
这个结论可以通过泰勒展开进行简单证明,也可以任意地推广到存在更多频率的情况。可以看到,经过线性层之后,每一维本就掺杂了多种频率。在经过激活函数之后,这种掺杂会变得更加严重。
时域截断
给定一个被截断为长度N的单频率函数
通过傅里叶变换可以得到(详见文末)这个函数的频谱是:
其中,
是截断长度与周期长度相除后向下取整,
是在
处无限大但积分为 1、在其他位置取值均为零的奇异函数。可以看到,时域截断会让主要频率
的强度向周围的频率扩散,降低信噪比。如果该函数的周期
大于截断长度N,这个信噪比将变得很低,会极大地抑制对只要频率的学习。巧合的是,RoPE 中其实使用了大量频率低、周期长的分量,所以这个问题尤为严重。
算法 —— 频域鲁棒性是长文本泛化关键
在以往的研究中,大家普遍认为只有 Attention 才会影响长度外推。但从上面的分析可以看出,整个模型中的线性层、激活函数和时域截断也都会对长度外推产生影响,并且是不利影响(也就是上文提到的频谱损坏)。为了改善频谱损坏对长文本泛化的不利影响,这篇论文提出了傅里叶位置编码(FoPE,Fourier Position Embedding)来提升模型的频域鲁棒性和周期延拓性,进而提升长文本泛化。
FoPE 的核心思想是 “打不过就加入”。考虑到线性层和激活函数可以带来更强的表征能力,时域截断又是受到硬件限制无法改变,FoPE 索性就仍然保留了各层中的频谱损坏,转而提出了对于频谱损坏更加鲁棒的位置编码。鲁棒性的提升主要源于两方面:① 既然每一维中不可避免的混杂其他频率的分量,那就干脆在一开始就把每一维都建模成一个傅里叶级数(Fourier Series)。即使这样的建模不会避免频谱破坏,FoPE 却可以在每一维中解码出更多频率的信息(利用三角函数的正交性);② 既然极低频的分量周期过长,会导致这些频率分量的周期特性无法被学习到,那就将他们裁剪成频率为 0 的直流分量。考虑到直流分量的良好性质(既可以看作周期无限短,又可以看作周期无限长),这个新加入的频率既保证了周期性,又可以让每个词汇的信息向无限远的词汇传递;
综上,FoPE 的公式可以写作:
实验
进一步地,文章在困惑度、大海捞针准确率以及很多下游任务 Benchmark 对不同方法进行了对比,实验发现 FoPE 在这些任务上都有稳定的表现,在绝大多数远超过使用 RoPE 的模型。
潜在影响
论文中使用傅里叶工具得到的分析结论和算法可能存在更广泛的潜在价值,有潜力应用在更多的领域和任务:① AI 领域内:长视频生成、kv-cache 压缩、多模型协同等;② AI 领域外:语义通信、光计算和脑机接口。
作者简介:华尔默,清华大学博士生,研究方向是基础模型的架构设计与训练算法设计,在 ICML、ICLR、NeurIPS、ACL、EMNLP、COLM、AAAI 等顶级会议上发表过论文。
#ICEdit
五一长假冲上HuggingFace榜第二,仅次于Qwen3!浙大哈佛「全能LoRA」杀疯了
该项目提出了一种基于上下文的零样本图像编辑框架,结合LoRA-MoE混合微调和早期噪声过滤策略,仅需极少量数据和参数即可实现高精度的指令图像编辑,解决了现有方法中精度与效率难以兼顾的难题。
文章链接:https://arxiv.org/pdf/2504.20690
项目链接:https://river-zhang.github.io/ICEdit-gh-pages/
Git链接:https://github.com/River-Zhang/ICEdit
Demo链接:https://huggingface.co/spaces/RiverZ/ICEdit
五一假期期间,ICEdit爆火🔥,登上了hugging face周榜第二,仅次于qwen3!外国网友在twitter上纷纷秀出使用效果
亮点直击
- 探索了大型预训练扩散Transformer(如FLUX)的编辑能力,并引入了一种新颖的上下文编辑范式,该范式能够实现有效的指令图像编辑,而无需修改模型架构或进行大量微调。
- 提出了LoRA-MoE混合微调方法,用于参数高效的编辑任务适应,并结合基于VLM的噪声剪枝策略——早期过滤推理时间缩放。这种协同设计在保持上下文编辑框架高效性的同时,显著提升了编辑精度。
- 实验表明,本文方法仅需0.5%的训练数据和1%的可训练参数(相较于现有方法),即可实现最先进的编辑性能,有效解决了长期困扰先前方法的精度-效率权衡问题。
总结速览解决的问题
- 精度与效率的权衡问题:
- 现有基于微调的方法(Fine-tuning)需要大量计算资源和数据集,效率低。
- 免训练方法(Training-free)在指令理解和编辑质量上表现不佳,精度不足。
- 指令理解与编辑质量不足:
- 免训练方法难以准确解析复杂指令,导致编辑效果不理想。
- 微调方法依赖大规模数据训练(如 450K~10M 样本),计算成本高。 - 初始噪声选择影响编辑质量:
- 不同的初始噪声会导致不同的编辑效果,如何优化噪声选择以提高输出质量是关键挑战。
提出的方案
- 基于上下文(In-Context)的零样本编辑框架:
- 利用 DiT 的上下文感知能力,通过“上下文提示”(in-context prompts)实现免训练的指令编辑,避免结构调整。
- LoRA-MoE 混合调优策略:
- 结合 LoRA(低秩适应) 和 MoE(混合专家) 动态路由,提高模型灵活性,减少训练需求。
- 仅需少量数据微调,无需大规模重新训练。
- 早期噪声过滤推理优化(Early Filter Inference-Time Scaling):
- 利用视觉语言模型(VLMs)在去噪早期阶段筛选更优初始噪声,提升编辑质量。
应用的技术
- 扩散 Transformer(DiT):
- 利用其强大的生成能力和上下文感知特性,实现高效指令编辑。
- LoRA + MoE(混合专家):
- LoRA:参数高效微调,减少计算开销。
- MoE:动态专家路由,增强模型对不同编辑任务的适应能力。
- 视觉语言模型(VLMs):
- 用于噪声筛选,优化初始噪声选择,提高生成质量。
- 上下文提示(In-Context Prompting):
- 通过双联画(diptych)形式(源图 + 编辑提示)实现零样本编辑。
达到的效果
- 数据与参数高效性:
- 仅需 0.5% 训练数据 和 1% 可训练参数,超越现有 SOTA 方法。
- 编辑质量提升:
- 在 Emu Edit 和 MagicBrush 基准测试中表现优异,VIE-score 78.2(优于 SeedEdit 的 75.7)。
- 计算效率优化:
- 避免大规模微调,减少计算资源需求,同时保持高精度。
- 通用性强:
- 适用于多样化编辑任务(如参考引导合成、身份保持编辑等),无需额外结构调整。
方法
本节首先探索原始DiT生成模型中的上下文编辑能力,并提出基于指令的图像编辑上下文编辑框架。经过全面分析后,引入LoRA-MoE混合微调到框架中,配合小型编辑数据集,显著提升编辑质量和成功率。最后,提出早期过滤推理时间缩放策略,在推理阶段选择更好的初始噪声以增强生成质量。
DiT上下文编辑能力探索
带编辑指令的上下文生成。受近期研究[16,17,41,49]表明大规模DiT模型具有强大上下文能力的启发,本文探索是否可以通过上下文生成实现图像编辑。为此,我们将编辑指令添加到专为上下文编辑设计的生成提示中。具体而言,设计如下形式的提示:“同一{主体}的并排图像:左侧描绘原始{描述},而右侧镜像左侧但应用{编辑指令}。”将此表述称为上下文编辑提示(IC提示)。借助T5文本编码器因其强大的句子级语义理解而被DiT广泛采用),该方法能有效解析此类扩展提示,实现精确且上下文连贯的编辑。
如下图3所示,上下文编辑提示(IC提示)使DiT模型能够以双联画格式生成编辑输出:左侧为与描述对齐的图像,右侧为根据编辑指令调整后的同一图像。为阐明此机制,检查了IC提示中编辑指令的注意力图,发现待修改区域的注意力值显著较高。这表明DiT模型能熟练解析并执行IC提示中的编辑指令,无需大量微调即可理解编辑指令并相应执行。
上下文编辑框架构建基于上述观察,本文提出一种编辑框架,其中将左侧指定为参考图像可实现右侧的无缝编辑。分别基于文本到图像(T2I)DiT和修复DiT提出了两种免训练框架,如下图4所示。
对于T2I DiT框架,本文设计了一种隐式参考图像注入方法。首先对参考图像进行图像反转,保留各层和各步骤的注意力值。然后将这些值注入表示双联画左侧的标记中以重建图像,而右侧则在上下文生成期间基于预定义IC提示中的编辑指令生成。
相比之下,修复DiT框架提供了一种更直接的方法。由于它接受参考图像和掩码,预设一个并排图像,左侧为参考,右侧为掩码区域,并使用相同的IC提示引导修复过程。
前面图4展示了两种框架的操作,示例输出显示它们在编辑过程中保留参考图像身份的能力。然而,下表3的实验表明,两种框架在不同编辑任务中均无法始终提供稳定、鲁棒的结果,限制了其实用性。此外,T2I DiT方法需要额外的反转步骤,相比更简单的修复框架增加了计算需求。因此,基于修复的框架是进一步优化的更可行候选方案。
LoRA-MoE混合微调
基于上述分析,本文将方法总结为一个函数 ,它将源图像 和编辑指令 映射到目标编辑输出
其中 为修复扩散Transformer, 表示上下文图像输入——左侧放置源图像 ,右侧由固定二值掩码 遮盖。编辑指令 被转换为上下文编辑提示 。
LoRA调优为增强该框架的编辑能力,本文从公开资源中整理了一个紧凑的编辑数据集(50K样本),并在多模态DiT模块上采用LoRA微调进行参数高效适配。尽管数据集规模有限,该方法仍在编辑成功率和质量上取得显著提升。然而,某些任务(如风格变更和对象移除)仍存在挑战,降低了整体成功率。
这些发现可以认识到:单一LoRA结构的能力有限,不足以应对多样化的编辑任务。不同编辑任务需要不同的隐空间特征操作,而并行掌握这些多样化模式存在重大挑战。先前的LoRA调优通常针对特定任务,为不同目标训练独立权重,这凸显了统一LoRA模型在复杂编辑场景中的局限性。
LoRA混合专家为解决这一限制,本文受到LLM最新进展的启发:混合专家(MoE)架构通过专用专家网络巧妙处理多样化输入模式。MoE范式为我们的任务提供两大优势:(1) 专用处理——使各专家专注于不同特征操作;(2) 动态计算——通过路由机制实现专家动态选择。这在不牺牲计算效率的前提下提升了模型容量。
利用这些优势,在DiT模块中提出混合LoRA-MoE结构:将并行LoRA专家集成到多模态(MM)注意力块的输出投影层,同时在其他层使用标准LoRA进行参数高效调优。可训练的路由分类器根据视觉标记内容和文本嵌入语义,动态选择最适合的特征变换专家。
本文设立 个专家,每个专家对应一个秩为 ,缩放因子为 的LoRA模块。对于每个输入标记,路由分类器 预测各专家的选择概率 。MoE-LoRA结构的输出计算如下:
其中, 和 (满足 )表示第 个 LoRA 专家的学习权重, 为输入标记。路由分类器为每个专家分配选择概率 ,最终输出为专家输出的加权和。在我们的实现中,采用稀疏 MoE 设置,仅选择 top- 个专家参与计算:
其中 函数仅保留向量中前 个条目的原始值,其余条目设为 。这确保了专家的高效使用,在保持多样化编辑任务灵活性的同时最小化计算开销。
早期过滤推理时间缩放
在推理过程中,初始噪声会显著影响编辑结果,某些输入能产生更符合人类偏好的输出(见下图10),这一现象也得到了近期研究的支持。这种变异性使研究推理时间缩放技术以提升编辑一致性和质量。在基于指令的编辑任务中,指令对齐的成功往往在少量推理步骤内就能显现(见下图6),这一特性与修正流DiT模型高度兼容。这些模型能高效遍历隐空间,仅需少量去噪步骤(有时仅需一步)即可生成高质量输出。因此,与需要更多步骤来实现细节和质量的生成任务不同,仅需少量步骤即可评估编辑成功率。
基于这一洞察,本文提出"早期过滤推理时间缩放"策略:首先生成 个初始噪声候选,对每个候选执行 步初步编辑( 为完整去噪步数);然后通过视觉大语言模型(VLM)评估这 个早期输出与指令的符合程度,采用类似冒泡排序的成对比较迭代篮选最优候选(见上图6);最终对优选种子执行完整的 步去噪生成最终图像。该方法能快速锁定优质噪声,同时通过VLM选择确保输出符合人类偏好。
实验
实现细节本文采用领先的开源基于DiT的修复模型FLUX.1 Fill作为主干网络。为微调混合LoRA-MoE模块,从公开资源整理了一个精简编辑数据集:在初始采用MagicBrush数据集(含9K编辑样本)的基础上,发现其存在:1)编辑类型不平衡、2)缺乏风格类数据、3)领域多样性不足等问题。因此额外加入OmniEdit数据集约40K样本构成最终训练集。模型配置采用LoRA秩32、MoE模块含4个专家、TopK值为1。推理缩放策略使用Qwen-VL-72B作为输出评估器。更多数据集、参数和对比研究细节见补充材料。
评估设置本文在Emu和MagicBrush测试集上进行了全面评估。对于含真实编辑结果(GT)的MagicBrush,严格遵循[47,48]计算CLIP、DINO和L1等指标来衡量与GT的偏差;而Emu测试集缺乏GT结果,遵照[39,48]进行基线评估,并参照[44]采用GPT-4o判断编辑成功率。为公平比较,所有模型均使用单一默认噪声输入评估,且不采用我们提出的早期过滤推理时间缩放技术。
CLIP和DINO等传统指标常与人类偏好不一致。为更准确评估编辑性能和视觉质量,还计算了VIE-Score:该指标包含SC分数(评估指令遵循和未编辑区域保留)和PQ分数(独立于源图像和指令的视觉质量),总分计算为Overall 。使用该指标衡量推理时间缩放策略的增益,并与顶级闭源商业模型SeedEdit进行对比。
与前沿方法的比较
MagicBrush与Emu测试集结果如下表1和表2所示,本文的模型在两类数据集上均达到SOTA级性能:在MagicBrush(表1)的输出与GT高度吻合,展现出强劲的编辑能力;在Emu(表2)则保持SOTA级文本对齐的同时更好地维持图像保真度。值得注意的是,基于GPT的评估分数显著优于开源模型,并逼近闭源的EmuEdit,而所需训练数据量却少得多。与同主干的DiT模型相比,本文的方法以更少的样本和参数实现了更优性能,凸显其高效性。定性结果见下图7。
VIE-Score评估如下图8所示,本文的模型在编辑准确性和视觉质量上均显著优于开源SOTA方法。通过随机种子测试,本文的性能接近SeedEdit,而采用推理缩放策略后总分实现超越。虽然SeedEdit因商业化打磨输出获得更高PQ分数,但在未编辑区域的保真度上常有不足;相比之下,本文的方法在这些区域保持更优保真度(见图9)。
消融实验
模型结构如前面表3所示,通过不同配置实验验证了方法的有效性。上下文编辑提示(IC提示)被证明具有关键作用:在免训练模型中显著优于直接编辑指令,而结合IC提示的微调进一步提升了编辑能力。LoRA-MoE设计以更少参数超越了标准LoRA微调,编辑质量和成功率提升13%(GPT评分),体现了其高效性。仅对输出投影层("Only MoE")进行适配会导致性能下降,证实了全模块微调的必要性。
推理时间缩放如前图8和图10所示,本文推理时间缩放策略使编辑性能显著提升:SC分数提高19%,VIE总分提升16%。使用固定或随机种子时,模型能生成可行结果但并非最优。通过VLM筛选多种子早期输出并选择最佳候选,实现了更优质的编辑效果。
数据效率下图2和前面表2显示,与免训练框架(FLUX.1 fill)相比,仅用0.05M训练样本就取得显著改进,远少于SOTA模型所需的10M样本,证明了框架的有效性和微调策略的高效性。
实际应用
和谐编辑如下图1和图11所示,本文的方法能生成与原始图像无缝衔接的和谐编辑结果。模型在编辑过程中智能适应周边语境,产生更自然真实的效果——这是以往方法难以实现的能力。
多样化任务如下图12所示,本文的方法可作为通用图到图框架,适用于手部精修、光影调整等实际任务。未来结合特定任务数据集微调,将进一步扩展其应用场景。
结论
In-Context Edit——一种基于DiT的新型指令编辑方法,通过极少量微调数据实现SOTA性能,在效率与精度间达到最佳平衡。首先探索了生成式DiT在免训练环境中的固有编辑潜力,进而提出混合LoRA-MoE微调策略提升稳定性和质量。此外,引入的推理时间缩放方法通过VLM从多种子中优选早期输出,显著改善编辑效果。大量实验证实了方法的有效性并展示了优越性能。相信这一高效精准的框架为指令式图像编辑提供了新思路,将在未来工作中持续优化。
参考文献
[1] Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer
#JanusFlow
生成理解统一模型解读 (四):JanusFlow:使用 Rectified Flow 做生成的 Janus
DeepSeek 团队生成理解统一架构 Janus 的后续版本,借助 Rectified Flow 做生成。
本文介绍 DeepSeek 团队的 Janus 系列模型的后续版本 JanusFlow。Janus 系列是 DeepSeek 多模态团队的作品,是一种既能做图像理解,又可以做图像生成任务的 Transformer 模型。JanusFlow 将自回归的语言模型和 Rectified Flow 相结合。
JanusFlow 的主要发现表明,Rectified Flow 可以在 LLM 框架内直接训练,从而消除了对复杂架构修改的需要。为了进一步提高我们统一模型的性能,采用了 2 个关键策略:1) 解耦理解和生成编码器。2) 在统一训练期间对齐它们的表征。 JanusFlow 在各自的域中实现了与专业模型相当或更好的性能,同时在标准基准测试中显著优于现有的 Unified Model 方法。
图1:JanusFlow Benchmark Performance
图2:JanusFlow 视觉生成结果
下面是对本文的详细介绍。
1JanusFlow:使用 Rectified Flow 做生成的 Janus
论文名称:JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation
论文地址:https://arxiv.org/pdf/2411.07975
项目主页:https://github.com/deepseek-ai/Janus
1.1 JanusFlow 模型
Janus 是使用一个统一的 Transformer 架构来统一多模态图像理解和多模态图像生成任务的模型。JanusFlow 是 Janus 的后续版本,一个统一多模态模型,将 Rectified Flow 与 LLM 架构无缝集成。
为了让设计尽量简单,JanusFlow 只需一个轻量化的 Encoder 和 Decoder 来 adapt LLM 完成 Rectified Flow 的操作。为了优化 JanusFlow 的性能,作者实现了 2 个关键的策略:1) 维护单独的视觉编码器和解码器进行理解和生成任务,防止任务干扰,从而提高理解能力。2) 在训练期间对其生成和理解模块的中间表征,增强生成过程中的语义一致性。
与现有的 Unified Model 相比,JanusFlow 在多模态理解和文本到图像生成方面表现出最先进的性能,甚至优于几种专门的方法。具体来说,在文生图 Benchmark 上,MJHQ FID-30k、GenEval 和 DPG-Bench,JanusFlow 的得分分别为 9.51、0.63 和 80.09%,超过了现有文生图模型,包括 SDv1.5 和 SDXL。在多模态理解 Benchmark 中,JanusFlow 在 MMBench、SeedBench 和 GQA 上分别获得 74.9、70.5 和 60.3 的分数,超过 LLAVA-v1.5 和 Qwen-VL-Chat 等专门用于理解的模型。值得注意的是,这些结果来自只有 1.3B 参数的 LLM。
1.2 Rectified Flow
对于由从未知数据分布 中提取的连续恶数据点 组成的数据集 , Rectified Flow 通过学习定义在时间 上的常微分方程(ODE)来建模数据分布:
其中, 表示速度神经网络的参数, 是一个简单的分布,通常是标准的高斯噪声 。通过最小化 neural velocity 与连接 和 之间随机点的 linear path 方向之间的欧氏距离来训练网络。
这里, 是时间 上的分布。当网络具有足够的容量并且目标被完美地最小化时,最优速度场 将基本分布 映射到真实数据分布 。
更准确地说,分布 ,遵循 。
尽管 Rectified Flow 在概念上很简单,但在各种生成建模任务中表现出了优越的性能,包括文生图[1]等等。
1.3 JanusFlow 模型架构
JanusFlow 提出了一个统一框架,旨在解决视觉理解和图像生成任务。
图3:JanusFlow 架构示意。对于视觉理解,LLM 执行 Autoregressive 的 Next token prediction 生成响应。对于生成,LLM 使用具有 Rectified Flow。从 t=0 的高斯噪声开始,LLM 通过预测速度向量迭代更新 z_t,直到达到 t=1
多模态理解
在多模态理解任务中,LLM 处理由交错文本和图像数据组成的输入序列。文本被标记为离散 token,每个 token 都被转换为维度 的嵌入。对于图像,图像编码器 将每个图像 编码成形状为 的特征。这个特征图被 flattened 并通过线性变换层投影到一系列形状为 的 Embedding 中。 和 由图像编码器决定。文本和图像 Embedding 被连接起来形成 LLM 的输入序列,然后根据 Embedding 的输入序列 Autoregressive 地预测下一个 token。在图像之前添加了特殊标记|BOI|和图像后的 |EOI|,以帮助模型定位序列中的 Image Embedding。
图像生成
对于图像生成,LLM 以文本序列为 condition,并使用 Rectified Flow 生成相应的图像。为了提高计算效率,使用预训练的 SDXL-VAE 在 Latent Space 中生成。
生成过程首先在潜在空间中对形状为 的高斯噪声 进行采样,然后由生成编码器 处理成一系列嵌入 。这个序列与一个 time Embedding 连接,该 Embedding 表示当前时间步 (开始时刻 ),从而产生长度为 的序列。
与之前使用各种 Attention Masking 策略不同,作者发现 Causal Attention 就足够了。LLM的输出对应于 通过生成解码器 转换回 latent 空间,产生形状为 的 velocity 向量。该状态由标准欧拉求解器更新:
其中, dt 是用户定义的步长。作者在输入上用 替换 ,并迭代该过程,直到我们得到 ,然后由 VAE 解码器将其解码为最终图像。为了提高生成质量,在计算速度时使用无分类器指导(CFG):
其中, 表示 no condition 的 velocity,并且 控制 CFG 的大小。根据经验,增加 会产生更高的语义对齐。与多模态理解类似,使用特殊标记 指示序列中的图像生成的开始。
JanusFlow 采用解耦的编码器设计。JanusFlow 使用预训练的 SigLIP-Large-Patch/16 模型作为 来提取语义连续特征以进行多模态理解,同时使用从头开始初始化的单独 ConvNeXt Block 作为 和 ,选择其有效性。解耦编码器设计显著提高了 Unified Model 的性能。JanusFlow 的完整架构如图 3 所示。
1.4 JanusFlow 训练策略
JanusFlow 的训练分为 3 个阶段,如图 4 所示。
图4:JanusFlow 的 3 阶段训练
第 1 阶段:训练 Linear 层,生成编码器和生成解码器。
这一阶段的主要目标是训练 Linear 层 (之后的东西,可以理解为 Adaptor),Generation Encoder,Generation Decoder。这一阶段旨在使这些新的模块与 Pre-trained 的 LLM 和 SigLIP Encoder 有效适配。
第 2 阶段:联合预训练,除了理解编码器和 VAE Encoder 之外的所有组件都更新参数。
这个阶段训练整个模型,除了理解编码器和 VAE Encoder。训练结合了 3 种数据类型:多模态理解、图像生成和纯文本数据。作者最初分配更高比例的多模态理解数据来建立模型的理解能力。随后,增加了图像生成数据的比例,以适应基于扩散的模型的收敛要求。
第 3 阶段:有监督微调,进一步解锁理解编码器的参数。
这个阶段作者使用指令调整数据微调预训练模型,其中包括对话、特定于任务的对话和高质量的文生图示例。在这个阶段,作者还解冻了 SigLIP Encoder 参数。这种微调过程使模型能够有效地响应用户指令以进行多模态理解和图像生成任务。
1.5 JanusFlow 训练目标
训练 JanusFlow 涉及两种类型的数据、多模态理解数据和图像生成数据。
这两种类型的数据都包含两部分:"Condition"和"Response"。"Condition"是指任务的提示 (例如,多模态理解任务中的 image,图像生成任务中的 text),而"Response"是指两个任务的响应。数据可以格式化为 ,其中上标 con 表示"Condition",而 res 表示"Response"。将整个序列 的长度表示为 ,将 的长度表示为 ,将 的长度表示为 。作者使用 来表示 JanusFlow 中所有可训练参数的集合,包括 LLM, , 和 Linear 层。
Autoregressive 训练目标
对于多模态理解任务, 仅包含文本标记。JanusFlow 使用最大似然原理进行训练,
其中,期望在多模态理解数据集 中接管所有 对,计算损失仅在 中的 token 上。
Rectified Flow 训练目标
对于图像生成任务, 由文本 token 组成, 是对应的图像。JanusFlow 使用 Rectified Flow 进行训练:
其中, 。在 Stable Diffusion 3 之后,将时间分布 设置为 Logit 正态分布。为了实现 CFG 推理,在训练期间随机丢弃 10\%的文本提示。
表征对齐正则化
对齐 Diffusion Transformer 和 Semantic Vision Encoder 之间的中间表征可以增强扩散模型的泛化能力。Janus 的解耦视觉编码器设计使这种对齐的有效实现成为一个正则化项。具体地说,对于生成任务,作者将理解编码器 的特征与 LLM 的中间特征对齐:
其中, 代表 LLM 的中间表征,给定输入 。 是一个小的可学习 MLP,把 映射到 维度。函数 计算嵌入之间的元素余弦相似度的平均值。
在计算 loss 之前,把 reshape 为 。作者确保 。 的梯度不会通过 Understanding Encoder 反向传播。这种对齐损失有助于 LLM 的内部特征空间(给定噪声输入 )与 Understanding Encoder 的语义特征空间对齐,从而在推理过程中从新的随机噪声和文本条件生成图像时提高生成质量。
所有 3 个目标都用于所有训练阶段。多模态理解任务使用 ,而图像生成任务使用损失 .
1.5 JanusFlow 实验设置
JanusFlow 建立在DeepSeek-LLM (1.3B) 的增强版本。LLM 由 24 个 Transformer Block 组成,支持 4,096 的序列长度。在 JanusFlow 中,理解和生成图像分辨率都为 384。
对于多模态理解,作者利用 SigLIP-Large-Patch/16 作为 。对于图像生成,作者利用预训练的 SDXL-VAE 作为其 latent space。生成编码器 包括 pathify 层,然后 2 个 ConvNeXt Block 和 Linear 层。生成解码器 结合了 2 个 ConvNeXt Block,一个 pixel- shuffle 层上采样和 Linear 层。SigLIP 编码器包含约 300M 参数。 和 是轻量级模块,总共包含约 70M 参数。图5详细说明了每个训练阶段的超参数。在 Representation Alignment 中,使用第 6 块之后的 LLM 特征作为 ,将 3 层 MLP 用作 。使用 0.99的指数移动平均(EMA)来确保训练稳定性。
图5:JanusFlow 每个阶段训练的超参数。数据比率表示多模态理解数据、图像生成数据和纯文本数据的比例。在第 2 阶段的初始 10,000 步中,应用 30:50:20 的数据比例来提高理解能力
JanusFlow 以不同的方式处理理解和生成数据。对于理解任务,将长边调整为目标大小并将图像填充到正方形来维护所有图像信息。对于生成任务,将短边的大小调整为目标大小,并应用随机裁剪来避免填充伪影。
在训练期间,多个序列被打包以形成长度为 4096 的单个序列以提高训练效率。JanusFlow 的实现基于使用PyTorch 的 HAI-LLM 平台。训练是在 NVIDIA A100 GPU 上进行的,每个模型需要约 1600 A100 GPU 天。
训练数据设置
第 1 阶段和第 2 阶段的数据
JanusFlow 的前 2 个阶段使用 3 种类型的数据:多模态理解数据、图像生成数据和纯文本数据。
- 多模态理解数据。 这种类型的数据包含多个子类别:(a) Image caption 数据:"Generate the caption of this picture. "。(b) 图表和表格。(c) 任务数据。ShareGPT4V 数据用于促进预训练过程中的基本问答能力:""。(d) 文本图像交织的数据。
- 图像生成数据。所有数据点都格式化为 ""。
- 纯文本数据。直接使用 DeepSeek-LLM 的文本语料库。
第 3 阶段的数据。 SFT 阶段还使用 3 种类型的数据:
- 多模态指令数据。
- 图像生成数据:"User:\n\n Assistant:"。
- 纯文本数据。
1.6 JanusFlow 评测视觉生成作者报告了 GenEval、DPG-Bench 和 MJHQ FID-30k 的性能。图 6 比较了 GenEval,包括所有子任务的分数和总分。JanusFlow 的总体得分为 0.63,超过了之前的统一框架和几个生成特定模型,包括 SDXL 和 DALL-E 2。
图6:GenEval benchmark 性能
图 7 比较了 DPG-Bench 的结果。除了 JanusFlow 外,其他模型都是专门做生成的。
图7:DPG-Bench 性能
GenEval 和 DPGBench 上的结果展示了 JanusFlow 的指令跟随能力。
图 8 比较了 MJHQ FID-30k 的结果。采样的图片是使用 CFG factor w=2 ,sampling steps 为 30 生成的。结果表明,Rectified Flow 能够在 Janus 等自回归模型上提高生成图像的质量。
图8:MJHQ FID30k 结果
多模态理解
图 9 展示了 JanusFlow 与其他方法的比较,包括专门做理解的模型和 Unified Model。JanusFlow 在具有相似参数量的所有模型中达到了最佳性能,甚至超过了多个专门做理解的方法。结果表明,JanusFlow 协调了自回归 LLM 和 Rectified Flow,在理解和生成方面都取得了令人满意的性能。
图9:与其他方法在多模态理解 benchmark 的比较
参考
- ^Scaling Rectified Flow Transformers for High-Resolution Image Synthesis
#「消失的」Ilya Sutskever
Ilya Sutskever,曾亲手缔造OpenAI的联合创始人,仿佛人间蒸发一般,只留下一家没有产品、没有收入、却估值高达300亿美元的公司Safe Superintelligence。当Altman在忙着打官司、重组OpenAI时,Ilya选择了「消失」,也许只为等待那个值得他出手的「超级智能」。
2025年的5月,Sam Altman「格外忙碌」:忙着和马斯克打官司,忙着改组公司架构,忙着花30亿美元收购Windsurf,忙着在X上吊网友的胃口。
相比之下,Ilya Sutskever却仿佛人间蒸发了一般。
最近的一条X还停留在2024年10月10日,祝贺自己的老师Hinton获得了诺贝尔物理学奖,顺便祝贺老朋友DeepMind的CEO Hassabis获得化学奖。
2个月后,在2024年12月的NeurIPS会议上,Ilya说大模型的预训练即将「终结」引发了人们对于LLMs前景的担忧。
此后,再无消息。
所以,Ilya本人在干嘛?
失败的「逼宫者」到神秘公司
作为2023年11月那场「宫斗大戏」的主角,事件发生后,Ilya在OpenAI的职位变得尴尬而模糊。
作为Sam Altman的合伙人,却扮演的是「逼宫者」的角色,虽然事后他签署联名信,希望Sam Altman回归。
但结局似乎已经注定,Sam Altman王者归来,Ilya被踢出董事会。
引发这场风波的是一封内部员工写给OpenAI董事会的信,据称公司出现了某个代号为「Q*」的技术突破。(外媒Wired猜测Q*很可能成为o‑系列的训练基石)
Ilya认为这个模型会对人类造成威胁,而Sam Altman急于商业化变现,矛盾由此爆发。
如果以DeepSeek-R1作为推理模型引发的春节热潮来看,Ilya的「先知先觉」似乎并没有错,只不过想错了方向,AI威胁人类还早,人类对于AI能力的追求目前仍然看不到尽头。
说回宫斗落幕,消失数月后,Ilya突然宣布,成立了一家「安全超级智能」公司(Safe Superintelligence Inc.)。
不得不说,Ilya这个名字就是「金字招牌」,开局3个人,什么产品都没发,就一个类似公开信的公司网站。
一个网页就能首轮融资10亿,估值50亿美金!
简直强的离谱,更离谱的还在后面。
SSI成立9个月后,依然没有发布任何的产品,没有发布任何的大模型。
在这个前提下,WSJ爆料,SSI又完成20亿美元新一轮融资,估值超300亿美元。
Ilya简直就是AI届的「赛博魅魔」。
没有产品、没有模型,甚至没有短期商业目标,仅仅是在官网上写着「使命就是安全超级智能」这样一个宏大的叙事命题,投资人就排着队的交钱。
这种事情也许只会发生在Ilya身上。
而Ilya对于「AI和人类」这种终极命题上的追寻似乎早有预兆。
师徒传承:为了人类
Ilya对于「AI造福人类」的执念似乎可以追溯他的老师——AI之父,Hinton。
Ilya作为Hinton的高徒,可以说师徒两人联手缔造了如今的AI-LLM时代。
从AlexNet时代到OpenAI,对于Ilya的印象一直是变秃了也变强了(同时也消失了)。
AlexNet时代的Ilya和OpenAI时代的Ilya
Hinton对于AI的安全性似乎一直有他独特的看法。
人们还没有真正理解即将到来的事情。
Hinton最近签署了一份联名信,公开抵制OpenAI重组!理由非常直接,OpenAI违背了他们的初衷,即确保AGI的安全开发和造福人类。
近期在接受CBS采访时,他表示,AI在未来可能「接管人类」的概率为10%到20%。
Hinton在各种公开场合都不断地强调,当前AI系统的学习和推理能力可能已经超越人类。
他警告说,这种能力使得「AI系统可能会设定与人类利益不一致的次级目标,进而采取措施防止被关闭」。
怎么听,怎么看,都和Ilya的SSI的使命完全一样!
Hinton一直批评大型科技公司在AI安全方面的投入不足,指出这些公司更关注利润而非安全。
Hinton建议,AI公司应将约三分之一的计算资源用于安全研究,而不是目前投入的微小比例——这个要求对于忙着互相竞争的AI公司,比如Google和OpenAI来说似乎有些困难。
也许,这也是Ilya被迫出走OpenAI后,成立SSI的初衷。
当然,Ilya真实的想法我们无从得知,因为他「消失了」。
即使你想旁敲侧击从SSI的其他员工入手一样是徒劳的。
很多人也许不知道,SSI的真正「办公室」位于以色列特拉维夫的市中心大厦(Midtown Tower)。
有传言,公司刻意不允许员工在社交媒体上透露身份。
如果按照Ilya曾明确表示过的,在开发出超级智能之前,不打算发布任何产品。
那么消失的Ilya也许会一直处于「失踪」的状态,直到一个安全的超级智能问世。
当我们还在被DeepSeek-R2、OpenAI o4吊足胃口时,也许说不定哪天Ilya就带着新模型闪亮登场了。
虽然Ilya玩起了「消失」,但是同属于OpenAI派系的老员工们可不甘寂寞。
OpenAI黑帮,正在硅谷崛起
和当年的Paypal黑帮类似,「OpenAI黑帮」在卷走超90亿美元融资后,撑起了半个AI江湖。
自从2018年马斯克离开OpenAI以来,属于「OpenAI黑帮」的公司已经超过30多家。
根据「旗舰」的分析,这些公司可以划为三大派系。
以Thinking Machines Lab为代表的「嫡系」:
由OpenAI前CTO Mira Murati领衔,Thinking Machines Lab几乎复刻OpenAI研发体系,强调开源与透明;Ilya Sutskever则创立SSI,誓言打造「不会毁灭人类的超级智能」,估值已达300亿美元。
早期出走的「颠覆者」:
Anthropic(Amodei兄妹)已成OpenAI最强对手;马斯克的xAI也集结多位OpenAI旧将,主打「开源+X平台数据闭环」,迅速崛起,而xAI和AI的合并更是挑战估OpenAI估值第一的位置。
重构产业的「破局者」:
搜索引擎革新者Perplexity、AI Agent开发商Adept、机器人智能公司Covariant,均由OpenAI旧部创立或主导。
目前,OpenAI的11位联合创始人中,只有Sam Altman和语言及代码生成团队负责人Wojciech Zaremba仍在职。
以下为这些OpenAI「黑帮们」目前的去向:
Dario Amodei、Daniela Amodei和John Schulman:AnthropicDario和Daniela Amodei兄妹于2021年离开 OpenAI,成立了自己的初创公司Anthropic,并致力于构建「安全的AGI」。2024年,OpenAI联合创始人John Schulman也加入了Anthropic。虽然OpenAI的收入仍然远高于Anthropic(前者2024年为37亿美元,后者为10亿美元),但Anthropic迅速成长为OpenAI最强大的竞争对手,并在2025年3月获得了615亿美元的估值。Ilya Sutskever:Safe Superintelligence
OpenAI联合创始人兼首席科学家Ilya Sutskever,在2024年5月离开OpenAI后不久,便共同创立了Safe Superintelligence,并表示SSI「只有一个目标和一个产品:打造安全的超级智能」。目前,关于SSI的具体业务细节非常少,既没有产品,也没有营收。尽管如此,投资者仍然趋之若鹜,纷纷希望能够参与投资。 据悉,SSI已经筹集了20亿美元,最新估值已达到320亿美元。
Mira Murati:Thinking Machines Lab
OpenAI的首席技术官Mira Murati在去年离开之后,也创立了自己的公司Thinking Machines Lab。这家公司于2025年2月正式浮出水面,并表示将构建能力更强的「定制化」AI。和SSI类似,Thinking Machines Lab也没有产品和收入,但也已经吸引了大量顶尖的OpenAI前研究人员。据悉,公司正在进行一轮高达20亿美元的种子轮融资,估值至少为100亿美元。
Aravind Srinivas:Perplexity
Aravind Srinivas曾在OpenAI担任研究科学家,2022年离职后共同创立了AI搜索引擎Perplexity。Perplexity吸引了包括Jeff Bezos和英伟达在内的一众知名投资者。截至2025年3月,公司正以180亿美元的估值寻求约10亿美元的融资。
Kyle Kosic:xAI
Kyle Kosic在2023年离开OpenAI后,加入了马斯克的AI初创公司xAI,担任联合创始人和基础设施负责人。然而,在2024年,他又重新回到了OpenAI。
Andrej Karpathy:Eureka Labs
计算机视觉专家Andrej Karpathy是OpenAI的创始成员和研究科学家。2017年,他离开OpenAI加入特斯拉,负责领导自动驾驶项目。2024年,他离开特斯拉,并创立了自己的教育科技初创公司Eureka Labs ,致力于开发AI教学助手。
Jeff Arnold:Pilot
Jeff Arnold曾在2016年担任了5个月的OpenAI运营主管。2017年,他共同创立了Pilot并出任COO,专注于为初创公司提供会计服务。2021年,Pilot完成了1亿美元的C轮融资,估值达到12亿美元。2024年,他离开Pilot并创办了一家风险投资基金。
David Luan:Adept AI Labs
David Luan曾在OpenAI担任工程副总裁,于2020年离职。2021年,在Google短暂工作一段时间后,他联合创立了Adept AI Labs,致力于为企业员工开发AI工具。2023年,Adept完成了3.5亿美元的融资,估值超过10亿美元。2024年底,亚马逊招揽了Adept的创始团队,Luan也随之加入,并负责AI智能体实验室。
Tim Shi:Cresta
Tim Shi OpenAI团队的早期成员,主要负责构建安全的AGI。他在OpenAI工作了一年后,于2017年离职创立了Cresta,专注于为联络中心提供AI技术。目前,Cresta已经从红杉资本、Andreessen Horowitz等风投机构筹集了超过2.7亿美元的资金。
Pieter Abbeel、Peter Chen和Rocky Duan:Covariant
Pieter Abbeel、Peter Chen和Rocky Duan三人都曾是OpenAI担任研究科学家(2016-2017年)。离职后,他们共同创立了Covariant,致力于为机器人构建AI基础模型。2024年,亚马逊收购了Covariant及其团队。
Maddie Hall:Living Carbon
Maddie Hall曾在OpenAI从事「特殊项目」,2019年离职后共同创立了Living Carbon,致力于创造经过基因工程改造的植物,来吸收更多二氧化碳,从而应对气候变化。据报道,Living Carbon在2023年完成了2100万美元的A轮融资,总融资额达到3600万美元。
Shariq Hashme:Prosper Robotics
Shariq Hashme于2017年在OpenAI工作了9个月,参与开发了一款能玩Dota的AI。在数据标注初创Scale AI工作几年后,他于2021年共同创立了Prosper Robotics,专注于为家庭用户开发机器人管家。
Jonas Schneider:Daedalus
Jonas Schneider曾领导OpenAI机器人团队的软件工程工作,2019年离职后共同创立了Daedalus,致力于为精密组件建造先进的工厂。去年,公司完成了2100万美元的A轮融资,获得了Khosla Ventures等机构的支持。
Margaret Jennings:Kindo
Margaret Jennings于2022年至2023年在OpenAI工作,之后离职共同创立了Kindo,主打面向企业的AI聊天机器人。Kindo已累计筹集超过2700万美元的资金。其中,在2024年完成了2060万美元的A轮融资。2024年,Jennings离开Kindo出任法国AI初创公司Mistral的产品和研究主管。
这些从同一家公司走出的工程师们,正在重构整个AI世界的版图。
OpenAI或许未能垄断通往AGI的道路,但它成功播下了一批批改变世界的「种子」。
在这个被AI疯狂重塑的时代,Ilya Sutskever的「消失」或许正是一种选择——不是逃避,而是蓄力。
他没有追逐热度,没有发布模型,甚至连社交媒体都刻意沉寂,却凭借一纸宣言和一个宏大的愿景,吸引了几十亿美金的资金和一众顶尖科学家的追随。
与此同时,那些从OpenAI走出的「黑帮」们,正在用各自的方式重塑着一条条通往AGI的道路。
当别人还在AI江湖中跑马圈地时,Ilya相信或许他应该守住Hinton传承给他的底线。
Ilya,正在等待那个值得他发布的「超级智能」。
参考资料:
https://mp.weixin.qq.com/s/whESiHkB58IuK69OYKOB1w
#「多元宇宙」Multiverse
全球首款AI生成多人游戏诞生,全部开源,单机可玩,成本不到1500美元
今天,又一个「世界首创」头衔被认领了。以色列创业团队 Enigma Labs 宣布造出了世上首个 AI 生成的多人游戏 Multiverse,即「多元宇宙」。
,时长00:26
很显然,这是一个多人赛车游戏。「玩家可以超车、漂移、加速 —— 然后再次相遇。每一次行动都会为重塑这个世界。」
开发者 Jonathan Jacobi 表示,多人游戏曾是 AI 生成世界中缺失的拼图,而 Multiverse 成功补齐这一空白,而玩家能够实时地与这个 AI 模拟的世界进行交互并塑造它。
更让人吃惊的是,Multiverse 的训练和研发成本加起来还不到 1500 美元,其中包括数据收集、标注、训练、后训练和模型研究。并且,它还可以直接在个人电脑上运行!
Jonathan Jacobi 写到:「多人世界模型远远不止于游戏——它们是模拟的下一步,可解锁由玩家、智能体和机器人塑造的动态的、共同进化的世界。」
不仅如此,该团队也宣布将会开源与该研究成果相关的一切,包括代码、数据、权重、架构和研究。另外,Enigma Labs 也发布了一篇技术博客,介绍了 Multiverse 背后的一些故事和技术。
GitHub:https://github.com/EnigmaLabsAI/multiverse
Hugging Face:https://huggingface.co/Enigma-AI
技术博客:https://enigma-labs.io/blog
团队介绍
该团队来自以色列,成员包括以色列的前 8200 部队成员以及一些领先的创业公司成员,拥有丰富的研究和工程开发经验,涵盖漏洞研究、算法、芯片级研究和系统工程。
他们写到:「我们秉持第一性原理思维,解决了 AI 生成世界中的一项开放性挑战:多人世界模型。」
Multiverse 架构解读
单人游戏架构回顾
要了解多人世界模型的架构,首先回顾一下单人世界模型中使用的现有架构:
该模型接收视频帧序列以及用户的操作(如按键),并利用这些信息根据当前操作预测下一帧。
它主要由三个部分组成:
- 动作嵌入器——将动作转换为嵌入向量;
- 去噪网络——根据前一帧和动作嵌入生成一帧的扩散模型;
- 上采样器(可选)——另一个扩散模型,用于接收世界模型生成的低分辨率帧,并增加输出的细节和分辨率。
多人游戏架构
为了构建多人游戏世界模型,该团队保留了上面的核心构建模块,但对结构进行了拆解 —— 重新对输入和输出进行了连接,并从头开始重新设计了训练流程,以实现真正的合作游戏:
- 动作嵌入器——获取两个玩家的动作,并输出一个代表它们的嵌入;
- 去噪网络——一个扩散网络,它能基于两个玩家之前的帧和动作嵌入,以一个实体的形式同时生成两个玩家的帧;
- 上采样器——此组件与单人游戏组件非常相似。不过这里的上采样器会分别接收两个玩家的帧,并同时计算上采样后的版本。
为了打造多人游戏体验,模型需要收集双方玩家之前的帧和动作,并输出各自预测的帧。关键在于:这两个输出不能仅仅看起来美观——它们需要在内部保持一致。
这是一个真正的挑战,因为多人游戏依赖于共享的世界状态。例如,如果一辆车漂移到另一辆车前面或发生碰撞,双方玩家都应该从各自的视角看到完全相同的事件。
该团队提出了一个解决方案:将双方玩家的视角拼接成一张图像,将他们的输入融合成一个联合动作向量,并将这一切视为一个统一的场景。
于是问题来了:怎样才能最好地将两个玩家视图合并为模型可以处理的单一输入?
- 显而易见的做法是将它们垂直堆叠,就像经典的分屏游戏一样;
- 一个更有趣的选择是沿通道轴堆叠,将两帧图像视为具有两倍色彩通道的图像。
答案是方案 2,即沿通道轴堆叠。因为这里的扩散模型是一个 U 型网络,主要由卷积层和解卷积层组成,所以第一层只处理附近的像素。如果将两个帧垂直堆叠,那么直到中间层才会对帧进行处理。这就降低了模型在帧间产生一致结构的能力。
另一方面,如果将帧按通道轴堆叠,则网络的每一层都会同时处理两名玩家的视图。
车辆运动学和相对运动的高效上下文扩展
为了准确预测下一帧,模型需要接收玩家的动作(如转向输入)和足够的帧数,以计算两辆车相对于道路和彼此的速度。
在研究中,作者发现 8 帧(30 帧/秒)的帧数可以让模型学习车辆运动学,如加速、制动和转向。但两辆车的相对运动速度要比道路慢得多。例如,车辆的行驶速度约为 100 公里/小时,而超车的相对速度约为 5 公里/小时。
为了捕捉这种相对运动,需要将上下文的大小扩大近三倍。但这样做会使模型速度过慢,无法进行实时游戏,增加内存使用量,并使训练速度大大降低。
为了保持上下文大小,但又能提供更多的时间信息,作者为模型提供了前几帧和动作的稀疏采样。具体来说,他们向模型提供最近的 4 个帧。然后在接下来的 4 个帧中每隔 4 个帧提供一次。上下文中最早的一帧为 20 帧,即过去 0.666 秒,足以捕捉到车辆的相对运动。此外,这还能让模型更好地捕捉到与路面相比的速度和加速度,从而使驾驶的动态效果更加出色。
多人游戏训练
为了学习驾驶和多人互动,模型需要对这些互动进行训练。世界模型中的行走、驾驶和其他常见任务需要较小的预测范围,例如 0.25 秒的未来预测。
多人交互则需要更长的时间。在 0.25 秒内,玩家之间的相对运动几乎可以忽略不计。训练多人世界模型需要更长的预测时间。因此,作者对模型进行了训练,以预测未来 15 秒内的自回归预测(30 帧/秒)。
为了让模型能够执行如此长的预测范围,此处采用了课程学习的方法,并在训练过程中将预测范围从 0.25 秒增加到 15 秒。这样,在初始训练阶段,即模型学习汽车和赛道几何等低级特征时,就能进行高效训练。当模型学会生成连贯的帧和车辆运动学建模后,就可以对球员的行为等高级概念进行训练。
在增加预测范围后,模型的目标持久性和帧间一致性都有了显著提高。
高效的长视野训练
训练未来 100 帧以上的模型对 VRAM 提出了挑战。在批尺寸较大的情况下,将帧加载到 GPU 内存中进行自回归预测变得不可行。
为了解决内存不足的问题,作者以页面为单位进行自回归预测。
在训练开始时,加载第一批帧并进行预测。
然后加载下一页,并放弃上下文窗口之外的帧。
Gran Turismo 数据集:生成与收集
该团队训练模型的数据收集自索尼的游戏《GT 赛车 4》(Gran Turismo 4)。他们打趣地表示:「这只是一个技术演示,我们是铁粉,所以请不要起诉我们。」
设置和游戏修改
他们使用了较为简单的测试用例:在筑波赛道(Tsukuba Circuit)上的 1v1 比赛,视角是第三人称。筑波赛道比较短,道路也简单,非常适合训练。
但问题也有:《GT 赛车 4》并不支持玩家以 1v1 模式全屏运行筑波赛道。该游戏仅支持 1v5 或分屏对战模式。因此,该团队对游戏进行了逆向工程和修改,从而可以真正的 1v1 模式启动筑波赛道:
数据收集
为了收集双方玩家的第三人称视频数据,该团队利用了游戏内置的回放系统 —— 每场比赛回放两次,并从每位玩家的视角进行录制。然后,该团队将两段录像同步,使其与原始的双人比赛画面一致,并将它们合并成一段两位玩家同时比赛的视频。
那么,该团队采用了什么方法来捕捉数据集中的按键动作,更何况其中一位玩家是游戏机器人而非人类?
幸运的是,该游戏会在屏幕上显示足够多的 HUD 元素(例如油门、刹车和转向指示灯);这些信息可用于准确地重建达到每个状态所需的控制输入:
该团队利用计算机视觉逐帧提取了这些方框中的信息,并解码了其背后的控制输入,进而重建得到了完整的按键操作,从而无需任何直接输入记录即可构建完整的数据集。
自动的数据生成
乍一看,我们似乎不得不坐下来手动玩游戏几个小时,为每场比赛录制两次回放 —— 这就有点痛苦了。
虽然 Multiverse 的部分开源数据集确实来自手动游戏,但作者发现了一种更具可扩展性的方法:B-Spec 模式。在这个模式下,玩家可以使用游戏手柄或方向盘来指示游戏机器人驾驶员代表他们进行比赛。
由于 B-Spec 的控制功能有限且简单,作者编写了一个脚本,向 B-Spec 发送随机输入,自动触发比赛。之后,同一个脚本会从两个视角录制回放画面,从而捕捉这些 AI 驱动比赛的第三人称视频。
作者还尝试使用 OpenPilot 的 Supercombo 模型来控制赛车,本质上是将其变成了游戏中的自动驾驶智能体。虽然这种方法有效,但最终显得多余 —— 因此,最终版本中还是使用 B-Spec 进行数据生成:
多人游戏世界模型不仅仅是游戏领域的一项突破,更是人工智能理解共享环境的下一步方向。通过使智能体能够在同一个世界中学习、响应和共同适应,这些模型开启了新的可能性。
#T2I-R1
文生图进入R1时刻:港中文MMLab发布
姜东志,香港中文大学MMLab博士,研究方向为理解与生成统一的多大模型及多模态推理。在ICML, ICLR, NeurIPS, ECCV, ICCV等顶级会议上发表过论文。
最近的大语言模型(LLMs)如 OpenAI o1 和 DeepSeek-R1,已经在数学和编程等领域展示了相当强的推理能力。通过强化学习(RL),这些模型在提供答案之前使用全面的思维链(CoT)逐步分析问题,显著提高了输出准确性。最近也有工作将这种形式拓展到图片理解的多模态大模型中(LMMs)中。然而,这种 CoT 推理策略如何应用于自回归的图片生成领域仍然处于探索阶段,我们之前的工作 Image Generation with CoT(https://github.com/ZiyuGuo99/Image-Generation-CoT)对这一领域有过首次初步的尝试。
与图片理解不同,图片生成任务需要跨模态的文本与图片的对齐以及细粒度的视觉细节的生成。为此,我们提出了 T2I-R1—— 一种基于双层次 CoT 推理框架与强化学习的新型文本生成图像模型。
- 论文标题:T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT
- 论文地址:https://arxiv.org/pdf/2505.00703
- 代码地址:https://github.com/CaraJ7/T2I-R1
- 机构:港中文 MMLab、上海 AI Lab
方法介绍
具体而言,我们提出了适用于图片生成的两个不同层次的 CoT 推理:
Semantic-CoT
- Semantic-CoT 是对于要生成的图像的文本推理,在图像生成之前进行。
- 负责设计图像的全局结构,例如每个对象的外观和位置。
- 优化 Semantic-CoT 可以在图片 Token 的生成之前显式地对于 Prompt 进行规划和推理,使生成更容易。
Token-CoT
- Token-CoT 是图片 Token 的逐块的生成过程。这个过程可以被视为一种 CoT 形式,因为它同样是在离散空间中基于所有先前的 Token 输出后续的 Token,与文本 CoT 类似。
- Token-CoT 更专注于底层的细节,比如像素的生成和维持相邻 Patch 之间的视觉连贯性。
- 优化 Token-CoT 可以提高生成图片的质量以及 Prompt 与生成图片之间的对齐。
然而,尽管认识到这两个层次的 CoT,一个关键问题仍然存在:我们怎么能协调与融合它们?
当前主流的自回归图片生成模型如 VAR 完全基于生成目标进行训练,缺乏 Semantic-CoT 推理所需的显式文本理解。虽然引入一个专门用于提示解释的独立模型(例如 LLM)在技术上是可行的,但这种方法会显著增加计算成本、复杂性和部署的困难。最近,出现了一种将视觉理解和生成合并到单一模型中的趋势。在 LMMs 的基础上,这些统一 LMMs(ULMs)不仅可以理解视觉输入,还可以从文本提示生成图像。然而,它们的两种能力仍然是解耦的,通常在两个独立阶段进行预训练,没有明确证据表明理解能力可以使生成受益。
鉴于这些潜力和问题,我们从一个 ULM(Janus-Pro)开始,增强它以将 Semantic-CoT 以及 Token-CoT 统一到一个框架中用于文本生成图像:
我们提出了 BiCoT-GRPO,一种使用强化学习的方法来联合优化 ULM 的两个层次的 CoT:
我们首先指示 ULM 基于 Image Prompt 来想象和规划图像来获得 Semantic-CoT。然后,我们将 Image Prompt 和 Semantic-CoT 重新输入 ULM 来生成图片以获得 Token-CoT。我们对于一个 Image Prompt 生成多组 Semantic-CoT 和 Token-CoT,对于得到的图像计算组内的相对奖励,从而使用 GRPO 的方法来在一个训练迭代内,同时优化两个层次的 CoT。
与图片的理解任务不同,理解任务有明确定义的奖励规则,图像生成中不存在这样的标准化的规则。为此,我们提出使用多个不同的视觉专家模型的集成来作为奖励模型。这种奖励设计有两个关键的目的:
- 它从多个维度评估生成的图像以确保可靠的质量评估
- 作为一种正则化方法来防止 ULM 过拟合到某个单一的奖励模型
根据我们提出的方法,我们获得了 T2I-R1,这是第一个基于强化学习的推理增强的文生图模型。
实验
根据 T2I-R1 生成的图片,我们发现我们的方法使模型能够通过推理 Image Prompt 背后的真实意图来生成更符合人类期望的结果,并在处理不寻常场景时展现出增强的鲁棒性。
同时,定量的实验结果也表明了我们方法的有效性。T2I-R1 在 T2I-CompBench 和 WISE 的 Benchmark 上分别比 baseline 模型提高了 13% 和 19% 的性能,在多个子任务上甚至超越了之前最先进的模型 FLUX.1。
#联想个人超级智能体
手机、PC更强大脑来了!开始觉醒L3级智能水平
从天禧到城市中枢,联想用超级智能体重塑个人、企业、城市AI格局。
2025 年的 AI 圈,你要说最火的是什么?推理模型是一个,尤以国产 DeepSeek-R1 为代表;另一个要属智能体了,以 Manus、Operator 为代表。
很多大佬如 OpenAI CEO 奥特曼、Anthropic CEO Dario Amodei 都看好智能体的发展前景,2025 更被业内广泛认为是智能体爆发的元年。可以说,智能体正在深刻改变着人机交互范式,为个人、企业带来工作效率和生产力的显著提升;同时又加速了端侧 AI 落地的速度。
如今,联想从智能体所能驾驭的能力、覆盖的场景等多个层面往前推了一大步。
5 月 7 日,在以「让 AI 成为创新生产力」为主题的联想创新科技大会(Tech World)上,联想集团董事长兼 CEO 杨元庆首次亮出了「超级智能体」概念,并定义超级智能体的三大核心能力,即感知与交互、认知与决策、自主与演进。伴随这三大核心能力而来的是,个人创造力的极大释放、企业增长动能的极大增加。
联想集团董事长兼 CEO 杨元庆
会上,杨元庆正式发布了从个人、企业到城市场景的超级智能体矩阵,包括联想天禧个人超级智能体、联想乐享企业超级智能体、联想城市超级智能体及新一代联想推理加速引擎,其中:
- 个人版「天禧」可跨设备调用日历、邮件及个人云数据,实现复杂任务的自主编排;
- 企业版「乐享」则化身硅基员工,无缝对接市场、销售、采购等全流程;
- 城市级智能体已在武夷山、宜昌等地的实践中,验证城市治理并提供社会服务的可行性。
这意味着,当大语言模型进入到「强推理 + 端侧化」的新阶段,联想通过超级智能体展现出了更大的愿景 —— 将其打造为新时代的「认知操作系统」。
这也是继其押注 AI PC 之后,联想在端侧打造 AI 超级入口的又一重大举措,在超级智能体的规模化落地进程中加速 AI 普惠。
「超级」智能体
已经进化成这样了
作为与每个人关系最密切的个人智能体,联想赋予了天禧个人超级智能体更强大、更全面、更友好的能力,让再复杂的 AI 任务都可以一触即达。
首先是感知与交互,天禧实现了多模态感知和意图驱动的自然交互。当你用手机刷到朋友圈里很吸引人的好友游记,就可以用语音告诉天禧「这地方看起来不错,找时间和家人去一趟」。天禧立即能激活智能情境感知功能,识别照片中的景点信息,根据你习惯的度假时间以及日程表上的空闲时段,提出度假时间候选,并通过和你的自然对话确认你的精准意图。
其次是认知与决策,天禧能调用跨设备数据所整合的个人知识库,帮你做出推理和判断。在设计旅行方案时,调用长期记忆偏好,确定亲友关系,推荐交通和食宿,基于过往的消费习惯做预算,还能整合公开信息,包括酒店房态、天气预测和餐饮评价等等,做出具体方案。
最后是自主与演进,天禧能自主拆解复杂任务、规划步骤并主动执行。例如自动拆分旅行安排并完成酒店预订、餐厅预约、路线推送和通知提醒。未来我们还可以通过多智能体交互让你的智能体和亲友智能体一起商量行程安排。整个过程中,你的点滴反馈都会成为天禧进一步优化的燃料。
显然,天禧已经形成了从「听懂你」到「理解你」再到「为你执行」的完整链路。
在当天的发布会上,歌手大张伟惊喜现身,演示了天禧个人超级智能体的更多玩法,让它的能力释放更具实感。
首先生成一些大张伟风格的段子,确实有那个味。
再为大张伟安排一份行程,天禧精准理解意图,在经过推理之后敏锐捕捉到日程安排存在的冲突,因而分析各项安排调整的可能性,并重新完成日程规划。
过程中,天禧发挥了其跨生态的多智能体协作能力,像总指挥一样依次调用了日历、地图、车辆预约等工具来协同工作,一气呵成,省去了跨应用操作的麻烦。
联想还发布了四款搭载天禧个人超级智能体的智能终端设备,包括 AI 元启版 moto razr 折叠屏手机,它是首款 L3 协作级 AI 智能手机,一键直通 AI;AI 元启版 Yoga 平板,搭载联想自研的独特 AI 交互引擎,让思想直达笔尖,所思即所见;全球首款卷轴屏 AI PC ThinkBook:柔性屏动态扩展至 16.7 英寸,扩大将近 50% 额外屏幕,视野更广阔,效率大幅提升;3D 拯救者:顶级图像渲染,集成灵敏光线追踪,AI 让游戏栩栩如生。
在通过更懂人类意图、更自然连贯的交互来为个人减负之外,联想的超级智能体同样为企业、城市场景的深拓带来了更多想象空间。
联想首个企业超级智能体 —— 联想乐享,深度集成全域业务数据与知识资产,具备从供应链优化到市场营销的全链条智能,真正实现了「硅基生命」与实体业务的同频共振。从「工具」到「硅基生命共同体」,乐享可以化身为产品经理、明星销售或资深采购,甚至是服务工程师。
乐享不仅仅是一名员工,而是包罗万象、无所不能的「员工之集大成者」,表现出了 AI 对组织架构、流程决策、人机协作的深度介入与替代能力,代表了 AI for Enterprise 的新形态。
联想首位硅基员工「联想乐享壹号」人形机器人
在城市场景,联想构建「1×N 城市超级智能体」架构,即 1 个城市核心中枢,协同多个领域智能体。其中核心中枢负责意图理解、任务规划、调度执行,并通过宏观层面完成计算与资源调度,实现城市治理并提供社会服务,从而形成「全局统筹 + 专业执行」的协作体系。
这是智能体作为社会基础设施的首次落地尝试,有望推动未来 AI 进入「公共智能」时代。
L3 级智能水平逐步到来
在 5 月 8 日的联想天禧 AI 生态春季新品超能之夜,我们看到了天禧个人超级智能体的更多技术细节以及运行在手机等终端设备上的新奇体验。
天禧整体架构
作为终端设备 AI 大脑,天禧以多模态交互、全时空记忆与主动任务规划三大超级能力重构人机协作逻辑,具体如下:
- 在多模态交互层面,深度融合语音、文本、图片及视觉交互能力,实现与用户的自然无缝沟通;
- 全时空记忆能力则突破传统存储局限,整合设备端与云端全域知识库,随时按照场景需要,自主检索、调取应用;
- 主动任务规划能力则标志着 AI 从被动响应到主动协作的质变,不仅能理解用户的表层需求,更能自动分解复杂任务为可执行步骤,主动协作完成任务。
为了提供因人而异的深度个性化响应,并实现一种「无形而智能」的自然交互体验,天禧引入了三大伴随式 AUI 界面 ——「AI 随心窗」、「AI 玲珑台」和「AI 如影框」。
其中,AI 随心窗集成所有功能与应用,并内置了「Model Plaza」模型广场,聚合行业顶级大语言模型,包括 DeepSeek-R1、豆包、文心一言、通义千问、Kimi 等,可以做到一站式灵活调用。
AI 玲珑台则化身「隐形管家」,在需要时主动推送服务建议、展示任务进度,空闲时自动退居幕后,保障免打扰的交互体验。伴随态的 AI 如影框如影随形,在写作时自动浮现实时翻译、改写选项,绘画时精准推荐笔触与配色方案,让辅助工具「恰逢其时」地出现。
AI 如影框辅助绘画
如今的 AI 在追求更高性能的同时,还特别重视安全与隐私保护。天禧采用了端云混合部署架构,可以无缝地运行在 Windows、Android、Linux 设备操作系统之上,指数级提升算力,为联想 AI 设备提供超强性能支持。
不仅如此,联想与火山引擎共建的可信私密云方案 —— 联想个人云 1.0 也首次亮相,云端搭载 720 亿参数大语言模型,为联想各类 AI 设备打破端侧 AI 算力的束缚,提供更加强大的端云混合算力。此外为用户提供 100G 专属记忆空间,结合 RAG 向量化技术实现端云混合的全域知识部署。
随着天禧利用五大黄金功能(AI 操控、AI 搜索、AI 翻译、AI 笔记和 AI 服务)重塑智能体验,L3 级别的智能水平正在一步步走来,即能够深度思考、自主规划编排、并最终完成复杂任务。
从「工具」到「伙伴」,联想正在用个人超级智能体定义人机关系新物种。
#OpenAI搞了个大联合
ChatGPT+GitHub
从此以后,ChatGPT 可以帮你分析 GitHub 了。
现在,ChatGPT 可以直接连接 GitHub 了,解锁 Deep Research 超强技能!
使用起来非常简单,点击「Deep Research → GitHub」即可开始使用。
你只管提问题,接到指令后,Deep Research 会搜索代码库的源代码和 PR,并返回包含引用的详细报告。
官方还放出了完整操作过程,大家可以真实感受一下:
,时长00:46
不难看出,以后,开发者可以针对代码库和技术文档向 ChatGPT 提问了。
据 OpenAI 发言人透露,该功能将在未来几天向 ChatGPT Plus、Pro 及 Team 用户开放,企业版和教育版支持也将很快跟进。
除了回答有关代码库的问题,该功能还允许 ChatGPT 总结代码结构和模式,并了解如何使用真实的代码示例实现新的 API。
当然,幻觉问题依然存在,OpenAI 宣称这项新功能是为了帮助大家节省时间,而不是为了取代人类。
此外,大家关心的隐私问题,OpenAI 也考虑了,ChatGPT 将尊重组织设置,因此用户只能看到他们已获准查看的 GitHub 内容以及明确与 ChatGPT 共享的代码库。
最近一段时间,我们看到 OpenAI 持续加码辅助编程工具的开发,近期先后推出了开源终端编程工具 Codex CLI,并升级 ChatGPT 桌面应用使其支持多款开发者编程软件的代码读取。该公司始终将编程视为其核心模型的首要应用场景 ——OpenAI 将斥资约 30 亿美元收购 AI 编程助手初创公司 Windsurf 就是最好的证明。
同日,OpenAI 还为大家带来了另一个好消息:开发者现可通过强化微调技术对 o4-mini 推理模型进行优化。
GPT-4.1 nano 模型亦已同步开放微调功能,现在用户可以根据具体应用场景训练这款速度最快、成本最优的模型,充分释放其潜能。
,时长00:41
OpenAI 表示,只有经过验证的组织才能对 o4-mini 进行微调。与此同时,GPT-4.1 nano 微调功能面向所有付费开发者开放。
ChatGPT 直连 GitHub 你用了吗,效果如何?欢迎大家评论区留言。
参考链接:
#VLM as Policy
KuaiMod来了!快手用大模型重构短视频生态格局
在短视频成为亿万用户日常生活标配的当下,它不仅是一种娱乐方式,更是人们获取信息、表达观点、构建社交的主要媒介。随着内容量的井喷式增长,平台面临着前所未有的挑战:一方面,需要更高效地识别和管理内容;另一方面,必须精准地将优质内容推送给真正感兴趣的用户。
大模型技术,尤其是多模态大模型,正迅速成为人工智能领域的新引擎,具备强大的图文音视频理解能力。但在短视频生态这一复杂、高速演化的场景中,如何将这些技术真正落地,仍是一道难解的行业命题。
作为国内领先的短视频社区,快手对利用多模态大模型重塑短视频生态做出了尝试,提出了基于多模态大模型的短视频平台生态优化和综合用户体验改善方案,并在实际部署中取得了显著的成效。这一创新举措不仅为短视频平台的健康发展提供了新的思路,也为行业树立了标杆。
基于多模态大模型的短视频生态优化方案
低质内容广泛存在于各个媒体平台,识别和过滤这些内容是改善用户体验和平台生态的重要环节。但传统视频质量判别方案高度依赖静态规则和标注人员判别,造成了高昂的判断成本,且难以适应用户反感内容的动态性,现有的自动化质量判别方案主要通过关键词匹配和大语言模型的提示工程(Prompt Engineering)完成内容的识别与过滤,难以保证识别过滤的准确率。当前工业界尚缺乏面向短视频平台的内容质量评测标准和成熟的自动化识别解决方案。
快手独立完成了首个面向短视频平台的内容质量判别基准测试构建工作,依托自身生态,打造了覆盖 1000 条真实平台短视频、涵盖 4 类主要劣质内容与 15 类细粒度劣质内容类型的数据集,并进一步提出了工业级自动化短视频质量判别框架 KuaiMod。区别于依赖成文规定的大陆法(Civil Law)体系判别策略,KuaiMod 借鉴判例法(Common Law)在灵活性方面的优势,基于视觉语言模型(VLMs)的链式推理(Chain-of-Thought)深入剖析导致视频引发用户反感的原因,利用判例定义判别策略,从而攻克短视频平台中劣质内容动态变化的难题。KuaiMod 方案广泛使用基于用户反馈的强化学习策略帮助通用 VLM 完成面向视频质量判别任务的离线适配和在线更新,模型通过更新判例实时掌握平台趋势,保证对新生的劣质内容的准确识别。
在离线测试中,KuaiMod-7B 模型在四种主要劣质类别上整体准确率高达 92.4%,相对于其他判别方案提升超过 10%。
目前 KuaiMod 判别方案已经在快手平台全面部署,为百万级日新视频提供质量判别服务,保障数亿用户的使用体验。A/B 测试表明 KuaiMod 使用户举报率降低超过 20%,展现出巨大的工业潜力。
为了促进短视频平台生态优化社区发展,当前 KuaiMod 的评测标准以及详细技术方案论文均已全面开源。
论文:VLM as Policy: Common-Law Content Moderation Framework for Short Video Platform
📖 arXiv Paper:https://arxiv.org/pdf/2504.14904v1
📝 Homepage:https://kuaimod.github.io/
🔮 KuaiMod Benchmark:https://github.com/KuaiMod/KuaiMod.github.io
主要贡献
1、首个短视频平台劣质内容判别基准测试:本工作面向快手生态构建了短视频劣质内容分类体系,形式化定义了短视频内容判别任务,并基于真实场景中的用户反馈构建了首个短视频劣质内容判别基准测试。KuaiMod 劣质内容分类体系包含 4种主要的劣质类别以及 15 种细粒度劣质类别。基准测试包含 1000 条短视频样本,涵盖 15 种细粒度劣质类别,完全由人工标注,并经过多轮数据清洗以保证正确性。
2、首个工业级自动化内容判别解决方案:当前 Facebook,Tiktok 等媒体平台都对基于深度学习模型的自动化内容质量判别方案展开探索,但尚未公布成熟的技术路线。KuaiMod 是首个在工业场景下验证了部署价值的自动化内容质量判别解决方案,在快手平台多个场景下的部署结果表明,KuaiMod 方案具有能够与人工判别相媲美的准确率。我们在论文中详细描述了 KuaiMod 方案的技术路线,希望引发更多的交流和讨论。
3、基于用户反馈的强化学习训练+更新策略:区别于静态的规则或内容判别 API,基于判例的劣质内容建模使得 KuaiMod 可以通过迭代训练数据完成判别策略的更新。为了保证实时性和准确率,我们设计了基于用户反馈的强化学习范式,利用用户的线上反馈构造新的训练数据,实现线上判别服务的天级更新。
一、KuaiMod 短视频质量判别基准测试
KuaiMod 劣质内容分类体系
为了应对层出不穷的新增劣质内容,KuaiMod 建立了动态的劣质内容分类体系。基于快手原有的判别标准,KuaiMod 将劣质内容分类成四个相互独立的主要类别:法律与社会安全,内容质量与伦理,不良商业行为和侵害知识产权。在四个主要类别的基础上进一步构建动态的细粒度劣质内容分类体系。具体来说,初版 KuaiMod 分类体系共包括 15 种细粒度劣质标签。在后续判别过程中,如果视频内容被判定为质量低下,但不存在与之匹配的细粒度标签,则根据劣质内容为该类视频生成新的细粒度标签并计入原有分类体系。自部署以来,KuaiMod 分类体系中劣质内容的标签数目已从 15 个扩充到 100 个,实现了对新增劣质内容的覆盖和细粒度分类。
KuaiMod 基准测试
基于上述分类体系,我们构造了业界首个短视频平台内容质量判别基准测试。该基准测试由 1000 条来自快手平台的短视频和对应的分类标签组成,其中 578 条视频为非劣质内容,422 条劣质视频涵盖了初版分类体系中的 15 种细粒度劣质类型。KuaiMod 基准测试中的每条数据都由多名资深标注者把关,确保分类标签的正确性。在严格的数据脱敏和清洗之后,我们将该基准测试开源,希望促进短视频平台生态优化社区的交流和发展。
二、KuaiMod 短视频质量判别方案
KuaiMod 质量判别模型由快手自研的 YuanQi 通用多模态模型作为基座,面向视频质量判别任务,使用链式推理数据离线训练后部署上线,并根据线上反馈持续更新判别策略。
链式推理数据构造
KuaiMod 训练数据的构造结合了人工判别结果和大模型推理能力。为了增强多模态大模型对视频内容和劣质标签之间的因果建模,我们设计了 Tag2CoT 和 CoT2Tag 流程,为每条训练数据提供细致的分析过程。
我们将线上的用户反感(举报/厌恶/差评)视频队列以及用户喜爱的高质量视频队列作为数据源,由人工标注者为每条数据标注细粒度劣质标签。
在 Tag2CoT 过程中,多模态大模型将视频元信息(视频标题、封面、视频帧、OCR/ASR 文本,用户评论等)以及人工标注的劣质标签作为输入,并根据指令分析视频内容,为人工判别结果提供思维链格式的依据。 在 CoT2Tag 过程中,为了将推理过程结构化,我们为视频质量判别任务设计了专门的流程,具体来说,我们将视频质量判别分成内容提取,内容分析,中期检查,用户反馈分析和总结判断五个状态,由多模态大模型将视频内容以及 Tag2CoT 过程中生成的思维链整理成状态转移格式。
SFT+DPO 离线适配
基于构造的链式推理数据,KuaiMod 模型的离线适配由 SFT 和 DPO 两阶段训练组成。
在 SFT 阶段,整合视频元信息作为输入,使用 next-token-prediction 任务训练 YuanQi 模型生成推理过程和判别结果。
在 DPO 阶段,利用 SFT 后的模型在训练集上生成推理结果,从中挑选出判别结果错误的样本,将模型的生成结果作为负例,将原本的训练数据作为正例,构造偏好数据,采用直接偏好优化算法针对错误样本优化模型。
基于用户反馈的强化学习(RLUF)更新范式
尽管 KuaiMod 模型在离线适配后具备初步的视频质量判别能力,但由于社交视频平台上的劣质内容会随着用户和社会趋势而变化,静态的质量判别模型无法有效适应这种动态性。因此,在线上更新阶段,我们设计了基于用户反馈的强化学习(RLUF)范式,持续优化 KuaiMod 模型的判别策略。
RLUF 包括如下关键元素:
- 环境:由短视频平台上的视频和用户组成,用户通过观看视频并提供反馈(如举报)来与环境互动。
- 智能体:KuaiMod 模型作为代理与环境互动,其策略由参数 θ 决定,基于视频内容进行质量判断。
- 奖励和目标:奖励信号直接来自用户反馈,较低的用户举报率表明更好的质量判别策略。目标是通过与环境的互动更新判别策略,以提高用户满意度和平台生态。
劣质内容判别策略更新的关键在于消除模型与用户对劣质内容理解的差异。为此,选择模型判别结果与用户反馈不一致的视频案例作为优化阶段的训练数据。具体步骤包括:
1、实时难例收集:难例来自用户举报视频以及高热视频。举报行为直接反映了用户理解的劣质内容的范畴,而高热视频因其受欢迎程度而具有更高的扩散风险,同时也反映了平台趋势和用户偏好。
2、数据筛选:
- 粗筛选:假设未被用户举报的视频为正例,而高举报队列中的视频为劣质样本。通过更新前的KuaiMod模型生成判别决策,识别出与人类反馈相矛盾的案例作为线上更新阶段的候选训练数据。
- 精细标注:对有争议的候选案例进行人工复检,确定最终的劣质标签,并通过既定的 Tag2CoT 和 CoT2Tag 流程生成数据。对于 KuaiMod 判断错误的案例,原始和新生成的响应分别作为错误和正确答案;对于 KuaiMod 判断正确但用户仍感到不适的案例,使用 YuanQi-20B 模型在 CoT 推理过程中列举可能引起用户不适的方面,并解释该视频为何不会对社区生态造成危害,以帮助模型区分个体用户敏感性和社会共识。
在线上更新阶段的训练中,我们仍然采用直接偏好优化算法来完成模型判别策略与用户反馈的对齐。
离线性能评估
我们在 KuaiMod 基准测试上评估了多种视频质量判别方案,从较早的 RoBERTa 编码器到先进的 Intern-VL 模型,从通用的 GPT-4o 到专业的 Perspective API,以及经过离线适配的 KuaiMod-7B 模型。评测包括简单的劣质/非劣质二分类和对细粒度标签的多分类。
评测结果揭示了视频质量判别任务存在如下关键要素:
1、判别标准的实时性:在诸多判别方法中,Perspective 是唯一的工业级内容判别 API,但由于其使用的模型训练时间较早,且无法微调,因此相较于其他可微调的方法以及更新的 GPT-4o,准确率较低。
2、多模态理解能力:能够利用多模态信息的方法相比于仅能利用文本信息的模型普遍取得了更好的效果,强大的视觉理解能力对于视频质量判别任务至关重要。
KuaiMod-7B 模型取得了 92.4% 的整体准确率,相对于其他方法取得了将近 10% 的提升,展现出了性能优势和应用潜力。
线上部署性能增益
为了验证 KuaiMod 方案的实际应用价值,我们在快手生态中的三个场景(快手极速版,快手精选和快手主站)进行了 A/B 测试。在极速版和精选场景下,KuaiMod 的质量判别服务使视频举报率降低了 20% 以上,显著提升了用户的观看体验。同时,质量判别服务没有对活跃用户数目和观看时长造成负面影响,这证明 KuaiMod 剔除的短视频不符合主流用户的兴趣。在主站场景下,KuaiMod 的质量判别服务使得活跃用户规模和人均观看时长均产生了增长,这证明了劣质内容剔除对于短视频平台的发展具有巨大价值。
三、快手致力打造社区短视频理解多模态大模型
短视频平台的内容分发面临两大核心挑战:如何从海量内容中精准捕捉用户兴趣,以及如何在信息过载时代构建用户与内容的高效连接。随着短视频内容的多样化和复杂性,平台需要探索更加先进的推荐技术,以提升推荐的精准性和可解释性,从而更好地满足用户的需求。
快手正致力于打造一个能够真正「理解社区短视频」的多模态大模型,不只是追求技术指标的突破,而是从用户体验、内容理解到业务变现,全面重塑平台的智能基础设施。这不仅关乎一个产品的升级,更代表着一种新的AI价值实现路径。
多模态语义理解的「硬骨头」:快手短视频语义远超多模态通用范式
相比标准化的影视视频或通用图文内容,社区短视频的语义环境极为复杂:内容碎片化严重、情境依赖性强、语言与视觉高度融合、表达风格高度个性化、传达意图往往隐含于动作、语气、背景与上下文之中。这意味着,只有能够真正「看懂、听懂、理解」这些视频的大模型,才能为推荐、搜索、内容生成等核心能力提供有效支撑。
这正是快手推进多模态大模型建设的起点。
团队明确提出,模型不仅需要实现语言、视觉、音频等模态的信息融合,还要具备:
- 对短视频语境中复杂意图的识别能力;
- 对用户兴趣动态变化的感知能力;
- 对视频背后高阶语义与知识图谱的推理能力。
传统方法往往止步于对视频内容的表征提取,而快手要做的是,从「表征」迈向「理解」——这是通往下一代 AI 系统的必由之路。
建立以「视频理解」为核心的多模态模型框架
为此,快手自研的大模型能力被系统地分为三个层次:
第一层:多模态基础能力
这一层聚焦于打通视频、图像、文本等多模态输入的表示空间。团队探索了多种训练范式:
- 通过语言模型主导的 Encoder 路径融合视觉内容;
- 利用 Adapter 方式对视觉模态进行调参适配;
- 构建统一的流式理解体系,实现短视频「上下文建模」;
- 引入监督微调(SFT)策略,提升模型生成能力和对齐度。
在模型训练数据上,快手搭建了高质量的中文短视频语料库,支持「视频-语音-文本」三位一体的训练目标,并构建了以「视频结构化标签体系」为中心的训练监督链条,实现模型对短视频语义单位的精准识别。
第二层:高级认知与推理能力
在具备感知能力之后,快手将模型推向更高维度的认知与推理能力。这部分重点突破如下:
- 利用 RAG 机制结合知识图谱进行视频内容补全与多跳问答;
- 提高模型对复杂命题(如动作因果、话题转折、情感表达等)的理解力;
- 融合社交线索(如点赞评论、观看路径)进行因果链建模。
与 OpenAI、DeepSeek 等在图文领域大模型能力相比,快手的优势在于其数据更贴近用户真实兴趣轨迹,具备构建「懂人心」模型的土壤。
第三层:多模态应用能力
快手多模态模型的目标并非「实验室指标」,而是「场景闭环」。当前,模型已广泛部署于平台的多个核心任务中,包括:
- 视频兴趣标签结构化;
- 短视频 Caption 生成与标题优化;
- 用户兴趣识别与推荐意图建模;
- 智能选题、内容共创辅助;
- 电商商品知识图谱构建与导购推荐;
- 用户评论语义解析与话题扩散预测。
尤其在商品推荐与内容创作领域,快手正在构建「知识驱动的 AI 内容理解-生成-推荐」全链条,从而实现从内容理解到价值转化的智能跃迁。
实际业务中,这一模型体系已在用户行为可解释性任务中展现出显著成效——在快手主站与极速版核心场景中,平台多项正向核心指标稳步提升,主站场景下举报率下降超过 26%,极速版下降超过 24%,充分体现了多模态大模型在真实业务环境中的落地能力与优化成效。
三阶段路径:从能力建设到生态闭环
快手在多模态大模型建设方面采取了清晰的阶段性策略,力求以系统性投入逐步构建起具备产业价值和应用闭环的模型能力体系。
第一阶段:夯实基础能力
快手聚焦于多模态模型的底层能力建设,重点包括统一的标签体系构建、多源异构语料的采集与清洗,以及多模态监督机制的初步搭建。通过标准化、结构化的标签体系,为模型提供更精确的语义锚点,奠定了高质量训练的基础。
第二阶段:推进语义融合与兴趣建模
随着基础能力的成熟,快手开始将模型能力延伸到内容与用户之间的深层理解。此阶段重点探索内容语义结构与用户行为偏好的联动机制,推动知识图谱在推荐、搜索等业务场景中的实用化落地,进一步提升内容分发的精准性与用户体验。
第三阶段:实现产品集成与业务共振
在模型能力逐步完善的基础上,快手将多模态技术融入平台多个关键业务流程,面向内容理解、创作辅助、商业推荐等多类任务实现统一支撑。同时,探索 AI 能力在营销、分发、内容生产等场景中的创新应用,推动模型从「算法引擎」迈向「平台能力」的演进。
这一分阶段的策略不仅保障了技术建设的系统性,也使得大模型能力能够稳步走向规模化应用和价值兑现。
走出学术范式,迈入「场景即能力」的产业实践阶段
快手的多模态大模型不是为了追赶潮流,而是一次源于真实场景需求的技术深耕。它所代表的,是中文内容生态中,一个由社区驱动、短视频驱动的智能化转型路径。
如果说过去多模态模型更像是「学术成果的工程化实现」,那么快手的路线更像是「产品倒推下的技术演进」。在这个过程中,快手展现出一种难得的「慢功夫」与务实精神:先理解任务本身,再推动模型优化,最终形成业务闭环。这种从需求出发、自研为本、场景驱动的技术策略,为整个中文AI生态提供了一种新的范式样本。
#北京亦庄的机器人残奥会
在人流如织的大街小巷,这家公司的机器人正跑着自己的「马拉松」
前段时间,在北京亦庄举办的「人形机器人半程马拉松」活动引发全民热议。有人对机器人在赛事中展现出的耐力和稳定性表示赞赏;当然,也有人因机器人频繁摔倒、出状况而感到失望,毕竟,这和短视频里那些跳舞、跑酷、侧空翻的机器人形成了巨大反差。
比赛跑成这样,是不是说明近几年围绕机器人、xx智能的热议是一场炒作?答案肯定不是简单的「是」或「否」。
但除此之外,还有一个问题更加值得讨论:如何打造一个真正可以走入现实世界的机器人?
「更复杂、更智能的xx智能机器人需要建立在上一代xx智能完成商业闭环和真实世界数据闭环的基础上。」这是我们从xx智能从业者 、推行科技创始人兼 CEO 卢鹰翔口中得到的观点。而他所做的工作,就是打造这样一个商业和数据闭环。
如果你在苏州、深圳、上海等地点过机器人送的外卖,那你可能见过推行科技的机器人。它们和行人、自行车、电动车一起穿行、过马路,还会自己进小区、坐电梯,把外卖、商品送到用户手里。
推行科技的初代物流机器人,可以在复杂的交通环境中穿行。
,时长03:12
推行科技的第二代移动操作机器人Carri Flex,增加了灵活的上肢操作能力。
重要的是,这是一个商业化程度非常高的机器人。在实际运营过程中,它们会和人类骑手一起在商家门口等待接单,履约率考核标准也和骑手一致。由于履约率非常高(已达 98.5%),在一些高价值场景中,它们拿到的报酬已经可以覆盖自身的成本,做到了单个机器人盈亏平衡。
从容错性高、技术可及的场景入手,在xx智能发展早期就把机器人大量投入现实世界,实现商业化运营,并基于机器人的实际商用构建数量和丰富度逐渐进阶的数据飞轮,这就是卢鹰翔所说的「上一代xx智能的商业和数据闭环」。以此为基础,推行科技将逐步打造更复杂、更智能的xx智能机器人,并将它们投入更多场景。
那么,这个商业加数据闭环是怎么实现的,具体如何推进?我们和卢鹰翔以及推行科技另一位联创、CTO 龙禹含进行了多次沟通,旨在揭秘一条现阶段可行且后续可持续的xx智能发展路径。
机器人的进化论
在今年的 GTC 大会上,英伟达高级研究科学家 Jim Fan 提到了xx智能的「数据金字塔」概念。
图源:https://rdi.berkeley.edu/llm-agents/assets/jimfangr00t.pdf
金字塔的塔尖代表的是真机数据。这部分数据非常重要,包括 Jim Fan 导师李飞飞在内的很多人都相信,机器人的智能水平也像生物进化一样,需要在不断与真实物理世界产生互动、适应更复杂的环境的过程中逐渐进化。当然,这部分数据也非常稀缺,需要通过机器人的大规模部署来实现。
也有一些公司建立了自己的「数据工厂」,让机器人在人工搭建的场景中与数据采集师协同作业,逐条积累数据。但这种方式不仅成本高昂,而且人工搭建的场景在丰富度上天然存在局限性,这种局限性不可避免地会对机器人在真实世界中的泛化能力产生负面影响。
不过,除了真机数据,合成 / 仿真数据和互联网级的通识数据也是通用泛化xx模型训练所必须的。从 ChatGPT 走红至今,这两类数据的价值已经被充分认可,尤其是在语言模型的演进过程中,互联网通识数据的有效利用已成为提升模型能力的核心基础。
但在xx智能领域,互联网级的通识数据仍处于真空状态。填补这一空白,是推动机器人能力稳定泛化至真实复杂场景的关键前提,也是迈向通用智能高阶能力的必经之路。针对这一行业痛点,推行科技自研了「骑手影子系统」,构建了覆盖多种任务类型与环境变数的高密度人类行为数据集,从根本上提升了机器人在开放物理世界中的泛化能力与可靠性。相较仍困于数据瓶颈的行业现状,推行科技已率先完成通识级数据体系的构建与验证,形成显著的技术竞争力。
一条可持续的xx智能路径,从「骑手影子系统」说起
ChatGPT 能够通过学习海量人类对话数据,掌握语言的规律和模式,从而实现自然流畅的对话。特斯拉 FSD 则通过分析和筛选人类驾驶数据,择优学习驾驶决策和操作,进而实现自动驾驶。同样地,物流机器人也可以借助人类骑手的骑行和操作数据,学习自主应对各类交通环境、取放各种包装袋等技能,从而实现高效送外卖,这便是推行科技所打造的「骑手影子系统」的工作原理。
在之前的采访文章(参见《跟骑手学习送外卖,这家xx智能公司的机器人已经上岗挣钱了》)中,我们详细介绍过这个系统 —— 它主要通过安装在外卖骑手电瓶车上的车载硬件采集三种关键数据:环境数据(摄像头采集的路况、障碍物等视觉信息)、定位数据(通过 RTK 技术采集)以及驾驶数据(骑手在特定情况下的操作,如踩油门、刹车或转向)。系统获取这些数据后,通过模仿学习和强化学习算法让机器人学习人类骑手的行为,从而使机器人能够在复杂多变的城市环境中自主导航。这是「骑手影子系统」的 1.0 版本。
如今,这个系统已经进化成了「2.0」。除了电瓶车,它还可以将骑手的头盔、外套转化为动捕设备,记录人类骑手如何开关门、拿放外卖以及其他更复杂的操作轨迹,从而为加上「上肢」的机器人积累操作行为数据。
这种数据采集方式最显著的优势在于「量大管饱」:中国骑手平均每人每天跑 100-200 公里,一个普通超市前置仓的 15-20 个骑手一个月就能产生超过 10 万公里数据,一年可达近 200 万公里。所以,依靠这一模式,推行科技平均每日即可采集数万公里的骑行行为数据用于xx模型训练,在短短两三年的时间内就积累了数千万公里的行驶数据,数量级相当于国内头部自动驾驶公司的历史路测数据积累总和。
在推行科技 2024 年开始部署包含上肢数据采集设备的「骑手影子系统」2.0 版本以来,不到一年时间积累的上肢轨迹数据也达到了近百万条,采集效率和成本效率远超其它方式。此外,推行科技所采集的数据在场景类型、任务结构、操作目标等方面与机器人实际训练需求高度一致,具备强目标导向性与时空连续性,优于互联网视频等数据源中常见的碎片化、弱结构化内容,这些与机器人实际训练目标高度匹配的数据能更有效地驱动模仿学习与强化学习过程。
通过这种创新的数据采集方式,推行科技有效地解决了xx智能领域普遍面临的「数据魔咒」问题,为其机器人技术的快速迭代和商业化落地提供了可靠的原材料保障。
从「三原色」到「回环反馈」:走入现实世界的机器人如何随机应变?
骑手的行为数据蕴含着丰富的信息,推行科技的数据闭环平台可以对骑手的动作行为进行自动分解及标注。龙禹含提到,推行科技通过对海量骑手配送过程中的上肢行为数据的深入分析发现,看似复杂多变的骑手递送任务,实际上都由三个核心原子任务排列组合而成 —— 按按钮、推拉门以及拿放货,就像是颜色里的「三原色」。值得注意的是,这三个原子任务通常仅需骑手使用右手进行单臂操作即可完成。
基于这一发现,推行科技成功定义了具备单臂操作能力的 Carri Flex 机器人,首次将具备上肢操作能力的机器人产品成功部署于真实开放的物理世界。在此基础上,推行科技进一步对机器人在真实场景中的服务数据进行收集,以训练可支持双臂协同等更为复杂任务且可靠性能达到商用标准的xx模型。
能将机器人部署于真实服务场景的关键是他们构造的行为树 VLA(Vision-Language-Action)模型。和很多 VLA 模型一样,这个模型使用 VLM 结合实时感知信息和当前任务来生成具体原子任务,而后通过一个行动模型将原子任务转化机器人的关节轨迹。
和传统 VLA 结构不同的是,行为树 VLA 使用 LLM 进行高层任务规划,可将高级指令(如,前往某店取单)转化为一个行为树结构。行为树将根据当前任务状态向 VLA 模型发布子任务(如,行进至某店,开门,于柜台上取货等)。行为树将接收 VLM 任务状态解码器通过回环反馈逻辑输出的任务状态信息,从而改变行为树当前所处的子任务分支。
这个反馈使得 LLM 能够了解到任务的实际执行情况。如果遇到问题或者环境发生变化,LLM 可以基于这个反馈调整或重新生成行为树,从而解决 VLA 模型在追求局部最优的过程中忽略了具体任务可行性的问题,使得模型在泛化场景中保持对齐,提高了整个系统的适应性和可靠性。
以 Carri Flex 机器人为例,其典型任务之一是在电梯间的外卖桌上放置外卖袋。然而,当桌面已被其他外卖占满这一特殊情况发生时,如果模型未经过类似场景的专门训练,基于模仿学习的 VLA 模型可能因为出现分布外(Out-of- Distribution,OOD)场景而产生行为退化现象,进而可能陷入无法恢复的执行失败,这在真实商业应用中是不可接受的。而在客户实际需求中,理想应对方式通常涉及任务层级的反馈机制与策略调整,例如将外卖转移至附近空旷区域,或通过电话通知收件人等。
推行科技针对这一类现实问题,在模型中构建了多层级反馈机制,使机器人能够在不确定环境中做出更符合人类预期的灵活应对,确保任务的稳定交付与用户体验的一致性。
「一脑多形、一脑多栖」:xx智能的商业落地与全球视野
廉价、量大、质优的数据获取方式和可靠的模型为推行科技实现一条可落地、可持续的xx智能发展路径提供了可靠基础。目前,他们已经和国内三家头部全国性即时配送平台同时达成业务合作,完成了近 10 万单配送。
而且,由于数据是从复杂、多元的人类活动场景中采集而来,推行科技训练得到的模型具有较强的泛化能力,可以实现「⼀脑多形」和「⼀脑多栖」的部署。「⼀脑多形」指的是他们的模型不仅可以在自己的机器人身上部署,还可以泛化到四足机器狗平台和传统阿克曼底盘。「⼀脑多栖」指的是除了陆地环境,他们的模型还可以直接在静水船只上发挥作用(不需要为水面训练投入额外数据采集和调试成本),从而拿到了渔业养殖场景超百台订单(用于自动洒药及投料)。
之所以能够取得这些成果,除了路线的选择,推行科技的人才储备也发挥了重要作用。推行科技团队曾于卡内基梅隆大学国家机器人工程中心负责研发 CHIMP 人形救援机器人,并获美国国防高级研究计划局 DARPA 机器人挑战赛全球第二名。他们的机器人是当时将 8 个比赛任务全部完成并获得 8 分满分的三个机器人作品之一,也是唯一一个在失误摔倒后,没有借助人力自行恢复站立,继续完成任务的。
除此之外,团队还曾负责研发全球第二型获批美国加州 OL318 「全无人」牌照的 L4 级自动驾驶乘用车,这一背景为团队提供了搭建「骑手影子系统」的技术灵感和工程基础。
推行科技团队参与研发的 CHIMP 人形救援机器人
可以说,推行科技所选的xx智能路线,以及当前已经研发出的 Carri Flex 等机器人,在多年前就已经埋下了种子。
在海外,也有一些机器人公司在做和推行科技类似的事情,比如 Hinton 担任顾问的 Vayu Robotics。他们所在的市场有着诱人的前景,人力成本、递送费用高达国内的五到十倍,存在巨大的运力缺口。不过,卢鹰翔提到,和这些公司相比,推行科技的「国情优势」更加明显,因为我国有着庞大的骑手队伍和更复杂的城市末端环境,能够以更高的效率训练出强泛化能力的机器人。在综合考虑这些因素后,推行科技打算进军海外,为全球用户提供服务。
和机器人马拉松一样,xx智能的发展注定是一场持续多年的长跑。虽然在养老、家政等备受关注的场景中,机器人表现尚未达到预期,但在城市角落里,配送机器人已默默完成了数万单真实订单。推行科技的故事告诉我们,不必追求一步登天的技术突破,而是先在真实环境中找到商业闭环,再以此为基础逐步迭代。这种务实的进化路径,或许才是xx智能走向未来的最短捷径。
#图解Vllm V1系列1:整体流程
详细介绍了VLLM v1整体运作流程,包括离线批处理(Offline Batching)和在线服务(Online Serving)两种模式。作者通过图解和代码示例,清晰地展示了 VLLM v1 的架构设计和关键步骤,如进程间通信、请求处理、调度和输出管理等。
vllm v1的系列文章基于的代码版本是vllm 0.8.2(当前已更新到0.8.4),在代码细节上,不同版本间可能有diff,但在大框架上是不变的。本文将对vllm v1的整体运作流程进行介绍,在后面的系列中,再来看关于调度器、KV cache管理、分布式推理等更多细节。对于首次了解vllm的朋友,推荐先阅读以下2篇文章:
一、Offline batching(离线批处理)1.1 调用方式
from vllm import LLM, SamplingParams
if __name == "__main__":
# Sample prompts.
prompts = [
"Hello, my name is",
"The president of the United States is",
"The capital of France is",
"The future of AI is",
]
# Create a sampling params object.
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
# 创建llm实例,在这个过程中也创建了llm实例下维护的llm_engine
llm = LLM(model="facebook/opt-125m")
# 执行offline batching推理,得到这批prompts的输出
outputs = llm.generate(prompts, sampling_params)
# 打印输出
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
1.2 整体流程
Offline batching下的整体流程如下图所示,在后文中,我们称请求为req:
我们先忽略图中七七八八的细节,从大面上来看一下这个流程:
- 首先,观察到我们采用2个不同的进程(process0,process1)来完成整个推理。
- process0上维护的核心对象是SyncMPClient(Sync MultiProcessing Client),我们简称其为客户端。process1上维护的核心对象是EngineCoreProc,我们简称其为EngineCore。
- vllm使用ZMQ来负责不同进程间的数据收发(不了解ZMQ的朋友,到此为止只要先了解它的主要功能是这个即可,后续再慢慢了解它的其余细节)
- 观察到:
- 对于req的输入输出处理(processor、 output_processor)是由客户端执行的;而req的实际推理过程(Scheduler -> ModelExecutor)则由EngineCore来执行。
- 也就是说,vllm v1将cpu和gpu上的调度拆成2个进程进行处理,这样可以更好实现cpu和gpu的overlap。举例来说,在先前vllm版本的推理中,我们经常会发现detokenize(tokenid -> 文本)这个步骤会成为推理瓶颈,特别是遇到长序列的情况。在等待序列做detokenize的过程中,gpu是空转的。现在通过这种拆解,让原来是串行的事情并行化。
最后,客户端的类型有很多种,由于本节我们讨论的是offline batching,所以展示的是SyncMPClient。在下一节中,我们会来看其余类型的客户端。
有了以上大体上的感知,现在我们可以来介绍图中细节了:
1、add req to
:LLM端接收req,并将req发送至LLMEngine的processor。
2、process req
:原始req -> EngineCoreRequest,processor的作用是对req进行预处理,具体包括:
- Tokenize
- 验证输入参数的合法性
- 将req封装成特定形式(EngineCoreRequest)等等
3、encode & send req
:
- 将EngineCoreRequest发送给SyncMPClient
- SyncMPClient会对其做encode操作:EngineCoreRequest -> pickle EngineCoreRequest
- 通过zmq input_socket,将pickle EngineCoreRequest 发送给 EngineCoreProc(这里SyncMPClient和EngineCoreProc分别运行在2个不同的进程上,vllm选择使用ZMQ来负责进程间的数据通信)
进程分割线(Client -> EngineCoreProc)
4、recv & decode req
:
- 在EngineCoreProc所在的进程上,会启动一个线程,在该线程中执行process_input_socket()函数,这个函数具体做了如下事情:
- 持续监听通过input_socket传来的pickle EngineCoreRequest
- decode:(pickle EngineCoreRequest -> EngineCoreRequest)
- 将 EngineCoreRequest 装入 input_queue 队列中
5、add req to scheduler
:EngineCoreRequest 被添加进 Scheduler的waiting队列中6、one step inference
- Scheduler执行一步调度,从waiting和running队列中选择req进行推理,**输出一步推理后的结果(EngineCoreOutputs)**。这边的细节我们暂时略过,留到后文细说。
7、put output to output_queue
:将一步推理结果放入 output_queue队列中这里我们会重复执行5/6/7步骤,即重复执行【一步调度->一步推理】的过程,直到 input_queue 和 scheduler中再无req存量。
8、encode & send req
:
- 在EngineCoreProc所在的进程上,会启动一个线程,在该线程中执行process_output_socket()函数,这个函数具体做了如下事情:
- 持续监听output_queue中装入的一步推理输出结果(EngineCoreOutputs)
- encode:EngineCoreOutputs -> pickle EngineCoreOutputs
- 使用zmq output_socket作为通信管道,将pickle EngineCoreOutputs发送给SyncMPClient
进程分割线(EngineCoreProc -> Client)
9、recv & decode req
- 在SyncMPClient所在进程上,会启动一个线程,在该线程中执行process_output_socket()函数,这个函数具体做了如下事情:
- 持续监听通过output_socket传递来的pickle EngineCoreOutputs
- decode:pickle EngineCoreOutputs -> EngineCoreOutputs
- 将 EngineCoreOutputs 装入 output_queue 中
10、process_output
,对EngineCoreOutputs做一些后置处理,例如detokenize等操作。11、output until all reqs are finished
:LLM回去检测每一条req是否已做完推理(req.finished的状态),由于目前我们是offline batching的模式,所以等到全部的req都完成推理后,LLM会一起输出推理结果。
二、Online Serving2.1 调用方式
这里我假设起的online serving是这份脚本:
2.2 整体流程
我们还是先从整体上来感知online serving的运作流程:
- 和offline bacthing相比,EngineCoreProc部分的逻辑没有变
- Client和EngineCoreProc交互的逻辑没有变
- 所以现在,我们只需要关注Client的实现细节
Online Serving的Client实现细节如下:
1、async per req generate
:用户发送req给vllm的API server,server对单req发起generate操作。这里会首先将req发送给AsyncLLM
2、create asynico.queue() for each req
和register the queue to output_processor
:
- 这两个步骤都在AsyncLLM上执行
- create asynico.queue() for each req:会针对每一个req创建一个异步队列,这个异步队列将用于存储这个req的输出结果。
- register the queue to output_processor:会把这个req的异步队列注册到output_processor中。
- 为什么每个req需要一个单独的队列:
- 在online serving中,req的输出结果是流式的(一块一块地把结果返回给用户)
- 在online serving中,用户时常有多轮对话的需求等等
- 基于这样的考虑,相比于offline batching对所有req的一次性统一输出,online serving下更有必要将各个req的输出隔离开来,因此才单独针对每个req创建一个用于盛放输出结果的异步队列。
3、prcocess req
和 4、encode & send req
和offline batching
逻辑基本一致,这里不再赘述
进程分割线(Client -> EngineCoreProc)
EngineCorePro会实际执行req的推理过程,5~9的步骤我们在offline batching中详细解释过,这里不再赘述
进程分割线(EngineCoreProc-> Client)
在AsyncLLM
上,我们会启动一个异步任务asyncio.create_task(_run_output_handler())
,这个异步任务上会执行_run_output_handler()
函数,这个函数的主要作用是异步接受、处理来自EngineCore的模型输出结果,具体流程如下:10、AsyncMPClient上发起get_output_async()
:
- 持续监听通过output_socket传递来的pickle EngineCoreOutputs
- decode:pickle EngineCoreOutputs -> EngineCoreOutputs
- 将 EngineCoreOutputs 装入 output_queue 中
11、split output into slices
:
- 将output_queue中的数据切成slices,方便后续做流式输出
- 将slices数据装入这个req注册在output_processor中、只属于这个req的异步队列
- output_processor将会以slices为维度,对输出数据做诸如detokenize等的操作。
12、continously yield current output
:
- 对于一条请求,AsyncLLM将会持续从output_processor中获取它当前的输出结果,返回给用户,直到这条请求推理完毕
此外,Vllm官方文档中,也给出了一张online serving的架构图(https://blog.vllm.ai/2025/01/27/v1-alpha-release.html),上面的内容可以说是这张架构图的细节扩展,大家可以比对进行理解:
到此为止,我们就把V1的大致运作流程介绍完了,在后面的文章中,我们会来看关于调度器、KV Cache管理和分布式模型执行的更多细节。
#NYU教授开炮
美国大学ML课太离谱!学生炮轰课程垃圾,全靠自学
NYU机器学习教授痛心表示,如今很多大学的ML课程,已经抛弃了基础概念和经典。他晒出的课程大纲,引起了哈佛CS教授的赞同:很高兴我们并不孤单,想在大纲中保留基础概念可太难了。甚至,印度和美国的大学生都在抱怨,学校的机器学习课太垃圾了,全靠自己自学!
就在刚刚,NYU教授Kyunghyun Cho呼吁:如今大学的机器学习课程,已经抛弃了经典!在他看来,很多课程都抛弃了关于ML和深度学习的基础概念,这很危险。他提出了一个深刻的议题:在LLM和大规模计算力普及的今天,机器学习一年级研究生课程该教些什么呢?对此,教授给出了一种独辟蹊径的方式——教授所有能用随机梯度下降(SGD)解决,但又不是LLM的内容,并且让学生去阅读一些早期的经典论文。上下滑动查看在看完他晒出的讲座笔记和教学大纲后,不少网友表示赞叹。有人评论说:2025年的机器学习课程里竟然还教RBM(受限玻尔兹曼机)?这绝对是独一无二的课程,太特别了。一位哈佛的助理教授说,自己非常喜欢这个教学大纲,和哈佛的CS1810课程大纲基本类似,只是少了一些进阶主题和生成模型的类型。要知道,想把深度学习前期的基础概念保留在课程大纲中,时常会受到阻力,他表示,很高兴看到自己并不孤单。NYU教授的课程大纲:有92年的论文NYU教授晒出的讲座笔记如下。可以看到,在这门课程中他首先引入了机器学习的基本概念,比如感知机与间隔损失函数、Softmax与交叉熵损失函数,反向传播,随机梯度下降(SGD),泛化与模型选择,超参数调优与模型选择等。随后,课程的第3章开始教授神经网络的基本构建模块,如归一化、卷积模块、循环模块、注意力机制等。第4章教授的是概率机器学习与无监督学习,包括能量函数的概率解释,变分推断与高斯混合模型,连续潜变量模型,VAE等。在第5章,学生们会学到受限玻尔兹曼机(RBM)、基于能量的生成对抗网络(EB-GAN)、自回归模型等无向生成模型。在打好这些基础后,学生们才会学习强化学习、元学习、因果推断这些内容。左右滑动查看在这门机器学习课程的教学大纲中,教授也强调——如今,机器学习系统已经在飞速发展。我们经常使用随机梯度下降(或其变体),在包含数百万乃至数十亿训练样本的大型数据集上,训练拥有数百万乃至数十亿参数的大规模模型。这些令人惊叹的成果,都离不开数学、概率、统计和计算机科学中那些简单而基础的理念。而这门课,强调的就是这些基础概念,从而让学生们能更系统、更严谨地理解现代的大规模机器学习算法。教学大纲中推荐的论文,也并不是近几年的爆款时兴论文,反而是从上世纪90年年代至2022年的一些经典论文。比如神经网络先驱之一的Ronald Williams,靠一篇关于反向传播算法的论文,引发了神经网络研究的热潮。教授推荐列表的第一篇文章,就是他发表于1992年的「Simple Statistical Gradient-following Algorithms for Connectionist Reinforcement Learning」。第二篇年代久远的论文,就是现任微软人工智能研究院主任、英国计算机科学家Christopher Bishop的发表于1994年的「Mixture density networks」。图灵三巨头的不少经典论文也入选了,比如LeCun的「Efficient BackProp」,Hinton的「Training Products of Experts by Minimizing Contrastive Divergence」等。总之,不追逐潮流,只读经典。上下滑动查看哈佛哈佛的CS 1810课程,此前在网上就曾引起热议。教材:https://github.com/harvard-ml-courses/cs181-textbook/blob/master/Textbook.pdf从课程大纲中可以看出,这门课非常全面严谨地介绍了机器学习、概率推理等基础知识。内容涵盖了监督学习、集成方法与提升方法、神经网络、支持向量机、核方法、聚类与无监督学习、最大似然估计、图模型、隐马尔可夫模型、推断方法、强化学习等。而且这门课因为是面向高年级本科生,所以需要学生能用Python写比较复杂的程序,还需要具备概率论、微积分、线代的基础知识。正如此前提到的助理教授所说,这份课程大纲中保留了很多深度学习前期的基础概念,这在当今竟然已经不多见了。左右滑动查看MIT另一传统牛校MIT 2024年的机器学习讲义,是下面这样的。教材:https://introml.mit.edu/_static/spring24/LectureNotes/6_390_lecture_notes_spring24.pdf这门机器学习的入门课,是为本科生和研究生设计。内容包括监督学习(如线性回归、逻辑回归、神经网络)、无监督学习(如聚类、主成分分析)、概率模型以及强化学习的基础。跟哈佛的CS 1810相同,这门课除了理论,也非常强调实践。学生需要完成多项编程项目,使用Python和相关库(如NumPy、PyTorch)实现模型,并通过考试和项目展示对理论的理解,因此必须具备基础数学和编程背景。左右滑动查看经典永不过时除了AI领域之外,有些学科本身就倾向于学习经典内容,比如数学。有网友表示,在许多本科和研究生的数学课程中,5、60年代的教学大纲仍然被认为是黄金标准。对此,reddit上的网友Cheezees表示赞同,他说他的父亲——一名兼职教授,就认为《Elementary Analysis》是最好的数学教科书。这本书首版于1980年,但至今仍在使用。还有像是《Principles of Mathematical Analysis》(数学分析原理)这种出版于1953年的教材,现在仍在全美超过80%的荣誉本科分析课程中使用。对于有些学科教材过时的问题,也不是没有解决的办法。比如,这位网名Rain-Stop的生物材料教授称,虽然他喜欢的一本教材自从2013年就没有更新了,但是他使用过去3-4年内发表的期刊论文来涵盖领域内的进展。经典教材配合上最新论文,这也不失为一个好办法。国内接下来,我们看看国内高校AI专业的培养方案。比如北大信科智能科学与技术专业(智班)的24年本科生培养方案,是这样的。两门公共必修课,是计算概论和数据结构与算法。专业基础课,是高数、线代和信科技术概论。专业核心课中,包括人工智能引论、算法设计与分析、机器学习、多模态学习等。专业选修课中,还包括不少计算基础与编程类、机器感知类、数据与机器智能类的课程。下面是一份专业课程地图全览。再比如,23年清华叉院的计算机科学与技术(人工智能班)专业本科培养方案。这个培养方案涵盖了数学、物理、计算机科学基础(如数据结构、算法设计)、人工智能(如机器学习、深度学习)以及工程实践。对数学和基础理论课程的重视,为学生深入理解算法和系统设计奠定了坚实基础。另外,方案中还安排了丰富的实践环节,体现了清华对培养学生动手能力和创新能力的重视。例如,学生需完成多个编程项目和跨学科综合设计,将理论应用于实际场景。课程中还有如量子计算和人工智能交叉项目(AI+X)这些前沿领域。学生抱怨:大学ML课程太垃圾有趣的是,就在去年,一位印度学生曾在reddit上发帖,抱怨学校的机器学习课程太垃圾。他来自印度一所四级地方学院,觉得学校的机器学习课程问题很大。具体来说就是,课程使用了太多技术术语,却没有真正解释深入的工作原理。比如他们的其中一部分教学大纲是这样的。1. 人工智能/机器学习简介,线性回归,逻辑回归,贝叶斯分类,决策树 2. 正则化,支持向量机 3. 集成学习,自助聚集(bagging),提升法(boosting) 4. 神经网络,卷积神经网络 5. Seq2Seq模型,注意力机制,Transformer这位学生表示,课程大纲只有第一章和神经网络导论涉及数学,其余部分都是一堆废话。他认为,这门课作为一门工程课程,实在太抽象了:使用了一些华丽的术语,却并未深入解释任何内容。虽然只要记住这些花哨的单词就能通过考试,但一遇到项目,他就傻眼了。这些项目至少需要博士学位才能理解,需要采用GAN、可解释AI、神经架构搜索、视觉Transformer、优化等技术。所以,绝大多数学生都只能在GitHub上找到一些现成的项目,复制粘贴论文,然后用Humanize AI降低查重率。然而发帖人表示,自己并不喜欢抄袭别人的作品,但「AI正被强塞进自己的喉咙」。本来如果按照自己的节奏慢慢学习,应该会喜欢ML/AI的。但是现在,自己可能要花好几年才能理解这些论文,更不用说想到一个新的项目点子了。有人指出,这个现象反映出印度教育体系的一个典型问题:把流行术语和技术灌给学生,概念却极其空洞,如果缺乏必要的数学和统计学背景,就不会理解这些算法的「why」和「how」。只有对线代、概率论、微积分有扎实理解,才能理解向量机或神经网络等算法的内部原理。如果没打好基础就跳到Transformer和GAN等高级概念,就像造摩天大楼却不打地基一样。因此,他建议这位迷茫的学生回去学好基础数学,比如Marc Peter Deisenroth 的 《机器学习的数学》,然后在Coursera和edX平台学好AI课程。其中吴恩达在Coursera上的机器学习和深度学习课就堪称典范。不止印度,美国大学也一样甚至在这个帖子下,有个来自美国的学生抱怨说,美国大学也同样存在这个问题。他来自自己所在州最好的大学,正在读七年级。系里会在五年级教学生网络技术,六年级教人工智能,七年级教机器学习。但课程结构非常混乱,甚至教授们根本不讲算法原理,只会读PPT,甚至懒得教数学。这位学生意识到:如果想学好机器学习,只能靠自己,去找网课和教材自学。比如他推荐了一本不错的教材「Hands on Machine Learning with Scikitlearn, Keras and Tensorflow」,还订阅了一些不错的YouTube频道。其实无论是在印度还是美国大学中,问题的核心就在于,如今AI/ML的发展速度实在太快了,任何大学都无法跟上,甚至一些机构也举步维艰。所以,如果真的只靠学校课程,学生是不太可能学好AI/ML的,只能选择靠自己。诺奖得主建议基础很重要,要学会学习大学的教材和课程可能会过时,但不会阻碍一个人的学习。今年早些时候,剑桥大学的学生们向诺贝尔奖得主、Google DeepMind首席执行官Demis Hassabis提交了问题,他们中的许多人想知道在AI时代应该如何安排他们的时间。Hassabis的建议是——把时间花在「学习如何学习」上。「我认为最重要的是真正理解自己——利用本科阶段的时间更好地了解自己,以及自己最有效的学习方式。」在这之中,适应能力至关重要,也就是「如何快速掌握新知识并运用自如」。由于技术不断发展,如今的大学生们将进入一个充满「颠覆和变革」的世界,而这是唯一可以预见的。在他看来「AI,以及VR、AR和量子计算等领域,在未来五到十年内都极具潜力」,每一次变革都蕴藏着巨大的机遇。Hassabis建议学生们专注于基础知识。虽然新潮流层出不穷,但最好避免被那些「今天风靡一时,明天就无人问津」的事物所干扰。「我最喜欢的科目是计算理论和信息论,还有研究像图灵机这样的东西。这些知识贯穿了我的整个职业生涯。我喜欢数学的底层逻辑,以及许多传统的、基础性的研究」。他补充说,学生们也不应该忽略自己的兴趣。Hassabis认为,毕业生们应该能够将对自身兴趣的深入理解与他们所掌握的核心技能「结合」起来。Hassabis建议道:「在课余时间,你应该积极探索自己热爱的领域。对我来说,那就是AI。现在涌现出了大量的工具——其中许多都非常容易上手,而且是开源的——这样你才能在毕业时真正掌握最前沿的知识。」Hassabis同时建议研究生们培养跨领域的专业知识。例如,如果他们学习的是AI,那么他们也应该了解如何将其应用到最佳的领域。因为在未来十年左右,多学科研究将会成为主流。在AI和STEM领域交叉的地方,可能会有很多「唾手可得的成果」,因此重要的是要对这两个领域都有足够的了解,才能明白什么是「正确的问题」——因为提出这些问题可能会带来突破性的进展。Hassabis说:「选择问题就像拥有某种品味或嗅觉,或者说是一种直觉,知道『什么是正确的问题?』以及『现在是否是解决这个问题的最佳时机?』因为时机非常重要,你肯定不想超前时代50年。」尽管Hassabis认为人们无法真正培养出那种第六感,但他建议大家保持开放的心态,随时准备抓住机遇。「机遇可能来自任何地方,所以要成为一个多学科的人,让自己接触到各种各样的想法」。
参考资料:
更多推荐
所有评论(0)