阿里通义千问发布首个原生语言世界模型 Qwen-AgentWorld，单一模型覆盖七大智能体环境

clawdashi

1026人浏览 · 2026-06-24 14:52:38

clawdashi · 2026-06-24 14:52:38 发布

2026 年 6 月 24 日，阿里巴巴通义千问团队正式发布 Qwen-AgentWorld——业界首个原生语言世界模型（Language World Model, LWM），由 Yuxin Zuo 等三十余位作者共同完成，对应 arXiv 论文《Qwen-AgentWorld: Language World Models for General Agents》同日公开。

与此前"先训通用大模型、再事后适配环境"的路径不同，Qwen-AgentWorld 从继续预训练（CPT）阶段就把环境建模设为训练目标，贯穿 CPT→SFT→RL 全流程，相当于让模型自底向上长出一个"能预判环境反馈"的世界模型，而非后期外挂。

技术层面，团队基于超过 1000 万条来自真实环境的智能体交互轨迹，推出 35B-A3B 与 397B-A17B 两种参数规格。单一模型同时覆盖文本类（MCP、Search、Terminal、SWE）与 GUI 类（Web、OS、Android）共七大交互领域，GUI 场景的观测以可渲染代码而非像素帧呈现，使纯文本世界建模也能覆盖视觉环境，并实现跨领域知识迁移——比如把网页浏览的经验迁移到移动端操作。

为配套评估，团队同步发布 AgentWorldBench 评测基准，样本均配真实环境执行的 ground-truth 观测；其中 397B-A17B 整体均分 58.71，超过 GPT-5.4（58.25），在 Terminal 与 SWE 两领域优势最明显，35B 三阶段训练也让小模型均分提升 8.66、超过 Claude Sonnet 4.6。模型权重与评测已开源于 Hugging Face 与 ModelScope。

Qwen-AgentWorld 的落点不在"替代真实环境"，而在给通用智能体一条互补路径：作为解耦的环境模拟器，它可规模化、可控地模拟上千真实环境用于 Agent RL，表现优于无控模拟与纯真实环境训练；作为统一智能体基础模型，世界模型预训练又能迁移到多轮 Agent 任务，初步验证语言世界建模可作为更强 Agent 的底座。这在一定程度上打开了"先预测、再行动"的通用智能体新思路。