2026 年 6 月 24 日,阿里巴巴通义千问团队正式发布 Qwen-AgentWorld——业界首个原生语言世界模型(Language World Model, LWM),由 Yuxin Zuo 等三十余位作者共同完成,对应 arXiv 论文《Qwen-AgentWorld: Language World Models for General Agents》同日公开。

与此前"先训通用大模型、再事后适配环境"的路径不同,Qwen-AgentWorld 从继续预训练(CPT)阶段就把环境建模设为训练目标,贯穿 CPT→SFT→RL 全流程,相当于让模型自底向上长出一个"能预判环境反馈"的世界模型,而非后期外挂。

技术层面,团队基于超过 1000 万条来自真实环境的智能体交互轨迹,推出 35B-A3B 与 397B-A17B 两种参数规格。单一模型同时覆盖文本类(MCP、Search、Terminal、SWE)与 GUI 类(Web、OS、Android)共七大交互领域,GUI 场景的观测以可渲染代码而非像素帧呈现,使纯文本世界建模也能覆盖视觉环境,并实现跨领域知识迁移——比如把网页浏览的经验迁移到移动端操作。

为配套评估,团队同步发布 AgentWorldBench 评测基准,样本均配真实环境执行的 ground-truth 观测;其中 397B-A17B 整体均分 58.71,超过 GPT-5.4(58.25),在 Terminal 与 SWE 两领域优势最明显,35B 三阶段训练也让小模型均分提升 8.66、超过 Claude Sonnet 4.6。模型权重与评测已开源于 Hugging Face 与 ModelScope。

Qwen-AgentWorld 的落点不在"替代真实环境",而在给通用智能体一条互补路径:作为解耦的环境模拟器,它可规模化、可控地模拟上千真实环境用于 Agent RL,表现优于无控模拟与纯真实环境训练;作为统一智能体基础模型,世界模型预训练又能迁移到多轮 Agent 任务,初步验证语言世界建模可作为更强 Agent 的底座。这在一定程度上打开了"先预测、再行动"的通用智能体新思路。

总结

千问此次把"世界模型"做进语言空间、从预训练起就内化环境动力学,并用单一模型吞下文本+GUI 七大领域,评测上压过 GPT-5.4 与 Claude Opus 4.8 一线对手,且双规格全开源——语言世界建模很可能成为下一阶段通用 Agent 竞赛的关键变量。

更多推荐