深度解读 | 商汤科技林达华：坚定多模态，我们的AGI战略核心与路径思考

商汤以多模态为技术主轴，通过原生融合训练、图文交错思维链、世界模型等创新逐步逼近AGI。数据-算力-算法闭环：规模化图文对生产+千P级算力调度+架构轻量化；组织****敏捷性：研究体系随技术范式迭代重构（如融合模型专项）；务实主义：模型尺寸分层、多智能体优先突破工业红线。通向AGI仍需攻克物理交互效率、可解释性、创造能力等难题，但商汤在“技术理想-商业落地”的动态平衡中，正探索一条差异化路径，形成

fdy200533

2090人浏览 · 2025-08-19 12:06:12

fdy200533 · 2025-08-19 12:06:12 发布

商汤科技首席科学家林达华写了一偏万字深度长文迈向多模态通用智能：商汤的思考。文章剖析了商汤科技为何将“多模态通用智能”视为技术战略的核心引擎，并系统阐释了发展多模态智能的底层逻辑、技术路径、实践探索与未来方向。同时他还分享了在商汤组织及战略层面的诸多思考。

原文比较长，我整理总结了一下

一、为何必须押注多模态？模态是通向AGI的必由之路

智能本质＝跨模态交互：AGI需像人类一样融合视觉、语言、物理信号理解世界，纯文本模型是“跛脚智能”。
语言≠世界：文本仅是描述工具，LLM依赖存量语料已近瓶颈，多模态是下一跃迁点。
商业刚需：医疗影像、工业图表、城市治理等场景中，80%关键信息来自非文本模态。

二、商汤的多模态技术演进：四次“智能破壁”

商汤认为AGI发展是数据驱动的，能力边界由数据定义，其跃迁源于数据边界的打破

语言破壁：Transformer实现长序列建模，催生LLM
视觉破壁：图文融合，多模态理解
推理破壁（当前关键）：逻辑思维+形象思维联动 → 商汤首创"图文交错思维链"（日日新6.5）：用图表辅助思考，推理性能提升**40%
物理破壁（未来方向）：世界模型+具身智能 → 商汤开悟世界模型驱动自动驾驶高效训练

三、原生多模态：商汤的技术选择与突破

商汤在多模态模型训练上经历了从"适应训练"到"原生训练"的转变：
- 适应训练：给定已训练好的大语言模型和视觉编码器，在后训练阶段微调实现对齐，成本低但融合浅
- 原生训练：在预训练阶段就融合多种模态数据，模型从"原生"开始就具备多模态能力
商汤的选择与验证： 早期采用适应训练，但发现其跨模态理解深度不足。投入数千P算力进行对比实验后，发现原生融合训练的模型能更好建模跨模态关联：
- 融合模型性能更优： 在纯文本和图文任务上均超越分立模型（如夺得SuperCLUE语言榜和OpenCompass多模态榜榜首）。
- 融合时机： 应在预训练中段开始融合（过早无效，过晚泛化弱）。
- 组织调整： 整合研发资源，聚焦单一融合模型（日日新6.0起不再分立LLM与VLM）。
数据挑战： 天然“图文交错”数据量大但关联弱，性能提升主要依赖规模化构造的强关联“图文对”数据（占比超70%）。

四、图文交错思维链：多模态推理的突破

多模态核心挑战： 人的思考过程是真正意义的跨模态的，是逻辑思维和形象思维的结合。商汤在日日新6.5中实现了图文交错思维，这是其多模态推理能力的关键突破。

图形化表达难点：

实现以视觉要素引导思维的图文交错推理，要求中间图像生成低延时、高可靠性，尚不满足需求，因此技术路径采用两步走策略：
- 采用“对内****智能体”概念：调用图像编辑工具（如放大、加标注）修改自身思维过程中的视觉元素。
- 基于多模态理解生成统一的机制实现内生的图文混合思考
纯人工构造图文思维链成本极高（需同步生成文本+图像）
- SFT冷启动效果有限（52.5 → 54.2）；
- RL后大幅提升至 76.3（数理/代码/GUI/图表分析等任务提升最显著）
- 研究员构造少量种子数据 → 监督微调（SFT）赋予模型基础能力；
- 人工种子数据 + 强化学习**（RL）规模化**
- 多轮强化学习显著提升性能

待解决的关键技术挑战：

动作空间定义：定义“对内智能体”可执行的图像操作
- 当前动作空间包含：局部放大、加掩膜（mask）、辅助线、标注点等
- 关键：SFT阶段需覆盖所有动作，供RL探索拓展
混合奖励信号设计
- 客观任务，基于规则验证
- 开放任务，训练 Reward model
- 不同任务混合训练，随训练推进增加困难任务比例
Agentic RL 系统的优化
- 系统性优化降低GPU与CPU间图像传输通信成本

五、数据生产体系：多模态模型的基石

训练数据****三大趋势：
- 规模指数增长（GPT-3的500B tokens → Qwen-3的36T tokens）。
- 加工深度提升（简单清洗 → 大模型重写数据）
- 专业高阶数据价值凸显（如奥数解题链、医疗决策过程）
商汤数据工厂核心能力：
- 多样性：覆盖学科、模态、风格均衡；
- 质量：通过模型续训验证数据价值（仅增益数据投入训练）；
- 生产效率：日处理5T tokens，支撑快速迭代。
高阶数据获取创新：
- 多智能体协作合成思维链（如生成主题图像→合成路径→智能体验证）；
- 产品服务中自然捕获用户决策过程（如设计工具记录操作链）。

六、模型架构与演进方向

日日新6.5架构优化：
- 视觉编码器轻量化（6B→1B），降低端到端延时30%；
- MLLM主干“深窄化”适配深度推理，效费比超Gemini 2.5。
尺寸策略务实化：
- 分层格局：百B级（天花板竞争）→ 7B-30B（垂直业务）→ 1B-3B（端侧应用）；
- MoE激活参数维持在20B-30B，平衡成本与性能。
未来突破方向：
- 效率提升：稀疏化（MoE）、功能分化（知识存储与推理解耦）；
- 多模态理解-生成统一：弥补当前MLLM（空间理解弱）与扩散模型（可控性差）的缺陷；
- 常规模型与慢思考融合：日日新6.5尝试一体双模式，降低幻觉。

七、从多模态到具身智能

核心挑战：物理世界交互数据稀缺，真机采集效率低下。
世界模型技术路径：
- 基于多模态模型构建世界先验认知；
- 通过智能汽车场景真实数据强化物理规律建模；
- 生成多视角视频反馈，提升智能驾驶训练效率。
关键差异：需超越视觉生成模型，精准掌握空间结构与物理规律。

八、研究组织建设

资源统一调度：集团整合算力与数据，支持攻坚任务（如千P级融合训练）；
专项创新：撤分立团队，设“集成训练团队”统合多模态模型，领域团队端到端研发；
数据生产算法化：算法团队主导合成，基础设施团队保障效率；
独立评测机制：评测团队与业务联动，KPI挂钩用户体感（非榜单成绩）；
效率专班：优化训练全链条（如降低图文思维链通信成本）。

九、技术与商业平衡

核心理念：技术突破（AGI长跑）需商业价值护航，形成正向循环。
三位一体战略：
- 基础设施：大装置支撑高效训练；
- 模型：聚焦通用多模态能力突破；
- 应用：落地生产力（如千万级装机工具）与交互场景（机器人、硬件）。
研发决策原则：
- 顺应技术趋势（如融合而非定制）；
- 增强聚焦方向竞争力（如多模态推理）；
- 资源可达性（放弃万亿参数盲目追逐）。
商业成果：生成式AI业务持续高增长，技术-商业闭环初显。