中国科研AI新王登基？Step-DeepResearch 凭什么让全球侧目！

Step-DeepResearch是阶跃星辰推出的320亿参数深度研究智能体模型，通过创新的单智能体架构和原子能力训练法，实现了从信息检索到报告生成的全闭环研究流程。该模型采用动态循环机制，将研究任务分解为规划、检索、验证和生成四个原子能力，并构建了2000万+高质量文档库和权威站点索引系统。在评测中，其表现仅次于GeminiDeepResearch，在引用和沟通质量维度达到行业最高水平，同时部署

中科创新烁智

619人浏览 · 2026-01-31 23:47:42

中科创新烁智 · 2026-01-31 23:47:42 发布

Step-DeepResearch是上海阶跃星辰智能科技有限公司于2026年1月26日推出的端到端深度研究智能体模型，凭借其独特的技术架构和卓越的性能表现，在AI深度研究领域引发了广泛关注。这款320亿参数（32B）的模型通过将复杂的研究流程内化为可训练的原子能力，实现了从信息检索到专业报告生成的全闭环研究工作流。Step-DeepResearch在多项权威评测中表现优异，其在Research Rubrics评测中得分61.42%，仅次于Gemini DeepResearch（约63.69分），超越了OpenAI DeepResearch，

并在"引用质量"和"沟通质量"两个维度达到行业最高水平。同时，其部署成本比同类产品降低90%，展现出极高的性价比优势。

一、技术架构与核心创新

Step-DeepResearch的核心创新主要体现在三个方面：基于原子能力的数据合成策略、渐进式智能体训练范式和自建ADR-Bench评估体系。

1. 单智能体架构与动态循环

Step-DeepResearch采用基于ReAct范式的单智能体架构，将深度研究任务重构为动态的推理-行动-观察循环。系统周期性地通过三个核心阶段：规划与反思、工具执行、反馈与交叉验证。这一架构设计使得模型能够自主规划研究路径，执行信息检索，并对结果进行反思与验证，最终生成专业报告。

与多智能体架构相比，单智能体架构具有以下优势：

降低系统复杂度：无需多个智能体之间的协调与通信

减少推理延迟：单次推理即可完成闭环反思与动态校正

提高执行一致性：所有决策与行动由单一模型控制，避免信息传递误差

2. 原子能力训练法

Step-DeepResearch采用独特的原子能力训练法，将复杂研究任务分解为四个可训练的原子能力，并在模型层面深度内化：

规划与任务分解：能将模糊、宏大的用户需求拆解为可执行的子任务，并根据环境反馈动态调整路径

深层信息获取：具备多跳推理能力，在信息不完整时能进行"主动拓扑行走"，挖掘隐藏实体

反思与验证：拥有"自纠错"和"事实核查"能力，能识别自身错误并区分网络信息真伪，通过跨源验证确保逻辑严密

专业报告生成：通过中期训练学习专家写作风格，利用SFT确保报告严格遵循规划结构和引用规范

这种原子能力训练法使Step-DeepResearch能够像人类专家一样思考和工作，实现了从简单信息检索到深度研究的质变。

3. 高质量数据获取与处理机制

Step-DeepResearch构建了权威增强信息获取机制：

高质量搜索API：与主流搜索引擎不同，Step-DeepResearch结合了专业搜索API，提高信息获取质量

2000万+高质量文档库：覆盖各领域权威学术文献和行业报告

600+权威站点索引：隔离低质量信源，优先选择高可信度信息源

知识密集检索：采用段落级粒度最大化单token信息密度，提高信息处理效率

动态双循环认知架构：构建"动态规划-分层合成"双循环工作流，规划者Agent初始生成研究大纲后，通过强化学习算法根据新发现持续优化研究路径

4. 训练流程创新

Step-DeepResearch建立了从智能体中期训练到监督式微调(SFT)和强化学习(RL)的完整优化路径：

Agentic Mid-training：在预训练和微调之间加入Mid-training，通过32K和128K两个阶段的上下文调度，注入原子能力，使模型内化"下一步行动"的决策逻辑，而非简单的"预测下一个Token

渐进式训练流程：从中期训练到监督微调再到强化学习的完整优化路径，使模型能更好地适应复杂多变的研究场景

基于原子能力的数据合成策略：采用"博士级"训练数据生成技术，解决研究数据稀缺难题，同时降低训练成本

二、评测表现与性能对比

Step-DeepResearch在多项权威基准测试中表现出色，其评测数据如下：

三、总结与展望

Step-DeepResearch作为一款32B参数的端到端深度研究智能体模型，通过独特的技术架构和创新的训练方法，在多项权威评测中表现优异，其性能已达到与国际顶尖模型Gemini DeepResearch和OpenAI DeepResearch相媲美的水平，而在成本效益上则具有显著优势。

Step-DeepResearch的核心价值在于将深度研究流程内化为可训练的原子能力，通过单智能体架构实现从规划、检索、反思到报告生成的全闭环工作流。这种能力使AI研究助手能够像人类专家一样思考和工作，解决了传统AI研究工具在信息整合、逻辑分析和质量控制方面的不足。

核心价值 (CORE VALUE)：

Step-DeepResearch的核心价值在于将深度研究流程内化为可训练的原子能力，通过单智能体架构实现从规划、检索、反思到报告生成的全闭环工作流。

中科创新烁智（CSCITech）

更多推荐

工具OpenClaw：从聊天到干活的革命

按照官网的定义，它是一个“真正能干活”的 AI。它的一个重要特点是持久化记忆：能记住你的偏好、上下文和习惯，不用每次重复解释，如同一位真正的私人助理。但与此同时，它的权限也非常大：可以浏览网页、填写表单、从网站抓取数据、读写本地文件、执行 Shell 命令和脚本。因此，强烈不建议直接部署在主力机上，尤其是在早期阶段。拥有这个私人秘书只需发条信息，它便可以后台执行并将执行过程实时截图供你监督。比如

中科创新烁智

DeepSeek架构新探索！开源OCR 2诞生！

数据层面，DeepSeek-OCR 2沿用与前代一致的数据源（含OCR 1.0、OCR 2.0及通用视觉数据），其中OCR数据占混合训练数据的80%，并新增两项优化：一是对OCR 1.0数据采用均衡采样策略，按正文、公式、表格3:1:1的比例划分页面；值得关注的是，新发布的DeepSeek-OCR 2通过。值得注意的是，在阅读顺序（R-order）指标上，DeepSeek-OCR 2在所有文档类别

中科创新烁智

Claude Opus 4.6 加冕编程王者，强势入局 Office 全系列！

Claude Opus 4.6 在海量文档的相关信息检索上表现更优，该能力亦延伸至长上下文任务中，可在数十万 Token 范围内稳定保存并追踪信息，上下文漂移现象显著减少，还能捕捉到此前 Opus 4.5 未能识别的深层细节。此外，Claude Opus 4.6 为首款支持 100 万 Token 上下文的 Opus 级模型，针对超过 200k Token 的提示词，将按高级费率计费，即输入与输出