昨天我在DeepSeek群里炮轰。有人说DeepSeek迟迟不发版是在憋大招、不着急挣钱,但是我个人感觉是DeepSeek走错了路。

(1)DeepSeek主打什么

DeepSeek什么最强呢:

意图理解、上下文理解、长思维链多步推理

代码生成、报告生成、机器翻译/论文阅读

语音识别、语音转文字、语音合成

OCR识别、图片生成

视觉识别、视频生成

大而全且平庸,不是大家的期望,

大家要的是偏科:

如代码Claude Code

如图片Nano Banana

如视频Seedance

(2)Agent路线

要么DeepSeek偏:

意图理解、上下文理解、长思维链多步推理

代码生成

这样好走Agent方向。

回溯DeepSeek的在2025年行走路径:

数学模型,在长思维链多步推理能力方向努力

代码模型,在代码生成能力方向努力

OCR能力、1M Token上下文能力,在上下文理解方向努力

所以DeepSeek走的路挺清晰,就是黄仁勋说的:AI数字大脑-Agent数字代理数字虚拟人-具身钢铁机器人-人肉与钢铁结合的脑机接口。

但是DeepSeek的意图识别不行,经常对问题的意图理解有偏差,导致回答歪了。(当然,这个问题可以通过外挂全球高手写的最佳实践Skill来弥补)

DeepSeek的上下文虽然能容纳1M,导致可以充分进行上下文理解,但DeepSeek很诟病的是联网搜索,搜索来的结果质量太差,反而误导了大模型。(当然,这个问题可以通过外挂全球高手写的搜索/爬虫/清洗Skill来弥补)

(3)路走歪了

我是怀疑DeepSeek走歪一丢丢路。

1、DeepSeek这次发版,肯定想在代码生成方面大上一层楼。但是我感觉发力方向错了。Claude Code作为全球最牛的代码生成模型,核心却是高手程序员写的专业Skill外挂,而非在模型、在前训练。而DeepSeek上次发mHC论文,目的是想把模型做大。

2、DeepSeek这次发版,肯定想在长思维链多步推理大上一层楼。但是我感觉发力方向错了。mHC论文虽然也聚焦在残差这个环节,但是解决的问题目标却是另外,而且解决手法还属于精巧术,不是大道。前几天我看Kimi发的论文倒是觉得那条道是对的:同样也是聚焦残差环节,但是解决手法却是用的注意力的方法,这是Transformer之所以牛的核心方法,Kimi给应用到了残差环节。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐