炮轰DeepSeek:DeepSeek走错路了
2、DeepSeek这次发版,肯定想在长思维链多步推理大上一层楼。前几天我看Kimi发的论文倒是觉得那条道是对的:同样也是聚焦残差环节,但是解决手法却是用的注意力的方法,这是Transformer之所以牛的核心方法,Kimi给应用到了残差环节。Claude Code作为全球最牛的代码生成模型,核心却是高手程序员写的专业Skill外挂,而非在模型、在前训练。DeepSeek的上下文虽然能容纳1M,导
昨天我在DeepSeek群里炮轰。有人说DeepSeek迟迟不发版是在憋大招、不着急挣钱,但是我个人感觉是DeepSeek走错了路。
(1)DeepSeek主打什么
DeepSeek什么最强呢:
意图理解、上下文理解、长思维链多步推理
代码生成、报告生成、机器翻译/论文阅读
语音识别、语音转文字、语音合成
OCR识别、图片生成
视觉识别、视频生成
大而全且平庸,不是大家的期望,
大家要的是偏科:
如代码Claude Code
如图片Nano Banana
如视频Seedance
(2)Agent路线
要么DeepSeek偏:
意图理解、上下文理解、长思维链多步推理
代码生成
这样好走Agent方向。
回溯DeepSeek的在2025年行走路径:
数学模型,在长思维链多步推理能力方向努力
代码模型,在代码生成能力方向努力
OCR能力、1M Token上下文能力,在上下文理解方向努力
所以DeepSeek走的路挺清晰,就是黄仁勋说的:AI数字大脑-Agent数字代理数字虚拟人-具身钢铁机器人-人肉与钢铁结合的脑机接口。
但是DeepSeek的意图识别不行,经常对问题的意图理解有偏差,导致回答歪了。(当然,这个问题可以通过外挂全球高手写的最佳实践Skill来弥补)
DeepSeek的上下文虽然能容纳1M,导致可以充分进行上下文理解,但DeepSeek很诟病的是联网搜索,搜索来的结果质量太差,反而误导了大模型。(当然,这个问题可以通过外挂全球高手写的搜索/爬虫/清洗Skill来弥补)
(3)路走歪了
我是怀疑DeepSeek走歪一丢丢路。
1、DeepSeek这次发版,肯定想在代码生成方面大上一层楼。但是我感觉发力方向错了。Claude Code作为全球最牛的代码生成模型,核心却是高手程序员写的专业Skill外挂,而非在模型、在前训练。而DeepSeek上次发mHC论文,目的是想把模型做大。
2、DeepSeek这次发版,肯定想在长思维链多步推理大上一层楼。但是我感觉发力方向错了。mHC论文虽然也聚焦在残差这个环节,但是解决的问题目标却是另外,而且解决手法还属于精巧术,不是大道。前几天我看Kimi发的论文倒是觉得那条道是对的:同样也是聚焦残差环节,但是解决手法却是用的注意力的方法,这是Transformer之所以牛的核心方法,Kimi给应用到了残差环节。
更多推荐




所有评论(0)