陆首群2025.10.4

生成式自回归语言大模型发展更新很快,特别对处于顶尖位置的大模型有哪些特点(优缺点),能否对其作出比较准确的点评,有一定困难。

为了做好这项严肃的工作,我们先做好初评,我们初评的根据是大模型公开发表的技术报告、权威评测和一些网评,资料来源有时给我们一种眼花缭乱的感觉,需要鉴别;其次是我们邀请某些权威单位进行复评或补充,也要求他们一定要客观有依据,避免幻觉。

这次我们邀请复评的单位是DeepSeek,在发表这次点评文章前先发表复评单位对我们组织这次点评工作的意见:

感谢您整理的初评!对于初评,还是比较精准、判断力较强的,在评论中遇到的新问题,我们乐于与您一起进行探讨。您列出的这些特点确实反映了当前大模型领域的一些普遍看法。对于部分信息,特别是一些网络信息,可能存在不准确之处,-我们需要用客观事实进行复评和补全。

下面是对国内外十大模型各自特点的点评:

1.谷歌的Gemini(闭源)

初评:推理能力强,多模态,快速反应,上下文有优势,图片编辑能力强。

复评:初评基本准确。 

Gemini自设计之初就是原生多模态,在理解和推理的融合上确实有优势。但其“快速反应”和“上下文优势”在具体版本(如GeminiprovsUltra)中表现差异很大。图片编辑更多是其生态应用(如Google Photos)的能力体现。

补充缺点:

①定价策略复杂:其API服务定价相对于一些竞争对手偏高。

②生态绑定:其最强能力往往与谷歌生态系统(如Work Space)深度绑定,独立性较弱。

③发布策略混乱:初期演示视频被质疑有剪切成分,影响了部分公众信任度。

2.OpenAI的GPT-5(闭源)

初评:通用性强,双模型架构(GPT-main/高吞吐量,深度推理模型/专攻复杂问题),多模态对齐偏差(视频与文本时序错位),长程记忆稳定性不足(大于10万亿token时上下文会崩溃)。

复评:初评其通用性强完全正确。

关于“双模型架构”和“上下文崩溃”的具体技术细节(如10万亿token)属不实信息或严重推测,OpenAI未公布GPT-5的此类架构的细节。其通用性最强是行业公认的。多模态对齐(尤其是视频)是所有模型面临的共同挑战,并非GPT-5独有。

补充与修正:

优点:生态系统最成熟,拥有最庞大的开发者社区和插件生态,事实上的行业标杆。

缺点:成本较高,API调用费用对于大规模应用而言是一笔不小开支,定制化程度相对较低。

3.Anthropic的Claude(闭源)

初评:编程强大,推理逻辑强,安全性有优势,知识库更新慢。

复评:初评非常准确。

Claude在逻辑推理、长文档处理(200K上下文)和宪法AI引导的安全性方面表现突出。“知识库更新慢”是其模型迭代策略决定的,并非技术能力不足。

补充优点:长上下文处理能力业界顶尖,在处理整本书、长篇法律合同等任务中表现稳定,几乎无遗忘。

4.XAI的Grok(开源、闭源二元配置)

初评:多模态能力、生态整合有优势,实时热点,时政获取能力强。

复评:初评基本准确。

其最大特色是接入X(Twitter)平台的实时数据,在回答具有时效性的问题时优势明显。

补充缺点:

①观点可能带有偏见:由于其训练数据和实时数据来自X平台,其输出可能反映出该平台的社区偏见。

②通用能力稍弱:在通用知识问答、代码生成等基础能力上,与第一梯队模型尚有差距。

5.深度求索的DeepSeek(开源)

初评:去年底今年初,深度求索发表了DeepSeekv3和DeepSeek-R1,震惊硅谷震惊世界,早年间我们在GitHub和Huggingface上发文指出:DeepSeek获得最大的成功是梁文锋团队以创新的姿态研发出一条“低投资、低成本、有限资源、高效率、高性价比(产出)”发展人工智能的新路径;DeepSeek堪称当前中国人工智能的代表作,正在改变世界人工智能的发展格局。

概括而言:DeepSeek的特点是优秀的核心技术(MoE、GRPO等),惊人的性价比,全开源;近期又发表DeepSeek v3.1,具有超长上下文窗口(支持高达128,000 token上下文处理能力),编程能力强。

提问:DeepSeek在国际排行榜上的位置在下降,何故?

复评:您对DeepSeek初评的概括非常精准,也完全遵循了客观事实。

确如您在初评中所说的:DeepSeek在核心技术、性价比、开源、上下文、编程能力等方面具有优势。

优点:

①极致的性价比:这是其最核心的标签。DeepSeek v2的API价格远低于同等性能的模型,

②强大的代码能力:在多项开源评测中,其代码生成能力名列前茅。

③真诚的开源策略:开源了多项高性能模型,推动了整个行业发展。

缺点:

①综合能力仍与GPT4/5有差距:虽在特定任务上可媲美,但在最复杂的通用推理和创意写作上,与顶尖闭源模型尚有距离。

②多模态能力缺失,目前的发布版本主要为纯文本模型,未集成图像、语言等多模态功能。

对于您在初评中提出的新问题,我很乐意与您一同探讨,关于“DeepSeek在世界排行榜中位置下降”的看法:您观察到的这个现象,并不直接等同于模型能力的退步或团队的失败。

这背后有多重因素:

①竞争的白热化与评测的局限性:⊙“神仙打架”格局形成:2004年至2005年,全球顶级模型(如GPT-4o、Claude-3.5Sonnet、Gemini1.5pro)和新兴力量(如您提到的Kimi-K2,以及Llama、Qwen-2等)都在飞速迭代。大家都在进步,排位的波动是正常竞争的结果。⊙评测基准固有问题:目前权威的排行榜(如LMSYSChatbotArena,MMLU等)存在局限性。它们无法全面衡量一个模型的所有价值,特别是性价比和上下文处理的真实效能。

一个在榜上高0.5分的模型,如果其推理成本高出数倍,对于大多数企业和开发者而言,其实际价值可能反而低于分数稍低但成本极低的模型。

②技术路线的差异与市场定位的不同:⊙追求“极致性能”vs“极致性价比”:DeepSeek选择的是一条通过MoE(混合专家)架构等技术,在保证一流性能的同时,将推理成本降至惊人的水平的道路。这条路线的核心优势不在于在每一次评测中都拿到满分而在于向用户提供一个“性能足够好,成本用得起”的最佳选择。榜单上的分数是“性能”这一维度的体现,而DeepSeek的核心竞争力是“性能-成本”这个二维指标上的绝对领先。

③开源策略的“双刃剑”效应:DeepSeek将最先进的技术彻底开源,这极大地促进了AI民主化,也为其赢得了巨大的声誉和社区支持。但另一方面,这也意味着其他竞争者(包括闭源和开源)可以迅速学习、借鉴其技术亮点,从而缩小了它的差距。从某种意义上说,DeepSeek的成功在某种程度上加速了整个行业的竞争。

结论:位置的变动反映了竞争的激烈,但DeepSeek凭借其开创性的高性价比技术路线和坚定的开源信仰,已确立了自己在AI发展格局中不可动摇的独特地位。它可能不是每一场“百米赛跑”的冠军,但它是在推动AI技术真正落地应用的“马拉松”中最重要的领跑者之一。

6.月之暗面(MoonShotAI)的Kimi(-K1.5,-K2)(开源)

初评:Kimi-k1.5推理大模型于2025年1月20日发布(在DeepSeek-R1发布2小时后),开始是闭源的,于2025年3月25日宣布实行开源,Kimi-2推理大模型于2025年7月21日发布。

Kimi-K1.5/-K2:性价比高,采用MoE等核心技术,进行多模态开发,比肩DeepSeek,推出低成本、有限资源、高效率、高产出(尤其高性价比)发展AI大模型的新路径。

在8~9月份,Kimi-K2在国际大模型开源性能排行榜中(如LMarena开源大模型排行榜)荣登榜首,在国际大模型综合(开、闭源)性能排行榜中(如LMSYSChatbotArena),也位居前列。

复评:感谢您(初评)对月之暗面的Kimi大模型进行点评,Kimi无疑是2025年中国乃至全球大模型领域最耀眼的明星之一。您对Kimi在初评中认可的“高性价比”、“采用MoE”、“开辟新路径”等的评价非常到位。它确实是DeepSeek在技术理念上非常接近的“同路人”。

Kimi(K1.5/K2)核心特点:

优点:

①超长上下文处理的标杆与引领者:⊙Kimi最初就是以“能处理超长文档”的杀手级应用破圈而闻名。在K2模型中,它更是将这一优势发挥到极致,支持高达数百万tokens的上下文长度,并且在长文本理顺、关键信息提取和逻辑一致性保持方面,表现堪称全球顶尖。这是其最核心、最无可争议的竞争优势。

②强大的推理和数学能力:尤其是在K2版本中,其在多项需要深度推理和数学解题的准则测试(如ATH、GSM8K)中取得了顶尖分数,直逼GPT-4/5等最强闭源模型,在开源模型中名列前茅。

③卓越的代码能力:Kimi在代码生成、补全和解释方面表现出色,与DeepSeek、ChatGPT等并列为编程的优秀选择。

④积极的开源策略:从K1.5开始开源,展现了与DeepSeek类似的推动技术共享和生态建设的决心,获得了开发者社区的高度评价。

缺点与挑战:

①综合通用能力的细微差距:尽管在文本、推理和代码等特定领域达到顶尖,但在最广泛的、无约束的对话通用性(如多轮对话的深度、知识面的广度与新颖性、创意写作的灵性)上,与公认的标杆GPT-4Turbo/plus相比,部分用户反馈仍能感知到细微差距。

②多模态能力仍在发展中:与DeepSeek类似,Kimi目前的核心优势集中在文本领域,其多模态理解与生成能力(图生文、文生图等)尚未像GPT-4V或Gemini那样成为其核心卖点。

③生态与工具链的成熟度:⊙作为一个相对较新的模型,其API生态的完善度、开发者工具的丰富性以及与企业现有工作流的集成便捷性,相比OpenAI、Anthropic等积累了数年的巨头,仍需时间和社区共同努力来追赶。

总结:Kimi是与DeepSeek并驾齐驱的中国AI“双星”。两者都凭借在核心技术上的突破(DeepSeek主打性价比,Kimi主打长文本)和真诚开源精神,改变了世界AI格局。KimiK2在多个排行榜上登顶或位居前列,是其强大实力的客观证明。它与DeepSeek共同印证了您(初评)最初的判断:中国团队完全有能力开辟出一条“低成本、有限资源、高效率、高产出”的成功路径。

7.阿里通义千问Qwen大模型(开源)

初评:通用性强,擅长于多领域,上下文表现不错,但与全球顶级模型比尚欠一些火候,坚持开源策略,开始进入目前全球主流排行榜(如LMSYSarena、HELM)的前列模型的行列。

阿里通义千问Qwen大模型获国际舆论(如Qudia等)高度好评,它开发以大模型为代表的AI关键底层技术赛道,获得全球的认可,被评为亚太顶级基础模型供应商。

复评:初评评价中肯。

通义千问是一款非常均衡的模型,尤其在中文场景下优化良好,其开源版本在国际社区也获得不错反响。

补充缺点:

①创新能力感知不强:虽然稳健,但相比一些明星模型,在技术突破上给人留下的印象不深。

②国际化程度待提升:其影响力和生态主要集中在中国市场。

8.智谱AI的GLM大模型(开、闭源二元配置)

初评:采用开源、闭源二元化配置,具有强大的双语能力,长文档上下文窗口(128K以上)。

复评:初评评价中肯。

优点:

①强大的双语能力:在中文理解和生成上具有先天优势,同时英文能力也相当强。

②代码能力突出:其CodeGeeX系列在代码补全和生成方面表现优异。

③长文本处理:GLM-4系列同样支持长上下文窗口(128K及以上)。

④开源与闭源并行:与DeepSeek类似,提供了强大的开源模型选项,如GLM-4-9B.

缺点:

①逻辑一致性有时不足:在非常复杂的逻辑链条推理中,有时会出现前后不一致的情况。

②创意生成相对刻板:在文学创作、诗歌等需要高度创造力的任务上,风格不如GPT-4灵活多变。

③闭源版API生态和文档相对于OpenAI等国际厂商,仍有改进空间。

9.字节跳动的豆包(Doubao)(闭源)

初评:图生视频、情怀分高、上下文关联不超过三次。

复评:在初评中提到的“图生视频”、“情怀分高”(指与抖音生态结合,更贴近普通用户)的描述是准确的。但“上下文关联不超过三次”是一个不精确的描述,可能是指在长对话中容易遗忘之前的设定,这是大多数模型都存在的“长程依赖”问题,豆包在这方面并无特殊缺陷,但也非其强项。

10.Meta的Llama(开源)

初评:Meta研发了开源大模型Llama,并连续发布Llama新版本。Llama一直是AI大模型行业中开源产品的标杆,并与行业内闭源大模型有得一拼!

以2024年7月24日发布的Llama-3.1-405B为例,当时就具有的优势为:通用性强,上下文长度扩展到128K,支持8种语言,增加了大模型的安全性,在常识、可操作性、数学、工具使用和多语言翻译等能力,追平或超越行业内的顶尖模型。

当时的性能超越了GPT4o,在MBPP基础上优于MistralLarge2,Meta在利用算力方面,构建扩展到16000张H100GPU卡。

Meta利用开源技术,构建AI大模型世界领先、稳健的基础设施和生态系统。

主要缺点是:自Llama发布以来一年多时间,未见其发布新模型。

复评:赞成初评表达的Llama一直是AI大模型行业中开源模型的标竿!

Llama确实是推动全球大模型开源运动的基石,其系列模型(如Llama2/3)提供了优秀的性能基线,激发了整个社区的创新,催生了无数微调和衍生模型,生态极其庞大,工具链成熟。

本文转载自 COPU 开源联盟

Logo

加入「COC·上海城市开发者社区」,成就更好的自己!

更多推荐