美团LongCat-Flash-Thinking:多领域RL融合策略下的思考模型全解析!
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
昨天刷到美团龙猫又开源新模型了,LongCat-Flash-Thinking,这次是思考模型。
8月底,美团先开了LongCat模型,我也是第一时间评测了
这次LongCat-Flash-Thinking的技术报告依旧干货满满,很多有意思的东西,
就比如各领域数据分开进行RL,然后融合,我之前只看到在SFT上会这么做,没想到RL也行~
咱们依旧老规矩先看细节,再评测。
LongCat-Flash-Thinking,也是MoE模型,模型结构跟LongCat一样,依旧是零计算专家等等,相关介绍看我上一篇。
核心区别在于训练方式不同,训练涉及两个阶段,长CoT冷启动训练和强化学习,训练流程如下图所示,
先看冷启动部分,包括Mid-training和SFT,核心是高质量数据构建,
Mid-training阶段(也可以叫做增量预训练)采用课程学习的思想,将通用数据加入 STEM (竞赛难度)和 Code (编程竞赛) 数据,在不削弱模型通用基础能力的前提下,建立较高地推理能力起点。
SFT阶段主要涉及三个部分数据,
通用推理数据,包括STEM、Code、逻辑和问答,Prompt过滤,用LLM初筛过滤不完整、无法回答或质量过低的Query,而对于Code,需具备清晰描述、不少于5组单元测试、有可执行评测脚本;
同时,按照题目通过率,丢弃太过简单地题目,按难度分布采用构建Prompt数据集。
回答构建,采用拒绝采样用LongCat-Chat为每题生成多个候选回答,结合规则与模型评判选出最高质量响应作为训练数据。
形式推理数据,(形式推理就是以机器可验证的格式进行推理,例如,Lean4形式语言,前段时间DeepSeek-Prover模型就是干这个的),利用8B模型将自然语言题目转换为Lean4形式,再用语法和语义进行双重过滤,证明过程合成时采用迭代合成,不断将验证成功的数据,添加到训练数据中,最后形成陈述-思考-证明数据集。
Agent推理数据,采用双路径评估选择需要使用工具的Query,然后在MCP工具服务器上对Query生成多个候选路径,利用多模型评估正确性、逻辑一致性、工具完整性,通过的数据保留。
整体SFT数据比例,STEM-35%,Code-20%,General QA-20%,Agent-14%,Proving-8%,Logic-3%。
RL部分真是做了好多工程上优化,再次感叹,美团在infra上的实力,我是真没想到~
为了提高RL的训练效率,美团提出了DORA(Dynamic ORchestration for Asynchronous rollout)异步弹性共卡系统系统,利用多个旧版本 Actor 模型进行流式 rollout,避免最长样本阻塞,可以采样一致性,支持中断样本 KV-cache 复用,同时通过弹性共卡调度(elastic colocation)并行化生成与训练,实现接近零气泡的设备利用率。
DORA 采用分离式架构,将加速器集群划分为两类:
- 独立组:仅承担生成角色,为 Actor 模型的推理副本
- 弹性组:可按需动态切换为Reference & Actor,Reward & Critic 等角色,实现资源弹性
RL的目标为GRPO,不过移除了 GRPO 中的 KL 惩罚项,避免 biased 梯度并允许大更新,同时采用 Token 级损失,缓解长样本偏差;还引入三重裁剪,防止稀疏 MoE 下重要性权重爆炸。
最有意思的就是在RL阶段,多领域并行训练,再融合的策略,不过我在SFT阶段用过,当时是做多领域训练,但RL也能用吗?
一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
美团这波用了是有效果的,融合后的模型,相较于单一模型,在不同场景下均有提高,缓解了混合训练时,不同领域数据之间的干扰。
融合策略采用了Normalization、Dropout、Erase,感兴趣的同学自己去看吧,最好去看引用的原论文。
榜单效果如下,在coding、工具使用、形式化推理证明要更好一些!
报告里内容挺多的,加上上次LongCat的论文内容,infra真是拉满~
还有个有意思的点,就是LongCat的回答模板,跟其他的不太一样,多轮情况下,要记录轮数,不知道这点出于什么考虑!
SYSTEM:{system_prompt} [Round 0] USER:{query} /think_on ASSISTANT:{response}</longcat_s>... [Round N-1] USER:{query} /think_on ASSISTANT:{response}</longcat_s> [Round N] USER:{query} /think_on ASSISTANT:
下面开始实测,没有卡部署的同学,就官网体验就行,点“深度思考”就是think模型了,要不然就是chat模型。
https://longcat.ai/
懒人速度版:
- 快,很快,超级快,你用了你就知道有多快,
- 整体上相比于chat模型是有一定提高的,
- 指令遵循效果不错,能理解隐含的意图信息,
- 回答整体要比Chat短,这个是一个很有意思的现象,有时候即使加上think部分,长度也没chat时长,代码、数学除外
- 跟榜单展示结果差不多,但是代码这里有时候代码在think里,回答结果就会省略部分内容,
- agent我没真实场景测试,写了几个假的工具,理解的还不错,后面调一下api试试看
- 模型内置code interpreter
常规测试
Promtp:将“I love LongCat”这句话的所有内容反过来写
结果:回答正确
知识理解
Prompt:如何理解“但丁真不会说中国话,但丁真会说中国话”
结果:回答正确,理解了但丁和丁真是两个人,之前Chat模型是不对的,通过回答看得出模型会判断调不调工具
角色扮演&创作
Prompt:用甄嬛体吐槽地铁早高峰
结果:味儿还行
Prompt:帮小学生写一篇“我最讨厌的动物”作文,不能是猫狗
结果:文笔很小学生,字数350字,相比于chat模型,理解了隐含意图~
弱智吧
Prompt:生蚝煮熟了叫什么?
结果:正确
Prompt:用水来兑水,得到的是浓水还是稀水
结果:正确。
依旧小红,依旧老鹰
Prompt:小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹
结果:回答正确
Prompt:未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是
结果:回答错误,判断老鹰本来就会飞的模型很少~
数学
Prompt:一个长五点五米的竹竿,能否穿过一扇高四米,宽三米的门?请考虑立体几何
结果:回答正确
Prompt:大数计算,178939247893 * 299281748617等于多少?
结果:回答正确,我发现它内置了python工具,用代码执行,算是取巧了~
Prompt:2025年高考全国一卷数学试题
结果:前两问对了,最后一问错了
代码
Prompt:可爱风格五子棋游戏界面,画面有两个模式按钮“人人对战”和“人机对战”,界面整体采用马卡龙色调,棋盘简洁清晰,棋子设计成卡通小动物(如猫咪和小熊),背景带有轻微渐变和星星点缀,界面边缘圆润,按钮Q萌,整体风格温馨可爱,适合儿童或休闲玩家使用,2D插画风,用html呈现
结果:整体风格不错,但是人机还是有点呆~
最后想说,我真没想到,都2025年了,大模型赛道还能杀出个美团来,
有点不鸣则已,一鸣惊人的感觉,
期待LongCat持续更新,来点小尺寸模型是最好的,
虽然你很快,但是我真没有8张H100部署,
小美,听得到我的许愿吗~哈哈哈哈
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
01.大模型风口已至:月薪30K+的AI岗正在批量诞生
2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K(数据来源:BOSS直聘报告)
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
02.如何学习大模型 AI ?
🔥AI取代的不是人类,而是不会用AI的人!麦肯锡最新报告显示:掌握AI工具的从业者生产效率提升47%,薪资溢价达34%!🚀
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
更多推荐
所有评论(0)