
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
三个agent各司其职:TODO Planner(研究规划专家):负责将研究主题分解为子任务Task Summarizer(任务总结专家):负责总结每个子任务的搜索结果Report Writer(报告撰写专家):负责整合所有子任务的总结,生成最终报告四个核心服务,连接 Agent 和工具:PlanningService:调用规划 Agent,解析 JSON,验证格式SummarizationSer

提出了DAPO算法,包含四个关键技术:Clip-Higher、Dynamic Sampling、Token-Level Policy Gradient Loss和Overlong Reward Shaping。Clip-Higher:通过解耦上下剪切范围(ε low 和ε high ),提高低概率探索令牌的概率增加空间,增强策略的多样性和熵。Dynamic Sampling:通过过

论文:DeepSeekMath:PushingtheLimitsofMathematicalReasoninginOpenLanguageModels(https://arxiv.org/pdf/2402.03300)GRPO在DeepSeekV2中采用了,GRPO在训练过程中,不需要ValueModel,因此也能够减少RL训练过程中的资源消耗。

定义expert类:由线性层和激活函数构成- 定义MOE类:- self.num_experts:专家的数量,也就是上面提到的“并列线性层”的个数,训练后的每个专家的权重都是不同的,代表它们所掌握的“知识”是不同的。- self.top_k:每个输入token激活的专家数量。- self.expert_capacity:代表计算每组token时,每个专家能被选择的最多次数。- self.gate:

Cursor 的记忆系统采用了双重机制:先生成候选记忆,再严格评估筛选。这种设计有几个巧妙之处:1.严格的记忆标准系统对"值得记住"的标准极其严格,大部分记忆会被评为 1-3 分(低分),只有真正有价值的通用偏好才能得到 4-5 分。这避免了记忆污染问题。2.丰富的示例驱动提示词中包含大量正面和负面示例,帮助 AI 准确理解什么该记什么不该记。特别是对"显而易见"和"过于具体"的记忆进行了明确排除

GLM-4.1V-Thinking模型引入 课程采样强化学习(RLCS, Reinforcement Learning with Curriculum Sampling) 策略,在多个复杂推理任务中实现能力突破,整体性能达到 10B 级别视觉语言模型的领先水平。GLM-4.1V-9B-Thinking 通过引入「思维链」(Chain-of-Thought)推理机制,在回答准确性、内容丰富度与可解释

(1)未来的工作需亟待解决:支持大规模 RL 训练(PPO、GRPO 等)的开源基础框架用于稳定训练的 GRPO 训练超参的自动化调优RL 训练数据的配比(难度、领域、任务等)基于 Instruct 模型训练 R1 时,高质量 long CoT 的数据获取合适的惩罚函数设计以保证 CoT 思考链质量不退化(2)应用在业务落地时,需要考虑:模型在给定的 prompt 下,结合预训练的基本知识能否正确

GRPO的创新与局限:GRPO简化了PPO,主要变化✅ 用规则函数替代奖励模型✅ 取消了价值模型✅ 优势函数改为输出序列奖励值的标准化但GRPO存在三大问题:序列级奖励与token级动作粒度不匹配重要性采样方差偏移累积MOE模型上训练不稳定DAPO的四大改进移除KL散度约束非对称裁剪(Clip-Higher)动态采样策略token级别的梯度计算GSPO的核心思想:针对MOE模型的特殊性,GSPO将

MCP (Model Context Protocol) 代表了 AI 与外部工具和数据交互的标准建立。MCP 的本质:它是一个统一的协议标准,使 AI 模型能够以一致的方式连接各种数据源和工具,类似于 AI 世界的"USB-C"接口。- 它能够在 LLM/AI Agent 与外部资源之间实现无缝、安全且可扩展的数据交换。MCP 采用客户端-服务器架构,其中 ==MCP 主机(AI 应用)与 MC

增强大模型推理能力的四种范式:推理时间扩展、纯强化学习(RL)、SFT+RL、蒸馏(distillation) 。其实这几种方法本质就是SFT+RL:低成本做事就直接推理时间扩展,稍微肯付出成本就蒸馏SFT,顺便搞点高质量COT SFT数据高级点就先用GRPO等RL学习推理能力,在前面也能加个冷启动SFT。但RL在较小模型可能不奏效最简单的方式其实是推理时间扩展或者蒸馏,但是这个其实的成功率,其实








