
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
过程奖励学习(PRL)通过将稀疏的最终奖励分解为细粒度的过程奖励,显著提升了大语言模型的推理能力。该方法基于严格的数学推导,将未来期望收益与KL成本相结合,定义了每个推理步骤的过程奖励。PRL无需额外训练奖励模型或进行昂贵的蒙特卡洛搜索,可直接集成到现有GRPO框架中。实验表明,PRL不仅提高了平均推理准确率,还拓宽了模型的推理能力边界,为解决强化学习中的信用分配问题提供了高效且理论严谨的解决方案

MatchTIR 提出用**二分匹配**(Hungarian算法/最优传输)来给多轮工具调用中的每一步精确打分,配合**双重级优势估计**,让4B小模型在复杂工具使用任务上干翻一众8B大模型。

训练时模拟推理的"不完美",推理时用记忆维护"一致性"层面挑战FlowAct-R1 的解法训练-推理一致性训练用真实帧,推理用生成帧Self-Forcing++:训练时混入伪生成帧长期时序一致性越生成越"走样"记忆细化:定期"校准"短期记忆行为自然度动作机械、状态切换生硬MLLM规划:用大模型理解语义,规划行为核心贡献技术创新实际意义实时流式生成流式缓冲区 + 分块去噪首帧1.5秒,无限时长长期一

完整工作流:唯一覆盖"文献→想法→代码→论文"全流程的开源系统高质量代码:导师-学生迭代机制显著提升实现质量标准化评测:Scientist-Bench 提供了业界首个全面评测基准成本友好:开源免费,API 成本远低于商业方案。

深度研究(Deep Research)是指需要LLM进行复杂、多步骤信息检索与综合分析的任务。规划能力:将复杂问题分解为多个子任务工具使用:调用搜索引擎、爬取网页等外部工具信息综合:整合多源信息形成连贯报告事实验证:确保引用准确、论据有据可查识别出RLHF、RLAIF、DPO等主要技术搜索每种技术的最新研究进展爬取相关论文和技术博客对比分析各自的优劣势综合形成结构化的研究报告O-Researche

M-ASK框架通过解耦智能体搜索任务为两类五个专门角色(规划、搜索、回答、摘要、更新代理),采用结构化知识状态和轮次级密集奖励机制,解决了传统单体架构在复杂问答任务中的训练崩溃问题。实验显示,M-ASK将训练崩溃率从单体架构的90%降至0%,同时显著提升了搜索效率和答案质量。该框架通过分工协作和精细的奖励设计,实现了稳定且高效的智能体搜索系统。

2025年AI领域迎来重大范式转变,从"暴力堆参数"转向精细化智能提升。基于100+篇顶会论文分析,四大技术突破尤为突出:流体推理通过Test-Time Compute让AI学会思考推演;长期记忆技术治愈模型"健忘症";空间智能补足视觉处理短板;元学习实现持续自我进化。其中,MoE架构、强化学习革新(如GRPO算法)和记忆系统升级成为关键驱动力。研究显示,AI在推理、长期记忆和视觉处理等原"零分项

北大联合腾讯AI Lab提出DocDancer,首个端到端训练的文档问答Agent。通过"搜索+阅读"双工具设计,将文档问答形式化为信息寻求过程,实现高效定位与深度理解。创新性提出"探索-综合"数据合成框架,自动生成高质量训练数据。在MMLongBench-Doc和DocBench两大基准测试中表现优异,超越现有方法并接近人类水平。案例分析显示,DocDan

小米开源MoE模型MiMo-V2-Flash技术突破:仅15B激活参数实现高性能推理 小米最新发布的MiMo-V2-Flash模型采用创新的混合专家架构(MoE),总参数309B但仅激活15B参数,在性能上媲美更大规模模型。核心技术包括: 混合滑动窗口注意力:结合Sink Bias机制,在128Token小窗口下保持长文本处理能力 多Token并行预测(MTP):最高提升2.6倍推理速度,生成速度

MIT团队提出递归语言模型(RLM),突破大语言模型处理长文本的瓶颈。RLM创新性地将长文本作为外部环境变量,让模型通过编写代码递归调用子模型处理信息,实现10M+ token级别的超长文本处理能力。相比传统方法,RLM采用"分而治之"策略,避免了上下文窗口限制和二次方计算成本增长,性能提升可达100倍。该技术借鉴外存算法思想,使模型能像程序员一样按需查阅信息,而非硬记全部内容








