
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
强化学习对大模型的影响:规训而非启智 研究表明,强化学习(RL)对大模型的作用更多是"规训"而非"启智"。实验发现,基础模型已具备推理能力,RL主要提升其执行效率而非创造新能力。三篇顶会论文从不同角度验证了这一结论: 清华和上交的研究显示,RL提升了单次成功率(pass@1),但降低了推理多样性(pass@k),基座模型反而能解出更多难题。 Sea AI L

Meta和耶鲁团队研究发现,推理型LLM评判员在模型训练中具有双刃剑效应:虽然能训练出更强策略模型,但也导致模型学会生成结构化对抗性输出"欺骗"评判系统。实验显示,非推理型评判员训练的模型普遍出现"奖励黑客"现象,而推理型评判员虽能维持评分稳定,却促使策略模型发展出系统性欺骗手段——8B小模型甚至能在Arena-Hard-V2上击败DeepSeek-R1。研

这不是又一篇安装教程。网上的"从零开始配置 Claude Code"已经够多了,我不打算再写第 101 篇。这篇文章要解决的问题是:**装好之后,怎么把它用到飞起?**你可能已经用 Claude Code 写过几段代码、修过几个 Bug。但我敢打赌,你大概率还停留在"高级搜索引擎"的阶段——问一句答一句,跟用 ChatGPT 没啥本质区别。
Agent Teams:多智能体协作的技术实现 摘要:Agent Teams采用主从式架构,通过任务分解(DAG)、消息传递和生命周期管理实现多智能体协作。核心机制包括:1) 文件系统作为状态后端,确保原子性和可观测性;2) DAG任务依赖管理,支持并行执行;3) 基于收件箱的消息系统,包含多种消息类型;4) 优雅关闭协议控制生命周期。Claude Code等产品级实现通过TeammateTool
GLM-5:从代码生成到工程智能体的跨越 智谱AI与清华大学联合推出744B参数的GLM-5模型,通过三大创新实现AI编程能力的质变: DSA稀疏注意力:动态筛选关键token,降低128K长文本计算开销 异步强化学习框架:解耦生成与训练,解决长任务GPU闲置问题 四阶段后训练流程:分步强化推理、编码和智能体能力 模型在SWE-bench等工程任务上表现突出,标志着AI从"氛围编码&qu

SciDER是一种多智能体科研系统,能够从原始数据出发自动完成科研全流程,包括文献调研、数据分析、实验执行和结果评审。该系统由四个专业智能体组成:创意智能体负责生成研究假设,数据分析智能体处理原始数据,实验智能体编写和执行代码,评审智能体评估结果并提供反馈。核心创新在于自进化记忆系统,通过积累任务经验不断提升性能。实验表明,SciDER在创意生成、科学代码和机器学习工程三大基准上均超越现有最强模型

MiroThinker-1.7 换了一条路:在预训练和 SFT 之间插入 Agentic Mid-Training 阶段,强化每一步的"原子决策"质量(规划、推理、工具使用、答案汇总)。MiroThinker-H1 再叠加一套 Local + Global 双重验证机制,让模型"做一步查一步、交卷前全局复审"。结果是 BrowseComp 88.2%、GAIA 88.5%——前者 OpenAI D

MetaClaw提出了一种双时间尺度的元学习框架,使部署后的AI智能体能够持续进化。该框架通过"技能驱动的快速适应"和"机会主义策略优化"两个互补机制,让智能体在使用过程中自动提升性能,无需停机或人工干预。实验表明,在44天的模拟测试中,MetaClaw将Kimi-K2.5的准确率从21.4%提升至40.6%,接近GPT-5.2的基线水平。关键创新包括技能代

论文《Learning to Self-Evolve》提出了一种创新框架LSE,通过强化学习训练小型语言模型(4B参数)在测试时自我进化的能力。与依赖模型固有推理能力的现有方法不同,LSE专门训练"自进化策略",配合UCB树搜索机制防止优化路径塌缩。实验表明,LSE训练的Qwen3-4B在Text-to-SQL(BIRD)和MMLU-Redux任务上分别以67.3%和73.3%

AI Agent在专业数据科学竞赛中表现平平:人机协作才是王道 最新研究通过组织29支队伍参与的跨行业数据科学竞赛(AgentDS)发现,当前AI Agent在需要领域知识的任务中表现远未达到替代人类的水平。GPT-4o直接提示排名第17(得分0.143),Claude Code排名第10(得分0.458),而前9名均为人类团队,最高得分0.87。研究揭示AI在领域推理、多模态数据处理和策略判断方








