
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
OpenClaw-RL提出了一种统一强化学习框架,通过环境自然产生的"下一状态信号"训练各类智能体。该方法无需人工标注或定制奖励函数,从下一状态中提取二元奖励和token级梯度信号,组合成统一优势函数。关键创新包括:1)利用过程奖励模型(PRM)进行逐步二元评判;2)后验引导在线策略蒸馏(OPD),复用模型自身生成教师信号;3)逐步标准化解决奖励尺度问题。实验显示该方法在对话、

EvoScientist提出了一种多智能体进化框架,通过研究智能体、工程智能体和进化管理智能体的协作,实现了端到端的科研自动化。该系统创新性地引入构想记忆和实验记忆机制,使AI科学家能够积累经验并持续进化。实验表明,EvoScientist在想法生成、代码执行和论文质量等方面显著优于现有系统,其全自动生成的6篇论文全部被ICAIS 2025接收。该研究为AI自主科研提供了新思路,解决了现有系统缺乏

摘要:Google Research研究发现,大语言模型在回答简单事实问题时,开启推理模式能显著提升正确率。实验表明,这主要依赖两个机制:1)"计算缓冲效应"——即使推理内容是废话,额外的前向计算也能帮助激活知识;2)"事实启动效应"——推理轨迹中的相关事实能触发联想记忆。有趣的是,模型能力越弱,推理带来的提升越明显,且这种效应与问题复杂度无关。研究揭示了T

摘要: DeepSeek-R1 通过强化学习(RL)颠覆了传统 Agent 开发模式,摒弃了繁琐的 Prompt 和 Workflow 组装,转向端到端训练。传统方法因流程固化、错误级联等问题陷入瓶颈,而 RL 框架将 Agent 视为马尔可夫决策过程,赋予其自主试错与优化能力。GRPO 算法通过组内相对评分替代复杂奖励模型,大幅提升训练效率。结合分布式 Ray 架构,RL 训练的 Agent 展

GLM-5:从代码生成到工程智能体的跨越 智谱AI与清华大学联合推出744B参数的GLM-5模型,通过三大创新实现AI编程能力的质变: DSA稀疏注意力:动态筛选关键token,降低128K长文本计算开销 异步强化学习框架:解耦生成与训练,解决长任务GPU闲置问题 四阶段后训练流程:分步强化推理、编码和智能体能力 模型在SWE-bench等工程任务上表现突出,标志着AI从"氛围编码&qu

SciDER是一种多智能体科研系统,能够从原始数据出发自动完成科研全流程,包括文献调研、数据分析、实验执行和结果评审。该系统由四个专业智能体组成:创意智能体负责生成研究假设,数据分析智能体处理原始数据,实验智能体编写和执行代码,评审智能体评估结果并提供反馈。核心创新在于自进化记忆系统,通过积累任务经验不断提升性能。实验表明,SciDER在创意生成、科学代码和机器学习工程三大基准上均超越现有最强模型

OpenClaw 的颠覆性创新 OpenClaw 远不止是一个代码助手,它在重新定义AI助手的本质。通过五个被严重低估的创新: 灵魂手册:用SOUL.md赋予AI鲜明个性,打破传统AI"表演性帮助"的困境 模块化操作系统:将上下文拆分为7个独立模块,实现精准的行为控制 时间感知系统:Cron机制让AI从被动响应变为主动助手 安全分身系统:支持8个并行子代理,严格限制权限防止失控
《UniG2U-Bench》论文系统评估了统一多模态模型(UMMs)的视觉理解能力,挑战了"生成能力提升理解"的直觉假设。该研究设计了包含3000样本、30子任务的综合性基准,通过对比基座模型与统一模型在7类任务中的表现,发现多数情况下生成能力反而降低了理解性能("统一税"现象)。但在空间推理等特定任务中,生成能力展现出优势,"先生成再回答&quo

OpenClaw-RL提出了一种统一强化学习框架,通过环境自然产生的"下一状态信号"训练各类智能体。该方法无需人工标注或定制奖励函数,从下一状态中提取二元奖励和token级梯度信号,组合成统一优势函数。关键创新包括:1)利用过程奖励模型(PRM)进行逐步二元评判;2)后验引导在线策略蒸馏(OPD),复用模型自身生成教师信号;3)逐步标准化解决奖励尺度问题。实验显示该方法在对话、

IndexCache提出了一种跨层索引复用方法,显著加速稀疏注意力推理。研究发现相邻层的索引选择结果高度重叠(70%-100%相似度),因此可以让多个层共享同一份索引,跳过75%的索引器计算。在200K上下文长度下,该方法实现了1.82倍预填充加速和1.48倍解码加速,且几乎不损失模型质量。通过贪婪搜索算法确定最优索引器保留层,并引入多层蒸馏损失优化索引质量,IndexCache无需额外训练即可部








