logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AI-Researcher:让 AI 自主完成从文献调研到论文发表的全流程科研

完整工作流:唯一覆盖"文献→想法→代码→论文"全流程的开源系统高质量代码:导师-学生迭代机制显著提升实现质量标准化评测:Scientist-Bench 提供了业界首个全面评测基准成本友好:开源免费,API 成本远低于商业方案。

文章图片
#人工智能#自然语言处理#深度学习 +1
不改模型参数,准确率翻倍:Memento-Skills 让 Agent 自己设计 Agent

持续学习不必驻留在模型权重中。一个不断增长的、自我改进的技能库可以作为任何冻结 LLM 都能调用的持久化智能层。这种"技能即记忆"的范式,将 Agent 的能力进化从昂贵的参数更新转移到了轻量级的文件操作上。但这也引发了更深层的问题:当 Agent 开始设计自己的技能,甚至设计新的 Agent 时,我们如何确保这个自进化过程不会脱离控制?论文中单元测试门控和回滚机制是初步的安全网,但距离生产级的安

文章图片
#人工智能#机器学习
4B 小模型击败 GPT-5:Learning to Self-Evolve 用强化学习教会 LLM 在测试时自我进化

论文《Learning to Self-Evolve》提出了一种创新框架LSE,通过强化学习训练小型语言模型(4B参数)在测试时自我进化的能力。与依赖模型固有推理能力的现有方法不同,LSE专门训练"自进化策略",配合UCB树搜索机制防止优化路径塌缩。实验表明,LSE训练的Qwen3-4B在Text-to-SQL(BIRD)和MMLU-Redux任务上分别以67.3%和73.3%

文章图片
#人工智能#深度学习#机器学习
递归不是长上下文的解药,自反思才是:SRLM 用不确定性信号让 LLM 超越 RLM 22%

当语言模型面对超长文本时,我们习惯性地认为"递归分解"是正确答案——把长文本切碎、递归调用自身来处理。但 Apple 的这篇论文给出了反直觉的结论:递归并不是 RLM 性能提升的主要驱动力。真

文章图片
#自然语言处理#transformer#深度学习 +2
部署不是终点,而是学习的起点:微软提出 OEL 框架,让大模型从真实交互中持续进化

当前大语言模型的训练范式存在一个根本性矛盾:模型在部署后变成"静态制品",无法从海量的真实用户交互中获益。微软研究院提出 **Online Experiential Learning(OEL)** 框架,让模型在部署阶段像人类一样"从经验中学习"——无需人工标注、无需奖励模型、无需在服务器端访问用户环境。该方法通过"经验知识提取 + 在策略上下文蒸馏"的迭代循环,在文本游戏环境中实现了 pass

文章图片
#microsoft#前端框架#人工智能 +1
MiroThinker-1.7 & H1:搜索 Agent 的天花板不在“搜得多“,而在“每步都靠谱“

MiroThinker-1.7 换了一条路:在预训练和 SFT 之间插入 Agentic Mid-Training 阶段,强化每一步的"原子决策"质量(规划、推理、工具使用、答案汇总)。MiroThinker-H1 再叠加一套 Local + Global 双重验证机制,让模型"做一步查一步、交卷前全局复审"。结果是 BrowseComp 88.2%、GAIA 88.5%——前者 OpenAI D

文章图片
#microsoft#深度学习#开源
MetaClaw:让部署后的 AI 智能体在失败中持续进化——UNC联合UC Berkeley提出双时间尺度元学习框架

MetaClaw提出了一种双时间尺度的元学习框架,使部署后的AI智能体能够持续进化。该框架通过"技能驱动的快速适应"和"机会主义策略优化"两个互补机制,让智能体在使用过程中自动提升性能,无需停机或人工干预。实验表明,在44天的模拟测试中,MetaClaw将Kimi-K2.5的准确率从21.4%提升至40.6%,接近GPT-5.2的基线水平。关键创新包括技能代

文章图片
#人工智能#学习
不改模型参数,准确率翻倍:Memento-Skills 让 Agent 自己设计 Agent

持续学习不必驻留在模型权重中。一个不断增长的、自我改进的技能库可以作为任何冻结 LLM 都能调用的持久化智能层。这种"技能即记忆"的范式,将 Agent 的能力进化从昂贵的参数更新转移到了轻量级的文件操作上。但这也引发了更深层的问题:当 Agent 开始设计自己的技能,甚至设计新的 Agent 时,我们如何确保这个自进化过程不会脱离控制?论文中单元测试门控和回滚机制是初步的安全网,但距离生产级的安

文章图片
#人工智能#机器学习
Harness Engineering 深度解读:AI Agent 时代的「缰绳与马鞍」

AI Agent时代的工程革命:Harness Engineering深度解析 本文系统阐述了AI工程领域的最新范式——Harness Engineering,一种围绕AI Agent构建的约束与控制系统。通过OpenAI百万行代码实验等典型案例,揭示了当AI具备大规模代码生成能力时,人类工程师的角色从"代码编写者"转变为"环境架构师"的核心转变。 Harn

文章图片
#人工智能#自然语言处理
当 AI 研究员学会了“搜索“,搜索引擎该怎么配合?——深度研究中的文本排序再审视

这篇论文系统比较了不同检索方法在AI深度研究任务中的表现。研究发现,传统的BM25算法在段落级检索中显著优于神经网络方法,但在文档级检索中表现较差。实验使用了5种检索器和3种重排序器,在固定语料库上测试了两个AI Agent的搜索性能。关键发现包括:段落级检索整体优于文档级检索;BM25的表现差异源于文档长度归一化问题;AI Agent的查询风格(含精确匹配和布尔运算)与人类不同,导致神经检索模型

文章图片
#人工智能#搜索引擎
    共 118 条
  • 1
  • 2
  • 3
  • 12
  • 请选择