logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

别再给AI助理写死记忆规则了:MemSkill让智能体自己学会怎么记

本文提出MemSkill框架,让AI智能体能够自主学习和进化记忆技能,而非依赖预设规则。该系统包含三个核心组件:Controller负责动态选择记忆技能,Executor执行多技能组合操作,Designer通过分析失败案例不断优化技能库。实验表明,在对话、问答和具身任务中,MemSkill均超越现有记忆系统。该研究突破了传统CRUD记忆模式的局限,使智能体能够根据不同场景需求自主发展专业化记忆策略

文章图片
#人工智能#语言模型#深度学习 +1
别再给AI助理写死记忆规则了:MemSkill让智能体自己学会怎么记

本文提出MemSkill框架,让AI智能体能够自主学习和进化记忆技能,而非依赖预设规则。该系统包含三个核心组件:Controller负责动态选择记忆技能,Executor执行多技能组合操作,Designer通过分析失败案例不断优化技能库。实验表明,在对话、问答和具身任务中,MemSkill均超越现有记忆系统。该研究突破了传统CRUD记忆模式的局限,使智能体能够根据不同场景需求自主发展专业化记忆策略

文章图片
#人工智能#语言模型#深度学习 +1
InternAgent-1.5:让AI真正成为科学家——自主科学发现的统一智能体框架

InternAgent-1.5:自主科学发现的新范式 上海人工智能实验室提出的InternAgent-1.5框架突破了传统AI智能体的局限,构建了一个"生成-验证-进化"的闭环系统,使AI能够像人类科学家一样进行长周期的自主研究。该框架包含三个核心子系统:生成子系统负责深度文献分析和假设构建;验证子系统实现实验设计与优化;进化子系统通过长视界记忆实现知识积累和经验迁移。在GPQ

文章图片
#人工智能#大数据#深度学习 +1
让大模型学会“教人做事“:How2Everything从98万网页中挖出35万份操作指南

AI2和华盛顿大学团队推出How2Everything框架,系统评估大模型"教人做事"的能力。该研究从98万网页中自动化挖掘出35万份高质量操作指南,覆盖14个主题领域。创新性地提出"关键失败"评估标准,通过二元判定(可用/不可用)取代传统评分,更精准识别步骤遗漏、危险动作等致命错误。研究还训练出8B参数的How2Judge评估模型,与GPT-5评估一致性达

文章图片
#人工智能#自然语言处理#机器学习 +1
GISA:当最好的AI搜索助手也只有19%准确率

研究人员构建了GISA基准测试,通过结构化答案格式评估AI搜索助手的真实能力。测试发现,即使最先进的Claude 4.5 Sonnet模型准确率仅19.3%,远低于人类专家的78%。GISA揭示了AI在复杂信息搜寻任务中的主要瓶颈:搜索层级错误占比近50%,表现为浅层浏览习惯和深度信息挖掘能力的不足。该研究强调当前AI在整合深度推理与广度聚合、网页导航策略以及信息验证等方面仍存在显著差距,为改进搜

文章图片
#人工智能#服务器#前端 +2
给大模型一本参考书,它反而考得更差了?DeR2揭示RAG推理的致命盲区

摘要 最新研究DeR2揭示了一个反直觉现象:当大语言模型在RAG(检索增强生成)场景下获得完整参考文档时,其推理表现反而比闭卷测试更差。通过构建包含16个学科领域、严格校准难度的评测数据集,研究发现: 在四种控制设定(仅指令/仅概念/仅相关文档/完整文档集)下,14个前沿模型的平均得分呈现"开卷不如闭卷"现象(完整文档51.1% vs 仅指令55.9%) 主要归因于两大问题:推

文章图片
#人工智能#深度学习#语言模型 +1
把简单题“拼“成难题:Composition-RL 如何让大模型越练越聪明

本文提出了一种名为Composition-RL的创新方法,通过将简单数学题拼接组合成复杂题目来提升大模型的推理能力。该方法利用顺序提示词组合(SPC)技术,自动将两道独立数学题合并为一道新题,并保持答案可验证性。实验表明,这种组合显著降低了"全对"样本比例,使训练数据更具挑战性。在多种模型规模(1.5B-30B)的测试中,该方法平均提升8.3个点,在AIME24竞赛题上准确率提

文章图片
#人工智能#深度学习#机器学习
Chain of Mindset:让AI学会像人一样“切换脑回路“

Chain of Mindset (CoM) 提出了一种新型AI推理框架,通过解耦四种思维模式(空间/收敛/发散/算法)并由元代理动态调度,实现了免训练的步级自适应推理。该框架采用三层架构:Meta-Agent作为决策中心,Context Gate进行信息过滤,四种思维专家模块并行工作。实验表明,CoM在6个高难度基准上平均准确率达63.28%,比最优基线提升4.96%,尤其在需要多模态推理的任务

文章图片
#人工智能
Agent World Model:给智能体造一个“矩阵世界“——无限合成环境驱动的强化学习

摘要(149字): AWM提出了一种自动化生成代码驱动合成环境的方法,通过四阶段流程(场景生成→任务生成→环境合成→智能体训练)构建了1000个状态一致的POMDP环境。每个环境包含SQLite数据库、Python工具接口和双重验证模块,采用GRPO算法训练智能体。实验表明,在合成环境训练的智能体能有效泛化至真实场景,在BFCLv3、τ²-bench和MCP-Universe基准上分别提升12.1

文章图片
#矩阵#人工智能#线性代数 +1
SkillRL:让AI智能体学会“练功升级“的递归技能强化学习框架

SkillRL框架摘要 SkillRL提出了一种递归技能增强的强化学习方法,通过将原始交互轨迹蒸馏为可复用的技能卡片(10-20倍压缩率),构建分层技能库(通用+特定任务技能),并与GRPO强化学习协同进化。在ALFWorld和WebShop任务中,该方法超越GPT-4o达41.9%,关键创新在于:(1) 教师模型差异化处理成功/失败轨迹生成技能;(2) 冷启动SFT教会模型使用技能;(3) 训练

文章图片
#人工智能#深度学习#自然语言处理
    共 57 条
  • 1
  • 2
  • 3
  • 6
  • 请选择