logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【清华SRA】Skill Retrieval Augmentation for Agentic AI

但随着可用skills不断扩展,受限的上下文窗口难以支持这种方式,同时模型在面对大量skills时的推理和选择正确性大幅下降。模型本身的参数化知识难以支撑解决更复杂、宽泛的问题,因此需要引入外部的可复用的能力,即skills。:为每个测试实例关联gold skills,类似纯文本检索RAG中的gold documents,便于评估Skill Retrieval的质量和对最终性能的贡献。RAG检索到

文章图片
#人工智能#深度学习#学习
【SkillMaster】Toward Autonomous Skill Mastery in LLM Agents

高质量技能应带来两个可测效果——提高先前失败任务的成功率,以及减少已成功任务的执行步数。创建、更新和选择技能,将技能管理作为可学习的RL目标。技能掌握阶段(Skill-Mastery Phase)执行阶段(Acting Phase),使LLM智能体能够。

文章图片
#人工智能#算法#机器学习
【SLIM】Dynamic Skill Lifecycle Management for Agentic Reinforcement Learning

这两种做法都是单调的,忽略了技能价值随任务阶段变化、模型容量有限等现实约束。最优的活跃技能集应该是非单调的,即某些阶段需要某些技能,某些阶段则不再需要。活跃的外部技能集应被视为一个动态优化变量,与策略学习共同更新。是一个离散集合,需要进行不可微的操作。是一个连续的优化变量,需要用基于梯度的RL;

文章图片
#人工智能#深度学习#学习
SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning

每个skill包括一个简洁的名称(如“系统性探索”)、策略描述,以及何时应用。SkillRL:将agent的原始轨迹蒸馏构建分层skill库,通过递归演化让技能库和策略模型在强化学习中协同进化。提炼失败的教训,明确(1)失败的环节(2)错误的推理或行为(3)本应采取的措施(4)防止类似失败的一般原则。静态技能库无法覆盖所有领域,随着模型能力的提升和向新领域的拓展,原有的技能已经无法提供有效指导。将

文章图片
#人工智能#深度学习
【浙大&美团&清华】SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

引入上下文强化学习,结合skill prompting的样本效率和RL的探索能力。,即最终完全无技能。这种线性衰减保证了相邻阶段之间技能集合的差异有界,策略分布变化平滑。通过渐进式的学习,逐步减少对模型的技能引导,将skill内化到模型参数中。阶段retrieve的技能子集大小。该子任务涉及的领域和目标。自适应课程学习,设共。个课程文件,课程分为。

文章图片
#人工智能#深度学习
【清华SRA】Skill Retrieval Augmentation for Agentic AI

但随着可用skills不断扩展,受限的上下文窗口难以支持这种方式,同时模型在面对大量skills时的推理和选择正确性大幅下降。模型本身的参数化知识难以支撑解决更复杂、宽泛的问题,因此需要引入外部的可复用的能力,即skills。:为每个测试实例关联gold skills,类似纯文本检索RAG中的gold documents,便于评估Skill Retrieval的质量和对最终性能的贡献。RAG检索到

文章图片
#人工智能#深度学习#学习
【verl】安装

cuDNN:NVIDIA CUDA® Deep Neural Network library, 是用于深度神经网络的GPU加速库。文档中的dpkg需要sudo权限;只能手动下载安装cuDNN。有不同版本可以选择Architecture:CPU/GPU 平台x86_64:大多数 PC、笔记本、服务器 使用的标准 64 位架构arm64-sbsa → ARM 服务器架构aarch64-jetson →

#学习
【verl】快速入门:在 GSM8K 数据集上进行 PPO 训练

说明当前的目录 xx/Qwen2.5-0.5B-Instruct 并不是一个有效的 Git 仓库,也就是说.git/ 目录可能缺失或被意外删除了。但这里的问题是Git 检测到当前仓库的拥有者(owner)与当前的用户不一致,出于安全考虑拒绝操作。pip不行换conda,conda不行换pip,都出现解决不了的问题就重新创建conda环境,最终不再出现模块缺失报错。反正报错不一样了,就当这个问题解决

#人工智能#深度学习
到底了