2201_75464249 个人主页

@2201_75464249

2201_75464249

2023-08-26 11:16:06 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【清华SRA】Skill Retrieval Augmentation for Agentic AI

但随着可用skills不断扩展，受限的上下文窗口难以支持这种方式，同时模型在面对大量skills时的推理和选择正确性大幅下降。模型本身的参数化知识难以支撑解决更复杂、宽泛的问题，因此需要引入外部的可复用的能力，即skills。：为每个测试实例关联gold skills，类似纯文本检索RAG中的gold documents，便于评估Skill Retrieval的质量和对最终性能的贡献。RAG检索到

#人工智能 #深度学习 #学习

【SkillMaster】Toward Autonomous Skill Mastery in LLM Agents

高质量技能应带来两个可测效果——提高先前失败任务的成功率，以及减少已成功任务的执行步数。创建、更新和选择技能，将技能管理作为可学习的RL目标。技能掌握阶段（Skill-Mastery Phase）执行阶段（Acting Phase），使LLM智能体能够。

#人工智能 #算法 #机器学习

【SLIM】Dynamic Skill Lifecycle Management for Agentic Reinforcement Learning

这两种做法都是单调的，忽略了技能价值随任务阶段变化、模型容量有限等现实约束。最优的活跃技能集应该是非单调的，即某些阶段需要某些技能，某些阶段则不再需要。活跃的外部技能集应被视为一个动态优化变量，与策略学习共同更新。是一个离散集合，需要进行不可微的操作。是一个连续的优化变量，需要用基于梯度的RL；

#人工智能 #深度学习 #学习

SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning

每个skill包括一个简洁的名称（如“系统性探索”）、策略描述，以及何时应用。SkillRL：将agent的原始轨迹蒸馏构建分层skill库，通过递归演化让技能库和策略模型在强化学习中协同进化。提炼失败的教训，明确（1）失败的环节（2）错误的推理或行为（3）本应采取的措施（4）防止类似失败的一般原则。静态技能库无法覆盖所有领域，随着模型能力的提升和向新领域的拓展，原有的技能已经无法提供有效指导。将

#人工智能 #深度学习

【浙大&美团&清华】SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

引入上下文强化学习，结合skill prompting的样本效率和RL的探索能力。，即最终完全无技能。这种线性衰减保证了相邻阶段之间技能集合的差异有界，策略分布变化平滑。通过渐进式的学习，逐步减少对模型的技能引导，将skill内化到模型参数中。阶段retrieve的技能子集大小。该子任务涉及的领域和目标。自适应课程学习，设共。个课程文件，课程分为。

#人工智能 #深度学习

【清华SRA】Skill Retrieval Augmentation for Agentic AI

#人工智能 #深度学习 #学习

【verl】安装

cuDNN：NVIDIA CUDA® Deep Neural Network library，是用于深度神经网络的GPU加速库。文档中的dpkg需要sudo权限；只能手动下载安装cuDNN。有不同版本可以选择Architecture：CPU/GPU 平台x86_64：大多数 PC、笔记本、服务器使用的标准 64 位架构arm64-sbsa → ARM 服务器架构aarch64-jetson →

#学习

【verl】快速入门：在 GSM8K 数据集上进行 PPO 训练

说明当前的目录 xx/Qwen2.5-0.5B-Instruct 并不是一个有效的 Git 仓库，也就是说.git/ 目录可能缺失或被意外删除了。但这里的问题是Git 检测到当前仓库的拥有者（owner）与当前的用户不一致，出于安全考虑拒绝操作。pip不行换conda，conda不行换pip，都出现解决不了的问题就重新创建conda环境，最终不再出现模块缺失报错。反正报错不一样了，就当这个问题解决

#人工智能 #深度学习

到底了