logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

SWE-smith: Scaling Data for Software Engineering Agents

摘要:本文提出SWE-smith工具包,用于自动化生成大规模软件工程训练数据。针对现有数据集规模小、构建成本高的问题,SWE-smith通过四种自动缺陷生成策略(语言模型重写、AST修改、PR撤销、缺陷组合),在128个Python代码库中生成5万条任务实例,规模比现有工作大一个数量级。该工具仅需20小时人工投入,显著降低了数据收集成本。基于SWE-smith数据训练的32B参数模型SWE-age

#软件工程#人工智能
Online Process Reward Learning for Agentic Reinforcement Learning

大型语言模型(LLM)越来越多地通过强化学习(RL)被训练为,能够在交互式环境中进行长期推理和行动。然而,稀疏且有时无法验证的奖励使得变得极具挑战性。最近的研究尝试将过程监督整合到智能体学习中,但存在导致的高方差,以及在状态重叠罕见时失效等问题。因此,我们提出了,这是一种通用的智能体RL信用分配策略[credit-assignment strategy],能够无缝集成到标准在策略(on-polic

#深度学习#机器学习#人工智能
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

值得注意的是,OpenAI-o1(Jaech et al., 2024)和DeepSeek-R1(Guo et al., 2025)等模型已利用RL技术(如PPO(Schulman et al., 2017)和GRPO(Shao et al., 2024))通过从经验和反馈中学习来提升逻辑推理和问题解决能力。通过RL,即使仅基于结果奖励进行训练,模型也能学习到复杂的推理能力,包括自我验证(Weng

#人工智能
skyRL-Agent

SKYRL-AGENT框架:高效多轮LLM智能体训练系统 本文介绍了SKYRL-AGENT框架,这是一个专门为多轮、长时域智能体训练优化的高效系统。该框架通过三个创新设计实现性能突破: 模块化架构:采用工具中心的智能体循环设计,支持动态工具注册和灵活任务集成,最小化代码修改需求。 异步调度系统:创新的异步流水线调度器实现1.55倍加速,通过重叠CPU/GPU操作显著提升硬件利用率。 后端无关性:支

#人工智能
NExT: Teaching Large Language Models toReason about Code Execution

​人类开发者的一项基本技能是理解和推理程序的执行过程。例如,程序员可以通过用自然语言在脑海中模拟代码执行来进行调试和修复代码 debug and repair code(即所谓的"橡皮鸭调试" "rubber duck debugging")。然而,代码的大语言模型(LLMs)通常仅基于程序的表面文本形式进行训练,因此可能缺乏对程序运行时语义的理解。​​但这些方法都需要特定的任务架构或者人工制作的

#语言模型#人工智能#自然语言处理
GPIoT 解读

GPIoT: Tailoring Small Language Models for IoT Program Synthesis and Development摘要大意:现有的代码大型语言模型(如WizardCoder和CodeLlama)无法较好完成IoT领域的代码生成任务,因为它们主要针对通用编程任务进行训练,IoT相关知识在其训练数据中占比很小。此外,使用云端LLMs(如GPT-4)进行Io

文章图片
#人工智能
    共 12 条
  • 1
  • 2
  • 请选择