logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AREAL: A Large-Scale Asynchronous ReinforcementLearning System for Language Reasoning

强化学习(RL)已成为训练大语言模型(LLM)的一种流行范式,尤其在推理任务方面表现突出。面向 LLM 的高效强化学习需要大规模并行化,对高效训练系统提出了迫切的需求。现有的大多数大规模 LLM 强化学习系统都是同步式的,在批处理设置下交替执行生成与训练,每个训练批次中的 rollout 都由同一个(或最新的)模型生成。这种方式虽然能够稳定强化学习训练,但存在严重的系统级低效问题。在模型更新之前,

#人工智能
rl/swe/sft相关论文列表

简述:在用强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)训练大语言模型时,不同模型家族存在显著差异:同样的训练流程下,Qwen 系列模型能获得巨大收益,而 Llama 系列则提升有限。

#深度学习#人工智能
SuffixDecoding: Extreme Speculative Decoding forEmerging AI Applications

推测解码被广泛用于降低大语言模型(LLM)推理延迟,其核心是利用能够处理多样化用户任务的小型草稿模型。然而,新兴的 AI 应用(如基于 LLM 的智能体)呈现出独特的工作负载特征:与多样化的独立请求不同,智能体框架通常会提交高度重复的推理请求,例如执行相似子任务的多智能体流水线,或反复迭代优化输出的自我精炼循环。这些工作负载产生了长而高度可预测的 token 序列,而现有的推测解码方法无法有效利用

#人工智能
KIMI-DEV: AGENTLESS TRAINING AS SKILL PRIORFOR SWE-AGENTS

该任务本身的高难度(以基准提出时的标准而言)、所提供的自动评测框架[auto-eval harness]带来的结果奖励信号的存在,以及其所反映的现实经济价值,共同使 SWE-bench 成为该领域的焦点。以 SWE-Agent(Yang et al., 2024a)和 OpenHands(Wang et al., 2025a)为代表的基于智能体的解决方案采用交互主义路径:在任务描述、可用工具集及具

#软件工程#人工智能
neo4j linux上安装与配置

下载 neo4j-community-3.5.13-unix.tar.gz 和 openjdk-11.0.0.2_linux-x64.tar.gz。注意这里要填入你自己将下载文件解压后的路径。生效后,我们可以测试Java。

文章图片
#neo4j#linux#运维
KIMI-DEV: AGENTLESS TRAINING AS SKILL PRIORFOR SWE-AGENTS

该任务本身的高难度(以基准提出时的标准而言)、所提供的自动评测框架[auto-eval harness]带来的结果奖励信号的存在,以及其所反映的现实经济价值,共同使 SWE-bench 成为该领域的焦点。以 SWE-Agent(Yang et al., 2024a)和 OpenHands(Wang et al., 2025a)为代表的基于智能体的解决方案采用交互主义路径:在任务描述、可用工具集及具

#软件工程#人工智能
Training Software Engineering Agents and Verifiers with SWE-Gym

本文介绍了SWE-Gym,这是一个创新的软件工程训练环境,包含2,438个真实Python任务实例,每个都配有可执行环境、单元测试和自然语言描述。研究通过SWE-Gym训练语言模型智能体,在SWE-Bench基准测试上取得了最高19%的性能提升。结合验证器模型,系统最终在SWE-Bench Verified和Lite测试集上分别达到32.0%和26.0%的解决率,创下开放权重系统的新记录。该研究突

#软件工程#人工智能
SWE-smith: Scaling Data for Software Engineering Agents

摘要:本文提出SWE-smith工具包,用于自动化生成大规模软件工程训练数据。针对现有数据集规模小、构建成本高的问题,SWE-smith通过四种自动缺陷生成策略(语言模型重写、AST修改、PR撤销、缺陷组合),在128个Python代码库中生成5万条任务实例,规模比现有工作大一个数量级。该工具仅需20小时人工投入,显著降低了数据收集成本。基于SWE-smith数据训练的32B参数模型SWE-age

#软件工程#人工智能
Online Process Reward Learning for Agentic Reinforcement Learning

大型语言模型(LLM)越来越多地通过强化学习(RL)被训练为,能够在交互式环境中进行长期推理和行动。然而,稀疏且有时无法验证的奖励使得变得极具挑战性。最近的研究尝试将过程监督整合到智能体学习中,但存在导致的高方差,以及在状态重叠罕见时失效等问题。因此,我们提出了,这是一种通用的智能体RL信用分配策略[credit-assignment strategy],能够无缝集成到标准在策略(on-polic

#深度学习#机器学习#人工智能
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

值得注意的是,OpenAI-o1(Jaech et al., 2024)和DeepSeek-R1(Guo et al., 2025)等模型已利用RL技术(如PPO(Schulman et al., 2017)和GRPO(Shao et al., 2024))通过从经验和反馈中学习来提升逻辑推理和问题解决能力。通过RL,即使仅基于结果奖励进行训练,模型也能学习到复杂的推理能力,包括自我验证(Weng

#人工智能
    共 19 条
  • 1
  • 2
  • 请选择