木枷个人主页

@weixin_52319505

木枷

2023-02-16 10:20:30 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

LLama-factory数据报错

查看终端，这里有更详细的报错信息。

#人工智能 #机器学习

AIConfigurator: Lightning-Fast Configuration Optimization for Multi-FrameworkLLM Serving

优化生产系统中的大语言模型（LLM）推理正变得越来越困难，因为实际负载具有动态变化性，系统又需要满足严格的延迟与吞吐目标，同时可选配置空间也在快速扩大。这种复杂性不仅体现在分布式并行策略上，例如张量并行、流水线并行和专家并行【distributed parallelism strategies (tensor/pipeline/expert)】，也体现在复杂的框架特定运行时参数上。

#人工智能 #语言模型

AREAL-DTA: Dynamic Tree Attention for EfficientReinforcement Learning of Large Language Models

基于强化学习（RL）的大语言模型（LLM）后训练【post-training】计算成本很高，因为它会生成大量 rollout 序列，而这些序列经常可能共享很长的 token 前缀。现有的 RL 框架通常会独立处理这些序列，在策略模型训练的前向传播和反向传播过程【forward and backward passes】中反复重新计算相同的前缀，从而造成大量计算和内存使用上的低效。

#语言模型 #人工智能 #深度学习

投机解码、异步训练

它想用 sparse attention 加速 RL rollout，但发现 naive sparse rollout 会把 RL 训练搞崩；所以提出 DISTILLSPARSE，用 LoRA distillation + reward-aware oversampling/filtering 来让 sparse rollout 接近 dense policy。它是 ICLR 2026 SPOT

它不是人工指定“therefore / wait / however”这些词，而是先用模型输出分布的entropy找关键位置。具体地，对 trajectory：在每个 timestep，计算模型在当前 state下对下一个 token 分布的 Shannon entropy：然后选 entropy 最高的 top-k 个位置，把这些位置生成出来的 token 当作。

#人工智能

AREAL: A Large-Scale Asynchronous ReinforcementLearning System for Language Reasoning

强化学习（RL）已成为训练大语言模型（LLM）的一种流行范式，尤其在推理任务方面表现突出。面向 LLM 的高效强化学习需要大规模并行化，对高效训练系统提出了迫切的需求。现有的大多数大规模 LLM 强化学习系统都是同步式的，在批处理设置下交替执行生成与训练，每个训练批次中的 rollout 都由同一个（或最新的）模型生成。这种方式虽然能够稳定强化学习训练，但存在严重的系统级低效问题。在模型更新之前，

#人工智能

rl/swe/sft相关论文列表

简述：在用强化学习（Reinforcement Learning with Verifiable Rewards, RLVR）训练大语言模型时，不同模型家族存在显著差异：同样的训练流程下，Qwen 系列模型能获得巨大收益，而 Llama 系列则提升有限。

#深度学习 #人工智能

SuffixDecoding: Extreme Speculative Decoding forEmerging AI Applications

推测解码被广泛用于降低大语言模型（LLM）推理延迟，其核心是利用能够处理多样化用户任务的小型草稿模型。然而，新兴的 AI 应用（如基于 LLM 的智能体）呈现出独特的工作负载特征：与多样化的独立请求不同，智能体框架通常会提交高度重复的推理请求，例如执行相似子任务的多智能体流水线，或反复迭代优化输出的自我精炼循环。这些工作负载产生了长而高度可预测的 token 序列，而现有的推测解码方法无法有效利用

#人工智能

KIMI-DEV: AGENTLESS TRAINING AS SKILL PRIORFOR SWE-AGENTS

该任务本身的高难度（以基准提出时的标准而言）、所提供的自动评测框架[auto-eval harness]带来的结果奖励信号的存在，以及其所反映的现实经济价值，共同使 SWE-bench 成为该领域的焦点。以 SWE-Agent（Yang et al., 2024a）和 OpenHands（Wang et al., 2025a）为代表的基于智能体的解决方案采用交互主义路径：在任务描述、可用工具集及具

#软件工程 #人工智能

共 22 条

请选择