logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AIConfigurator: Lightning-Fast Configuration Optimization for Multi-FrameworkLLM Serving

优化生产系统中的大语言模型(LLM)推理正变得越来越困难,因为实际负载具有动态变化性,系统又需要满足严格的延迟与吞吐目标,同时可选配置空间也在快速扩大。这种复杂性不仅体现在分布式并行策略上,例如张量并行、流水线并行和专家并行【distributed parallelism strategies (tensor/pipeline/expert)】,也体现在复杂的框架特定运行时参数上。

#人工智能#语言模型
AREAL-DTA: Dynamic Tree Attention for EfficientReinforcement Learning of Large Language Models

基于强化学习(RL)的大语言模型(LLM)后训练【post-training】计算成本很高,因为它会生成大量 rollout 序列,而这些序列经常可能共享很长的 token 前缀。现有的 RL 框架通常会独立处理这些序列,在策略模型训练的前向传播和反向传播过程【forward and backward passes】中反复重新计算相同的前缀,从而造成大量计算和内存使用上的低效。

#语言模型#人工智能#深度学习
投机解码、异步训练

它想用 sparse attention 加速 RL rollout,但发现 naive sparse rollout 会把 RL 训练搞崩;所以提出 DISTILLSPARSE,用 LoRA distillation + reward-aware oversampling/filtering 来让 sparse rollout 接近 dense policy。它是 ICLR 2026 SPOT

#机器学习#深度学习#人工智能
投机解码、异步训练

它想用 sparse attention 加速 RL rollout,但发现 naive sparse rollout 会把 RL 训练搞崩;所以提出 DISTILLSPARSE,用 LoRA distillation + reward-aware oversampling/filtering 来让 sparse rollout 接近 dense policy。它是 ICLR 2026 SPOT

#机器学习#深度学习#人工智能
截断、陈旧度、kv cache利用率

它不是人工指定“therefore / wait / however”这些词,而是先用模型输出分布的entropy找关键位置。具体地,对 trajectory:在每个 timestep,计算模型在当前 state下对下一个 token 分布的 Shannon entropy:然后选 entropy 最高的 top-k 个位置,把这些位置生成出来的 token 当作。

#人工智能
AREAL: A Large-Scale Asynchronous ReinforcementLearning System for Language Reasoning

强化学习(RL)已成为训练大语言模型(LLM)的一种流行范式,尤其在推理任务方面表现突出。面向 LLM 的高效强化学习需要大规模并行化,对高效训练系统提出了迫切的需求。现有的大多数大规模 LLM 强化学习系统都是同步式的,在批处理设置下交替执行生成与训练,每个训练批次中的 rollout 都由同一个(或最新的)模型生成。这种方式虽然能够稳定强化学习训练,但存在严重的系统级低效问题。在模型更新之前,

#人工智能
rl/swe/sft相关论文列表

简述:在用强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)训练大语言模型时,不同模型家族存在显著差异:同样的训练流程下,Qwen 系列模型能获得巨大收益,而 Llama 系列则提升有限。

#深度学习#人工智能
SuffixDecoding: Extreme Speculative Decoding forEmerging AI Applications

推测解码被广泛用于降低大语言模型(LLM)推理延迟,其核心是利用能够处理多样化用户任务的小型草稿模型。然而,新兴的 AI 应用(如基于 LLM 的智能体)呈现出独特的工作负载特征:与多样化的独立请求不同,智能体框架通常会提交高度重复的推理请求,例如执行相似子任务的多智能体流水线,或反复迭代优化输出的自我精炼循环。这些工作负载产生了长而高度可预测的 token 序列,而现有的推测解码方法无法有效利用

#人工智能
KIMI-DEV: AGENTLESS TRAINING AS SKILL PRIORFOR SWE-AGENTS

该任务本身的高难度(以基准提出时的标准而言)、所提供的自动评测框架[auto-eval harness]带来的结果奖励信号的存在,以及其所反映的现实经济价值,共同使 SWE-bench 成为该领域的焦点。以 SWE-Agent(Yang et al., 2024a)和 OpenHands(Wang et al., 2025a)为代表的基于智能体的解决方案采用交互主义路径:在任务描述、可用工具集及具

#软件工程#人工智能
neo4j linux上安装与配置

下载 neo4j-community-3.5.13-unix.tar.gz 和 openjdk-11.0.0.2_linux-x64.tar.gz。注意这里要填入你自己将下载文件解压后的路径。生效后,我们可以测试Java。

文章图片
#neo4j#linux#运维
    共 23 条
  • 1
  • 2
  • 3
  • 请选择