rl/swe/sft相关论文列表

木枷

57人浏览 · 2026-04-29 21:32:09

木枷 · 2026-04-29 21:32:09 发布

Distributional Clarity: The Hidden Driver of RL-Friendliness in Large Language Models

简述：在用强化学习（Reinforcement Learning with Verifiable Rewards, RLVR）训练大语言模型时，不同模型家族存在显著差异：同样的训练流程下，Qwen 系列模型能获得巨大收益，而 Llama 系列则提升有限。这种差异被称为 "RL-Friendliness"（强化学习友好性）。

https://github.com/QwenLM/FlashQLA

最新算子库：FlashQLA（Flash Qwen Linear Attention）是 Qwen 团队开源的一个高性能线性注意力算子库，专门为 Qwen3.5/3.6 系列模型中的线性注意力机制做极致的 GPU 加速优化。

FlashQLA 基于 TileLang 构建，通过合理的算子融合和性能优化，作用于 GDN Chunked Prefill 的前向和反向传播，在 NVIDIA Hopper GPU 上相比 FLA Triton kernel 实现了前向 2-3 倍加速、反向 2 倍加速。在预训练场景和边缘侧 Agentic 推理场景中收益尤为明显。 github

（FLA 即 Flash Linear Attention）

TokUR: Token-Level Uncertainty Estimation for Large Language Model Reasoning

如何在 LLM 做推理时，估计它每一个 token / 每一步推理到底有多不确定，并利用这个不确定性判断答案靠不靠谱，甚至提升推理效果。

它不是训练一个新 reasoning model，而是提出一个 training-free uncertainty estimation 方法：不额外训练模型，只在推理时对模型权重做轻量随机扰动，从扰动后的多个“模型变体”中观察预测分布的变化。论文发表于 arXiv 2025-05-16，方法名 TokUR 来自 Token-level Uncertainty estimation for Reasoning。

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

VLLMService Operator 开发第六篇：给模型服务增加 Service 自动创建能力

做到这里，VLLMService Operator 已经不只是创建 Deployment 了，它开始具备完整服务编排的雏形。-> Pod-> Pod-> Service这一步非常关键，因为 Service 是后续接入流量入口的基础。没有 Service，HTTPRoute 就没有稳定的后端目标；-> Pod-> Service-> Gateway也就是说，Service 是从“模型 Pod 能跑起

AMD开发者中国社区

VLLMService Operator 开发第五篇：部署 Operator 并验证模型服务

存储准备完成后，就可以创建 VLLMService 资源了。metadata:spec:labels:port: 8000resources:requests:cpu: "2"limits:cpu: "4"storage:这里需要明确一点：VLLMService 本身只是用户声明的期望状态，它并不会直接运行模型。真正运行模型的是 Operator 根据这个 VLLMService 自动创建出来的

AMD开发者中国社区

Higress v2.2.3 发布：AI Gateway 能力增强，Gateway API 及其推理扩展持续打磨

Higress v2.2.3 版本发布，带来多项核心更新：新增 AI Gateway 的 vLLM 协议透传和上下文限制插件，增强 AI 安全防护与负载均衡；优化 Gateway API 隔离与推理路由配置；改进 Ingress 迁移体验；加固安全认证组件与 TLS 校验；修复多项 Console 问题。社区层面，Higress 正式入驻 CNCF Sandbox。