Distributional Clarity: The Hidden Driver of RL-Friendliness in Large Language Models

简述:在用强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)训练大语言模型时,不同模型家族存在显著差异:同样的训练流程下,Qwen 系列模型能获得巨大收益,而 Llama 系列则提升有限。这种差异被称为 "RL-Friendliness"(强化学习友好性)

https://github.com/QwenLM/FlashQLA

最新算子库:FlashQLA(Flash Qwen Linear Attention)是 Qwen 团队开源的一个高性能线性注意力算子库,专门为 Qwen3.5/3.6 系列模型中的线性注意力机制做极致的 GPU 加速优化。

FlashQLA 基于 TileLang 构建,通过合理的算子融合和性能优化,作用于 GDN Chunked Prefill 的前向和反向传播,在 NVIDIA Hopper GPU 上相比 FLA Triton kernel 实现了前向 2-3 倍加速、反向 2 倍加速。在预训练场景和边缘侧 Agentic 推理场景中收益尤为明显。 github

FLAFlash Linear Attention

TokUR: Token-Level Uncertainty Estimation for Large Language Model Reasoning

如何在 LLM 做推理时,估计它每一个 token / 每一步推理到底有多不确定,并利用这个不确定性判断答案靠不靠谱,甚至提升推理效果。

它不是训练一个新 reasoning model,而是提出一个 training-free uncertainty estimation 方法:不额外训练模型,只在推理时对模型权重做轻量随机扰动,从扰动后的多个“模型变体”中观察预测分布的变化。论文发表于 arXiv 2025-05-16,方法名 TokUR 来自 Token-level Uncertainty estimation for Reasoning

Logo

免费领 100 小时云算力,进群参与显卡、AI PC 幸运抽奖

更多推荐