
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
当我们将目光投向 多模态大模型(VLM) 时,RL 的研究正展现出巨大的想象空间与学术潜力。

摘要:本文探讨了大语言模型(LLM)中离群值(Outliers)的存在意义及其与Attention机制的关系。研究发现,离群值主要出现在前几个token中,对模型性能至关重要,移除会导致灾难性性能下降。从Attention机制角度分析,这些离群值与RoPE位置编码密切相关,是模型处理长文本依赖的关键机制。离群值帮助模型在RoPE干扰下保持远程召回能力,低频分量维度的大信号导致离群值出现。研究还发现

摘要 MiniMax M2.1是基于M2模型优化后的开源MoE模型,参数规模230B,在Agent场景下表现出色。技术分享重点介绍了Agentic数据合成方法,包括:1)利用GitHub PR/Commit构建可验证的SWE任务,通过Docker环境验证Bugfix等功能;2)专家驱动的AppDev数据合成,结合专业经验优化全栈开发任务;3)虚拟长程任务合成。M2.1在多语言SWE任务上表现优异,

act2Fiction这篇非常有意思的工作。这篇来自香港浸会大学,香港大学,微软合作的团队最新论文,**被人工智能领域国际会议The 40th Annual AAAI Conference on Artificial Intelligence(AAAI 2026)接收为Oral**,直击SOTA的AI事实核查系统的致命弱点。

摘要:本文系统梳理了大模型强化学习(RL)算法的演进历程,从理论基石TRPO到实用算法PPO、GRPO、GSPO,再到最新融合创新算法SAPO。TRPO奠定了KL散度约束的理论基础,PPO通过裁剪机制实现平衡优化,GRPO创新性地舍弃价值模型,GSPO提升至序列级优化解决稳定性问题。SAPO则通过软门控机制和自适应温度控制,在保持稳定性的同时提升样本效率。1月10日青稞Talk第102期将邀请通义

slime是一个在灵活性、效率和可扩展性方面都表现卓越的 RL 框架,旨在解决强化学习中的常见瓶颈,并针对复杂的智能体任务做了优化。这种整体化的设计使得 slime 能够无缝集成多个智能体框架,支持各种任务类型,并通过统一而强大的接口高效管理长序列环境交互。,青稞Talk 第68期,智谱 AI RL Infra 工程师、slime 开源项目作者朱子霖,将直播分享《

verl 是字节跳动豆包大模型团队与香港大学联合提出的一个灵活且高效的 RL/RLHF 框架,是当前最为流行的大型语言模型强化学习训练框架之一,其基于 HybridFlow 编程范式,兼顾了灵活性和效率。该框架采用混合编程模型,融合单控制器(Single-Controller)的灵活性和多控制器(Multi-Controller)的高效性,可更好实现和执行多种RL算法,显著提升训练吞吐量,降低开发
Fast-dLLM v2 旨在通过高效块扩散架构突破大模型推理的速度瓶颈。

摘要: Moonshot AI 发布的开源 MoE 模型 Kimi K2(1万亿参数,384专家)在 Agent 任务、数学、编程 等场景表现优异。针对其大规模部署挑战,团队结合 OME 和 SGLang 提出优化方案: Prefill-Decode 解耦:分离计算密集型与延迟敏感型任务,支持独立扩展。 大规模专家并行(EP):在 128 张 H200 GPU 上部署,通过动态路由与负载均衡提升效

关注青稞AI,学习最新AI技术








