
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
摘要:中国科学技术大学与上海人工智能实验室联合研究团队针对大模型强化学习(RL)后训练阶段的资源优化问题展开系统性研究,提出三组约束优化问题,揭示了模型性能与参数量、计算量和数据量之间的幂律关系。研究发现:①RL后训练效果遵循统一幂律公式;②学习效率随模型规模增长趋于饱和;③高质量数据总量比样本独特性更关键。该成果已被ACL 2026收录,相关代码已开源。5月12日青稞Talk将直播分享这项关于大

摘要:Harness Engineering——LLM的"操作系统" 全球AI团队正聚焦Harness Engineering,因其作为LLM的"操作系统"直接影响模型表现。实验证明,改进Harness可使同一模型排名从30+跃升至第5。Harness包含11个核心组件:工具调用、分层记忆(短期/中期/长期)、安全护栏、验证反馈及子Agent编排等。典型案例

摘要:Harness Engineering——LLM的"操作系统" 全球AI团队正聚焦Harness Engineering,因其作为LLM的"操作系统"直接影响模型表现。实验证明,改进Harness可使同一模型排名从30+跃升至第5。Harness包含11个核心组件:工具调用、分层记忆(短期/中期/长期)、安全护栏、验证反馈及子Agent编排等。典型案例

摘要:Harness Engineering——LLM的"操作系统" 全球AI团队正聚焦Harness Engineering,因其作为LLM的"操作系统"直接影响模型表现。实验证明,改进Harness可使同一模型排名从30+跃升至第5。Harness包含11个核心组件:工具调用、分层记忆(短期/中期/长期)、安全护栏、验证反馈及子Agent编排等。典型案例

摘要: DeepSeek-V4以1.6万亿参数和百万级上下文窗口的配置引发行业关注,其混合稀疏注意力(CSA+HCA)和FP4专家权重等创新架构带来巨大挑战。SGLang团队在发布当日即完成对DeepSeek-V4的全面支持,通过"ShadowRadix"技术实现异构注意力的高效缓存,并集成FlashInfer TRTLLM-Gen等优化算子,显著提升性能。5月9日,SGLan

摘要: DeepSeek-V4以1.6万亿参数和百万级上下文窗口的配置引发行业关注,其混合稀疏注意力(CSA+HCA)和FP4专家权重等创新架构带来巨大挑战。SGLang团队在发布当日即完成对DeepSeek-V4的全面支持,通过"ShadowRadix"技术实现异构注意力的高效缓存,并集成FlashInfer TRTLLM-Gen等优化算子,显著提升性能。5月9日,SGLan

本文对Claude Code CLI工具的源码进行了深度解析,重点分析其核心运行机制和Memory模块设计。文章首先介绍了Claude Code作为Anthropic开发的命令行AI编程助手的技术栈(Bun/TypeScript/Commander.js等)和项目结构。随后详细阐述了其核心运行流程:从用户输入开始,通过QueryEngine管理对话状态,进入queryLoop()核心循环处理消息准

本文介绍了面向流匹配VLA的强化学习后训练框架π_RL的研究工作。针对基于流匹配的视觉语言动作模型(VLA)在强化学习训练中面临的动作概率计算困难和探索不足问题,研究团队提出了两种创新解决方案:Flow Noise通过引入可学习噪声构建联合概率密度近似策略梯度;Flow SDE则采用双层马尔可夫决策过程耦合动作生成与环境交互。该框架有效解决了传统SFT方法存在的数据成本高、过拟合和性能上限问题,为

青稞社区:https://qingkeai.online/原文:https://mp.weixin.qq.com/s/GDnEIAhUDDaio37Z31Um1A,青稞Talk 第74期,淘天集团未来生活实验室算法专家王维埙博士,爱橙科技智能引擎算法平台大模型强化学习框架工程师熊绍潘,将直播分享《









