logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

直播预告!下周二晚8点,一起聊聊大模型强化学习的 Scaling Law

摘要:中国科学技术大学与上海人工智能实验室联合研究团队针对大模型强化学习(RL)后训练阶段的资源优化问题展开系统性研究,提出三组约束优化问题,揭示了模型性能与参数量、计算量和数据量之间的幂律关系。研究发现:①RL后训练效果遵循统一幂律公式;②学习效率随模型规模增长趋于饱和;③高质量数据总量比样本独特性更关键。该成果已被ACL 2026收录,相关代码已开源。5月12日青稞Talk将直播分享这项关于大

文章图片
#人工智能#深度学习#机器学习
干货!什么是 Harness Engineering?运转原理又是怎样的?

摘要:Harness Engineering——LLM的"操作系统" 全球AI团队正聚焦Harness Engineering,因其作为LLM的"操作系统"直接影响模型表现。实验证明,改进Harness可使同一模型排名从30+跃升至第5。Harness包含11个核心组件:工具调用、分层记忆(短期/中期/长期)、安全护栏、验证反馈及子Agent编排等。典型案例

文章图片
#java#数据库#前端
干货!什么是 Harness Engineering?运转原理又是怎样的?

摘要:Harness Engineering——LLM的"操作系统" 全球AI团队正聚焦Harness Engineering,因其作为LLM的"操作系统"直接影响模型表现。实验证明,改进Harness可使同一模型排名从30+跃升至第5。Harness包含11个核心组件:工具调用、分层记忆(短期/中期/长期)、安全护栏、验证反馈及子Agent编排等。典型案例

文章图片
#java#数据库#前端
干货!什么是 Harness Engineering?运转原理又是怎样的?

摘要:Harness Engineering——LLM的"操作系统" 全球AI团队正聚焦Harness Engineering,因其作为LLM的"操作系统"直接影响模型表现。实验证明,改进Harness可使同一模型排名从30+跃升至第5。Harness包含11个核心组件:工具调用、分层记忆(短期/中期/长期)、安全护栏、验证反馈及子Agent编排等。典型案例

文章图片
#java#数据库#前端
直播预告!和SGLang核心开发者一起聊聊 DeepSeek V4 模型在 SGLang 中的系统级优化与全栈适配

摘要: DeepSeek-V4以1.6万亿参数和百万级上下文窗口的配置引发行业关注,其混合稀疏注意力(CSA+HCA)和FP4专家权重等创新架构带来巨大挑战。SGLang团队在发布当日即完成对DeepSeek-V4的全面支持,通过"ShadowRadix"技术实现异构注意力的高效缓存,并集成FlashInfer TRTLLM-Gen等优化算子,显著提升性能。5月9日,SGLan

文章图片
#人工智能
直播预告!和SGLang核心开发者一起聊聊 DeepSeek V4 模型在 SGLang 中的系统级优化与全栈适配

摘要: DeepSeek-V4以1.6万亿参数和百万级上下文窗口的配置引发行业关注,其混合稀疏注意力(CSA+HCA)和FP4专家权重等创新架构带来巨大挑战。SGLang团队在发布当日即完成对DeepSeek-V4的全面支持,通过"ShadowRadix"技术实现异构注意力的高效缓存,并集成FlashInfer TRTLLM-Gen等优化算子,显著提升性能。5月9日,SGLan

文章图片
#人工智能
Claude Code 源码深度解析:运行机制与 Memory 模块详解

本文对Claude Code CLI工具的源码进行了深度解析,重点分析其核心运行机制和Memory模块设计。文章首先介绍了Claude Code作为Anthropic开发的命令行AI编程助手的技术栈(Bun/TypeScript/Commander.js等)和项目结构。随后详细阐述了其核心运行流程:从用户输入开始,通过QueryEngine管理对话状态,进入queryLoop()核心循环处理消息准

文章图片
#elasticsearch#大数据#搜索引擎 +1
VLA 的强化学习后训练框架π_RL详解

本文介绍了面向流匹配VLA的强化学习后训练框架π_RL的研究工作。针对基于流匹配的视觉语言动作模型(VLA)在强化学习训练中面临的动作概率计算困难和探索不足问题,研究团队提出了两种创新解决方案:Flow Noise通过引入可学习噪声构建联合概率密度近似策略梯度;Flow SDE则采用双层马尔可夫决策过程耦合动作生成与环境交互。该框架有效解决了传统SFT方法存在的数据成本高、过拟合和性能上限问题,为

文章图片
#人工智能
本周六上午!一起聊聊ROLL:面向 Agentic 场景的生产级大规模强化学习训练框架

青稞社区:https://qingkeai.online/原文:https://mp.weixin.qq.com/s/GDnEIAhUDDaio37Z31Um1A,青稞Talk 第74期,淘天集团未来生活实验室算法专家王维埙博士,爱橙科技智能引擎算法平台大模型强化学习框架工程师熊绍潘,将直播分享《

文章图片
#人工智能
    共 112 条
  • 1
  • 2
  • 3
  • 12
  • 请选择