
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
11月22日上午10点,青稞社区联合趋境科技举办第91期青稞Talk,邀请清华大学章明星副教授和KTransformers核心开发者李沛霖,分享大模型微调与推理的系统化实践。面对大模型显存与带宽瓶颈,KTransformers通过GPU+CPU异构协同,实现低成本高性能的百亿/万亿级模型本地化部署。内容涵盖LoRA微调、AMX加速等核心技术,并演示在LLaMA-Factory与SGLang的端到端

青稞Talk第100期特辑:2025 AI嘉年华邀您共话前沿 12月28日,青稞社区将举办青年科学家专场活动,集结20+学术与工业界AI专家,围绕2025年技术进展与2026年趋势展开深度对话。活动特设Infra专题,由新加坡国立大学万信逸博士主持,清华大学章明星、vLLM核心开发者游凯超等嘉宾参与研讨。 亮点环节:开放AMA提问,涵盖RL训练稳定性、具身智能落地等热点议题。扫码入群提交问题,优质

关注青稞AI,学习最新AI技术

摘要: Moonshot AI 发布的开源 MoE 模型 Kimi K2(1万亿参数,384专家)在 Agent 任务、数学、编程 等场景表现优异。针对其大规模部署挑战,团队结合 OME 和 SGLang 提出优化方案: Prefill-Decode 解耦:分离计算密集型与延迟敏感型任务,支持独立扩展。 大规模专家并行(EP):在 128 张 H200 GPU 上部署,通过动态路由与负载均衡提升效

工具是我们框架的关键组件,它支持环境交互,例如执行脚本、查询 API 或计算奖励。要集成自定义工具,您可以在单独的 YAML 文件中定义其行为,并在部署配置中引用该文件。每个工具必须为子类BaseTool:每次推出时初始化工具状态。:执行工具的核心功能(例如,评估输出)。:根据工具状态和交互计算奖励。:清理所有分配的资源。

本文对Claude Code CLI工具的源码进行了深度解析,重点分析其核心运行机制和Memory模块设计。文章首先介绍了Claude Code作为Anthropic开发的命令行AI编程助手的技术栈(Bun/TypeScript/Commander.js等)和项目结构。随后详细阐述了其核心运行流程:从用户输入开始,通过QueryEngine管理对话状态,进入queryLoop()核心循环处理消息准

摘要:随着大语言模型从单轮问答转向持续交互应用,主动推理能力成为

OpenClaw-RL:对话式训练工业级智能体的强化学习框架 OpenClaw-RL是首个通过自然对话自动训练工业级智能体的强化学习库,实现了从交互中持续进化的能力。该框架采用全异步架构(Slime/Tinker),深度解耦应用、推理与训练模块,确保学习不影响响应速度。创新性地提出混合强化学习方法,结合二元奖励(提供覆盖度)和在线蒸馏(提供精确度),实验显示混合方法评分达0.81,显著优于单一方法

本文系统梳理了大语言模型强化学习(RL4LLM)的技术演进路径,划分为全量词元优化和部分词元优化两大方向。全量词元优化以GRPO为起点,经DAPO、GSPO到SAPO逐步提升训练稳定性;部分词元优化则聚焦关键词元,如Beyond the 80/20筛选高熵词元,STAPO精准剔除0.01%的虚假词元。研究表明,从"全量覆盖"到"精细筛选"的范式转变,能显著提

RLinf开源框架填补了具身智能领域大规模强化学习训练系统的空白。该框架基于"宏-微流转换"(M2Flow)创新设计,通过自适应通信、上下文切换与弹性流水线技术,在推理和具身任务中实现1.1-2.13倍的训练吞吐提升。11月25日晚8点,核心开发者林灏将在青稞Talk第92期详解系统设计与应用实践。直播将通过视频号/B站进行,欢迎预约观看。








