国产算力部署大模型神器—Chitu 首场Meetup，携国产算力生态伙伴，GOSIM 杭州首次齐亮相！

在大模型技术加速产业变革的当下，国产算力生态呈现百花齐放态势，但多种硬件生态带来的推理适配挑战日益凸显，企业和模型发布者面临优化困境，开发者陷入重复开发的循环。本次 Chitu Meetup，来自清华大学的核心开发者将分享大模型推理前沿技术，清程极智多位技术专家将分享 Chitu 项目最新技术成果，并聚焦 Chitu 应用交付与部署，分享实际操作经验与 Chitu 项目最佳实践，同时本次 Chit

CSDN资讯

616人浏览 · 2025-09-10 14:39:25

CSDN资讯 · 2025-09-10 14:39:25 发布

亲爱的开发者们，关注大模型部署与国产算力生态的同学们注意啦！在 AI 技术全面落地、国产算力迅猛崛起的关键时期，一款专为国产硬件优化的大模型推理引擎——Chitu（赤兔），终于迎来它的首场线下技术 Meetup！

9 月 13-14 日，由 GOSIM 全球开源创新汇主办、CSDN 承办的 GOSIM HANGZHOU 2025 将在杭州白金汉爵大酒店（西湖区）正式举行。

在大模型技术加速产业变革的当下，国产算力生态呈现百花齐放态势，但多种硬件生态带来的推理适配挑战日益凸显，企业和模型发布者面临优化困境，开发者陷入重复开发的循环。由清程极智联合清华大学团队联合开源的——Chitu 推理引擎，搭建起不同模型与国产算力之间的高效适配桥梁，为开发者提供利用国产算力从模型适配到部署落地的全链路工具支持，显著降低适配门槛与成本，因此自开源以来受到了多方关注。

本次 Chitu Meetup，来自清华大学的核心开发者将分享大模型推理前沿技术，清程极智多位技术专家将分享 Chitu 项目最新技术成果，并聚焦 Chitu 应用交付与部署，分享实际操作经验与 Chitu 项目最佳实践，同时本次 Chitu Meetup 也邀请了多位国产算力行业专家和从业者，他们将从自身业务出发,分享在不同业务场景下的实际应用。

开发者将在此次 Chitu Meetup 中进一步了解关于 Chitu 在国产化推理适配中的技术实践，同时有机会与同行、专家、开发者等进行一对一地深入交流，共同推动国产算力生态协同创新。欢迎扫描下方二维码报名参与。

【活动亮点抢先看】

看细节！清程技术专家将详细分解 Chitu 部署步骤，你将轻松 Get 利用 Chitu 在国产算力上部署大模型的方法；
来交流！有机会与 Chitu 项目多位代码贡献者进行一对一交流；
谈业务！有机会与模型厂商、云计算、开源社区、国产算力相关负责人现场开谈业务；
有参照！详细了解 Chitu 在多平台的部署和实际运用情况；
拿礼物！签到者即得 Chitu 定制文化衫。

议题及嘉宾详情

何万青，清程极智 VP，CIO

何万青，博士、清程极智 VP，原英特尔首席工程师，阿里云高性能计算负责人。何博士是业内著名高性能计算和 AI 领域资深专家，在并行计算、云计算与 AI 领域有 20 年的从业经验，在英特尔时专注于并行优化、异构计算和并行文件系统，负责天河 2 号超级计算机核心 > 异构众核 MIC 集成开发、从零到一研发阿里云弹性高性能计算 EHPC 与 SCC 超级计算集群产品，领导疫情期间阿里云对全球的 COVID-19 科技抗疫支持。在燧原科技和清程极智，负责国产 AI 算力应用优化和开箱即用技术生态建设。何博士是十余年 CCF 资深志愿者、荣誉委员，历任 CCF YOCSEF 总部副主席，高专委执委和青工委等诸多位置上服务 CCF，CCF 杰出讲者，近年主要负责 CNCC，YEF，CED 等组委。2025 年开始主持 CCF Talk-show，热心科技科普，近三年与家人出版 6 部科普作品，有公众号《四维碎片》。

唐适之，清程极智联合创始人

唐适之，清华大学博士，清程极智联合创始人，负责清程极智训练推理框架、算子优化等各类技术研发。唐适之的主要学术研究领域包括面向 GPU 等加速器的编译优化，代表工作为 FreeTensor 编程框架。

《赤兔的前世今生和未来》

赤兔推理引擎是在开源社区活跃开发中的支持多元算力的大模型推理引擎。本报告介绍赤兔推理引擎的诞生历史、技术演进与未来构想。

张闰清，清华大学学生

张闰清，清华大学计算机科学与技术学院博士二年级学生。

《Chitu与并行推理优化的技术》

李健，清程 AI 软件工程师

李健，清程 AI 软件工程师，"Chitu" 开发者。

《从 “能跑” 到 “好用”：Chitu 工业化部署实践与效率工具链》

分享 Chitu 大模型工业化部署：讲工具链提效案例，给可复用落地经验。

陈逸飞，上海仪电智算科技 MaaS 平台技术专家

《自主创新算力平台建设》

YiCloud 仪电智算云是上海仪电推出的面向 AI 应用落地的训推一体智算云平台。当前 AI 时代全球算力投入大幅增长，行业重心从 “构建模型” 转向 “执行模型”，推理成为算力消耗主力，多款爆款 AI 应用涌现，而传统 AI 基础设施面临训推分离、资源利用率低、模型适配难、国产化与合规性不足等挑战。该平台采用全栈架构，涵盖基础设施、核心平台、生态应用层，具备异构资源智能调度、训推一体、弹性伸缩、国产化适配等核心功能，拥有端到端自动驾驶实训平台等典型案例，并通过开发者社区构建生态循环，助力 AI 应用高效落地。

郭彤宇，阿里云高级工程师，RBG 项目 Committer

本硕就读于北京邮电大学，毕业后入职阿里云，从事云原生 AI Infra 相关工作，作为 Fluid 社区与 SGlang RBG 社区的主要 Committer，专注于推理服务在 Kuberenetes 集群中的部署与运维能力提升与推理模型加载的性能探索。

《基于 K8s 的 Chitu 高性能 PD 分离架构推理服务部署与运维实践》

PD 分离架构在 DeepSeek 的实践证明大规模部署下，可以显著提升 LLM 推理吞吐并且保障 SLO。但 PD 分离架构，并非王谢堂前燕，可以飞入寻常百姓家。但是依然有明确的挑战：

1. PD 分离比例设定：如何结合自身的业务场景，输入输出需求，定义合理的PD 分离初始值；

2. 基于 Kubernetes 以统一的方式高性能部署：如何使用 RoleBasedGroup API（RBG）作为工作负载，在 Kubernetes 集群中快速部署 Dynamo、vLLM 及 SGLang PD 分离推理，结合机内拓扑结构设置 GPU 和⽹卡的亲和性关系调度，实现性能的最大化，结合通过 Envoy 结合 Open Request Cost Aggregation （ORCA）根据 KVCache 和队列等待时间进行负载均衡；

3. 生产环境的服务化治理：无损的滚动升级，避免 KVCache 误删导致的大量重算和丰富自动的故障恢复策略；

4. 弹性伸缩：根据监控和事件驱动的机制动态调整 PD 的数量满足 SLO 的需求。

在此 Topic 中将揭秘 Chitu 高性能 PD 分离架构在 Kubernetes 集群中部署与运维的最佳实践。

李智星，智谱副总裁

李智星，男，副教授，硕导，清华大学博士后，智谱副总裁。研究方向为人工智能、机器学习、自然语言处理。历任重庆邮电大学副教授、阿里巴巴人工智能实验室知识问答算法负责人，满帮集团 AI 算法总监。在 KEG 实验室工作期间，担任欧盟第七框架国际合作项目 XLIKE 主研。在重庆邮电大学工作期间，任三项国家重点研发计划研究骨干，主持并完成国家级项目一项，省部级项目三项。主导了阿里巴巴首款智能硬件设备天猫精灵的知识问答引擎建设及满帮集团算法中台建设。在智谱负责公司重点战略客户招商银行、招商局集团、邮储银行、建设银行、工商银行、平安保险、北京政数局等多个关键性项目。

《GLM：从想象力到生产力》

以“让机器像人一样思考，用可信赖 AI 让人类更美好”为愿景，智谱致力于打造新一代认知智能大模型，专注于做大模型的中国创新。2025 年 1 月，智谱发布全新端到端模型 GLM-Realtime，支持清唱、2 分钟记忆及 Function Call 功能。3 月，智谱发布首个具备深度研究和操作能力的 AI Agent，AutoGLM 沉思。7 月，智谱发布新一代旗舰模型 GLM-4.5，首次在单个模型中实现将推理、编码和智能体能力原生融合，以满足智能体应用的复杂需求。在 MMLU Pro、AIME 24、HLE 等 12 个最具有代表性的评测基准中，GLM-4.5 的综合平均分取得全球模型第三、国产模型第一，开源模型第一。

贾志宾，华为昇腾生态技术专家