
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
截止到目前,百度百舸已在昆仑芯 XPU 上完成了 GLM、DeepSeek、Qwen、MiMo V2、Kimi 系列等主流大模型的落地,将主流大模型「发布即可用」常态化,让开发者和用户在模型上线第一时间就能切实享受到国产 AI 芯片带来的高效加速体验。
借助 Python EntryPoint 机制,结合 vLLM 引擎本身的抽象设计,我们仅需针对芯片的不同特性完成对应模块开发,就能实现芯片的适配,不仅大幅降低了调试难度,也显著减少了生态适配的工作量。大家都知道,GPU 的生态体系庞大且成熟,不仅自身拥有性能优异的芯片和完善的基础库,众多开源项目也在无形中进一步巩固了它的行业地位。这便是我们打造 vLLM-Kunlun Plugin 的核心驱动力

同时,这一架构升级为推理优化带来了新的挑战,同时也创造了性能突破的新机遇。SGLang 社区实测表明,该代码为最新的 DeepSeek-V3.2 模型带来了超过 2 倍解码吞吐量的显著性能提升,让社区能够。这一生产级的代码贡献,使得 SGLang 社区开发者无需重复底层探索与试错,能够直接获得性能倍增且稳定可靠的推理能力。MTP 通过让模型在单个前向传播中一次性预测多个未来 token,然后统一验
百度百舸·AI 异构计算平台已支持快速部署 DeepSeek V3、R1 及其蒸馏的 Llama、Qwen 等小规模 dense 模型。

优化推理引擎的终极目标其实就是,极限提升前向推理的吞吐,同时极限压缩 Token 间间隔,最终提高极限出字率。

同时,通过全生命周期锁页操作,避免 KV Cache 数据在传输过程中被换出,减少额外的内存拷贝与页错误开销,使数据能够以更稳定、更高带宽的方式直达显存。Agent 将大模型推理全面带入长上下文与多轮交互时代,百度百舸的 AttentionStore 让 KV Cache 从「短暂的显存数据结构」演进为「可持久、可调度、可规模化复用的系统资源」,通过对昆仑芯底层算力的深度调优与推理框架的无缝集成,

在超节点这一创新算力形态的早期发展阶段,企业部署超节点时,不能唯性能论,否则极易陷入「高性能却难落地」的困境。唯有跳出性能迷局,聚焦超节点与业务场景的贴合度、与现有基础设施的兼容性,从性能转化、稳定性、可落地性多维度综合考量,才能让超节点真正落地,让高性能算力平稳转化为可持续的业务价值。

基于百度在大规模集群的技术积累和工程实践,在向企业交付智算平台后,专有云 ABC Stack 还为客户提供了一套面向整体 GPU 算力平均利用率、训推任务加速和稳定性等场景的 GPU 提效服务。

因此,如果希望继续挖掘性能与成本空间,视角就必须下移至——
这样,新的子进程可以复用父进程已经加载好的所有资源,包括 Python 解释器、已导入的库和模型配置等,从而消除重复导入的开销。针对前面的问题,我们对大模型冷启动的过程做出了一些优化:主要包括权重传输优化、编译缓存复用、特定场景的 CUDA Graph 延迟捕获策略,以及启动加速优化,对大模型冷启动的完整流程做了性能提升。为了保证缓存的一致性和命中率,我们采用了一致性哈希等技术来管理缓存节点,从而







