logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

百度百舸 Day0 完成昆仑芯和智谱 GLM-5 适配,实现「发布即可用」

截止到目前,百度百舸已在昆仑芯 XPU 上完成了 GLM、DeepSeek、Qwen、MiMo V2、Kimi 系列等主流大模型的落地,将主流大模型「发布即可用」常态化,让开发者和用户在模型上线第一时间就能切实享受到国产 AI 芯片带来的高效加速体验。

#人工智能#开源
vLLM-Kunlun:高性能、易开发、全生态兼容的国产芯适配

借助 Python EntryPoint 机制,结合 vLLM 引擎本身的抽象设计,我们仅需针对芯片的不同特性完成对应模块开发,就能实现芯片的适配,不仅大幅降低了调试难度,也显著减少了生态适配的工作量。大家都知道,GPU 的生态体系庞大且成熟,不仅自身拥有性能优异的芯片和完善的基础库,众多开源项目也在无形中进一步巩固了它的行业地位。这便是我们打造 vLLM-Kunlun Plugin 的核心驱动力

文章图片
#人工智能#算力
百度百舸 X SGLang 社区 | 开源生产级 MTP 代码,助力 DeepSeek-V3.2 推理服务 2 倍以上吞吐提升

同时,这一架构升级为推理优化带来了新的挑战,同时也创造了性能突破的新机遇。SGLang 社区实测表明,该代码为最新的 DeepSeek-V3.2 模型带来了超过 2 倍解码吞吐量的显著性能提升,让社区能够。这一生产级的代码贡献,使得 SGLang 社区开发者无需重复底层探索与试错,能够直接获得性能倍增且稳定可靠的推理能力。MTP 通过让模型在单个前向传播中一次性预测多个未来 token,然后统一验

#开源#人工智能#云计算
如何在百度百舸部署满血版 DeepSeek-V3、DeepSeek-R1 模型

百度百舸·AI 异构计算平台已支持快速部署 DeepSeek V3、R1 及其蒸馏的 Llama、Qwen 等小规模 dense 模型。

文章图片
0 Token 间间隔 100% GPU 利用率,百度百舸 AIAK 大模型推理引擎极限优化 TPS

优化推理引擎的终极目标其实就是,极限提升前向推理的吞吐,同时极限压缩 Token 间间隔,最终提高极限出字率。

文章图片
拒绝 OpenClaw 成为「吞金龙虾」,百度百舸打造极致 KV Cache 调度与加速引擎

同时,通过全生命周期锁页操作,避免 KV Cache 数据在传输过程中被换出,减少额外的内存拷贝与页错误开销,使数据能够以更稳定、更高带宽的方式直达显存。Agent 将大模型推理全面带入长上下文与多轮交互时代,百度百舸的 AttentionStore 让 KV Cache 从「短暂的显存数据结构」演进为「可持久、可调度、可规模化复用的系统资源」,通过对昆仑芯底层算力的深度调优与推理框架的无缝集成,

文章图片
超节点选型:跳出性能迷局,聚焦稳定与落地价值

在超节点这一创新算力形态的早期发展阶段,企业部署超节点时,不能唯性能论,否则极易陷入「高性能却难落地」的困境。唯有跳出性能迷局,聚焦超节点与业务场景的贴合度、与现有基础设施的兼容性,从性能转化、稳定性、可落地性多维度综合考量,才能让超节点真正落地,让高性能算力平稳转化为可持续的业务价值。

文章图片
唤醒 AI 算力,专有云 ABC Stack 面向企业级智算平台的 GPU 提效实践

基于百度在大规模集群的技术积累和工程实践,在向企业交付智算平台后,专有云 ABC Stack 还为客户提供了一套面向整体 GPU 算力平均利用率、训推任务加速和稳定性等场景的 GPU 提效服务。

文章图片
#人工智能
因熟知而忽视:底层系统里,藏着 20% 未被挖掘的算力成本

因此,如果希望继续挖掘性能与成本空间,视角就必须下移至——

#算力#性能优化
昆仑芯大规模 LLM 推理优化,实现秒级扩缩容

这样,新的子进程可以复用父进程已经加载好的所有资源,包括 Python 解释器、已导入的库和模型配置等,从而消除重复导入的开销。针对前面的问题,我们对大模型冷启动的过程做出了一些优化:主要包括权重传输优化、编译缓存复用、特定场景的 CUDA Graph 延迟捕获策略,以及启动加速优化,对大模型冷启动的完整流程做了性能提升。为了保证缓存的一致性和命中率,我们采用了一致性哈希等技术来管理缓存节点,从而

    共 106 条
  • 1
  • 2
  • 3
  • 11
  • 请选择