
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
百度智能云在大规模 PD 分离式推理基础设施优化的实践中,充分展现了网络基础设施、通信组件与上层业务特征深度融合的重要性。这种融合不仅是技术层面的创新,更是对实际业务需求的深刻理解和响应。

在解决存储容量问题的基础上,ESS 系统进一步优化计算性能损耗,形成差异化竞争优势:相较于业界主流卸载方案,ESS 无需对数据进行压缩处理,实现端到端精度无损的卸载模式,彻底规避了数据压缩与解压带来的精度损失及额外计算开销。第一,面向负载均衡的切分策略。此外,在缓存替换策略上,我们采用全局 LRU 算法替代传统 FIFO 策略,通过动态追踪数据访问热度、优先保留高频访问的热数据,确保在模型全生命周
在客户场景的实际测试中,相比社区原有方案,百度百舸的方案经过合理的切分配置,单段视频支持的帧数上限提升超过 2 倍,单帧最大分辨率上限提升超过 2.6 倍,可以大幅缩短训练时间。在客户场景的实际测试中,相比社区原有方案,百度百舸的方案经过合理的切分配置,单段视频支持的帧数上限提升超过 2 倍,单帧最大分辨率上限提升超过 2.6 倍,可以大幅缩短训练时间。然而受限于显存瓶颈,多模态大模型的训练原始数
目前,百度百舸平台已经同步支持 Qwen3 系列全家桶的一键部署,为企业提供一站式 AI 服务,实现大模型落地「快稳省」的要求。

备受剪辑压力困扰的各位自媒体老板、MCN 同学们、投放平台大佬们,解放双手和大脑的好机会它来了!在这个数字化飞速发展的时代,智能技术正以前所未有的速度改变着我们的生活与工作方式。百度智能云,作为智能科技的引领者,持续探索智能技术如何赋能各行各业,开启智能时代的新篇章,开启「 AI 集锦」智能新纪元。
百度智能云混合云联合昆仑芯、HAMi(密瓜智能发起并主导的 CNCF 开源项目),正式推出基于昆仑芯 P800 的 XPU/vXPU 双模式算力调度方案 —— 该方案已率先在某金融客户的昆仑芯集群中落地,为智能客服、营销辅助等十余类 AI 业务提供兼具稳定性与灵活性的算力支撑。客户可在同一集群内灵活调用昆仑芯 P800 的整卡 XPU 与虚拟化 vXPU 资源,让国产算力既高效匹配业务需求,又实现

优化推理引擎的终极目标其实就是,极限提升前向推理的吞吐,同时极限压缩 Token 间间隔,最终提高极限出字率。

同时,这一架构升级为推理优化带来了新的挑战,同时也创造了性能突破的新机遇。SGLang 社区实测表明,该代码为最新的 DeepSeek-V3.2 模型带来了超过 2 倍解码吞吐量的显著性能提升,让社区能够。这一生产级的代码贡献,使得 SGLang 社区开发者无需重复底层探索与试错,能够直接获得性能倍增且稳定可靠的推理能力。MTP 通过让模型在单个前向传播中一次性预测多个未来 token,然后统一验
从 2024 年 DeepSeek 等模型的爆发开始,整个大模型技术也实现了范式的升级,从稠密模型演化到了稀疏的 MoE 模型,专家数量从早期的 8 个逐步扩展到 256 个甚至更多。在人工智能这一核心场景下,我们聚焦于 AI 训推优化,力求在实例形态和功能上实现极致的性能、丰富的自运维诊断能力,并保障模型的安全。对于企业级应用,我们实现了「计算优化」与「高性能 I/O」系列的全面增强,支持 I/
在传统的开发模式下,从业务侧提出需求到应用的落地,一般会耗费至少一周的开发时间,这使得业务在快速变化的市场种总是慢人一拍。爱速搭可以通过内置的向量数据库和大模型连接器,将历史积累的海量数据转变为企业专属知识库,为业务提供智能化的数据检索、知识问答等智能化服务,将沉睡的数据唤醒,变为企业的数字资产,充分发挥数据的业务价值。目前,爱速搭已经覆盖了金融、能源、汽车、政务等行业数百个使用场景,成为越来越多








