
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
截止到目前,百度百舸已在昆仑芯 XPU 上完成了 GLM、DeepSeek、Qwen、MiMo V2、Kimi 系列等主流大模型的落地,将主流大模型「发布即可用」常态化,让开发者和用户在模型上线第一时间就能切实享受到国产 AI 芯片带来的高效加速体验。
同时,在量化层面,百度百舸推出了「模型层 - 框架层 - 硬件层」的端到端的量化体系——通过昆仑芯自研量化工具链实现高精度、高效率的模型量化,对不同来源的 INT8 / INT4 量化模型实现最佳模型部署与量化推理,并基于昆仑芯 XPU 的计算特性,定制化开发高性能量化专用算子库。百度混合云基于昆仑芯硬件平台 Day0 完成 Kimi K2.6 的模型适配与集群部署,支持 INT4 权重,单机成功

统一:一套框架覆盖 LLM、VLM、VLA、Diffusion 等不同场景,内置 20+ 模型族标准组件,原生兼容 DeepSeek、Qwen、InternVL、LLaVA-OV、ERNIE、MiniMax、MIMO,以及 Pi0.5、WAN 等主流模型。面向真实业务场景中的视频理解需求,该模型在不丢帧的前提下,重构了视频理解路径,优化了帧级信息提取与视觉编码方式,显著减少了冗余计算,从而将视频
今日,小米正式开源 MiMo-V2.5-Pro。据悉,MiMo-V2.5-Pro 是小米迄今最强大的模型,拥有 1T 的超大参数量,并支持 1M 超长上下文的高吞吐推理。在通用智能体能力、复杂软件工程以及长程任务等维度上,它已能与全球顶尖 Agent 模型(Claude Opus 4.6、GPT-5.4 等 )正面较量。
我们观察到,在新的 DSA 结构下,index 数量极少。针对命中率问题,我们引入池化策略:当请求调度至某一节点,如果该节点未缓存所需 KV Cache,但在集群层面存在该 KV Cache 时,我们会将 KV Cache 同步至该节点,以提升命中率。从线上推理服务的实际请求数据来看,Agent 出现后,数据长度也发生了显著变化—— 2025 年上半年我们优化 DeepSeek-R1 时,序列长度
近日,上海交通大学 ScaleLab 团队、上海人工智能实验室联合百度智能云团队,推出全新机器人操控模型 AHA-WAM(异步视野自适应世界-动作模型),顺利攻克了长期困扰 WAM 模型落地的延迟难题,为行业带来新的技术突破。论文地址:Arxiv: https://arxiv.org/abs/2606.09811项目地址: https://serene-sivy.github.io/aha-wam
在 Skill 引入前进行来源识别,在安装时进行内容安全检查,在运行过程中持续观察其行为,同时为企业提供统一视图,让所有 Skill 的使用情况都能被看见、被管理。它们不仅能处理文档、调用工具、执行复杂操作,更重要的是,它们已开始从单纯的「信息提供者」,转变为深度参与工作流程的「任务执行者」。一旦在这两个环节出现偏差,影响的就不仅仅是结果的准确性,更可能触及数据安全的边界,甚至动摇业务本身的稳定性
围绕这个闭环,我们构建了 Agent 原生的全栈基础设施:从模型、沙箱、网关,到安全、Skill、会话、可观测能力,形成了一套统一的 Agent 运行架构。5 月 13 日上午,在沈抖博士《万物一体、AI 云为基》的主题演讲中,分享了 Agent 在千行百业成功落地的真实案例,描绘出智能时代的宏伟蓝图,相信大家都迫不及待想奔赴产业智变的全新时代。与此同时,2026 年行业算力供给紧张的态势愈发凸显
所谓 Mailbox,是指 GPU 内部集成了一组专用于跨设备握手的 Mailbox Control Registers。真正的业务数据仍走标准 PCIe Transaction Layer Packet(TLP),不会在宽度仅为 32-bit 级别的 Mailbox Regs 上逐片搬运。
通过对训练调度、通信-计算重叠与数据 IO 链路的系统级优化,我们显著减少了 Python 调度开销、通信等待与数据供给空转,使 GPU 从「被动等待」转向「持续计算」。最终在不改变模型结构的前提下,实现 2.3× 加速与 56.6% 训练周期缩短,大幅提升模型迭代效率与研发节奏。目前,相关优化已集成至全模态训练框架LoongForge。我们欢迎具身智能领域的研究者与开发者共同探索更高效的 VLA







