logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

百度百舸 Day0 完成昆仑芯和智谱 GLM-5 适配,实现「发布即可用」

截止到目前,百度百舸已在昆仑芯 XPU 上完成了 GLM、DeepSeek、Qwen、MiMo V2、Kimi 系列等主流大模型的落地,将主流大模型「发布即可用」常态化,让开发者和用户在模型上线第一时间就能切实享受到国产 AI 芯片带来的高效加速体验。

#人工智能#开源
百度百舸 x 昆仑芯,Day0 跑通 Kimi K2.6

同时,在量化层面,百度百舸推出了「模型层 - 框架层 - 硬件层」的端到端的量化体系——通过昆仑芯自研量化工具链实现高精度、高效率的模型量化,对不同来源的 INT8 / INT4 量化模型实现最佳模型部署与量化推理,并基于昆仑芯 XPU 的计算特性,定制化开发高性能量化专用算子库。百度混合云基于昆仑芯硬件平台 Day0 完成 Kimi K2.6 的模型适配与集群部署,支持 INT4 权重,单机成功

文章图片
百度百舸 开源全模态训练框架 LoongForge:一套代码跑通 GPU 与昆仑芯,多模态训练提速 45%

统一:一套框架覆盖 LLM、VLM、VLA、Diffusion 等不同场景,内置 20+ 模型族标准组件,原生兼容 DeepSeek、Qwen、InternVL、LLaVA-OV、ERNIE、MiniMax、MIMO,以及 Pi0.5、WAN 等主流模型。面向真实业务场景中的视频理解需求,该模型在不丢帧的前提下,重构了视频理解路径,优化了帧级信息提取与视觉编码方式,显著减少了冗余计算,从而将视频

#vim
百度百舸 x 昆仑芯,Day0 适配小米 MiMo-V2.5-Pro 模型

今日,小米正式开源 MiMo-V2.5-Pro。据悉,MiMo-V2.5-Pro 是小米迄今最强大的模型,拥有 1T 的超大参数量,并支持 1M 超长上下文的高吞吐推理。在通用智能体能力、复杂软件工程以及长程任务等维度上,它已能与全球顶尖 Agent 模型(Claude Opus 4.6、GPT-5.4 等 )正面较量。

#dubbo
Agent 时代下大模型推理系统的架构优化和工程实践

我们观察到,在新的 DSA 结构下,index 数量极少。针对命中率问题,我们引入池化策略:当请求调度至某一节点,如果该节点未缓存所需 KV Cache,但在集群层面存在该 KV Cache 时,我们会将 KV Cache 同步至该节点,以提升命中率。从线上推理服务的实际请求数据来看,Agent 出现后,数据长度也发生了显著变化—— 2025 年上半年我们优化 DeepSeek-R1 时,序列长度

上海交大 × 百度百舸,新型异步 WAM 模型破解机器人落地难题

近日,上海交通大学 ScaleLab 团队、上海人工智能实验室联合百度智能云团队,推出全新机器人操控模型 AHA-WAM(异步视野自适应世界-动作模型),顺利攻克了长期困扰 WAM 模型落地的延迟难题,为行业带来新的技术突破。论文地址:Arxiv: https://arxiv.org/abs/2606.09811项目地址: https://serene-sivy.github.io/aha-wam

#机器人
百度智能云推出 OpenClaw 安全解决方案,让每一次执行都可控

在 Skill 引入前进行来源识别,在安装时进行内容安全检查,在运行过程中持续观察其行为,同时为企业提供统一视图,让所有 Skill 的使用情况都能被看见、被管理。它们不仅能处理文档、调用工具、执行复杂操作,更重要的是,它们已开始从单纯的「信息提供者」,转变为深度参与工作流程的「任务执行者」。一旦在这两个环节出现偏差,影响的就不仅仅是结果的准确性,更可能触及数据安全的边界,甚至动摇业务本身的稳定性

#人工智能#安全
Agent Native:重构 AI 云基础设施

围绕这个闭环,我们构建了 Agent 原生的全栈基础设施:从模型、沙箱、网关,到安全、Skill、会话、可观测能力,形成了一套统一的 Agent 运行架构。5 月 13 日上午,在沈抖博士《万物一体、AI 云为基》的主题演讲中,分享了 Agent 在千行百业成功落地的真实案例,描绘出智能时代的宏伟蓝图,相信大家都迫不及待想奔赴产业智变的全新时代。与此同时,2026 年行业算力供给紧张的态势愈发凸显

深入解读 GPUDirect PCIe P2P 驱动代码:Mailbox 和 BAR1 的实现原理及对比

所谓 Mailbox,是指 GPU 内部集成了一组专用于跨设备握手的 Mailbox Control Registers。真正的业务数据仍走标准 PCIe Transaction Layer Packet(TLP),不会在宽度仅为 32-bit 级别的 Mailbox Regs 上逐片搬运。

#网络协议#网络#GPU
训练周期减半:LoongForge 全链路优化 GR00T N1.6 训练,吞吐提升至 2.3 倍

通过对训练调度、通信-计算重叠与数据 IO 链路的系统级优化,我们显著减少了 Python 调度开销、通信等待与数据供给空转,使 GPU 从「被动等待」转向「持续计算」。最终在不改变模型结构的前提下,实现 2.3× 加速与 56.6% 训练周期缩短,大幅提升模型迭代效率与研发节奏。目前,相关优化已集成至全模态训练框架LoongForge。我们欢迎具身智能领域的研究者与开发者共同探索更高效的 VLA

    共 104 条
  • 1
  • 2
  • 3
  • 11
  • 请选择