logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

vLLM-Kunlun:高性能、易开发、全生态兼容的国产芯适配

借助 Python EntryPoint 机制,结合 vLLM 引擎本身的抽象设计,我们仅需针对芯片的不同特性完成对应模块开发,就能实现芯片的适配,不仅大幅降低了调试难度,也显著减少了生态适配的工作量。大家都知道,GPU 的生态体系庞大且成熟,不仅自身拥有性能优异的芯片和完善的基础库,众多开源项目也在无形中进一步巩固了它的行业地位。这便是我们打造 vLLM-Kunlun Plugin 的核心驱动力

文章图片
#人工智能#算力
像 L4 自动驾驶一样,用 Agent 破局网络变更之痛

写单和审单如此耗费人力又极易出现错误,智能变更的首要目标就是通过 AI 让写单变得足够简单,让审单变得足够可靠。我们不仅要让工程师从繁琐的「填空题」中解放出来,更要在风险最前置的环节筑牢第一道防线。写单、审单智能化的目标非常清晰写单智能化:将「工程师适应系统」转变为「系统理解工程师」,支持自然语言直接生成标准化变更单据,将单次变更的写单耗时从天级压缩到分钟级审单自动化:实现变更方案的全维度自动审核

#自动驾驶#人工智能#机器学习
像 L4 自动驾驶一样,用 Agent 破局网络变更之痛

写单和审单如此耗费人力又极易出现错误,智能变更的首要目标就是通过 AI 让写单变得足够简单,让审单变得足够可靠。我们不仅要让工程师从繁琐的「填空题」中解放出来,更要在风险最前置的环节筑牢第一道防线。写单、审单智能化的目标非常清晰写单智能化:将「工程师适应系统」转变为「系统理解工程师」,支持自然语言直接生成标准化变更单据,将单次变更的写单耗时从天级压缩到分钟级审单自动化:实现变更方案的全维度自动审核

#自动驾驶#人工智能#机器学习
高性能网络建设指南,《智算中心网络架构白皮书》开放下载

白皮书创作团队由负责和参与了高性能网络落地的一线专家组成,内容覆盖了高性能网络建设的各个方面,比如 RoCE 和 IB 的详细技术对比、不同规模集群的架构选择、云平台上的可视化运维工具建设、多租户的运营方案设计等,为 CTO 和技术负责人提供全流程指导,让复杂的高性能网络建设变得简单。高性能网络的成功落地,可以确保大模型用最短的时间训练出来,并节省大量费用。如果能够借鉴业界领先的技术积累和成熟的项

文章图片
#百度#AIGC
DeepSeek-V3.2 128K 推理秒开?百度百舸开源 CP 上下文并行方案

随着大语言模型(LLM)长上下文推理需求飙升至 128K Tokens,首字延迟(TTFT)和显存压力已成为制约工业化落地的核心瓶颈。在处理数万字的法律合同或长篇技术手册时,过高的 TTFT 往往让用户面临漫长的等待。

百度百舸面向百度天池超节点的大模型推理引擎优化,持续降低昆仑芯 XPU 的 token 成本

超节点作为一种创新的硬件架构,通过构建大规模全互联的 Scale-up 网络,有效突破了传统 8 卡节点在通信上的「互联墙」瓶颈,为上层业务提供了极致的互联带宽与统一显存池化能力,从而实现大模型推理服务性能的跨越式提升。结合新硬件架构的特性,AI Infra 团队可以基于对上层模型算法特性的深度理解,进一步做 AI 工程上的软件优化,充分释放硬件潜能,在吞吐量、首 Token 延迟(TTFT)、每

百度智能云千帆 AppBuilder 大模型应用开发解读

最后一个,前面我们介绍的都是工具,其实工具摆在这儿,用好和用不好,最终产生的结果是截然不同的,所以在这个过程中我们也沉淀了一套应用落地方法论,包括大量不同尺寸大模型到底怎么选、Prompt 怎么调、RAG 调优怎么调、问数调优怎么调,以及组件开发和 Agent 调优能力,我们将这些经验变成文档,变成课程输出给我们的客户和伙伴,让大模型真正落地变得更简单。整个的应用的分发都是通过千帆 AppBuil

文章图片
大模型驱动的新一代 BI 平台,Sugar BI 开启智慧决策新模式

本文整理自 2024 年 4 月 16 日的 2024 百度 Create 大会上的《大模型驱动的新一代 BI 平台如何开启智慧决策》分享。全文包括了可视化 BI 分析技术架构、智能图表推荐策略与规则设计、Sugar Bot 智能问数的技术实现流程,以及目前的场景应用等。

文章图片
#大数据#数据分析
大模型时代,云原生数据底座的创新和实践

缓存数据库核心挑战还是在性能、成本、高可用方面,在过去一年里面,我们核心优化了这些方面,性能上支持批量加载,高用上支持异地多活的能力,成本上支持冷热分离,通过把相对较冷的数据自动迁移到 SSD 上显著降低成本。百度智能云提供一站式云原生数据底座,覆盖完整的数据库的关系型、NoSQL、工具、大数据的开发工具,离线计算,在线中间等全套产品和服务。doris 是百度开源出去的数据仓库。百度智能云的云原生

文章图片
#云原生#数据库#大数据
如何定量分析 Llama 3,大模型系统工程师视角的 Transformer 架构

Llama 3 技术博客说 70B 模型、最长序列 8K、15T Tokens,训练了 640w GPU 时,这发挥了 H100 理论算力(989TFlops)的百分之多少?

文章图片
#transformer
    共 112 条
  • 1
  • 2
  • 3
  • 12
  • 请选择