logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

昇腾CANN:解锁AI算力新境界

本文介绍了昇腾CANN平台的算子开发要点。CANN平台是连接AI框架与昇腾处理器的关键桥梁,算子作为神经网络的基本计算单元,其开发能力直接影响AI性能发挥。文章分析了自定义算子开发的四种常见场景(模型迁移、性能优化、特殊逻辑、计算修改),对比了TBE算子(DSL/TIK方式)和AI CPU算子两种开发路径的特点与适用场景,并梳理了算子开发的基本流程(环境准备、原型定义、逻辑实现、信息配置、编译测试

#人工智能
【硬核】啃透vLLM源码:从PagedAttention到连续批处理,大模型推理加速24倍的秘密

摘要:vLLM揭秘大模型推理加速24倍的底层技术 vLLM通过创新性的内存管理和调度机制,实现了高达24倍的大模型推理加速。其核心技术包括: PagedAttention:将KV Cache切分为固定大小的Block(默认16个token),通过逻辑-物理块映射消除内存浪费,支持多请求共享相同物理块。 连续批处理:动态调度请求,像地铁运行一样允许随时上下车,最大化GPU利用率。 CUDA Grap

从昇腾AI到智元机器人,他与稚晖君联手打造150亿估值独角兽的传奇

**摘要:**华为前副总裁邓泰华与"天才少年"稚晖君联手创立智元机器人,两年内将公司估值推至150亿元。邓泰华凭借27年华为经验,主导昇腾AI生态构建,并将"硬件+软件+生态"战略复制到机器人领域。智元快速实现量产,发布灵犀X2机器人及GO-1大模型。2025年7月,邓泰华斥资21亿元控股科创板公司上纬新材,为智元铺设资本平台。这位技术老将与年轻天才的组合,

#人工智能#机器人
别再只知道买显卡了!一文讲透AI基础设施(AI Infra)到底是什么?

本文深入解析AI Infra(人工智能基础设施)技术体系,揭示其在AI时代的核心地位。文章首先将AI Infra比作现代物流体系,详细拆解其四层技术栈:硬件层、集群网络、框架引擎和平台调度。重点分析了NVIDIA通过CUDA+NVLink构建的生态闭环,以及华为昇腾在国产替代方面的突破。同时介绍了PyTorch 2.0、vLLM推理加速和Ray分布式编排等关键软件技术,并探讨了云厂商在超大规模集群

#人工智能
架构之争与能效革命:2026 NPU技术方案发展现状全解析

2026年的NPU技术方案,不再是简单的“堆核心”或“拼制程”。从TI的120倍能效飞跃,到NXP的物理AI封装,再到中国厂商在细分市场的亿级出货,我们正在见证AI计算范式的根本性转变。NPU不再是CPU的附属协处理器,它正在成为未来智能硬件的“第一动力”。

#架构
从华为走出的六位“天才少年”,为何不约而同扑向同一个未来?

华为天才少年集体创业潮:具身智能赛道迎来"华为系"迁徙 2022-2026年间,华为六位"天才少年"相继离职创业,包括彭志辉(稚晖君)、李银川、周凯文等核心人才。他们均选择具身智能赛道,创立智元机器人、诺因智能等企业,聚焦人形机器人、家用机器人等方向。这场人才流动背后,是华为培养的工程化能力与具身智能爆发前夜的完美契合。这些创业者既带走了华为的系统思维和压强

#华为#人工智能
RLVR技术爆发:多模态推理与算法进化揭秘

摘要: 2026年标志着强化学习可验证方法(RLVR)的爆发元年,其通过客观奖励信号(如代码执行、数学验证)取代传统RLHF的主观人类反馈。三大核心突破推动发展:1)多模态感知-推理解耦(PRCO框架分离视觉与逻辑优化,提升自动驾驶决策准确率22%);2)算法效率革新(方向性更新精准调控Token级推理,ERPO解决"熵崩塌"提升数学模型解题率15%);3)无限数据生成(Gol

#算法#人工智能#机器学习
AI巨头的“代码裸奔”事故:51万行源码遭泄露,竟因实习生级打包失误?

AI巨头Anthropic遭遇重大源码泄露事故,51万行Claude Code核心代码因打包失误被公开。事故源于npm发布时未排除.map文件,导致完整TypeScript源码通过source map暴露。泄露内容揭示Claude Code复杂架构及未发布功能,引发开发者狂欢和"净室重构"。这已是Anthropic近期第二次安全事故,暴露出AI公司重研究轻工程的结构性问题。事件

#人工智能
AI巨头的“代码裸奔”事故:51万行源码遭泄露,竟因实习生级打包失误?

AI巨头Anthropic遭遇重大源码泄露事故,51万行Claude Code核心代码因打包失误被公开。事故源于npm发布时未排除.map文件,导致完整TypeScript源码通过source map暴露。泄露内容揭示Claude Code复杂架构及未发布功能,引发开发者狂欢和"净室重构"。这已是Anthropic近期第二次安全事故,暴露出AI公司重研究轻工程的结构性问题。事件

#人工智能
【硬核】啃透vLLM源码:从PagedAttention到连续批处理,大模型推理加速24倍的秘密

摘要:vLLM揭秘大模型推理加速24倍的底层技术 vLLM通过创新性的内存管理和调度机制,实现了高达24倍的大模型推理加速。其核心技术包括: PagedAttention:将KV Cache切分为固定大小的Block(默认16个token),通过逻辑-物理块映射消除内存浪费,支持多请求共享相同物理块。 连续批处理:动态调度请求,像地铁运行一样允许随时上下车,最大化GPU利用率。 CUDA Grap

    共 90 条
  • 1
  • 2
  • 3
  • 9
  • 请选择