logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CANN 推理加速实战:ATB 如何让大模型在昇腾NPU 上跑得更快

昇腾NPU上运行LLaMA-7B模型时,原生PyTorch推理性能较低(仅4-5 token/s),主要因算子调度开销大(占15-20%)和HBM频繁读写。ATB(Ascend-Transformer-Boost)通过以下优化显著提升性能: 算子融合:将Transformer层打包为融合算子,减少调度开销; 内存优化:采用环形缓冲管理KV Cache,降低显存占用; 量化支持:提供W8A8和W4A

文章图片
昇腾CANN torchtitan-npu:用 PyTorch FSDP 在 8 张 NPU 上训练 LLaMA

分布式训练扩展到 8 张以上 NPU 时,框架适配层把 PyTorch 的通信原语对接到 CANN 的 hccl 集合通信库,这层胶水代码就是 torchtitan-npu 的活。模型拆分、梯度同步、参数分片——这些 PyTorch FSDP 里的概念,要在昇腾NPU 集群上正确运行,靠的是把的每一个通信调用都精准映射到 hccl 的 AllReduce、AllGather、ReduceScatt

文章图片
#pytorch#人工智能
昇腾CANN cann-recipes-infer:LLM 推理部署的完整菜谱

摘要: cann-recipes-infer 提供标准化流程解决模型从 HuggingFace 到生产部署的挑战,涵盖 30+ 模型(如 LLaMA、Stable Diffusion)。以 LLaMA-7B 为例,部署流程包括:1) 模型格式转换;2) 显存优化的图切分;3) 可选量化(如 W8A16);4) 针对性编译;5) 部署服务(支持动态批量和 PagedAttention KV Cach

文章图片
昇腾CANN ops-nn GELU 激活函数:精确版 vs tanh 近似版,选错就是 3× 慢

GELU激活函数在BERT和GPT中的实现对比:精确版(基于erf函数)计算耗时但数学精确,而tanh近似版速度快3倍且误差极小(~0.1%)。实验表明,tanh近似版对模型训练效果几乎无影响,但显著提升计算效率。关键差异在于erf函数缺乏硬件支持,需多项式展开计算,而tanh在NPU上有硬件加速。需注意FP16下x³计算可能溢出问题。

文章图片
#人工智能#机器学习#算法 +1
昇腾CANN ops-nn 交叉熵损失的融合优化:从三次 Kernel Launch 到一次

本文探讨了语言模型训练中交叉熵损失计算的优化方法。传统做法需要三次kernel调用(softmax、log、NLL)和两次中间矩阵存储,导致大量HBM写入(LLaMA-7B下每次计算约262MB)。作者提出融合方案,通过数学等价变换将log(softmax(x))简化为x-logsumexp(x),实现单kernel计算。该方案在300B token训练中可节省38PB的HBM写入量,对大规模训练

文章图片
#人工智能#算法#深度学习 +1
昇腾CANN hixl PD 分离实战:零拷贝 KV Cache 迁移与 Prefill-Decode 同步协议

大模型推理的PD分离优化方案 本文提出了一种针对大语言模型推理的优化方案,通过将Prefill(预填充)和Decode(解码)阶段分离到不同的NPU上执行,解决传统推理中的性能瓶颈问题。 核心问题: Decode阶段受限于HBM带宽,每生成一个token需要读取整个KV cache(如LLaMA-7B模型4096长度下需读取2GB数据) Prefill阶段则是计算密集型任务,与Decode阶段的带

文章图片
#网络#服务器#运维 +1
昇腾CANN cann-recipes-train 实战深挖:梯度累积 + Gradient Checkpoint 的联合优化策略

本文介绍了在Ascend 910 NPU上训练LLaMA-13B模型时的显存优化策略。当序列长度增加到8192时,激活显存需求翻倍至56GB,导致OOM。提出了梯度累积和Gradient Checkpoint两种方法:梯度累积通过将大batch拆分为micro-batch来减少单步激活量,同时减少通信开销;Gradient Checkpoint通过选择性存储激活和重计算来节省显存,但会增加25%计

文章图片
#深度学习#机器学习#人工智能
鸿蒙原生开发——从零构建配色方案生成器

本文介绍了基于HSL色彩空间的配色方案生成器设计与实现。文章首先阐述了HSL色彩空间的理论优势,解释了如何利用黄金角(137.5°)分布生成视觉和谐的5色方案。核心功能包括:通过锁定/解锁机制实现定向调色、饱和度滑块全局调节、完整的HSL到Hex色彩空间转换算法(含色相分段映射和RGB归一化)。该生成器还实现了色值复制和实时预览功能,采用"锁定-重新生成"的交互模式平衡了随机性与可控性。文章详细讲

文章图片
#php#开发语言#harmonyos +2
鸿蒙原生开发——从零构建配色方案生成器

本文介绍了基于HSL色彩空间的配色方案生成器设计与实现。文章首先阐述了HSL色彩空间的理论优势,解释了如何利用黄金角(137.5°)分布生成视觉和谐的5色方案。核心功能包括:通过锁定/解锁机制实现定向调色、饱和度滑块全局调节、完整的HSL到Hex色彩空间转换算法(含色相分段映射和RGB归一化)。该生成器还实现了色值复制和实时预览功能,采用"锁定-重新生成"的交互模式平衡了随机性与可控性。文章详细讲

文章图片
#php#开发语言#harmonyos +2
鸿蒙原生开发——从零构建数独游戏

本文从零构建了一个经典数独游戏。与井字棋(博弈)、记忆翻牌(配对)、华容道(滑动)、猜词(推理)和扫雷(展开)不同,数独的核心是约束满足与填入验证——每次填入一个数字,用答案比对进行即时冲突检测,逐步向唯一解收敛。从技术角度看,它是二维数组操作、两步交互模式和动态边框计算的完整示例。二维数组棋盘grid[9][9]三个二维数组协同工作。题目格标记为不可修改(),玩家填入显示为蓝色,与答案比对检测冲

文章图片
#游戏#lua#开发语言 +3
    共 474 条
  • 1
  • 2
  • 3
  • 48
  • 请选择