logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

FlashAttention 深度实践:四个实验验证性能收益

知道 FlashAttention 快是一回事,知道它,需要跑实验。这一篇用四个实验,量化 FlashAttention 在昇腾NPU 上的性能收益。每个实验都有完整代码,复制粘贴就能跑。

#深度学习
FlashAttention 深度实践:四个实验验证性能收益

知道 FlashAttention 快是一回事,知道它,需要跑实验。这一篇用四个实验,量化 FlashAttention 在昇腾NPU 上的性能收益。每个实验都有完整代码,复制粘贴就能跑。

#深度学习
手把手实战:在昇腾NPU上验证 FlashAttention 是否真的生效

很多人装了 ops-transformer,跑起来也没报错,就以为 FlashAttention 已经生效了。但其实——你可能在跑传统 Attention,只是不知道而已。这节课教你用五步验证 FlashAttention 是否真的在昇腾NPU 上生效。每一步都有命令和预期输出,照着做就行。

#深度学习
手把手实战:在昇腾NPU上验证 FlashAttention 是否真的生效

很多人装了 ops-transformer,跑起来也没报错,就以为 FlashAttention 已经生效了。但其实——你可能在跑传统 Attention,只是不知道而已。这节课教你用五步验证 FlashAttention 是否真的在昇腾NPU 上生效。每一步都有命令和预期输出,照着做就行。

#深度学习
FlashAttention:让大模型训练快三倍的“拼菜师傅“

和一个做推荐系统的朋友吃饭,他问我:“我训练千问模型,Attention层特别慢,听说FlashAttention能加速,但我不懂CUDA,这玩意儿到底是怎么快的?我想了一下,跟他说:“你把大模型训练想象成一个超大的餐厅厨房。每次做一道菜(处理一个batch),厨师(GPU/NPU)要做三件事:切菜(QK^T矩阵乘)、调味(Softmax)、翻炒(乘V)。传统做法是切完菜放到盘子里(写HBM),再

#深度学习#人工智能#计算机视觉
从 LeNet-5 到分布式训练:昇腾算子开发的渐进式学习路径

摘要:本文提出昇腾算子开发的五阶段渐进学习路径,以LeNet-5为切入点,逐步构建完整的开发能力体系。第一阶段实现基础算子功能,第二阶段优化计算性能,第三阶段扩展多卡并行,第四阶段迁移至复杂模型,第五阶段进行工程实践。每个阶段包含明确的学习目标、关键技术及实践方法,形成从基础到精通的系统化成长路径。2025年CANN训练营将推出系列专题课程,助力开发者技能提升,完成认证可获得相应奖励。该学习方案帮

#分布式#学习
开始从“分布式训练 + 昇腾算子”入手

算子适配:Conv2D 算子调用 TCU 加速,MatMul 算子采用张量并行,充分发挥昇腾硬件特性;数据拆分:DistributedSampler 保证多卡数据不重叠,提升并行效率;通信优化:环形通信减少梯度同步开销,让通信与计算部分重叠;精度控制:FP16 计算 + FP32 梯度更新,平衡算力与精度。

#python#c语言
昇腾算子开发的 “进阶方向”:从 LeNet-5 到复杂模型

抽象:通过模板函数、统一接口,提取不同模型的共性逻辑,实现跨场景复用;适配:根据硬件特性(端 / 云)、模型规模(小 / 大矩阵)、部署需求(低延迟 / 高吞吐),动态切换优化策略;极致:通过深度融合、流水线并行、指令优化,挖掘硬件极限性能,满足复杂模型的效率要求。进阶过程中,LeNet-5 的基础算子始终是 “核心模板”—— 无论是自动生成工具的参数配置,还是跨模型复用的逻辑抽象,亦或是端云协同

#python#c语言#人工智能
算子开发实战:从 LeNet-5 拆解看 “算子怎么支撑模型

摘要:LeNet-5作为首个商用卷积神经网络,是算子开发的理想入门模型。其简洁的7层结构涵盖了Conv2D、MaxPool2D、MatMul等核心算子,完整呈现了数据转换流程。在昇腾NPU上实现时,需重点优化:1)利用TCU加速Conv2D计算;2)通过分布式并行提升MatMul效率;3)融合"Conv2D+ReLU"等连续算子减少内存访问;4)优化无参算子的硬件适配。该案例展

#人工智能
算子开发的 “避坑指南”:深挖思维导图里的 “隐藏知识点”

昇腾算子开发的四大坑,本质都是 “算子设计与模型需求、硬件特性脱节”:数据类型不匹配是未对齐硬件计算单元特性,Shape 兼容性不足是未考虑实际场景需求,并行策略选错是未匹配算子规模,内存访问低效是未利用硬件内存层级。先明确算子的功能需求(输入输出类型、支持的 Shape 范围);再适配昇腾硬件特性(计算单元支持的类型、内存层级、并行能力);最后用 Ascend C 提供的工具(类型声明、Shap

#前端#开发语言#人工智能
    共 64 条
  • 1
  • 2
  • 3
  • 7
  • 请选择