结局无敌个人主页

@2501_94355209

结局无敌

2025-11-20 22:47:14 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

FlashAttention 深度实践：四个实验验证性能收益

知道 FlashAttention 快是一回事，知道它，需要跑实验。这一篇用四个实验，量化 FlashAttention 在昇腾NPU 上的性能收益。每个实验都有完整代码，复制粘贴就能跑。

#深度学习

FlashAttention 深度实践：四个实验验证性能收益

#深度学习

手把手实战：在昇腾NPU上验证 FlashAttention 是否真的生效

很多人装了 ops-transformer，跑起来也没报错，就以为 FlashAttention 已经生效了。但其实——你可能在跑传统 Attention，只是不知道而已。这节课教你用五步验证 FlashAttention 是否真的在昇腾NPU 上生效。每一步都有命令和预期输出，照着做就行。

#深度学习

手把手实战：在昇腾NPU上验证 FlashAttention 是否真的生效

#深度学习

FlashAttention：让大模型训练快三倍的“拼菜师傅“

和一个做推荐系统的朋友吃饭，他问我：“我训练千问模型，Attention层特别慢，听说FlashAttention能加速，但我不懂CUDA，这玩意儿到底是怎么快的？我想了一下，跟他说：“你把大模型训练想象成一个超大的餐厅厨房。每次做一道菜（处理一个batch），厨师（GPU/NPU）要做三件事：切菜（QK^T矩阵乘）、调味（Softmax）、翻炒（乘V）。传统做法是切完菜放到盘子里（写HBM），再

#深度学习 #人工智能 #计算机视觉

从 LeNet-5 到分布式训练：昇腾算子开发的渐进式学习路径

摘要：本文提出昇腾算子开发的五阶段渐进学习路径，以LeNet-5为切入点，逐步构建完整的开发能力体系。第一阶段实现基础算子功能，第二阶段优化计算性能，第三阶段扩展多卡并行，第四阶段迁移至复杂模型，第五阶段进行工程实践。每个阶段包含明确的学习目标、关键技术及实践方法，形成从基础到精通的系统化成长路径。2025年CANN训练营将推出系列专题课程，助力开发者技能提升，完成认证可获得相应奖励。该学习方案帮

#分布式 #学习

开始从“分布式训练 + 昇腾算子”入手

算子适配：Conv2D 算子调用 TCU 加速，MatMul 算子采用张量并行，充分发挥昇腾硬件特性；数据拆分：DistributedSampler 保证多卡数据不重叠，提升并行效率；通信优化：环形通信减少梯度同步开销，让通信与计算部分重叠；精度控制：FP16 计算 + FP32 梯度更新，平衡算力与精度。

#python #c语言

昇腾算子开发的 “进阶方向”：从 LeNet-5 到复杂模型

抽象：通过模板函数、统一接口，提取不同模型的共性逻辑，实现跨场景复用；适配：根据硬件特性（端 / 云）、模型规模（小 / 大矩阵）、部署需求（低延迟 / 高吞吐），动态切换优化策略；极致：通过深度融合、流水线并行、指令优化，挖掘硬件极限性能，满足复杂模型的效率要求。进阶过程中，LeNet-5 的基础算子始终是 “核心模板”—— 无论是自动生成工具的参数配置，还是跨模型复用的逻辑抽象，亦或是端云协同

#python #c语言 #人工智能

算子开发实战：从 LeNet-5 拆解看 “算子怎么支撑模型

摘要：LeNet-5作为首个商用卷积神经网络，是算子开发的理想入门模型。其简洁的7层结构涵盖了Conv2D、MaxPool2D、MatMul等核心算子，完整呈现了数据转换流程。在昇腾NPU上实现时，需重点优化：1）利用TCU加速Conv2D计算；2）通过分布式并行提升MatMul效率；3）融合"Conv2D+ReLU"等连续算子减少内存访问；4）优化无参算子的硬件适配。该案例展

#人工智能

算子开发的 “避坑指南”：深挖思维导图里的 “隐藏知识点”

昇腾算子开发的四大坑，本质都是 “算子设计与模型需求、硬件特性脱节”：数据类型不匹配是未对齐硬件计算单元特性，Shape 兼容性不足是未考虑实际场景需求，并行策略选错是未匹配算子规模，内存访问低效是未利用硬件内存层级。先明确算子的功能需求（输入输出类型、支持的 Shape 范围）；再适配昇腾硬件特性（计算单元支持的类型、内存层级、并行能力）；最后用 Ascend C 提供的工具（类型声明、Shap

#前端 #开发语言 #人工智能

共 64 条

请选择