
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
第三步:去 cann-recipes-infer 仓,找 llama2-7b 的推理 recipe,看 FlashAttention 在一个完整模型里是怎么被调用的,GE 的融合策略是怎么配的,KV Cache 是怎么管理的。时间:1-2 小时。里面有面向初学者的"昇腾 NPU 开发入门",也有面向算子开发者的"Ascend C 高级特性",还有面向框架开发者的"GE Pass 开发指南"——它覆

以"开发一个YOLOv8的SiLU激活函数算子"为例,走一遍完整流程。asc-devkit是昇腾CANN的算子开发工具套件,核心价值是把"Ascend C算子开发的全套流程"自动化——项目脚手架、代码模板、编译脚本、Python接口、单元测试,一条命令生成。核心使用场景开发自定义Ascend C算子(不用手写脚手架)快速验证算子性能(profiling工具自动分析瓶颈)自动生成Python接口(不

以"开发一个YOLOv8的SiLU激活函数算子"为例,走一遍完整流程。asc-devkit是昇腾CANN的算子开发工具套件,核心价值是把"Ascend C算子开发的全套流程"自动化——项目脚手架、代码模板、编译脚本、Python接口、单元测试,一条命令生成。核心使用场景开发自定义Ascend C算子(不用手写脚手架)快速验证算子性能(profiling工具自动分析瓶颈)自动生成Python接口(不

ATVC是昇腾CANN的Vector算子模板库,核心价值是把"手写Vector算子的底层细节"模板化,你只写计算逻辑,ATVC自动生成高性能的Vector Core代码。核心使用场景写Ascend C算子的Vector部分(LayerNorm/GELU/Softmax…)需要高性能,但手写Vector算子太慢需要代码可维护,但手写Vector算子底层细节太多性能收益代码量减少58-60%性能接近最

ATVC是昇腾CANN的Vector算子模板库,核心价值是把"手写Vector算子的底层细节"模板化,你只写计算逻辑,ATVC自动生成高性能的Vector Core代码。核心使用场景写Ascend C算子的Vector部分(LayerNorm/GELU/Softmax…)需要高性能,但手写Vector算子太慢需要代码可维护,但手写Vector算子底层细节太多性能收益代码量减少58-60%性能接近最

torchtitan-npu是PyTorch训练框架的昇腾NPU适配层,核心价值是让PyTorch代码以最小改动跑在昇腾NPU上——导入补丁、改设备标识、改分布式后端,3处改动就能迁过来。核心使用场景PyTorch模型迁移到昇腾NPU(最小改动)分布式训练(HCCL后端替代NCCL)算子兼容性检查和workaround性能调优(算子融合+混合精度)性能收益算子融合:单步耗时从12.5ms降到8.2

torchtitan-npu是PyTorch训练框架的昇腾NPU适配层,核心价值是让PyTorch代码以最小改动跑在昇腾NPU上——导入补丁、改设备标识、改分布式后端,3处改动就能迁过来。核心使用场景PyTorch模型迁移到昇腾NPU(最小改动)分布式训练(HCCL后端替代NCCL)算子兼容性检查和workaround性能调优(算子融合+混合精度)性能收益算子融合:单步耗时从12.5ms降到8.2

torchtitan-npu是PyTorch训练框架的昇腾NPU适配层,核心价值是让PyTorch代码以最小改动跑在昇腾NPU上——导入补丁、改设备标识、改分布式后端,3处改动就能迁过来。核心使用场景PyTorch模型迁移到昇腾NPU(最小改动)分布式训练(HCCL后端替代NCCL)算子兼容性检查和workaround性能调优(算子融合+混合精度)性能收益算子融合:单步耗时从12.5ms降到8.2

hixl是昇腾CANN的单边通信库,核心价值是支持零拷贝直接内存访问,发送方可以直接往接收方的显存里写数据,不需要接收方配合,也不需要额外的内存拷贝。最适合的场景PD分离(Prefill卡→Decode卡传KVCache)参数服务器(PS架构,Worker→Server传梯度)流水线并行(上游Stage→下游Stage传激活值)性能收益KVCache传输延迟从12ms降到3.7ms(3.2×)省掉

hixl是昇腾CANN的单边通信库,核心价值是支持零拷贝直接内存访问,发送方可以直接往接收方的显存里写数据,不需要接收方配合,也不需要额外的内存拷贝。最适合的场景PD分离(Prefill卡→Decode卡传KVCache)参数服务器(PS架构,Worker→Server传梯度)流水线并行(上游Stage→下游Stage传激活值)性能收益KVCache传输延迟从12ms降到3.7ms(3.2×)省掉








