旧梦735 个人主页

@2603_96119476

旧梦735

2026-05-20 21:59:54 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

学 CANN 开发第一步看什么：cann-learning-hub 与加速库快速上手

第三步：去 cann-recipes-infer 仓，找 llama2-7b 的推理 recipe，看 FlashAttention 在一个完整模型里是怎么被调用的，GE 的融合策略是怎么配的，KV Cache 是怎么管理的。时间：1-2 小时。里面有面向初学者的"昇腾 NPU 开发入门"，也有面向算子开发者的"Ascend C 高级特性"，还有面向框架开发者的"GE Pass 开发指南"——它覆

#算法 #python #开发语言

asc-devkit：昇腾算子开发从“裸写“到“开箱即用“

以"开发一个YOLOv8的SiLU激活函数算子"为例，走一遍完整流程。asc-devkit是昇腾CANN的算子开发工具套件，核心价值是把"Ascend C算子开发的全套流程"自动化——项目脚手架、代码模板、编译脚本、Python接口、单元测试，一条命令生成。核心使用场景开发自定义Ascend C算子（不用手写脚手架）快速验证算子性能（profiling工具自动分析瓶颈）自动生成Python接口（不

#log4j #深度学习 #算法

asc-devkit：昇腾算子开发从“裸写“到“开箱即用“

#log4j #深度学习 #算法

ATVC：Vector算子模板库——让NPU向量计算写出“模板级“性能

ATVC是昇腾CANN的Vector算子模板库，核心价值是把"手写Vector算子的底层细节"模板化，你只写计算逻辑，ATVC自动生成高性能的Vector Core代码。核心使用场景写Ascend C算子的Vector部分（LayerNorm/GELU/Softmax…）需要高性能，但手写Vector算子太慢需要代码可维护，但手写Vector算子底层细节太多性能收益代码量减少58-60%性能接近最

#java #开发语言

ATVC：Vector算子模板库——让NPU向量计算写出“模板级“性能

#java #开发语言

torchtitan-npu——在昇腾NPU上跑通PyTorch原生训练

torchtitan-npu是PyTorch训练框架的昇腾NPU适配层，核心价值是让PyTorch代码以最小改动跑在昇腾NPU上——导入补丁、改设备标识、改分布式后端，3处改动就能迁过来。核心使用场景PyTorch模型迁移到昇腾NPU（最小改动）分布式训练（HCCL后端替代NCCL）算子兼容性检查和workaround性能调优（算子融合+混合精度）性能收益算子融合：单步耗时从12.5ms降到8.2

#pytorch #人工智能 #python

torchtitan-npu——在昇腾NPU上跑通PyTorch原生训练

#pytorch #人工智能 #python

torchtitan-npu——在昇腾NPU上跑通PyTorch原生训练

#pytorch #人工智能 #python

hixl：PD分离场景下的零拷贝通信神器

hixl是昇腾CANN的单边通信库，核心价值是支持零拷贝直接内存访问，发送方可以直接往接收方的显存里写数据，不需要接收方配合，也不需要额外的内存拷贝。最适合的场景PD分离（Prefill卡→Decode卡传KVCache）参数服务器（PS架构，Worker→Server传梯度）流水线并行（上游Stage→下游Stage传激活值）性能收益KVCache传输延迟从12ms降到3.7ms（3.2×）省掉

#php #开发语言

hixl：PD分离场景下的零拷贝通信神器

#php #开发语言

共 24 条

请选择