登录社区云,与社区用户共同成长
邀请您加入社区
步骤1:基于TKernel创建算子工程创建算子描述文件,定义输入输出、属性及计算逻辑步骤2:编写算子实现代码在中实现自注意力计算的核心逻辑,利用昇腾矢量指令(如vaddvmul// 示例:自注意力QKV投影计算// 昇腾矢量指令加速矩阵乘法步骤3:编译与部署算子将编译生成的*.o文件注册到MindSpore算子库,完成自定义算子部署这是一张图片,ocr 内容为:优化效果实测。
B站预约链接:点击跳转
国产GPU阵营首次统一开源DeepSeek全系列推理部署方案,支持从1.5B到671B大模型。昇腾+壁仞联合发布,一行命令启动671B MoE模型推理,实测性能对标A100。附完整部署代码和性能对比。
HiFloat8 Cast 算子在 Atlas A2/A3 昇腾 NPU 上为 PyTorch 实现 FP16/BF16 ↔ HiFloat8 双向转换,通过半空间 LUT、动态 tiling 和 DataCopy 分支优化,在大数据量下单方向吞吐稳定在 4 GB/s 量级——接近当前软件查表实现的吞吐上限。Ascend 950系列产品 已具备原生 HiFloat8 硬件能力,本算子主要面向尚无该
深入了解ATVOSS!完成算子端到端全流程实践(Torch),实现Vector算子性能调优
当前,企业 AI 训练推理、数据分析平台与智能化应用场景持续拓展,数据规模快速增长,对数据基础设施的稳定性、扩展性和多平台适配能力提出了更高要求。该方案面向智算中心、科研计算、智能制造、具身智能、企业知识库、多模态数据管理等典型场景,围绕数据采集、存储、流动、调度和使用的全流程需求,提供覆盖训练、推理与数据全生命周期管理的数据基础设施能力。构建在多集群及异构存储之上的对象虚拟化与数据流动平台,通过
开营仪式上,复旦大学计算与智能创新学院副教授、开源社团指导老师陈碧欢,CANN 开源社区技术指导委员会(TSC)委员田军、昇腾产品管理总监王晓雷、业务招聘经理王磊及CANN高校生态经理武嘉伟等多位华为专家出席活动。
昇腾,打响了一场Agent前夜的“硬软合围战”
Scalar单元是昇腾NPU AI Core中的标量运算流水线,负责指令分发与地址计算。当Scalar成为性能瓶颈(即ScalarBound)时,会阻塞Cube/Vector/MTE等其他流水线,导致算子性能大幅下降。本文基于Ascend 950上的实测用例的统计分析,发现Cube类和Mix类算子中ScalarBound问题最为突出(占比超过97%)。根因分析表明,Load/Store指令过多(占
基于开发者空间Notebook进行LoRA微调Whisper_base实现语音识别
本文介绍了在Ascend 910PremiumA NPU环境下对DeepSeek-R1-Distill-Qwen-32B模型进行8位量化(W8A8)的过程。操作步骤包括执行量化命令,处理量化后文件(约41GB),以及解决两个关键报错:1) 需要在config.json中添加"quantize": "w8a8"参数;2) 需将quant_model_descr
摘要 本文深入解析了华为CANN架构中的图引擎(GE)工作原理,重点介绍了GE如何将PyTorch/MindSpore模型转换为NPU可执行指令。GE作为CANN的核心组件,主要完成四个关键任务:图解析、图优化、调度生成和指令发射。文章详细阐述了计算图中间表示(IR)的构建方式,包括算子节点和依赖关系的定义。特别强调了图优化Pass的重要性,通过常量折叠和算子融合等优化技术,将多个小算子合并为高效
昇腾NPU驱动层架构解析与核心功能 摘要:本文深入剖析了昇腾NPU驱动层的架构设计与核心功能。驱动层作为硬件与软件间的桥梁,承担内存管理、命令调度、中断处理和错误处理等关键职责。文章对比了传统GPU与昇腾NPU的驱动差异,详细介绍了CANN驱动的分层架构(包括应用层、运行时层、集合通信层、驱动层和固件层),并展示了驱动核心API的使用示例,涵盖设备管理、内存管理、命令队列和错误处理等关键功能。特别
本文详细介绍了在昇腾NPU上运行PyTorch模型的全流程,包括环境配置、模型转换和推理部署。主要内容: 环境准备:检查硬件与软件版本对应关系,安装驱动和CANN工具包,配置环境变量。 工具安装:使用pip安装asc-devkit工具链,建议创建conda隔离环境,安装PyTorch NPU版本。 模型转换: 从PyTorch导出ONNX模型 使用asc-devkit或ATC命令行将ONNX转换为
该功能深度集成“自动权重转换”与“在线数据处理”技术,单脚本即可启动全流程训练,彻底打破预处理、转换、训练之间的技术壁垒,显著提升大模型训练效率。新功能只需单脚本就能串联起“权重转换-数据预处理-模型训练”全流程,并针对不同训练场景提供了多样化的参数配置方案:无论是从 HuggingFace 加载权重直接训练、开启双向权重转换、仅转换最终模型权重,还是自定义数据处理规则,通过参数配置即可实现,兼顾
昇腾
——昇腾
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net