
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文介绍了在昇腾NPU上使用INT8量化技术优化大模型推理的方法。通过将FP16模型参数压缩为INT8格式,模型大小减少50%,同时利用NPU的INT8计算单元加速运算。关键优化包括:1) 直接使用INT8权重进行矩阵乘法,避免反量化开销;2) 将量化参数存储在片上内存;3) 对KV Cache进行INT8量化。实验显示,LLaMA-2 7B模型在Atlas 300I Duo上实现吞吐提升56%、
本文介绍了在昇腾NPU上使用INT8量化技术优化大模型推理的方法。通过将FP16模型参数压缩为INT8格式,模型大小减少50%,同时利用NPU的INT8计算单元加速运算。关键优化包括:1) 直接使用INT8权重进行矩阵乘法,避免反量化开销;2) 将量化参数存储在片上内存;3) 对KV Cache进行INT8量化。实验显示,LLaMA-2 7B模型在Atlas 300I Duo上实现吞吐提升56%、
本文介绍了在昇腾NPU上使用INT8量化技术优化大模型推理的方法。通过将FP16模型参数压缩为INT8格式,模型大小减少50%,同时利用NPU的INT8计算单元加速运算。关键优化包括:1) 直接使用INT8权重进行矩阵乘法,避免反量化开销;2) 将量化参数存储在片上内存;3) 对KV Cache进行INT8量化。实验显示,LLaMA-2 7B模型在Atlas 300I Duo上实现吞吐提升56%、
摘要: 在昇腾NPU上运行LLaMA时发现RMSNorm(替代LayerNorm)占8%推理时间,因其标准实现未优化。RMSNorm相比LayerNorm计算量少30%(省去均值计算和β参数),但标准实现存在两次HBM读写和FP16数值不稳定问题。ops-transformer通过融合Kernel(单次HBM访问)、FP32累加和多核并行,将延迟降低67%(从1.8ms至0.6ms),占比从8.2

摘要: 在昇腾NPU上运行LLaMA时发现RMSNorm(替代LayerNorm)占8%推理时间,因其标准实现未优化。RMSNorm相比LayerNorm计算量少30%(省去均值计算和β参数),但标准实现存在两次HBM读写和FP16数值不稳定问题。ops-transformer通过融合Kernel(单次HBM访问)、FP32累加和多核并行,将延迟降低67%(从1.8ms至0.6ms),占比从8.2

本文介绍了如何开发第一个AscendCL程序,包含四个关键步骤:1. 初始化AscendCL运行环境(aclInit);2. 申请设备内存(aclrtMalloc);3. 释放设备内存(aclrtFree);4. 清理运行环境(aclFinalize)。通过创建项目目录、编写CMake配置文件和示例代码,详细说明了AscendCL的基本开发流程,包括错误处理、资源管理和生命周期控制等核心概念。该程

摘要:本文详细介绍了在Ubuntu系统上搭建华为昇腾AI开发环境的完整流程。内容涵盖硬件要求(包括Atlas开发套件和服务器配置)、软件环境准备(推荐Ubuntu 18.04/20.04 LTS)、驱动/固件/CANN工具包的安装步骤,以及开发工具配置和常见问题解决方案。特别提供了VSCode远程开发配置指南和Docker支持等进阶内容,最后推荐了官方学习资源和社区支持渠道。适用于从零开始配置昇腾

开发一个能够准确识别1000类ImageNet物体的图像分类程序,实现从输入图像到分类结果的完整推理流程。昇腾AI处理器的基本编程模型AscendCL接口的核心使用方法端到端AI应用的开发流程性能分析与优化基础推荐学习路径进阶模型:尝试SSD/YOLOv5等检测模型复杂应用:开发人脸识别系统或多模态应用性能调优:学习使用Ascend Profiler进行性能分析框架集成:尝试MindSpore/P

摘要:华为昇腾AI作为全栈全场景解决方案,以310/910B处理器为核心,覆盖边缘到云端场景,具备自主架构与高性能优势。官方课程《AscendCL基础入门》提供从环境搭建到模型部署的完整学习路径,包含21课时实践内容。系列学习路线分4阶段(准备/基础/实战/进阶),配套开发套件与行业案例,助力开发者快速掌握昇腾开发生态。目前该生态已覆盖智能制造、智慧城市等20多个行业,开发者超10万。

在AI模型部署过程中,即使使用了最先进的框架和硬件,性能不达预期、结果异常或运行崩溃等问题依然屡见不鲜。面对复杂的异构计算栈,开发者往往陷入“黑盒”困境——知道哪里慢,却不知为何慢;知道结果错,却不知错在哪。CANN(Compute Architecture for Neural Networks)作为一套成熟的AI计算软件栈,不仅提供高性能执行能力,更内置了**全方位的调试与性能分析工具链**,








