logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

昇腾CANN深度实践:从算子优化到模型部署的全流程探索

本文系统介绍了华为昇腾CANN异构计算架构的核心技术与开发实践。CANN通过统一调度和深度优化实现端到端协同,包含ACL基础能力、ATC模型转换优化及主流AI框架对接。文章详细展示了开发环境搭建、内存优化管理、自定义算子开发(以向量乘加为例)及MobileNetV2模型转换优化的完整流程。测试表明,优化后内存开销降低30%以上,模型推理速度提升40%。CANN凭借简洁API、完备工具链和软硬协同优

文章图片
#人工智能#python#分布式
昇腾CANN异构计算开发实战:从基础API到模型推理加速

摘要:昇腾CANN异构计算架构通过软硬协同设计,提供从算子开发到模型部署的全栈工具链,显著降低AI异构计算开发门槛。本文详细介绍了CANN的核心API使用、数据处理流程与模型推理优化,包括环境配置、设备管理与数据传输实战,以及ResNet-50模型的ONNX转换和推理部署全过程。案例验证了CANN在异构计算中的高效性和易用性,为开发者提供了可复现的技术方案和优化经验,助力AI模型在昇腾芯片上的高效

文章图片
#人工智能#python#分布式
昇腾CANN实战进阶:从动态Shape优化到FP8推理的技术探索

本文探讨了昇腾CANN异构计算架构在动态Shape调度、算子矩阵化加速和FP8低精度推理三大核心技术中的应用。通过动态Shape图优化,多分辨率场景的Host开销降低60%;矩阵化改造使插值算子性能提升10倍;FP8推理实现显存减半且精度损失可控。CANN通过端云一致架构,有效解决了异构计算中的调度效率低下和精度成本失衡问题,为多模态大模型等场景提供了从"能用"到"好

文章图片
#人工智能#python#分布式
昇腾AI全栈开发实战:从底层框架到行业应用落地

本文系统介绍了昇腾AI全栈技术体系及其应用实践,重点解析了MindSpore深度学习框架与CANN异构计算架构的核心功能。通过ResNet-50图像分类模型案例,详细展示了从环境搭建、模型训练到基于CANN优化的完整开发流程。文章还提供了自动并行训练、算子融合等性能优化技巧,可显著提升模型训练和推理效率。昇腾平台通过"芯片-框架-平台-应用"四层协同,为AI开发提供端到端解决方

文章图片
#人工智能
基于昇腾CANN的异构计算实践:从环境搭建到算子开发与模型优化

本文介绍了昇腾CANN异构计算架构在AI大模型开发中的核心优势与实践方法。CANN通过统一工具链和软硬协同优化,解决了传统异构计算开发中硬件适配复杂、性能优化困难等问题。文章详细阐述了CANN环境搭建、基于AscendC的自定义算子开发流程,并以矩阵加法算子为例展示了从实现到测试的完整过程。同时,以YOLOv7模型为例,演示了通过ATC工具进行模型转换和优化的方法,包括ONNX导出、混合精度优化和

文章图片
#人工智能#python#分布式
昇腾AI全栈开发实战:从底层框架到行业应用落地

本文系统介绍了昇腾AI全栈技术体系及其应用实践,重点解析了MindSpore深度学习框架与CANN异构计算架构的核心功能。通过ResNet-50图像分类模型案例,详细展示了从环境搭建、模型训练到基于CANN优化的完整开发流程。文章还提供了自动并行训练、算子融合等性能优化技巧,可显著提升模型训练和推理效率。昇腾平台通过"芯片-框架-平台-应用"四层协同,为AI开发提供端到端解决方

文章图片
#人工智能
昇腾CANN实战进阶:从动态Shape优化到FP8推理的技术探索

本文探讨了昇腾CANN异构计算架构在动态Shape调度、算子矩阵化加速和FP8低精度推理三大核心技术中的应用。通过动态Shape图优化,多分辨率场景的Host开销降低60%;矩阵化改造使插值算子性能提升10倍;FP8推理实现显存减半且精度损失可控。CANN通过端云一致架构,有效解决了异构计算中的调度效率低下和精度成本失衡问题,为多模态大模型等场景提供了从"能用"到"好

文章图片
#人工智能#python#分布式
昇腾CANN实战进阶:从动态Shape优化到FP8推理的技术探索

本文探讨了昇腾CANN异构计算架构在动态Shape调度、算子矩阵化加速和FP8低精度推理三大核心技术中的应用。通过动态Shape图优化,多分辨率场景的Host开销降低60%;矩阵化改造使插值算子性能提升10倍;FP8推理实现显存减半且精度损失可控。CANN通过端云一致架构,有效解决了异构计算中的调度效率低下和精度成本失衡问题,为多模态大模型等场景提供了从"能用"到"好

文章图片
#人工智能#python#分布式
昇腾CANN深度实践:从算子优化到模型部署的全流程探索

本文系统介绍了华为昇腾CANN异构计算架构的核心技术与开发实践。CANN通过统一调度和深度优化实现端到端协同,包含ACL基础能力、ATC模型转换优化及主流AI框架对接。文章详细展示了开发环境搭建、内存优化管理、自定义算子开发(以向量乘加为例)及MobileNetV2模型转换优化的完整流程。测试表明,优化后内存开销降低30%以上,模型推理速度提升40%。CANN凭借简洁API、完备工具链和软硬协同优

文章图片
#人工智能#python#分布式
基于昇腾CANN的异构计算实践:从环境搭建到算子开发与模型优化

本文介绍了昇腾CANN异构计算架构在AI大模型开发中的核心优势与实践方法。CANN通过统一工具链和软硬协同优化,解决了传统异构计算开发中硬件适配复杂、性能优化困难等问题。文章详细阐述了CANN环境搭建、基于AscendC的自定义算子开发流程,并以矩阵加法算子为例展示了从实现到测试的完整过程。同时,以YOLOv7模型为例,演示了通过ATC工具进行模型转换和优化的方法,包括ONNX导出、混合精度优化和

文章图片
#人工智能#python#分布式
    共 26 条
  • 1
  • 2
  • 3
  • 请选择