logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Ascend C 性能调优实战:从工具使用到指令级优化

本文系统介绍了AscendC算子性能调优方法论,重点解析达芬奇架构特性与性能三角模型,详细讲解双缓冲、向量化等核心优化技术。通过Softmax等实战案例展示如何将算子性能提升3-5倍,AICore利用率达85%以上。文章提供完整的性能分析工具链使用指南,包括msprof分析、自定义计数器等实用技巧,并分享企业级优化经验与故障排查方案。针对大模型场景,特别介绍了注意力机制优化与动态负载均衡策略。最后

文章图片
#开发语言#昇腾#CANN
Ascend C 性能调优实战:从工具使用到指令级优化

本文系统介绍了AscendC算子性能调优方法论,重点解析达芬奇架构特性与性能三角模型,详细讲解双缓冲、向量化等核心优化技术。通过Softmax等实战案例展示如何将算子性能提升3-5倍,AICore利用率达85%以上。文章提供完整的性能分析工具链使用指南,包括msprof分析、自定义计数器等实用技巧,并分享企业级优化经验与故障排查方案。针对大模型场景,特别介绍了注意力机制优化与动态负载均衡策略。最后

文章图片
#开发语言#昇腾#CANN
昇腾Ascend C单算子API调用指南 - 在Python中直接调用硬件算子

本文介绍了昇腾AI处理器中的单算子API调用技术,该技术允许开发者绕过传统模型加载流程,直接调用底层硬件算子。文章详细解析了两段式接口设计、内存管理机制和Python绑定技术等核心概念,通过代码示例展示了如何实现10-50倍的性能提升。主要内容包括:单算子API的执行流程与性能优势、Pybind11封装技术、内存零拷贝优化策略以及实际应用案例。特别强调了异步执行模型、内存池优化等高级特性,并提供了

文章图片
#昇腾#CANN
昇腾Ascend C单算子API调用指南 - 在Python中直接调用硬件算子

本文介绍了昇腾AI处理器中的单算子API调用技术,该技术允许开发者绕过传统模型加载流程,直接调用底层硬件算子。文章详细解析了两段式接口设计、内存管理机制和Python绑定技术等核心概念,通过代码示例展示了如何实现10-50倍的性能提升。主要内容包括:单算子API的执行流程与性能优势、Pybind11封装技术、内存零拷贝优化策略以及实际应用案例。特别强调了异步执行模型、内存池优化等高级特性,并提供了

文章图片
#昇腾#CANN
昇腾Ascend C单算子API调用指南 - 在Python中直接调用硬件算子

本文介绍了昇腾AI处理器中的单算子API调用技术,该技术允许开发者绕过传统模型加载流程,直接调用底层硬件算子。文章详细解析了两段式接口设计、内存管理机制和Python绑定技术等核心概念,通过代码示例展示了如何实现10-50倍的性能提升。主要内容包括:单算子API的执行流程与性能优势、Pybind11封装技术、内存零拷贝优化策略以及实际应用案例。特别强调了异步执行模型、内存池优化等高级特性,并提供了

文章图片
#昇腾#CANN
AsNumpy 精度控制与 Ascend C 浮点运算优化

本文深入解析 AsNumpy 在 NPU 浮点计算中的精度控制机制与优化策略。针对昇腾 Ascend 处理器的达芬奇架构,探讨 IEEE 754 浮点标准在异构计算中的实现差异,以及 Ascend C 如何通过混合精度计算、Kahan 求和、动态缩放等技术,在保证数值精度的前提下实现性能提升。文章包含精度验证框架、性能对比数据和实战优化指南。硬件感知的精度架构:针对 NPU 达芬奇架构优化智能精度

文章图片
#开发语言#昇腾#CANN
AsNumpy 精度控制与 Ascend C 浮点运算优化

本文深入解析 AsNumpy 在 NPU 浮点计算中的精度控制机制与优化策略。针对昇腾 Ascend 处理器的达芬奇架构,探讨 IEEE 754 浮点标准在异构计算中的实现差异,以及 Ascend C 如何通过混合精度计算、Kahan 求和、动态缩放等技术,在保证数值精度的前提下实现性能提升。文章包含精度验证框架、性能对比数据和实战优化指南。硬件感知的精度架构:针对 NPU 达芬奇架构优化智能精度

文章图片
#开发语言#昇腾#CANN
FlashAttention融合算子深度剖析:如何实现多类别注意力机制

🚀 FlashAttention技术解析与优化实践 本文系统阐述了FlashAttention在CANN架构中的实现原理与优化策略。通过分块计算、内存层次优化和在线Softmax算法,将注意力机制的IO复杂度从O(N²)降至线性,内存占用减少90%以上。核心创新包括: 统一架构设计:支持多头/交叉/稀疏注意力等变体,兼容主流框架; 硬件协同优化:针对Ascend芯片定制分块策略,实现3-8倍速度

文章图片
#昇腾#CANN
PerToken量化技术在Ascend C中的实现 - 动态精度适配与大模型推理加速

本文深入解析PerToken量化技术在AscendC中的实现原理,探讨动态精度适配、Token级量化等核心技术。PerToken量化通过动态精度适配实现3-5倍推理加速,同时保持99%+的精度保持率。文章详细分析其数学模型、硬件适配优化及核心算法实现,展示混合精度PerToken量化在大模型推理中的革命性价值。实战案例验证了BERT、GPT等模型的显著性能提升,并提供了高级优化技巧和量化验证框架。

文章图片
#前端#人工智能
PerToken量化技术在Ascend C中的实现 - 动态精度适配与大模型推理加速

本文深入解析PerToken量化技术在AscendC中的实现原理,探讨动态精度适配、Token级量化等核心技术。PerToken量化通过动态精度适配实现3-5倍推理加速,同时保持99%+的精度保持率。文章详细分析其数学模型、硬件适配优化及核心算法实现,展示混合精度PerToken量化在大模型推理中的革命性价值。实战案例验证了BERT、GPT等模型的显著性能提升,并提供了高级优化技巧和量化验证框架。

文章图片
#前端#人工智能
    共 21 条
  • 1
  • 2
  • 3
  • 请选择