logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

矢量计算的交响乐:Ascend C向量编程范式与指令级并行优化

技巧1:指令混合优化(Instruction Mix Tuning)// 平衡计算与内存指令比例(理想比例:2:1)// 每个循环迭代包含:// 2个内存操作 + 4个计算操作 = 理想比例// 内存指令1// 内存指令2// 计算指令1// 计算指令2// 计算指令3// 计算指令4// 内存指令3技巧2:数据预取策略(Software Prefetching)// 四级预取策略:L1/L2/L

文章图片
#人工智能#开发语言#昇腾 +2
超越MoeGatingTopK - Ascend C在Transformer架构中的其他融合算子实践

本文系统介绍了Transformer架构中关键融合算子的优化实践,涵盖FlashAttention、GroupedGEMM、LayerNorm等核心算子的AscendC实现。通过分块计算、向量化优化、动态调度等技术,实现了3-8倍的性能提升。文章详细分析了各算子的硬件适配方案、内存访问优化策略及企业级部署案例,并提供了性能调优检查清单和回归预防机制。实验数据显示,优化后的融合算子使整体模型性能提升

文章图片
#transformer#架构#昇腾 +1
庖丁解牛:使用Aclnn接口调用一个算子的完整生命周期

本文深入解析了华为昇腾Aclnn接口的算子完整生命周期管理,从算子描述与编译到执行优化。通过LpNormV2Custom算子实例,详细展示了JSON描述符定义、msopgen工具生成框架、两阶段执行模型(描述与执行分离)等关键技术环节。文章包含5个Mermaid流程图、性能数据对比和企业级错误处理模式,重点介绍了向量化计算、内存管理和Pybind11封装等优化策略。最后展望了编译器智能化、统一编程

文章图片
#昇腾#CANN
Ascend C算子开发入门:从AddCustom到Sigmoid的代码实现与思想升华

本文深入解析AscendC算子开发流程,聚焦AddCustom和Sigmoid两个典型算子,从架构设计到代码实现。详细阐述了AscendC的异构计算理念、Kernel函数结构和Tiling策略,并提供了Sigmoid算子的完整实现代码与性能分析。文章特别强调了开发过程中的常见问题及解决方案,帮助开发者快速掌握AscendC算子开发的核心技术,为AI模型的高效实现奠定基础。通过系统化的讲解,使读者能

文章图片
#昇腾#CANN
使用Python DSL定义与生成昇腾融合算子的艺术

本文深入探讨基于Python DSL的昇腾融合算子开发新范式。面对AI模型复杂度的指数级增长,传统C++手写算子方式已无法满足开发效率需求。文章系统介绍TVM/MLIR编译技术CANN AKG自动代码生成动态Shape符号推导三大核心技术,通过完整的Python DSL实现案例展示如何将开发周期从周级缩短至小时级。实测数据显示,基于DSL的融合算子开发在保持95%+硬件利用率的同时,提升5-8倍开

文章图片
#人工智能#算法#昇腾 +1
Triton - Ascend算子性能优化实战:从架构原理到企业级优化

本文深入解析Triton在昇腾AI处理器上的内存管理和并行计算优化技术。涵盖内存层次架构数据布局优化并行调度策略等核心内容,通过完整代码示例展示如何提升算子性能2-5倍。文章包含昇腾平台特有的UB缓存管理原子操作优化动态负载均衡等实战技巧,为AI开发者提供从入门到精通的完整解决方案。基于实际项目经验,分享独特优化见解,帮助读者掌握高性能算子开发的关键技能。本文系统解析了Triton在昇腾平台上的并

文章图片
#昇腾#CANN#Triton
Ascend C性能优化深度探秘:Double Buffer与AtomicAdd的实战应用

本文基于13年AscendC优化经验,深入解析DoubleBuffer与AtomicAdd两大核心技术。DoubleBuffer通过计算与数据搬运重叠,可将计算单元利用率提升至80-90%;AtomicAdd则通过硬件级原子操作优化梯度累加等场景。文章提供完整实现代码,包括AscendC专用优化模板,并通过企业级案例展示3倍以上性能提升。性能测试显示:批量AtomicAdd提速1.6倍,向量化优化

文章图片
#性能优化#昇腾#CANN
Pybind调用入门 - 为何它是连接C++算子与Python世界的桥梁?

本文详细介绍了如何使用Pybind11将高性能C++算子封装为Python接口,实现性能与开发效率的平衡。主要内容包括:1. Pybind11的核心技术原理与架构设计,展示其轻量级但强大的特性;2. 类型系统和内存管理等核心机制的深度解析;3. 封装AscendC算子的完整实践指南,涵盖环境配置、代码实现、编译配置和测试验证;4. 企业级应用中的高级优化技巧和故障排查方法。通过实测数据表明,Pyb

文章图片
#python#昇腾#CANN
ops-cv NMS后处理硬件排序单元调用与阈值优化实战

摘要:本文深入探讨了目标检测模型中NMS(非极大值抑制)后处理的硬件加速优化方法。通过分析ops-cv中non_max_suppression.cpp的实现,详细介绍了如何利用aicpu_sort硬件单元加速排序计算,并结合YOLOv8案例提供完整的IoU阈值调优方案。实验数据显示,优化后的NMS在NPU上可实现3-5倍的性能提升,同时保持检测精度稳定。文章还包含环境配置、调优策略、常见问题解决等

文章图片
#目标跟踪#人工智能#计算机视觉 +1
ops-transformer RoPE位置编码 复数旋转硬件加速实战

本文深度剖析了cann项目中ops-transformer的RoPE位置编码优化实现,重点解析了rotary_position_embedding.cpp中的关键技术。通过预计算sin/cos表、向量指令融合和NPU硬件加速等创新方法,在LLaMA模型推理中实现18%的吞吐提升。文章详细介绍了分层架构设计、内存优化策略和指令级并行技术,并提供了完整的性能对比数据和实战代码示例。针对企业级应用场景,

文章图片
#transformer#深度学习#人工智能 +1
    共 35 条
  • 1
  • 2
  • 3
  • 4
  • 请选择