newBorn_1991 个人主页

@newBorn_1991

newBorn_1991

2025-11-29 18:24:11 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

矢量计算的交响乐：Ascend C向量编程范式与指令级并行优化

技巧1：指令混合优化（Instruction Mix Tuning）// 平衡计算与内存指令比例（理想比例：2:1）// 每个循环迭代包含：// 2个内存操作 + 4个计算操作 = 理想比例// 内存指令1// 内存指令2// 计算指令1// 计算指令2// 计算指令3// 计算指令4// 内存指令3技巧2：数据预取策略（Software Prefetching）// 四级预取策略：L1/L2/L

#人工智能 #开发语言 #昇腾 +2

超越MoeGatingTopK - Ascend C在Transformer架构中的其他融合算子实践

本文系统介绍了Transformer架构中关键融合算子的优化实践，涵盖FlashAttention、GroupedGEMM、LayerNorm等核心算子的AscendC实现。通过分块计算、向量化优化、动态调度等技术，实现了3-8倍的性能提升。文章详细分析了各算子的硬件适配方案、内存访问优化策略及企业级部署案例，并提供了性能调优检查清单和回归预防机制。实验数据显示，优化后的融合算子使整体模型性能提升

#transformer #架构 #昇腾 +1

庖丁解牛：使用Aclnn接口调用一个算子的完整生命周期

本文深入解析了华为昇腾Aclnn接口的算子完整生命周期管理，从算子描述与编译到执行优化。通过LpNormV2Custom算子实例，详细展示了JSON描述符定义、msopgen工具生成框架、两阶段执行模型（描述与执行分离）等关键技术环节。文章包含5个Mermaid流程图、性能数据对比和企业级错误处理模式，重点介绍了向量化计算、内存管理和Pybind11封装等优化策略。最后展望了编译器智能化、统一编程

#昇腾 #CANN

Ascend C算子开发入门：从AddCustom到Sigmoid的代码实现与思想升华

本文深入解析AscendC算子开发流程，聚焦AddCustom和Sigmoid两个典型算子，从架构设计到代码实现。详细阐述了AscendC的异构计算理念、Kernel函数结构和Tiling策略，并提供了Sigmoid算子的完整实现代码与性能分析。文章特别强调了开发过程中的常见问题及解决方案，帮助开发者快速掌握AscendC算子开发的核心技术，为AI模型的高效实现奠定基础。通过系统化的讲解，使读者能

#昇腾 #CANN

使用Python DSL定义与生成昇腾融合算子的艺术

本文深入探讨基于Python DSL的昇腾融合算子开发新范式。面对AI模型复杂度的指数级增长，传统C++手写算子方式已无法满足开发效率需求。文章系统介绍TVM/MLIR编译技术CANN AKG自动代码生成动态Shape符号推导三大核心技术，通过完整的Python DSL实现案例展示如何将开发周期从周级缩短至小时级。实测数据显示，基于DSL的融合算子开发在保持95%+硬件利用率的同时，提升5-8倍开

#人工智能 #算法 #昇腾 +1

Triton - Ascend算子性能优化实战：从架构原理到企业级优化

本文深入解析Triton在昇腾AI处理器上的内存管理和并行计算优化技术。涵盖内存层次架构数据布局优化并行调度策略等核心内容，通过完整代码示例展示如何提升算子性能2-5倍。文章包含昇腾平台特有的UB缓存管理原子操作优化动态负载均衡等实战技巧，为AI开发者提供从入门到精通的完整解决方案。基于实际项目经验，分享独特优化见解，帮助读者掌握高性能算子开发的关键技能。本文系统解析了Triton在昇腾平台上的并

#昇腾 #CANN #Triton

Ascend C性能优化深度探秘：Double Buffer与AtomicAdd的实战应用

本文基于13年AscendC优化经验，深入解析DoubleBuffer与AtomicAdd两大核心技术。DoubleBuffer通过计算与数据搬运重叠，可将计算单元利用率提升至80-90%；AtomicAdd则通过硬件级原子操作优化梯度累加等场景。文章提供完整实现代码，包括AscendC专用优化模板，并通过企业级案例展示3倍以上性能提升。性能测试显示：批量AtomicAdd提速1.6倍，向量化优化

#性能优化 #昇腾 #CANN

Pybind调用入门 - 为何它是连接C++算子与Python世界的桥梁？

本文详细介绍了如何使用Pybind11将高性能C++算子封装为Python接口，实现性能与开发效率的平衡。主要内容包括：1. Pybind11的核心技术原理与架构设计，展示其轻量级但强大的特性；2. 类型系统和内存管理等核心机制的深度解析；3. 封装AscendC算子的完整实践指南，涵盖环境配置、代码实现、编译配置和测试验证；4. 企业级应用中的高级优化技巧和故障排查方法。通过实测数据表明，Pyb

#python #昇腾 #CANN

ops-cv NMS后处理硬件排序单元调用与阈值优化实战

摘要：本文深入探讨了目标检测模型中NMS（非极大值抑制）后处理的硬件加速优化方法。通过分析ops-cv中non_max_suppression.cpp的实现，详细介绍了如何利用aicpu_sort硬件单元加速排序计算，并结合YOLOv8案例提供完整的IoU阈值调优方案。实验数据显示，优化后的NMS在NPU上可实现3-5倍的性能提升，同时保持检测精度稳定。文章还包含环境配置、调优策略、常见问题解决等

#目标跟踪 #人工智能 #计算机视觉 +1

ops-transformer RoPE位置编码复数旋转硬件加速实战

本文深度剖析了cann项目中ops-transformer的RoPE位置编码优化实现，重点解析了rotary_position_embedding.cpp中的关键技术。通过预计算sin/cos表、向量指令融合和NPU硬件加速等创新方法，在LLaMA模型推理中实现18%的吞吐提升。文章详细介绍了分层架构设计、内存优化策略和指令级并行技术，并提供了完整的性能对比数据和实战代码示例。针对企业级应用场景，

#transformer #深度学习 #人工智能 +1

共 35 条

请选择