
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文深入解析了昇腾CANN软件栈中神经网络计算引擎ops-nn的设计哲学与实现技术。通过分层架构设计(高层API、专家接口、硬件内核)平衡易用性与性能,重点剖析了matmul和activation两类算子的优化策略:利用FRACTAL_NZ数据排布驯服Cube计算单元,采用融合与潜伏技术应对内存带宽瓶颈。文章详细演示了从零构建量化感知卷积算子的全流程,包括接口设计、核函数实现和七级性能优化方法。最

本文系统介绍AsNumpy在昇腾NPU环境中的扩展应用,重点分析其超越NumPy的三大核心优势:NPU原生算子加速(8-32倍)、自定义AscendC算子开发框架和混合精度计算优化。通过推荐系统优化、图像处理等实战案例,展示如何实现10-50倍性能提升。文章提供从架构设计、算子开发到性能调优的全流程指南,包含内存访问优化、计算图策略等高级技巧,并附有故障排查清单。最后展望AsNumpy在自动化优化

摘要:本文深入解析CANNRuntime动态库加载机制,重点阐述dlopen/dlsym调用链的核心实现。通过分析符号解析、版本校验等关键技术,结合性能测试数据(内存占用降低40-60%),揭示按需加载的设计优势。文章提供完整代码示例、故障排查指南及优化技巧,分享企业级应用案例(推荐系统性能提升140%)。最后展望AI框架在动态加载技术上的未来发展方向,为开发者提供实用参考。

本文深入解析CANNRuntime指令下发流水线,聚焦NPU指令缓冲区的核心设计。通过分析ops-nn仓库源码(如提交!1116的Arch编码更新),揭示从算子调用到硬件指令转换的全过程。关键点包括:分层架构设计(算子层、运行时层、驱动层)、环形缓冲区实现(含原子操作优化)、以及性能调优技巧(指令融合、流水线下发等)。实测数据显示,合理设置缓冲区大小可使NPU利用率提升至91%,99分位延迟降至3

本文深入解析华为CANN算子库中HCCL点对点通信的实现原理与技术细节。通过剖析/hccl/p2p/send_recv_impl.cpp核心代码,揭示hcclSend/hcclRecv的底层机制,包括RDMA技术、零拷贝传输和异步事件触发等关键技术。文章结合ParameterServer架构的完整案例,展示如何在实际业务中构建高性能分布式训练系统。测试数据显示,优化后的点对点通信相比默认实现可获得

本文为昇腾Ascend C算子开发的深度入门指南。文章从AI Core的达芬奇架构入手,深入解析了核函数(Kernel Function)与SPMD(Single Program, Multiple Data)并行模型的设计哲学。核心内容聚焦于融合算子(Fusion Operator)的“搬运-计算-搬运”三级流水线范式,通过TPipe/TQue机制、Double Buffer技术以及Cube/V

本文系统介绍了AscendC算子调试与精度调优的全套技术方案。主要内容包括:1)构建昇腾全栈调试生态系统,涵盖调试工具链使用、精度定位方法论和性能分析技巧;2)通过Pow算子案例详细展示精度调优全流程,包括问题定位、根因分析和解决方案;3)提供精度比对工具、性能分析工具等实战指南;4)总结企业级调试Checklist和最佳实践。调试结果显示,优化后Pow算子的精度提升达5700倍,模型准确率提升1

摘要 本文系统阐述了昇腾AscendC高效编程的核心方法论,涵盖达芬奇架构解析、内存优化策略和计算资源利用三大维度。基于CANN7.0+实践,提供从基础算子到复杂计算图的完整优化路径,关键技术包括: 架构特性:达芬奇架构的存储层次模型与SPMD编程范式 优化技术:UnifiedBuffer智能管理、DMA双缓冲流水线、向量化计算 性能验证:实测优化后算子性能提升2-3倍,硬件利用率从40%提升至8

本文深入解析华为昇腾CANN算子测试框架中的gen_data.py与verify_result.py设计与实现。测试数据生成采用科学方法论,覆盖边界条件、特殊值等四类用例;精度验证构建多维度体系,包含绝对误差、相对误差、信噪比等指标。文章通过实战案例展示从数据生成到自动化回归测试的全流程,提供5个Mermaid流程图、真实误差分析数据及13年经验总结的调试方法。重点阐述了企业级测试流水线设计、容差

本文系统探讨了昇腾NPU达芬奇架构中的内存优化策略。基于实测数据,揭示了GlobalMemory、UnifiedBuffer、L1Cache三级存储体系200倍的访存延迟差异,并提出了完整的优化方法论。文章首先剖析了内存层次设计原理,包括Bank访问模式、访存延迟模型等关键技术;随后展示了从基础数据搬运到矩阵乘Tiling的实战优化,通过异步DMA、双缓冲等技术可实现2.5倍性能提升;最后聚焦LL








