
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文深入解析华为CANN算子库中HCCL点对点通信的实现原理与技术细节。通过剖析/hccl/p2p/send_recv_impl.cpp核心代码,揭示hcclSend/hcclRecv的底层机制,包括RDMA技术、零拷贝传输和异步事件触发等关键技术。文章结合ParameterServer架构的完整案例,展示如何在实际业务中构建高性能分布式训练系统。测试数据显示,优化后的点对点通信相比默认实现可获得

本文深入解析CANNRuntime指令下发流水线,聚焦NPU指令缓冲区的核心设计。通过分析ops-nn仓库源码(如提交!1116的Arch编码更新),揭示从算子调用到硬件指令转换的全过程。关键点包括:分层架构设计(算子层、运行时层、驱动层)、环形缓冲区实现(含原子操作优化)、以及性能调优技巧(指令融合、流水线下发等)。实测数据显示,合理设置缓冲区大小可使NPU利用率提升至91%,99分位延迟降至3

摘要:本文深入解析CANNRuntime动态库加载机制,重点阐述dlopen/dlsym调用链的核心实现。通过分析符号解析、版本校验等关键技术,结合性能测试数据(内存占用降低40-60%),揭示按需加载的设计优势。文章提供完整代码示例、故障排查指南及优化技巧,分享企业级应用案例(推荐系统性能提升140%)。最后展望AI框架在动态加载技术上的未来发展方向,为开发者提供实用参考。

摘要:本文深入解析CANNRuntime动态库加载机制,重点阐述dlopen/dlsym调用链的核心实现。通过分析符号解析、版本校验等关键技术,结合性能测试数据(内存占用降低40-60%),揭示按需加载的设计优势。文章提供完整代码示例、故障排查指南及优化技巧,分享企业级应用案例(推荐系统性能提升140%)。最后展望AI框架在动态加载技术上的未来发展方向,为开发者提供实用参考。

《千亿参数多模态大模型InternVL在昇腾平台的训练优化实践》 摘要:本文详细介绍了1100亿参数的多模态大模型InternVL在昇腾平台上的完整训练优化方案。针对内存墙、通信瓶颈和计算效率三大核心挑战,提出了系统性的解决方案:1)采用分层张量并行和ZeRO-3优化技术,将模型内存需求从理论1.1TB降低到单卡28GB;2)通过分层AllReduce算法和通信计算重叠技术,将通信开销降低62.5

本文系统介绍了Triton在昇腾AI处理器上的性能优化全流程,涵盖内存访问、计算强度和并行度三大核心优化策略。通过详细解析性能分析工具、优化方法论及实战案例(如矩阵转置、Embedding层和Attention层优化),展示了如何结合DLCompiler与AscendNPUIR特性实现接近硬件峰值的算子性能。文章提出"可量化、可复现、可持续"的优化原则,并给出性能优化检查清单和

《千亿参数多模态大模型InternVL在昇腾平台的训练优化实践》 摘要:本文详细介绍了1100亿参数的多模态大模型InternVL在昇腾平台上的完整训练优化方案。针对内存墙、通信瓶颈和计算效率三大核心挑战,提出了系统性的解决方案:1)采用分层张量并行和ZeRO-3优化技术,将模型内存需求从理论1.1TB降低到单卡28GB;2)通过分层AllReduce算法和通信计算重叠技术,将通信开销降低62.5

本文深入解析华为昇腾CANN算子测试框架中的gen_data.py与verify_result.py设计与实现。测试数据生成采用科学方法论,覆盖边界条件、特殊值等四类用例;精度验证构建多维度体系,包含绝对误差、相对误差、信噪比等指标。文章通过实战案例展示从数据生成到自动化回归测试的全流程,提供5个Mermaid流程图、真实误差分析数据及13年经验总结的调试方法。重点阐述了企业级测试流水线设计、容差

本文为昇腾Ascend C算子开发的深度入门指南。文章从AI Core的达芬奇架构入手,深入解析了核函数(Kernel Function)与SPMD(Single Program, Multiple Data)并行模型的设计哲学。核心内容聚焦于融合算子(Fusion Operator)的“搬运-计算-搬运”三级流水线范式,通过TPipe/TQue机制、Double Buffer技术以及Cube/V

本文深入探讨SPMD编程模型在昇腾AI处理器上的优化实践,揭示了其与达芬奇架构的天然适配性。通过Cube/Vector/Scalar三级计算单元的高效映射,详细解析了矩阵乘法和卷积算子的SPMD实现与性能优化策略。基于电商推荐系统和大语言模型等真实场景,展示了SPMD带来的显著性能提升(TPS提升86%,训练耗时降低49%)。文章提供了从环境配置到故障排查的完整实践指南,并指出SPMD在昇腾平台上








