m0_37613794 个人主页

@m0_37613794

m0_37613794

2023-01-09 16:27:12 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

CANN分布式训练实战点对点通信原理解析与Parameter Server架构适配指南

本文深入解析华为CANN算子库中HCCL点对点通信的实现原理与技术细节。通过剖析/hccl/p2p/send_recv_impl.cpp核心代码，揭示hcclSend/hcclRecv的底层机制，包括RDMA技术、零拷贝传输和异步事件触发等关键技术。文章结合ParameterServer架构的完整案例，展示如何在实际业务中构建高性能分布式训练系统。测试数据显示，优化后的点对点通信相比默认实现可获得

#分布式 #架构 #wpf +1

CANN Runtime硬件指令封装与NPU下发机制深度解析

本文深入解析CANNRuntime指令下发流水线，聚焦NPU指令缓冲区的核心设计。通过分析ops-nn仓库源码（如提交!1116的Arch编码更新），揭示从算子调用到硬件指令转换的全过程。关键点包括：分层架构设计（算子层、运行时层、驱动层）、环形缓冲区实现（含原子操作优化）、以及性能调优技巧（指令融合、流水线下发等）。实测数据显示，合理设置缓冲区大小可使NPU利用率提升至91%，99分位延迟降至3

#CANN

动态库加载机制 CANN Runtime如何按需加载算子库

摘要：本文深入解析CANNRuntime动态库加载机制，重点阐述dlopen/dlsym调用链的核心实现。通过分析符号解析、版本校验等关键技术，结合性能测试数据（内存占用降低40-60%），揭示按需加载的设计优势。文章提供完整代码示例、故障排查指南及优化技巧，分享企业级应用案例（推荐系统性能提升140%）。最后展望AI框架在动态加载技术上的未来发展方向，为开发者提供实用参考。

#CANN

动态库加载机制 CANN Runtime如何按需加载算子库

#CANN

面向多模态大模型：InternVL在昇腾平台上的训练优化与挑战应对

《千亿参数多模态大模型InternVL在昇腾平台的训练优化实践》摘要：本文详细介绍了1100亿参数的多模态大模型InternVL在昇腾平台上的完整训练优化方案。针对内存墙、通信瓶颈和计算效率三大核心挑战，提出了系统性的解决方案：1）采用分层张量并行和ZeRO-3优化技术，将模型内存需求从理论1.1TB降低到单卡28GB；2）通过分层AllReduce算法和通信计算重叠技术，将通信开销降低62.5

#昇腾 #CANN

Triton - Ascend算子性能优化策略：从基础调优到企业级实战

本文系统介绍了Triton在昇腾AI处理器上的性能优化全流程，涵盖内存访问、计算强度和并行度三大核心优化策略。通过详细解析性能分析工具、优化方法论及实战案例（如矩阵转置、Embedding层和Attention层优化），展示了如何结合DLCompiler与AscendNPUIR特性实现接近硬件峰值的算子性能。文章提出"可量化、可复现、可持续"的优化原则，并给出性能优化检查清单和

#昇腾 #CANN #性能优化 +1

面向多模态大模型：InternVL在昇腾平台上的训练优化与挑战应对

#昇腾 #CANN

精度生命线：Ascend算子测试框架gen_data与verify_result深度解析

本文深入解析华为昇腾CANN算子测试框架中的gen_data.py与verify_result.py设计与实现。测试数据生成采用科学方法论，覆盖边界条件、特殊值等四类用例；精度验证构建多维度体系，包含绝对误差、相对误差、信噪比等指标。文章通过实战案例展示从数据生成到自动化回归测试的全流程，提供5个Mermaid流程图、真实误差分析数据及13年经验总结的调试方法。重点阐述了企业级测试流水线设计、容差

#昇腾 #CANN #架构

从零深入Ascend C：融合算子编程范式与核函数设计精要

本文为昇腾Ascend C算子开发的深度入门指南。文章从AI Core的达芬奇架构入手，深入解析了核函数（Kernel Function）与SPMD（Single Program, Multiple Data）并行模型的设计哲学。核心内容聚焦于融合算子（Fusion Operator）的“搬运-计算-搬运”三级流水线范式，通过TPipe/TQue机制、Double Buffer技术以及Cube/V

#昇腾 #CANN

SPMD编程模型在昇腾AI处理器上的实战应用与性能优化

本文深入探讨SPMD编程模型在昇腾AI处理器上的优化实践，揭示了其与达芬奇架构的天然适配性。通过Cube/Vector/Scalar三级计算单元的高效映射，详细解析了矩阵乘法和卷积算子的SPMD实现与性能优化策略。基于电商推荐系统和大语言模型等真实场景，展示了SPMD带来的显著性能提升（TPS提升86%，训练耗时降低49%）。文章提供了从环境配置到故障排查的完整实践指南，并指出SPMD在昇腾平台上

#人工智能 #性能优化 #CANN +1

共 41 条

请选择