logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

面向多模态大模型:InternVL在昇腾平台上的训练优化与挑战应对

《千亿参数多模态大模型InternVL在昇腾平台的训练优化实践》 摘要:本文详细介绍了1100亿参数的多模态大模型InternVL在昇腾平台上的完整训练优化方案。针对内存墙、通信瓶颈和计算效率三大核心挑战,提出了系统性的解决方案:1)采用分层张量并行和ZeRO-3优化技术,将模型内存需求从理论1.1TB降低到单卡28GB;2)通过分层AllReduce算法和通信计算重叠技术,将通信开销降低62.5

文章图片
#昇腾#CANN
精度生命线:Ascend算子测试框架gen_data与verify_result深度解析

本文深入解析华为昇腾CANN算子测试框架中的gen_data.py与verify_result.py设计与实现。测试数据生成采用科学方法论,覆盖边界条件、特殊值等四类用例;精度验证构建多维度体系,包含绝对误差、相对误差、信噪比等指标。文章通过实战案例展示从数据生成到自动化回归测试的全流程,提供5个Mermaid流程图、真实误差分析数据及13年经验总结的调试方法。重点阐述了企业级测试流水线设计、容差

文章图片
#昇腾#CANN#架构
从零深入Ascend C:融合算子编程范式与核函数设计精要

本文为昇腾Ascend C算子开发的深度入门指南。文章从AI Core的达芬奇架构入手,深入解析了核函数(Kernel Function)与SPMD(Single Program, Multiple Data)并行模型的设计哲学。核心内容聚焦于融合算子(Fusion Operator)的“搬运-计算-搬运”三级流水线范式,通过TPipe/TQue机制、Double Buffer技术以及Cube/V

文章图片
#昇腾#CANN
SPMD编程模型在昇腾AI处理器上的实战应用与性能优化

本文深入探讨SPMD编程模型在昇腾AI处理器上的优化实践,揭示了其与达芬奇架构的天然适配性。通过Cube/Vector/Scalar三级计算单元的高效映射,详细解析了矩阵乘法和卷积算子的SPMD实现与性能优化策略。基于电商推荐系统和大语言模型等真实场景,展示了SPMD带来的显著性能提升(TPS提升86%,训练耗时降低49%)。文章提供了从环境配置到故障排查的完整实践指南,并指出SPMD在昇腾平台上

文章图片
#人工智能#性能优化#CANN +1
攻克复杂依赖 - 基于MlaProlog思想设计数据依赖与计算流图

本文深入探讨了基于CANN MlaProlog融合算子的数据依赖分析与计算流图设计方法。通过解构复杂算子中的依赖关系,系统阐述了依赖图构建算法、AscendC同步原语和流水线优化策略等核心技术。文章提出了从依赖分析到高性能实现的完整路径,包括:1)形式化定义流依赖、反依赖和输出依赖三种类型;2)提出计算流图构建的系统方法;3)介绍AscendC中的队列隐式依赖和显式同步原语。通过Transform

文章图片
#算法#昇腾#CANN
实战:使用Ascend C构建MoeGatingTopK算子 - 数据排序与结果写出

摘要:本文系统介绍了基于AscendC构建MoeGatingTopK算子在数据排序与结果写出阶段的优化技术。通过向量化Top-K算法、多核协同排序、分布式归并和高效结果写出等关键技术,在昇腾AI处理器上实现了5-8倍的性能提升。文章详细阐述了从算法设计到工程实现的完整技术栈,包括向量化加载合并、蝶形归并网络、异步流水线写出等创新优化方法。实测数据显示,优化后算法在1024专家规模下排序时间从2.3

文章图片
#排序算法#昇腾#CANN
Ascend NPU架构解密-融合算子编程范式从指令到流水

本文系统阐述了AscendNPU架构下的融合算子编程范式,揭示了从指令级并行到流水线并行的技术演进路径。通过深入解析达芬奇架构中Cube/Vector/Scalar计算单元的协同机制和多级存储体系,详细介绍了基于AscendC的三维编程范式(CopyIn-Compute-CopyOut)及其性能优化方法。文章以"类MlaProlog"融合算子为例,展示了从Python DSL描

文章图片
#人工智能#大数据#昇腾 +1
Ascend C算子调试与精度调优实战技巧

本文系统介绍了AscendC算子调试与精度调优的全套技术方案。主要内容包括:1)构建昇腾全栈调试生态系统,涵盖调试工具链使用、精度定位方法论和性能分析技巧;2)通过Pow算子案例详细展示精度调优全流程,包括问题定位、根因分析和解决方案;3)提供精度比对工具、性能分析工具等实战指南;4)总结企业级调试Checklist和最佳实践。调试结果显示,优化后Pow算子的精度提升达5700倍,模型准确率提升1

文章图片
#昇腾#CANN
内存金字塔:Ascend C中的多级存储体系与高效访存设计

本文系统探讨了昇腾NPU达芬奇架构中的内存优化策略。基于实测数据,揭示了GlobalMemory、UnifiedBuffer、L1Cache三级存储体系200倍的访存延迟差异,并提出了完整的优化方法论。文章首先剖析了内存层次设计原理,包括Bank访问模式、访存延迟模型等关键技术;随后展示了从基础数据搬运到矩阵乘Tiling的实战优化,通过异步DMA、双缓冲等技术可实现2.5倍性能提升;最后聚焦LL

文章图片
#c语言#开发语言#昇腾 +1
昇腾Ascend C高效编程最佳实践:从架构理解到性能极致

摘要 本文系统阐述了昇腾AscendC高效编程的核心方法论,涵盖达芬奇架构解析、内存优化策略和计算资源利用三大维度。基于CANN7.0+实践,提供从基础算子到复杂计算图的完整优化路径,关键技术包括: 架构特性:达芬奇架构的存储层次模型与SPMD编程范式 优化技术:UnifiedBuffer智能管理、DMA双缓冲流水线、向量化计算 性能验证:实测优化后算子性能提升2-3倍,硬件利用率从40%提升至8

文章图片
#昇腾#CANN#架构
    共 42 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择