风雨兼程个人主页

@manong1ge

风雨兼程

2024-11-14 13:46:14 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

AsNumpy 的架构设计与 Ascend C 的底层赋能：从 Python 生态到 NPU 原生的高性能计算革命

AsNumpy 的成功，本质上是 Ascend C 编程模型与昇腾硬件架构深度协同的成功。它通过一套精巧的分层架构，将对开发者的友好度（Numpy API）和底层的执行效率（Ascend C Kernel）做到了极佳的平衡。核心价值：它为 Python 数据科学社区提供了一个“零学习成本” 的 NPU 加速通道，是推动 AI 计算普惠化的关键一环。未来展望：随着 CANN 的全面开源，AsNum

#python #开发语言 #CANN +1

昇腾Ascend C高性能算子优化：突破内存墙与计算墙的深度实践

本文是一份来自一线实战的昇腾CANN算子优化全攻略。我将以多年老兵的视角，直击AI计算两大核心矛盾——内存墙与计算墙，用大白话拆解在Ascend C层面系统化攻克它们的完整方法论。文章将彻底避开空洞理论，聚焦于我们团队在优化MoE、Transformer等大模型关键算子时，那些真正起作用的技术细节、踩过的深坑和提炼出的通用心法。从性能分析定位、数据类型革命、访存优化黑科技到计算流水线重构，我将提供

#昇腾 #CANN

Ascend C生态纵览：工具链、社区资源与最佳学习路径

想在昇腾生态里从“小白”变成“老炮”？光会写Ascend C代码，顶多算个“码农”；真正的高手，得是“生态玩家”。这篇文章，我不跟你复读官方文档，我要给你画一张完整的“藏宝图”。第一，是昇腾CANN那套复杂但精密的“生产线”（工具链），从代码怎么变成NPU指令，到性能怎么调，这条线上的每个工具都是你的瑞士军刀。第二，是华为和社区攒下的“资源库”，训练营、认证、开源项目、大佬云集的论坛，这些地方藏着

#开发语言 #昇腾 #CANN

Ascend C算子开发实战：MoeGatingTopK的Tiling设计与性能优化

本文深入解析了混合专家模型(MoE)核心算子MoeGatingTopK在昇腾平台上的性能优化策略。针对动态序列和专家选择的双重挑战，提出了基于Tiling设计的创新解决方案，有效解决了计算不规则和内存访问低效问题。文章从架构设计、核函数实现到性能调优全流程展开，重点介绍了动态Tiling策略、双缓冲技术、向量化优化等关键技术，并通过实验数据展示了优化效果。最终实现相比原始离散算子方案获得数量级的性

#算法 #昇腾 #CANN

昇腾Ascend C高性能算子优化：突破内存墙与计算墙的深度实践

#昇腾 #CANN

AsNumpy 的架构设计与 Ascend C 的底层赋能：从 Python 生态到 NPU 原生的高性能计算革命

#python #开发语言 #CANN +1

模型迁移全流程实战：从PyTorch到Ascend C的异构加速

本文详细介绍了如何将PyTorch模型迁移到Atlas300I/VPro硬件平台的全流程。文章首先强调了迁移前的准备工作，包括硬件差异分析和模型可行性评估。随后提供了七步迁移法，涵盖环境配置、代码改造、性能调优等关键环节，并通过VisionTransformer的完整示例演示具体实现。针对性能优化，文章重点介绍了算子融合、混合精度训练等核心技术，并给出故障排查指南和企业级案例InternVL3的迁

#pytorch #昇腾 #CANN

突破架构差异：实现 Triton 算子从 CUDA 到昇腾 NPU 的高效迁移

本文系统介绍了Triton算子从CUDA到昇腾NPU的跨平台迁移技术，提出包含硬件抽象层适配、内存模型转换和性能优化的完整迁移框架。通过架构差异分析、接口映射转换和计算资源重平衡等关键技术，实现了迁移成本降低70%、性能损失控制在15%以内的优化目标。文章详细阐述了网格配置迁移算法、内存访问优化策略等核心方法，并提供了生产级迁移框架实现和性能对比测试方案。基于13年异构计算经验，总结了典型迁移问题

#昇腾 #CANN #Triton

Ascend C量化模式详解：Weight静态量化与Activation动态量化在Matmul中的实践

本文深入探讨了在昇腾NPU上实现高效量化矩阵乘法（Matmul）的关键技术与实践方法。文章首先解析了量化的本质，指出量化是计算范式的重构而非简单的数据类型转换，并详细介绍了昇腾NPU的量化硬件优势。随后，文章分别阐述了权重静态量化和激活值动态量化的实现策略，包括逐通道量化、动态范围调整等技术细节。通过完整的量化Matmul算子实现案例，展示了如何利用AscendC达到85%以上的硬件利用率。最后，

#昇腾 #CANN

昇腾CANN从单算子到融合优化实战

本文系统介绍了基于昇腾CANN的算子开发进阶方法，从基础单算子实现到高级融合优化技术。重点解析了达芬奇架构设计、AscendC编程模型、三级流水线原理和算子融合等关键技术，通过Add算子实现和Conv+BiasAdd+ReLU融合案例展示了性能优化效果。实测数据显示，通过Tiling策略、流水线并行等技术可实现3-5倍性能提升，硬件利用率达85%以上。文章提供了完整代码示例、分步实现指南和常见问题

#昇腾 #CANN #架构

共 72 条

请选择