six_1243096140 个人主页

@six_1243096140

six_1243096140

2025-11-28 19:58:08 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Ascend C内存搬运的艺术：Double Buffer与流水线优化详解

本文深入剖析了昇腾AI处理器中AscendC编程模型的内存优化技术，重点解析了DoubleBuffer双缓冲机制和多级流水线设计。通过异构计算架构分析，揭示了如何通过计算与搬运的并发执行突破内存带宽限制。文章包含完整的矩阵乘法优化实现代码、性能对比数据（最高提升3.8倍）以及企业级推荐系统的实战案例。针对开发者提供了分步骤优化指南、常见问题解决方案和进阶技巧，并展望了AscendC的未来演进方向。

#人工智能 #CANN #昇腾

Ascend C向量编程实战：MoeGatingTopK的核内计算与数据搬运

本文深入探讨了MoeGatingTopK在AscendC平台上的核内计算优化策略，通过向量化编程、双缓冲技术和内存层次优化等关键技术，实现了5.8倍的性能提升。文章详细解析了AscendC向量编程模型、指令级并行优化、流水线并行架构等核心技术，并提供了完整的代码实现和性能分析框架。在企业级万亿参数模型的实战案例中，优化后的单芯片吞吐量达到82.4K tokens/s，能效比提升至243.8 tok

#开发语言 #昇腾 #CANN

MlaProlog在CANN推理引擎中的集成与执行流程

本文系统解析AscendC算子开发中级认证的核心要点，重点剖析Host-Device协同架构、Tiling分块机制和Kernel编程三大技术难点。通过Sigmoid算子的完整实现案例，详细展示Host侧Tiling结构体设计、Device侧Kernel函数开发及性能优化技巧。文章提供认证全流程指南，包括环境配置、代码实现、编译调试等关键步骤，并针对常见问题给出解决方案。最后分享了企业级开发中的高级

#昇腾 #CANN

Triton - Ascend算子调试工具实战：从精准定位到性能极致

摘要：Triton调试工具彻底改变了Ascend算子开发调试体验，从"盲人摸象"转变为"科学实验"。该工具提供三层诊断系统：编译时检查潜在问题、运行时全方位监控、执行后深度分析。通过实战案例展示，Triton能将复杂注意力算子的调试时间从3天缩短到2小时，显著提升性能稳定性。文章还分享了7个黄金调试工作流，覆盖性能回归分析、竞争条件重现、内存错误定位等场景，

#Triton #CANN

从零构建：Ascend C算子工程项目创建与结构全解

本文系统解析AscendC算子工程化开发全流程，涵盖工程创建、架构设计、构建部署等核心环节。首先对比不同工程创建工具，详细说明基于JSON的原型定义方法。重点剖析标准工程的分层架构，包括Host层控制逻辑和Kernel层计算实现，并深入解读CMake构建配置系统。文章还分享企业级开发经验，如多算子管理、依赖控制和CI/CD实践，提供常见问题解决方案。最后探讨自定义模板等高级主题，强调合理的工程结构

#开发语言 #昇腾 #CANN

CANN算子融合深度解密-从图编译到性能跃迁的实战指南

本文深入解析了华为CANN架构中的算子融合技术，包含图融合和UB融合两大核心技术。通过数学等价变换和硬件亲和优化，算子融合能显著提升AI模型性能，实测在ResNet50等模型上可获得2-3倍加速。文章提供了完整的Conv+BN+ReLU融合代码示例、分步实现指南和常见问题解决方案，并分享了企业级应用案例。未来技术将向AI驱动的自动融合和跨平台统一方向发展。CANN算子融合技术通过软硬协同优化，为A

#CANN #昇腾 #架构

面向不同开发者场景的Triton-on-Ascend应用策略：从算法研究到性能压榨

本文系统解析Triton-on-Ascend在不同开发者场景下的差异化应用策略。针对算法研究员、工程实现工程师、性能优化专家三类典型开发者，分别制定从快速原型验证到极致性能压榨的技术路线。通过完整的场景化案例库和性能数据对比，为不同技术背景的开发者提供量身定制的解决方案，实现开发效率与运行性能的最佳平衡。算法研究员成功模式🎯目标：快速验证算法可行性⚡关键：最小化环境配置时间📊指标：算法收敛性、

#昇腾 #CANN #自动化

Ascend C算子开发实战 - 以AsNumpy的einsum函数为例，从爱因斯坦求和到NPU加速

本文深入探讨了基于AscendC的einsum算子开发全流程，从Einstein记法解析、计算图优化到AscendC核函数设计。通过将einsum从解释执行转变为编译优化，实现了112.11倍的性能提升。文章详细介绍了语法解析器、优化策略选择器、通用核函数框架和矩阵乘法特化实现，并提供了性能对比分析和实战开发指南。关键创新包括：三层设计哲学（解析-优化-实现）、多种计算优化策略选择、双缓冲流水线处

#CANN #昇腾

深入剖析：Aclnn接口调用流程图解与内存管理机制

本文深入解析了Aclnn接口的两段式内存管理设计及其优化技术。核心内容包括：1）两段式接口设计（资源预计算与执行分离），2）多级内存体系（DDR/HBM/UB/L1）特性分析，3）动态工作空间计算机制，4）完整调用流程实现（含内存池化、异步执行和零拷贝技术）。实测数据显示，优化后的内存管理可提升40%以上性能，显著降低碎片率。文章还提供了企业级内存池实现、调试工具和最佳实践指南，适用于昇腾AI处理

#CANN #昇腾

多模态大模型适配实战：以InternVL3的Ascend C迁移为例

本文详细介绍了多模态大模型InternVL3在昇腾AscendC平台的迁移优化全过程。通过分析模型5.1B参数的架构特性，提出了跨模态注意力机制优化、EmbeddingDenseGrad算子深度优化等关键技术方案。实验结果显示，优化后训练速度提升3.36倍，内存占用降低50%，同时保持99.6%的模型精度。文章还提供了混合精度训练、性能瓶颈分析等实用工具，为大规模多模态模型在异构平台的高效部署提供

#人工智能 #CANN #昇腾

共 62 条

请选择