
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
计算图优化:从运行时解释到编译期优化,性能提升2-3个数量级硬件感知设计:针对NPU架构特化的内存访问模式和计算流水线智能策略选择:基于计算特征的自动优化策略选择昇腾训练营简介:2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证,即可领取精美证书,完成社区任

本文深入解析Triton-on-Ascend平台的自动调优技术体系,展示其在昇腾AI处理器上的优化效果。通过智能参数空间探索、贝叶斯优化和多目标优化等核心算法,自动调优相比手工调优可提升算子性能60%以上。文章包含矩阵乘法和卷积算子的完整调优案例,以及推荐系统、大语言模型等实战场景的优化数据。实测显示,自动调优在不同类型算子上可获得57%-64%的性能提升,同时提供故障诊断工具和最佳实践指导。最后

本文深入探讨基于AscendC的大词表EmbeddingLookup算子优化技术,提出通过分块内存访问、动态批处理流水线和混合精度压缩三大核心技术,实现100GB词表加载延迟降低72%、QPS提升3.8倍,并在FP16下保持<0.2%精度损失。关键技术包括三级流水线+双缓冲机制(85%硬件利用率)、向量化Gather操作(95%UB命中率)和动态Shape支持。文章提供BERT-Large优

摘要:本文深入解析Triton编译器在昇腾CANN生态中的应用,揭示从Python代码到Ascend硬件指令的完整编译流程。文章首先打破对Triton作为"Python装饰器"的认知误区,详细剖析其分层编译架构;随后通过向量加法等实例,展示Triton IR到昇腾后端的Lowering过程;提供Swish算子的完整开发示例,包括BLOCK_SIZE调优等实践技巧;最后展望Tri

本文深入探讨基于Ascend C工具链的MlaProlog算子性能调优方法论。通过系统介绍性能分析工具链概览,详细解析典型性能瓶颈模式识别技术,并结合实际案例展示基于Profiling数据的迭代优化流程。文章重点探讨关键参数(Tiling策略、Pipe Depth等)的敏感度分析,提供达到理论峰值性能的实践路径,为AI开发者提供从基础理论到高级优化的完整性能调优解决方案。本文系统性地介绍了MlaP

调试能力是区分“能跑通的代码”和“能上线的算子”的唯一标准。那些年我见过最离谱的Bug,从AI Core神秘静默崩溃,到结果误差在第七位小数点后随机波动。这篇文章,我不给你列枯燥的错误码清单,我要给你一套能带走的“破案工具箱”和“刑侦思维”。第一,“结果错了,为啥? 我们将用二分法+ASAN+GDB三板斧,从海量代码中定位幽灵访越界。第二,“跑得太慢,卡在哪? 我们将深入Ascend Insi

本文基于CANN量化Matmul开发样例技术文档中动态量化和精度适配相关技术,深度解析PerToken量化技术在Ascend C中的实现原理。重点探讨动态精度适配(Dynamic Precision Adaptation)Token级量化(Token-wise Quantization)在线校准(Online Calibration) 等核心技术。结合素材中NPU硬件特性和大模型推理需求,详细分

本文深入解析CANN架构中的混合计算模型与控制(MCMC)技术,提出三大核心技术突破:1)动态计算路径选择实现4.2倍性能提升;2)多层次资源管理架构使资源利用率达92%;3)混合精度协调算法平衡计算效率与精度损失。通过状态机模型、计算图智能划分、动态资源调整等创新设计,MCMC成功应用于万亿参数模型训练,将收敛时间从28天缩短至10天。文章提供完整的算法实现代码、性能监控体系和故障诊断框架,为A

本文系统探讨了昇腾AscendC融合算子的工程化测试策略,提出基于测试金字塔模型的全流程质量保障方案。通过分层测试架构设计,覆盖核函数单元测试到框架集成的各环节,并实现容器化部署环境。重点展示了RMSNorm+SwiGLU融合算子的单元测试实现、多核协同测试框架及性能基准测试体系。基于GitLab CI构建的CI/CD流水线将测试周期从周级缩短至小时级,缺陷逃逸率降低至5%以下。企业级实践案例表明

真正的高性能计算不是关于编写代码,而是关于理解数据在硬件中的流动。Ascend C Kernel的设计精髓在于,它既提供了足够的抽象来保持开发效率,又保留了必要的控制力来实现极致性能。数据局部性优先:90%的性能问题源于内存访问并行暴露最大化:让硬件看到所有可并行的机会平衡的艺术:在抽象与控制之间找到最佳平衡点随着大模型时代的到来,算子开发正从"专家技能"变为"工程师必备"。掌握Ascend C








