logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

双核共舞 - MlaProlog中Cube与Vector单元的协同编程艺术

摘要:本文系统解析昇腾NPU中MlaProlog算子的双核协同编程机制,揭示达芬奇架构下Cube与Vector计算单元的高效协作原理。通过硬件架构分析、AscendC编程范式、计算依赖算法及智能流水线编排等核心技术,展示如何实现3-7倍性能提升。包含完整的注意力机制算子实现代码、多模态应用案例及性能优化策略,并提供双核负载均衡、内存带宽优化等典型问题的解决方案,为AI开发者提供从理论到工程实践的完

文章图片
#网络#昇腾#CANN +1
昇腾Ascend C高性能算子优化:突破内存墙与计算墙的深度实践

本文是一份来自一线实战的昇腾CANN算子优化全攻略。我将以多年老兵的视角,直击AI计算两大核心矛盾——内存墙与计算墙,用大白话拆解在Ascend C层面系统化攻克它们的完整方法论。文章将彻底避开空洞理论,聚焦于我们团队在优化MoE、Transformer等大模型关键算子时,那些真正起作用的技术细节、踩过的深坑和提炼出的通用心法。从性能分析定位、数据类型革命、访存优化黑科技到计算流水线重构,我将提供

文章图片
#昇腾#CANN
跨越鸿沟:从Triton到Ascend C,看异构计算编程模型的演进与融合

本文对比分析了GPU编程模型Triton与昇腾NPU编程模型AscendC的核心差异,重点探讨了在AscendC中优化大模型推理的四大关键技术:KVCache增量解码、稀疏矩阵乘法、混合精度计算和多核负载均衡。通过实测数据验证,AscendC的精细化控制能带来4-5倍性能提升,尤其在长序列场景优势显著。文章还提供了完整代码示例和优化实践指南,揭示了从"抽象编程"到"硬

文章图片
#CANN#昇腾#Triton
Ascend C量化模式详解:Weight静态量化与Activation动态量化在Matmul中的实践

本文深入探讨了在昇腾NPU上实现高效量化矩阵乘法(Matmul)的关键技术与实践方法。文章首先解析了量化的本质,指出量化是计算范式的重构而非简单的数据类型转换,并详细介绍了昇腾NPU的量化硬件优势。随后,文章分别阐述了权重静态量化和激活值动态量化的实现策略,包括逐通道量化、动态范围调整等技术细节。通过完整的量化Matmul算子实现案例,展示了如何利用AscendC达到85%以上的硬件利用率。最后,

文章图片
#昇腾#CANN
Ascend C算子开发实战:MoeGatingTopK的Tiling设计与性能优化

本文深入解析了混合专家模型(MoE)核心算子MoeGatingTopK在昇腾平台上的性能优化策略。针对动态序列和专家选择的双重挑战,提出了基于Tiling设计的创新解决方案,有效解决了计算不规则和内存访问低效问题。文章从架构设计、核函数实现到性能调优全流程展开,重点介绍了动态Tiling策略、双缓冲技术、向量化优化等关键技术,并通过实验数据展示了优化效果。最终实现相比原始离散算子方案获得数量级的性

文章图片
#算法#昇腾#CANN
AsNumpy 的架构设计与 Ascend C 的底层赋能:从 Python 生态到 NPU 原生的高性能计算革命

AsNumpy 的成功,本质上是 Ascend C 编程模型与昇腾硬件架构深度协同的成功。它通过一套精巧的分层架构,将对开发者的友好度(Numpy API)和底层的执行效率(Ascend C Kernel)做到了极佳的平衡。核心价值:它为 Python 数据科学社区提供了一个“零学习成本”​ 的 NPU 加速通道,是推动 AI 计算普惠化的关键一环。未来展望:随着 CANN 的全面开源,AsNum

文章图片
#python#开发语言#CANN +1
模型迁移全流程实战:从PyTorch到Ascend C的异构加速

本文详细介绍了如何将PyTorch模型迁移到Atlas300I/VPro硬件平台的全流程。文章首先强调了迁移前的准备工作,包括硬件差异分析和模型可行性评估。随后提供了七步迁移法,涵盖环境配置、代码改造、性能调优等关键环节,并通过VisionTransformer的完整示例演示具体实现。针对性能优化,文章重点介绍了算子融合、混合精度训练等核心技术,并给出故障排查指南和企业级案例InternVL3的迁

文章图片
#pytorch#昇腾#CANN
【探索实战】边缘计算场景落地实践:基于Kurator构建跨云边缘计算平台

《Kurator边缘计算平台实战指南》摘要 本文系统阐述了基于Kurator构建企业级边缘计算平台的完整方案。作为云边协同计算解决方案,Kurator深度整合KubeEdge、K3s等生态组件,提供统一管控、边缘自治和智能调度三大核心能力。通过分层架构设计实现控制面与数据面分离,支持毫秒级响应、90%带宽优化和离线自治等边缘场景关键需求。实战部分详细演示了从环境部署、节点接入到应用分发的全流程,并

文章图片
#边缘计算#人工智能#架构
【前瞻创想】云原生安全体系演进:从边界防护到内生免疫的变革之路

《云原生安全体系演进与实践》摘要 本文系统阐述了云原生安全的技术演进与实践路径。第一章分析从传统边界防护到云原生内生安全的范式转变,指出容器化、微服务等技术驱动因素。第二章详细解析安全架构设计,包括容器安全、服务网格等核心技术,提供零信任策略等代码示例。第三章通过完整代码案例和分步指南,展示基础设施加固、运行时监控等实战方案。第四章基于金融行业案例,分享企业级实践中的性能优化和故障排查经验。第五章

文章图片
#网络#运维#云原生 +1
HCCL贡献指南 从Issue到PR合并全流程解析

本文以HCCL异构计算通信库的代码贡献为例,详细介绍了从发现问题到PR合并的全流程。重点包括:基于CONTRIBUTING.md规范进行Fork仓库、代码修改、单元测试和提交PR;通过真实案例Issue#782演示如何分析问题、优化算法选择逻辑并添加测试用例;强调规范的提交信息和PR描述撰写;分享应对Reviewer反馈的经验与心态建议。文章还提供性能优化技巧和故障排查指南,帮助开发者在大型AI基

文章图片
#issue#CANN
    共 56 条
  • 1
  • 2
  • 3
  • 6
  • 请选择