logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【前瞻创想】面向未来:分布式云原生技术的三大趋势与Kurator的演进方向

摘要:分布式云原生技术正经历从"多云共存"到"多云融合"的变革,呈现三大趋势:多云多集群成为默认选项、AI原生运维与算力编排兴起、云边端一体化发展。本文系统介绍了开源平台Kurator的技术架构,包括其创新的"舰队"抽象层、智能调度算法和云边协同能力,通过实际案例展示了Kurator如何整合主流开源项目,构建面向未来的分布式云原生基础设施

文章图片
#分布式#云原生
多模态大模型适配实战:以InternVL3的Ascend C迁移为例

本文详细介绍了多模态大模型InternVL3在昇腾AscendC平台的迁移优化全过程。通过分析模型5.1B参数的架构特性,提出了跨模态注意力机制优化、EmbeddingDenseGrad算子深度优化等关键技术方案。实验结果显示,优化后训练速度提升3.36倍,内存占用降低50%,同时保持99.6%的模型精度。文章还提供了混合精度训练、性能瓶颈分析等实用工具,为大规模多模态模型在异构平台的高效部署提供

文章图片
#人工智能#CANN#昇腾
Ascend C算子与PyTorch生态无缝融合:自定义算子开发实战指南

本文深入探讨了华为CANN架构下AscendC算子与PyTorch生态的融合技术,提出了一套完整的七层软件栈解决方案。通过达芬奇3DCube计算单元、AscendC向量化编程和PyTorchAdapter桥接三大核心技术,实现了90%的CUDA算子迁移成本降低和89%的算子融合覆盖率。文章详细介绍了动态Shape融合、三级测试框架等关键技术,并提供了AddCustom算子融合实例、企业级测试方案和

文章图片
#pytorch#开发语言#CANN +2
面向不同开发者场景的Triton-on-Ascend应用策略:从算法研究到性能压榨

本文系统解析Triton-on-Ascend在不同开发者场景下的差异化应用策略。针对算法研究员、工程实现工程师、性能优化专家三类典型开发者,分别制定从快速原型验证到极致性能压榨的技术路线。通过完整的场景化案例库和性能数据对比,为不同技术背景的开发者提供量身定制的解决方案,实现开发效率与运行性能的最佳平衡。算法研究员成功模式🎯目标:快速验证算法可行性⚡关键:最小化环境配置时间📊指标:算法收敛性、

文章图片
#昇腾#CANN#自动化
Ascend C算子开发实战 - 以AsNumpy的einsum函数为例,从爱因斯坦求和到NPU加速

本文深入探讨了基于AscendC的einsum算子开发全流程,从Einstein记法解析、计算图优化到AscendC核函数设计。通过将einsum从解释执行转变为编译优化,实现了112.11倍的性能提升。文章详细介绍了语法解析器、优化策略选择器、通用核函数框架和矩阵乘法特化实现,并提供了性能对比分析和实战开发指南。关键创新包括:三层设计哲学(解析-优化-实现)、多种计算优化策略选择、双缓冲流水线处

文章图片
#CANN#昇腾
AcL与Aclnn:昇腾算子调用的双接口设计哲学

本文深度解析华为昇腾AI处理器算子调用的双接口设计:AcL(底层原生接口)与Aclnn(新一代描述性接口)。AcL提供精细控制但开发复杂,适合性能调优;Aclnn简化开发流程,支持自动优化,适合快速迭代。文章通过代码对比(Aclnn代码量减少75%)、性能数据(Aclnn重复执行延迟仅增加25%)和实战案例,展示两种接口的适用场景。同时提供企业级调优技巧(如混合接口策略、资源池化)和故障排查指南,

文章图片
#服务器#运维#昇腾 +1
面向动态Shape的通用融合算子设计-从理论到昇腾CANN工程实践

📝【摘要】本文系统阐述了昇腾AI处理器中动态Shape融合算子的关键技术,提出基于CANN架构的三维解决方案:1)动态Tiling机制实现运行时自适应分块;2)弹性Workspace内存管理;3)高效运行时参数传递。通过RMSNorm+SwiGLU融合算子的完整实现案例,验证单一二进制可适配B×S×H三维动态输入,实测性能较静态方案提升3.2倍。文章还涵盖企业级推荐系统优化实践(P99延迟降低5

文章图片
#CANN#昇腾
CANN算子融合深度解密-从图编译到性能跃迁的实战指南

本文深入解析了华为CANN架构中的算子融合技术,包含图融合和UB融合两大核心技术。通过数学等价变换和硬件亲和优化,算子融合能显著提升AI模型性能,实测在ResNet50等模型上可获得2-3倍加速。文章提供了完整的Conv+BN+ReLU融合代码示例、分步实现指南和常见问题解决方案,并分享了企业级应用案例。未来技术将向AI驱动的自动融合和跨平台统一方向发展。CANN算子融合技术通过软硬协同优化,为A

文章图片
#CANN#昇腾#架构
Ascend C向量编程实战:MoeGatingTopK的核内计算与数据搬运

本文深入探讨了MoeGatingTopK在AscendC平台上的核内计算优化策略,通过向量化编程、双缓冲技术和内存层次优化等关键技术,实现了5.8倍的性能提升。文章详细解析了AscendC向量编程模型、指令级并行优化、流水线并行架构等核心技术,并提供了完整的代码实现和性能分析框架。在企业级万亿参数模型的实战案例中,优化后的单芯片吞吐量达到82.4K tokens/s,能效比提升至243.8 tok

文章图片
#开发语言#昇腾#CANN
Ascend C内存搬运的艺术:Double Buffer与流水线优化详解

本文深入剖析了昇腾AI处理器中AscendC编程模型的内存优化技术,重点解析了DoubleBuffer双缓冲机制和多级流水线设计。通过异构计算架构分析,揭示了如何通过计算与搬运的并发执行突破内存带宽限制。文章包含完整的矩阵乘法优化实现代码、性能对比数据(最高提升3.8倍)以及企业级推荐系统的实战案例。针对开发者提供了分步骤优化指南、常见问题解决方案和进阶技巧,并展望了AscendC的未来演进方向。

文章图片
#人工智能#CANN#昇腾
    共 36 条
  • 1
  • 2
  • 3
  • 4
  • 请选择