logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

性能对决:AsNumpy 与 NumPy 在典型矩阵运算中的基准测试

本文通过严谨的基准测试对比了AsNumpy与NumPy在科学计算中的性能表现。测试采用昇腾910B NPU与Intel Xeon Gold CPU硬件环境,覆盖不同规模的矩阵乘法、精度影响及复杂运算场景。结果显示:NPU在大规模矩阵运算(>1024维)中优势显著,FP16下加速比达12.3倍;而小规模计算和FP64场景则更适合CPU。文章提供了可复现的测试框架、性能优化建议及选型决策树,建议

文章图片
#numpy#矩阵#CANN +1
Ascend C 算子工程化实践:从 TilingKey 配置到多数据类型支持的稳健设计

本文基于华为官方250个错误案例分析,聚焦AscendC算子开发中的"找不到tilingkey"和"不支持int8"等工程化问题。文章系统阐述了工业级算子开发的三大关键技术:1)动态TilingKey机制,通过数学模型实现输入形状自适应;2)多数据类型支持,采用模板化设计确保fp32/fp16/int8等类型的兼容性;3)配置管理系统,实现参数统一控制与热更

文章图片
#CANN#昇腾
Ascend C 算子开发全流程揭秘:从 msopgen 到编译部署

本文系统介绍了AscendC算子开发全流程,包括工程生成(msopgen工具解析)、内核实现(AscendC编程模型)、编译优化(CMake配置)、测试验证(分层测试策略)、部署上线(自动化部署脚本)和性能优化。通过完整案例展示了从算子定义到生产部署的标准化工序,提供了一套包含工具链流程图、工程架构图的开发方法论。文章强调开发效率提升50%以上、测试覆盖率超90%等关键指标,为AI应用提供高效算力

文章图片
#CANN#昇腾
Ascend C算子开发范式解密:从“AddCustom”到“Sigmoid”的代码实战

本文系统介绍了AscendC算子开发的核心技术与实践方法。通过AddCustom(内存密集型)和Sigmoid(计算密集型)两个典型案例,详细解析了核函数设计、内存优化、向量化编程等关键技术。重点包括:1)统一核函数模板设计;2)内存层次优化策略;3)双缓冲流水线实现;4)计算密度提升方法;5)精度与性能平衡技巧。文章提供了从基础到进阶的完整开发框架,包含代码示例、性能分析数据和优化检查表,为As

文章图片
#CANN#昇腾
Ascend C高性能编程实战:降低NPU计算耗时的指令级优化

本文深入探讨了昇腾NPU指令级优化的关键技术,通过四级优化案例展示了从基础向量化到内联汇编的完整进阶路径。文章揭示了达芬奇架构指令系统的性能等级差异,提出七条黄金优化法则:优先向量指令、使用FMA融合、合理调度指令、避免分支跳转、寄存器重用、指令级并行和终极汇编优化。通过矩阵乘法实战,验证了优化方法可将硬件利用率从5%提升至95%,性能提升最高达16倍。针对企业级AI推理场景,展示了如何优化千亿参

文章图片
#CANN#昇腾
Ascend C高性能编程实战:降低NPU计算耗时的指令级优化

本文深入探讨了昇腾NPU指令级优化的关键技术,通过四级优化案例展示了从基础向量化到内联汇编的完整进阶路径。文章揭示了达芬奇架构指令系统的性能等级差异,提出七条黄金优化法则:优先向量指令、使用FMA融合、合理调度指令、避免分支跳转、寄存器重用、指令级并行和终极汇编优化。通过矩阵乘法实战,验证了优化方法可将硬件利用率从5%提升至95%,性能提升最高达16倍。针对企业级AI推理场景,展示了如何优化千亿参

文章图片
#CANN#昇腾
Ascend C高性能编程实战:降低NPU计算耗时的指令级优化

本文深入探讨了昇腾NPU指令级优化的关键技术,通过四级优化案例展示了从基础向量化到内联汇编的完整进阶路径。文章揭示了达芬奇架构指令系统的性能等级差异,提出七条黄金优化法则:优先向量指令、使用FMA融合、合理调度指令、避免分支跳转、寄存器重用、指令级并行和终极汇编优化。通过矩阵乘法实战,验证了优化方法可将硬件利用率从5%提升至95%,性能提升最高达16倍。针对企业级AI推理场景,展示了如何优化千亿参

文章图片
#CANN#昇腾
Ascend C高性能编程实战:降低NPU计算耗时的指令级优化

本文深入探讨了昇腾NPU指令级优化的关键技术,通过四级优化案例展示了从基础向量化到内联汇编的完整进阶路径。文章揭示了达芬奇架构指令系统的性能等级差异,提出七条黄金优化法则:优先向量指令、使用FMA融合、合理调度指令、避免分支跳转、寄存器重用、指令级并行和终极汇编优化。通过矩阵乘法实战,验证了优化方法可将硬件利用率从5%提升至95%,性能提升最高达16倍。针对企业级AI推理场景,展示了如何优化千亿参

文章图片
#CANN#昇腾
自定义算子的“诞生记”:基于CANN Kernel自调工程的完整CI/CD流水线

摘要:本文基于多年异构计算实战经验,系统阐述基于CANN Kernel自调工程的CI/CD全链路自动化流水线。该体系包含四大核心环节:工程生成(msopgen)、双端验证(CPU模拟/NPU真机)、自动化测试(msopst)、持续集成(GitLab CI/CD)。关键技术亮点包括三阶段流水线设计(开发/测试/部署)、孪生调试体系(CPU/NPU同步验证)以及企业级质量门禁(性能/精度/兼容性)。通

文章图片
#昇腾#CANN
性能探针:Ascend C算子性能分析与Profiling工具链实战

本文系统介绍了华为昇腾AI算子性能优化工具链CANNProfiling的完整生态。从性能分析认知革命入手,强调数据驱动优化的必要性,详细解析了msprof命令行工具和AscendProfiler可视化分析工具的使用方法。通过矩阵乘法算子优化案例,展示了从性能分析、瓶颈定位到优化验证的全流程,最终实现4.2倍性能提升。文章还分享了企业级性能监控实践、高级优化技巧和故障排查指南,并展望了AI驱动的自动

文章图片
#昇腾#CANN
    共 39 条
  • 1
  • 2
  • 3
  • 4
  • 请选择