登录社区云,与社区用户共同成长
邀请您加入社区
本文介绍了华为算子开发中张量形状(Shape)的核心概念与应用。形状以元组形式表示张量各维度大小,如(4,20,20,3)表示4张20x20像素的RGB图像。文章详细阐述了形状的物理意义、编程实现中的循环逻辑,以及Shape推导的两种模式:Follow模式和自定义InferShape函数。特别针对动态Shape场景,说明了ShapeRange推导的必要性,通过预估最大输出内存保证算子执行正确性。最
面对新一代AI算法对算力的严苛需求,传统GPU编程的高门槛成为算法落地的主要瓶颈。本文以“技术解构+实战指南”双线并进,深入剖析Taichi语言如何通过语法级抽象、即时编译等创新设计,将高性能计算开发从“专家领域”转变为“开发者友好”模式。结合Taichi Hackathon实战资源,为零基础开发者提供从理论到实践的全链路解决方案,快速掌握下一代异构计算开发能力。
本文系统阐述了MoeGatingTopK在昇腾平台上的分片设计方法,提出三大核心技术:1)多层次动态分片策略,实现97.8%的强扩展效率;2)智能负载均衡算法,有效应对万亿参数MoE模型的稀疏性问题;3)分层分片架构,在2048张昇腾910芯片上验证了企业级部署可行性。通过数学建模、硬件约束分析、算法优化到工程实现的完整闭环,形成可复用的分片设计范式,最终实现5.8倍的性能提升。文章包含性能优化模
本文深入探讨了AscendC算子开发中的指令级优化技术,聚焦量化矩阵乘核心的性能提升。主要内容包括: AICore指令集架构解析 专用Cube计算单元与矩阵指令设计 实测INT8精度下可达512OPs/cycle的理论吞吐 Intrinsic函数优化实践 mmad指令实现16x16x16矩阵乘 寄存器分配策略与循环展开技巧 向量化激活函数优化示例 多级循环展开优化 三维展开策略(M/N/K方向)
CANN
——CANN
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net