登录社区云,与社区用户共同成长
邀请您加入社区
当前CANN软件支持通过离线安装run格式软件包、Conda、Yum、Apt-get和Pip在线安装,不同的安装类型获取软件包的方式不同,请参考本节内容进行获取。下载下表所示软件即表示您同意的条款和条件。独立软件包清单软件类型软件包说明软件包名称获取链接昇腾NPU驱动部署在昇腾AI处理器,用于管理查询昇腾AI处理器,同时为上层CANN软件提供处理器控制、资源分配等接口。
引言 在 AI 大模型时代,算子性能优化是提升整体训练和推理效率的关键。 TileLang 是一门面向高性能算子开发的领域特定语言(DSL),采用简洁直观的编程范式,让开发者能够以接近数学表达的方式描述计算逻辑。相比传统的手写算子开发,TileLang 大幅降低了开发门槛,使开发者能够更高效地完成高性能算子的开发与调优。 TileLang-Ascend 是 TileLang 针
算子性能优化是一项系统性工程,需要从核内和核间两个维度协同发力。本文通过 FA 和 SFA 两个实际案例,展示了从方法论到实践的完整优化路径。TileLang-Ascend在帮助开发者提高开发效率的同时,也提供了必备的性能调优能力。欢迎更多开发者加入高性能算子的建设。TileLang 社区已开放完整示例、性能脚本与优化指南,欢迎体验与贡献。
本文档针对DeepSeek-V4-PRO模型,提供昇腾910B多机多卡级联(分布式部署)及大EP(Extended Processing)架构的标准化部署实操流程,覆盖环境准备、架构配置、模型部署、功能验证、故障处理全环节,为技术实施人员提供可落地的操作指导,确保部署过程平稳高效,充分发挥多机多卡级联的算力优势及大EP架构的性能提升作用,满足生产环境高并发、高吞吐量的推理需求。
本文档针对 DeepSeek V4-Flash 大模型(MoE架构,总参数量284B,激活参数量13B),基于昇腾910B单机8卡硬件环境,提供从环境准备、模型下载、部署启动到接口验证、故障排查的全流程详细指导,适配私有化部署、企业内网推理、AI业务测试等场景,确保方案可直接落地、部署高效稳定。
B站预约链接: 点击预约
面对新一代AI算法对算力的严苛需求,传统GPU编程的高门槛成为算法落地的主要瓶颈。本文以“技术解构+实战指南”双线并进,深入剖析Taichi语言如何通过语法级抽象、即时编译等创新设计,将高性能计算开发从“专家领域”转变为“开发者友好”模式。结合Taichi Hackathon实战资源,为零基础开发者提供从理论到实践的全链路解决方案,快速掌握下一代异构计算开发能力。
TILE_C。
本文系统阐述了MoeGatingTopK在昇腾平台上的分片设计方法,提出三大核心技术:1)多层次动态分片策略,实现97.8%的强扩展效率;2)智能负载均衡算法,有效应对万亿参数MoE模型的稀疏性问题;3)分层分片架构,在2048张昇腾910芯片上验证了企业级部署可行性。通过数学建模、硬件约束分析、算法优化到工程实现的完整闭环,形成可复用的分片设计范式,最终实现5.8倍的性能提升。文章包含性能优化模
本文深入探讨了AscendC算子开发中的指令级优化技术,聚焦量化矩阵乘核心的性能提升。主要内容包括: AICore指令集架构解析 专用Cube计算单元与矩阵指令设计 实测INT8精度下可达512OPs/cycle的理论吞吐 Intrinsic函数优化实践 mmad指令实现16x16x16矩阵乘 寄存器分配策略与循环展开技巧 向量化激活函数优化示例 多级循环展开优化 三维展开策略(M/N/K方向)
《AscendC算子融合技术解析与实践》摘要:本文深入探讨了AscendC平台中算子融合技术在高性能计算中的应用。通过分析计算密度公式FLOPs/Bytes,指出Element-wise操作存在IO瓶颈问题。文章以AddRelu算子为例,对比传统单算子调度与融合方案,展示后者可减少50%IO数据量并提升带宽性能。详细介绍了融合算子的实现方法,包括UB空间规划、原地计算等关键技术,同时指出UB容量、
昇腾
——昇腾
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net