登录社区云,与社区用户共同成长
邀请您加入社区
为期五天的 TileLang-Ascend学习周 已于2月6日圆满落幕。课程自2月2日开播以来,吸引了众多开发者与算法工程师的持续关注与参与。在TileLang核心开发团队老师的带领下,我们从开发环境搭建出发,系统讲解了TileLang编程语法与Developer模式,并最终完成了从算子开发、编译调试到集成的完整工程实践闭环。
摘要:CANN-Recipes-Infer是华为昇腾AI平台的开源推理加速工具集,针对大语言模型和多模态模型提供四大核心优化模块:LLM推理优化、多模态加速、显存优化策略和性能分析工具。项目通过三阶段优化流程(基础实现→策略应用→高级配置)提升推理性能,支持长文本处理、实时交互和边缘部署等典型场景。提供从优化路径选择到性能调优的完整指南,并支持自定义优化器开发。该项目持续演进,致力于降低昇腾平台上
《CANNSHMEM:昇腾AI处理器的分布式通信解决方案》摘要:CANNSHMEM是华为昇腾AI处理器专用的高性能通信库,基于OpenSHMEM标准实现。该库采用分区全局地址空间(PGAS)模型,支持多机多卡间的直接内存访问与数据同步,具有对称内存模型、零拷贝访问、高效集合操作和硬件加速等核心特性。相比传统通信方式,CANNSHMEM显著降低了编程复杂度,同时提供极低延迟和超高带宽利用率。其API
《AscendCANN元数据定义(Metadef)开发指南》摘要 本文系统介绍了华为昇腾AI处理器元数据定义规范,详细解析了Metadef的核心架构与功能。主要内容包括:1)元数据定义的核心价值(统一接口、编译验证、性能优化);2)基础语法结构(数据类型系统、输入输出定义、属性约束);3)高级特性(多域版本管理、类型推导、自定义验证);4)工程实践(自定义算子开发流程、C++实现框架);5)调试优
本文系统介绍了CANN架构中的PyPTO(Parallel Tensor/Tile Operation)编程模型,这是面向Ascend AI处理器的高效并行编程范式。PyPTO通过Tile数据抽象和并行执行模型,解决了传统张量计算中的数据局部性差、并行粒度粗等问题。文章详细讲解了PyPTO的核心概念、编程接口、优化技巧及实际应用,包括矩阵运算优化、CNN加速、注意力机制实现等。特别强调了内存管理策
本文介绍了昇腾AI软件栈中的Runtime组件,作为连接AI框架与硬件处理器的关键桥梁。Runtime包含三大核心模块:运行时引擎负责任务调度,资源管理层优化硬件分配,内存管理系统确保数据高效流动。文章详细阐述了Runtime的多层次API体系、典型执行流程、维测功能组件以及性能优化指南,并展望了其自适应运行时技术的发展趋势。该组件通过精心设计的架构,将昇腾处理器的计算潜力转化为实际应用性能,为开
本文系统介绍了华为昇腾AI生态中的核心组件CANN架构及其关键模块GE图引擎。CANN作为连接AI应用与昇腾硬件的桥梁,通过GE实现计算图的深度优化与高效执行。文章详细解析了GE相比Eager模式的四大技术优势(计算图优化、多流并行、内存复用、模型下沉),并提供了从主流框架接入、模型转换到自定义算子开发的实践指南。随着GE核心组件的开源,昇腾生态将进一步发展,为AI计算性能提升和全场景部署提供更强
本文主要目的是将使用cann过程中的问题进行总结,希望能给各位开发者提供一些帮助。另外:2、希望更多的开发者同学们能参与到CANN的建设,
如果出现没有的新的模型怎么部署,这个时候可以通过修改模型的config.json中model_type等操作,,但是一般都是不行的,本来就很难用还搞创新;为了排除是模型太大影响,我也尝试了切换到qwen3-0.5b,为了排除是显卡只支持FP16或只支持BFP16,我两种都尝试了。qwen3搜索后发现只有mindie2版本的支持,如果下成mindie1.X肯定是部署不上的;一直跟着执行,在安装驱动时
2 月 4 日,Qwen3-Coder-Next 正式对外开源发布。该模型面向编程智能体与本地开发场景打造,提供完整开源权重,适合开发者进行二次开发与工程集成。昇腾已适配支持该模型。
🌈你好呀!我是🌌 在所有感兴趣的领域扩展知识,不定期掉落福利资讯(*^▽^*)
它通过重组循环内的操作顺序,让不同迭代的计算与内存传输重叠执行,从而实现计算与通信的并行化。在昇腾 NPU 算子开发中,共享内存的高效利用是突破性能瓶颈的关键:一方面,昇腾 NPU 将内存划分为多个层次并存在严苛的容量上限,内存资源极度稀缺,而计算过程中需要创建大量临时缓冲区用于存储中间计算结果。TileLang-Ascend Developer模式的发布,标志着一个关键的转折点:昇腾NPU的高性
大模型推理稳定性 = 模型参数 + 解码策略 + 输出上限 + 后端实现的组合问题。把max_tokens限住、把 guided decoding 关掉、避免 0 温度触发奇怪分支。
直播时间2026年1月29日19:00 - 20:00B站/微信视频号搜索【昇腾CANN】观看直播,参与直播互动可获CANN周边小礼品。今天我们聚焦LLM强化学习入门,专门为有部分技术基础、并且对大模型强化学习感兴趣的朋友准备。这次会带大家解读GRPO的核心原理,然后从基础的环境配置手把手教起,再到实际的模型训练实操,还会分享实用的调参技巧,把入门阶段的核心能力一次性拿捏。我们都知道大语言模型现在
注意:需要在aarch64的环境下载、并且是py3.10环境,需要和镜像内python版本保持一致。这个对于paddlex 或者 gunicorn都会用到。该方式只支持并发为1,处理完一张图片,才处理后面的图片。
本文介绍ATC工具使用,yolo26模型转换,模型移植,以及模型MAP计算方法,最终验证om模型精度与原始模型pt精度误差达到千分之一
昇腾
——昇腾
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net