社区云

昇腾

昇腾CANN 来自 CANN开发者社区

cann.csdn.net · 17小时前

CANN本周快递，请查收！

SIG 主要沉淀面向 6G AI RAN 的典型任务样例，覆盖时变信道表征与建模、信道估计、端到端无反馈MIMO预编码与多流传输、跨场景智能定位与多基站协作传输等方向，并可进一步拓展至基站智慧节能、移动性管理等 AI for RAN 应用。面向高校学生同时启动5大赛区：京津冀东北赛区、上合赛区、西北赛区、西南赛区、杭厦赛区，荣誉证书 +秋招机考面试绿卡+丰厚奖金欢迎广大学生报名参加！CANN社区

#昇腾 #人工智能 #CANN +1

205 

1 
2301_80215627 来自人工智能6S服务平台

ai6s.net · 2026-07-31 14:46:10

2026信创AI服务器采购避坑指南：昇腾910×鲲鹏920方案，从选型到验收的七个关键点

信创79号文明确要求2027年底央企完成信创替代，倒计时已不足18个月；中国电信、移动、联通三大运营商批量集采中ARM架构占比持续攀升至65%-70%以上，鲲鹏生态已成信创服务器事实标准。AI算力服务器因涉及芯片、操作系统、AI框架、模型、存储的全栈适配，成为信创验收中最易踩坑的环节。本文面向采购和技术决策者，结合中国政府采购网真实中标案例（西安交大鲲鹏+昇腾平台538万元）、运营商百亿集采数据及

#人工智能 #百度 #昇腾

375 

13 
2301_78413105 来自鲲鹏昇腾开发者社区

hwcomputing.csdn.net · 2026-07-31 09:29:12

AscendC算子开发--SIMT GATHER_V2算子性能优化实践

Gather 算子是深度学习推理中常用的数据重排操作，用于从输入张量中按指定索引收集数据。在 MoE（混合专家）路由、Embedding 查找等场景中，Gather 的性能直接影响端到端推理延迟。本文从基础实现出发，逐步优化至支持多维输入和 batch_dims 的通用版本，并分享在 Atlas 800I A3 上的性能调优经验，帮助开发者掌握 Ascend C 算子开发与优化的核心方法。

#性能优化 #昇腾

156 

4 
昇腾CANN 来自 CANN开发者社区

cann.csdn.net · 2026-07-30 19:37:12

基于 PyPTO 与 Agent，2周完成模型 QAT 算子开发与优化

QAT 算子的开发实践验证了 PyPTO 的简单易用：用高层张量 API 表达算法逻辑，用tile_shape和等参数完成性能调优。在此基础上，Agent 可以先围绕公式和张量关系快速完成功能实现，再根据 profiling 结果调整少量参数完成优化，2周便完成 QAT 算子的开发、调优和模型接入，实现了模型吞吐性能的显著提升。

#CANN #昇腾 #人工智能

301 

10 
昇腾CANN 来自人工智能6S服务平台

ai6s.net · 2026-07-30 18:16:58

昇腾软件说系列直播预告｜7月31日19:00，社区支持与活动专场

视频号、B站、昇腾社区多平台直播。

#昇腾

165 

6 
AtomGit 来自人工智能6S服务平台

ai6s.net · 2026-07-30 18:14:41

CANN 开发者 Meetup · 杭州模型专场｜线下技术沙龙正式开启报名！

当大模型落地进入性能攻坚阶段，昇腾 NPU 推理、KV 缓存调度、MoE 异构部署、视频生成模型适配、自定义算子优化成为所有 AI 开发者绕不开的核心难题。为打通模型从论文到昇腾硬件落地全链路，落地杭州线下专场 Meetup，聚焦主流大模型、视频生成模型、Agent 智能体、DSA 架构的 CANN 深度优化实战，集结一线昇腾技术专家面对面拆解调优踩坑经验，专为杭州及周边 AI 算法、算子、部署工

#开源 #人工智能 #CANN +1

237 

7 
昇腾CANN 来自人工智能6S服务平台

ai6s.net · 2026-07-30 17:34:04

【上新预告】CANN社区任务8月3日上新！体验昇腾950系列产品算力，冲刺万元大奖！

全员可参与，体验昇腾950系列产品算力。9大任务上线，16W+奖金池开放！扫码参与活动报名，抢先了解任务详情。

#CANN #昇腾 #开源

228 

5 
2301_78413105 来自人工智能6S服务平台

ai6s.net · 2026-07-30 16:34:42

AscendC算子开发--SIMT GELU

GELU（Gaussian Error Linear Unit）激活函数因其平滑的梯度特性，在Transformer、BERT等现代深度学习模型中得到了广泛应用。在昇腾AI处理器的算子开发中，选择合适的编程模式对于平衡开发效率和运行性能至关重要。

#昇腾

189 

6 
weixin_30915275 来自亚马逊云科技技术品牌专区

devpress.csdn.net/awstech · 2026-05-12 12:33:58

vLLM昇腾适配：大模型推理在国产AI芯片的部署实践

大语言模型推理部署是AI工程化的关键环节，其核心挑战在于如何高效管理注意力机制中的键值缓存。PagedAttention技术通过借鉴操作系统虚拟内存的分页思想，将动态变化的KV Cache分割为固定大小的内存块，从而显著减少内存碎片并提升吞吐。这一优化在NVIDIA GPU上已通过vLLM框架得到验证，但在昇腾等国产AI芯片上却面临生态差异。vLLM-ascend项目通过构建适配层，将CUDA生态

#vLLM #昇腾

607 

14 
dba-wang 来自亚马逊云科技技术品牌专区

devpress.csdn.net/awstech · 2026-05-13 09:27:44

BigCloud 系统使用8卡昇腾910B单机部署Qwen/Qwen2.5-72B-Instruct 大模型

本文介绍基于华为BigCloud系统+CANN+MINDIE+DOCKER部署大模型。

#昇腾

39 
Anrey. 来自鲲鹏昇腾开发者社区

hwcomputing.csdn.net · 2026-07-30 10:47:51

匠心时刻丨MindStudio辅助定位长时测评任务，精准发现高并发下的性能黑洞

原来，我们为了加快测评速度，将并发数设置得过高，导致vLLM Ascend的调度器频繁进行请求抢占，而被抢占的请求无法复用之前的缓存，必须从头开始重计算。大模型的精度和性能优化是一个长期的过程，而高效的性能监测是这个过程中不可或缺的工具。我们需要的是一种“无感接入、在线监测、动态扩展”的指标采集方案，能够在不影响长时任务运行的前提下，透视vLLM Ascend内部的每一个细节。**无需重启正在运行

#昇腾 #人工智能

264 

8 
Anrey. 来自人工智能6S服务平台

ai6s.net · 2026-07-30 10:44:50

匠心时刻丨MindStudio-MemScope片上内存调优实战指南

本文介绍了针对昇腾NPU内存优化问题的系统化解决方案。文章首先分析了常见内存问题类型，随后从通用技巧、PyTorch环境变量配置、ATB算子优化等维度提供调优方法。重点介绍了msMemScope工具的内存拆解和低效内存识别功能，通过vLLM推理场景案例演示了如何标记关键模块（权重、KV Cache等）并分析内存占用。该工具支持全量内存事件采集，结合MindStudio Insight可视化分析，可

#人工智能 #昇腾

286 

4 
Anrey. 来自人工智能6S服务平台

ai6s.net · 2026-07-30 10:39:41

匠心时刻丨MindStudio Sanitizer同步检测：算子同步异常一键定位

本文介绍了昇腾NPU算子开发中常见的同步指令问题及解决方案。同步指令未配对或冗余会导致精度异常、死锁等问题，传统排查方法耗时费力。MindStudio Sanitizer（msSanitizer）提供同步检测功能，通过真实运行环境采集指令信息并分析，快速定位异常代码位置。文章详细解析了同步指令原理及异常后果，并通过实际案例演示了配对检测和冗余检测两大功能的使用方法，展示如何通过三步操作（修改编译选

#昇腾

352 

2 
Anrey. 来自人工智能6S服务平台

ai6s.net · 2026-07-30 10:17:11

昇腾MindStudio支持Kimi K3量化：近千专家MoE也能单机量化

昇腾推出msModelSlim量化工具，适配月之暗面最新发布的2.8万亿参数Kimi K3模型。该工具采用逐层调度机制，支持单机完成超大模型量化，通过分层加载和资源释放显著降低显存需求。同时支持多卡并行加速，提供INT混合量化方案（路由专家W4A8、共享模块W8A8），并整合离群值抑制算法保障精度。工具实现一键量化，支持命令行操作，大幅降低部署门槛。目前已完成Kimi K3适配，未来将拓展更多量化

#昇腾

307 

7 
昇腾CANN 来自 AI编程社区

aicoding.csdn.net · 2026-05-28 17:59:33

5月29日直播 | HIXL协同Mooncake实现KV Cache池化技术实践分享

B站预约链接：点击跳转预约

#人工智能 #昇腾 #CANN +1

33 
昇腾CANN 来自人工智能6S服务平台

ai6s.net · 2026-07-29 15:00:35

昇腾软件说系列直播预告｜7月30日19:00，推理解决方案专场

议题一:vLLM Ascend重塑资料易用性重塑资料易用性，打造极致“开箱即用”体验议题二:SGLang社区体验优化深度适配昇腾生态，上线从部署到调优的完整开发指南与实操案例，助力开发者快速上手、高效开发议题三:MindIE Motor简化模型部署简化大EP部署，对接多种推理引擎，提升推理服务性能和可靠性议题四:msModelslim大幅提升量化效率构筑4bit低精量化能力，支持量化自动调优

#昇腾 #人工智能

241 

7 
Anrey. 来自人工智能6S服务平台

ai6s.net · 2026-07-29 10:48:19

匠心时刻丨MindStudio Agent：支持量化端到端精度调优

摘要：华为昇腾技术专家团队推出Quantizer工具，解决模型量化精度调优的行业难题。该工具基于MindStudio Agent架构，采用Orchestrator-SubAgent协同模式，将复杂量化任务分解为模型适配、精度测评、方案优化三个自动化流程，通过自然语言交互实现"一句话启动调优"。以MiniMax-M2.7模型W8A8量化为例，Quantizer在5轮迭代中自动完成反量化、敏感层分析

#昇腾

185 

6 
AtomGit 来自人工智能6S服务平台

ai6s.net · 2026-07-29 09:45:57

昇腾0day支持Kimi K3的训练适配及推理部署，解锁万亿MoE大模型高效训推新范式

Kimi K3模型作为大参数稀疏MoE模型，隐藏层高，专家数多，语言模块的计算量高、耗时大，即使对于短序列数据，训练时间也较长，成为大规模MoE模型训练性能瓶颈。模型基于KDA混合线性注意力机制（Kimi Delta Attention）和注意力残差（Attention Residuals）技术构建，原生支持视觉理解，并拥有100万token上下文窗口，在保持顶尖能力的同时，将KV Cache压缩

#人工智能 #开源 #昇腾

248 

5 
昇腾CANN 来自 CANN开发者社区

cann.csdn.net · 2026-07-28 19:48:59

代码侦探挑战赛开启丨补全算子代码赢定制奖品

📅 活动时间： 7月28日 - 8月5日。

#昇腾 #人工智能

212 

5 
昇腾CANN 来自人工智能6S服务平台

ai6s.net · 2026-07-28 18:10:33

昇腾软件说系列直播预告｜7月29日19:00，训练解决方案专场

【昇腾CANN】视频号、B站、昇腾社区多平台直播。

#昇腾 #人工智能

230 

8 
樱桃小公举来自 AI编程社区

aicoding.csdn.net · 2026-07-08 09:54:33

昇腾 CANN 7.0 环境配置指南：Ubuntu 22.04 单机部署 5 大关键步骤

本文详细介绍了在Ubuntu 22.04系统上配置昇腾 CANN 7.0环境的5大关键步骤，包括系统环境预检、CANN组件化安装、环境变量配置、硬件状态监控及PyTorch模型迁移实战。通过华为昇腾AI处理器的入门学习指南，帮助开发者快速搭建高效开发环境，提升AI模型训练效率。

#昇腾 #CANN

249 

9 
换个宇宙来自 AI编程社区

aicoding.csdn.net · 2026-07-08 13:55:01

昇腾 PyTorch 模型迁移实战：3步将 GPU 代码适配 NPU，吞吐提升 1.8 倍

本文详细介绍了如何将PyTorch模型从GPU迁移到华为昇腾NPU的实战经验，通过3个关键步骤实现性能跃迁，吞吐量提升1.8倍。内容涵盖环境配置、混合精度训练优化和高级性能调优技巧，帮助开发者快速掌握昇腾NPU的迁移技术，适用于计算机视觉和自然语言处理任务。

#昇腾

292 

7 
里小咸来自 AI编程社区

aicoding.csdn.net · 2026-07-15 15:21:37

昇腾FlashComm技术解析：大模型推理加速80%

分布式训练中的AllReduce通信优化是提升大模型推理效率的关键技术。通过将单次通信拆分为ReduceScatter+AllGather两阶段，结合INT8动态量化技术，可显著降低通信开销。计算通信重叠技术则通过重构矩阵乘法并行维度，实现通信与计算的并行执行。这些技术在昇腾硬件平台上形成完整的FlashComm解决方案，特别适用于MoE（Mixture of Experts）模型推理场景。实测显

#昇腾

278 

12 

标签介绍

昇腾

——昇腾

热门标签

关于我们

联系我们（工作时间：8:30-22:00）

400-660-0108 kefu@csdn.net