登录社区云,与社区用户共同成长
邀请您加入社区
本课程将介绍在DeepSeek V4网络上如何实现网络精度无损的低bit量化,怎样结合昇腾软硬件特性达成网络极致部署性能的实践经验,分享如何在实际量化模型部署中平衡精度损失与推理加速。
欢迎小伙伴们预约观看,参与互动答题赢CANN周边礼品,不容错过,我们直播间见~
B站预约链接:点击预约
B站预约链接: 点击预约
ONNX是一种通用模型中间表示格式,广泛用于跨框架模型迁移;昇腾AI处理器则依赖专有OM格式实现高性能推理。其转换原理在于通过ATC编译器完成算子映射、精度适配与硬件特性对齐,技术价值体现在可验证的模型兼容性保障与端到端推理性能优化。典型应用场景包括工业质检、智能安防等需在昇腾910B/310P设备上部署YOLO系列模型的边缘AI项目。本文聚焦YOLOv5从PyTorch导出ONNX,再到ATC精
在DeepSeek V4背后,昇腾CANN都有哪些黑科技?欢迎前往昇腾CANN B站官方账号观看直播~很高兴和哔哩哔哩百万up主。
large_N_8192用例的连续虚拟内存地址空间大小中超过256 KB的地方都是存在问题的,其中最后面的地方保留的连续虚拟内存地址空间最大,是导致内存溢出问题最严重的地方。这里我们需要点击超过256 KB的内存块,分析导致内存溢出的具体原因,即这个内存块是在哪一行代码申请的,定位到内存溢出的代码位置。当出现Triton算子内存溢出时,通过日志,我们仅能知道发生了UB overflow,但是具体在
为了方便论述,下文我们以DeepSeek-V3.2为需要适配的目标大模型,来阐述以小验大方案的过程,只需2台Atlas 800T A3即可运行小模型。经过本次实践,我们发现小模型遇到的问题,大模型一定能够遇到,证明了以小验大的价值。那么确定好一个验证的数据集,我们先在推理引擎上推理一次,过程中统计出每一层每一个token分发到的专家,然后根据全量数据集统计的所有专家中,统计出所有专家的激活频率后,
线上赛的胜负已定,线下赛的精彩才刚开始。Agent 的下半场,不在论文里,不在 benchmark 上,在 7 月 4 日上海滩的现场。如果你也坚信——代码应该创造实际价值,Agent 应该成为行业生产力。那么,我们在上海,等你来踢馆,来组局,来亮剑。前十名完成提交的观众,AtomGit 定制礼盒已经摆好,就等你来拆。🎁⚡️ 7 月 4 日,上海见。AtomGit × 昇腾 Agent Hack
B站预约链接:点击预约
DeepSeek V4引入全新的Compressor算子,实现模型推理的关键性能突破,本课程深入解析Compressor算子的设计理念、核心算法与实现细节,探讨在低时延场景下的优化策略。
场景推荐模式适配算法库(PyTorch/vLLM)算子框架研究原型 / 性能验证直调需要图模式 / 算子融合算子框架需要 MIX 并行算子框架(直调不支持)
大模型推理正从通用GPU加速转向专用AI芯片架构,昇腾作为国产NPU代表,凭借稀疏计算、高能效比和软硬协同设计,在混合专家(MoE)等前沿模型结构中展现出独特优势。其核心价值在于支撑算力主权自主——不仅规避供应链风险,更通过HCCP通信协议、CANN算子库和Ascend SQE质量工程体系,实现对FlashAttention、专家路由等关键模块的深度适配。在DeepSeek V4这类超大规模MoE
大模型推理正从单纯依赖GPU算力,转向软硬协同优化的新范式。MoE(Mixture of Experts)作为万亿参数模型的核心架构,其稀疏激活特性对硬件内存带宽、通信效率与调度粒度提出极致要求。传统CUDA生态虽成熟,但在MoE场景下存在隐式拷贝多、专家切换开销大、稀疏计算模拟低效等固有瓶颈。昇腾CANN软件栈通过原生支持哈希路由、零拷贝EP通信和细粒度专家并行,实现了对MoE架构的深度适配。这
大模型推理正从CUDA生态向国产异构计算平台加速迁移,昇腾作为当前信创体系中性能与生态最均衡的AI加速架构,已成为去CUDA化落地的关键载体。其核心在于突破传统GPU抽象层依赖,重构计算图调度、内存池管理与算子融合逻辑,依托MindIR中间表示与OM离线模型实现硬件级协同优化。技术价值体现在启动延迟≤3秒、首token P95≤850ms、千次请求零OOM等可验证指标,广泛适用于政务云、金融AI中
AI Agent作为新一代智能应用范式,其核心挑战不在模型能力,而在多跳推理下的低延迟调度与软硬协同效率。传统GPU架构因Kernel启动开销大、内存搬运频繁,难以适配Agent‘小而碎’的计算特征。昇腾通过CANN编译运行时系统、MindStudio全栈调试工具与NPU硬件深度耦合,实现PyTorch代码零修改迁移,并在典型多跳任务中将P99延迟压至1.1秒内。该方案显著降低AI工程化门槛,适用
AI加速框架的本质是软硬协同的开发范式,其核心价值不在于硬件算力峰值,而在于全球开发者形成的工程惯性与工具链共识。CUDA长期主导地位源于PyTorch/TensorFlow默认支持、Nsight调试体系、NCCL通信库等构成的完整技术母语。当DeepSeek-V4将华为昇腾+CANN+MindSpore列为首发优化平台,实则是首次在顶级开源模型层面完成算子级重构、内存管理重写与分布式桥接——这标
大模型推理与训练的底层基础设施正经历从CUDA依赖到多元异构底座的关键演进。理解算子优化、硬件-软件协同设计、混合精度稳定性等核心技术原理,是构建自主可控AI体系的前提。DeepSeek V4作为首个在纯国产昇腾芯片上完成全链路训练与推理的大模型,其技术价值不仅在于性能指标,更在于对AI Core微码调度、CANN框架深度改造、权重物理布局重构等硬核工程的系统性突破。该实践覆盖模型部署、实时代码生
大模型推理与训练依赖底层硬件与软件栈的深度协同,其核心在于计算架构、内存访问模式、通信协议和执行范式的系统性对齐。当PyTorch生态的DeepSeek模型迁移至昇腾AI基础平台时,面临KV缓存布局错配、权重命名与精度不一致、图编译与动态形状冲突、HCCL分布式协议差异及本地部署环境耦合度高等典型挑战。这些并非简单‘换卡’问题,而是涉及软硬协同重构的技术深水区。本文聚焦国产AI基础设施落地中最易被
大模型落地工业场景的核心瓶颈,从来不是算力或模型本身,而是训练-推理-知识增强-应用编排的全链路工程化断层。本文围绕国产AI芯片(昇腾)、强推理开源模型(DeepSeek)与超融合架构三位一体的设计逻辑,解析如何在无AI团队、无GPU运维能力的工厂环境中,实现RAG知识库构建、工业Agent编排、低代码产线智能体开发等关键能力。重点覆盖昇腾910B功耗与生态适配性、DeepSeek-Coder在P
大模型推理正从依赖CUDA的单一生态,转向昇腾、寒武纪、天数智芯等异构国产硬件协同的新范式。其核心原理在于解耦硬件指令集与模型计算流,通过算子融合、多流并行、内存感知调度等系统级优化,实现FP16/INT4混合量化模型在NPU上的原生高效运行。技术价值不仅在于规避英伟达供应链风险,更在于构建可移植、可维护、高性能的跨平台AI基础设施。典型应用场景涵盖本地部署、VSCode插件集成、金融级高可用推理
大模型推理不是简单移植,而是算子、内存、编译器与安全机制的全栈对齐。动态稀疏注意力(DSA)和MoE架构等先进模型特性,只有匹配昇腾910C芯片的HBM调度能力、MindSpore 2.3图编译器的形状无关编译能力,以及欧拉OS 24.09的硬件级机密计算区,才能释放真实性能与可信价值。这种软硬协同不是技术炫技,而是让AI服务在银行审批、医疗辅诊、教育批改等高频场景中实现毫秒级响应、端侧隐私保护与
大语言模型的工程落地正从‘能跑’迈向‘好用’——长上下文稳定性、确定性工具调用、芯片级算子优化成为开发者关注的核心能力。DeepSeek V4并非单纯追求参数或榜单分数,而是聚焦真实开发场景中的低延迟推理、结构化输出与国产硬件适配,尤其在昇腾NPU和华为云ModelArts环境实现开箱即用的本地部署。其VSCode插件集成、LangChain工具链支持及强制tool calling协议,显著降低A
维度标量访问MTE 搬运写法通路走 DataCache走 DMA 引擎粒度单个元素(float/int)一整块连续内存适合场景少量、零散操作大块、批量搬运是否进 cache是(DataCache)否(直通 DRAM)标量写= 你往一个小信箱(DataCache)里塞纸条,等攒够了一批才统一寄出去MTE 搬运= 叫搬运工(DMA)一次性把一车货从仓库搬到工作台小信箱和搬运工之间没有对讲机。你塞进去的
要点说明AscendC DMA burst 最小 32B的lenBurst参数必须是 32 的倍数UB→GM 方向无 padding 控制不像 GM→UB 有,UB→GM 只有 3 参数版本溢出只影响空段有数据的段会被后续写出覆盖回来,但空段不会被写 → 残留垃圾feat_dim 最好是 8 的倍数,完美对齐,从根本上避免溢出先测小维度如果我们只测 feat_dim=128,永远不会发现这个 bu
把重复的前缀打包成一个包裹,只在需要分叉的地方打开包裹”—— 就像快递分拣时,先按城市、再按区县、再按街道分层分拣,相同前缀的地址直接合并处理,效率更高。
B站直播间链接:点击跳转 视频号、B站搜索: 【昇腾CANN】
以开源仓样例代码为依托,详解Cube类算子开发的设计逻辑、代码架构及关键代码功能,帮助开发者扫清入门障碍,高效上手Cube算子开发
2026 年 6 月 17 日,智谱新一代旗舰基础模型GLM-5.2正式上线并开源。作为GLM系列迭代升级的重磅基座模型,GLM-5.2在上下文长度、代码能力、长程任务、智能体任务等领域实现全方位突破,从“答得好”走向“干得久”。昇腾一直同步支持智谱GLM系列模型,此次GLM-5.2模型一经开源发布,昇腾A3系列产品即实现0day适配,通过成熟的并行加速方案以及对vLLM、SGLang、xLLM等
昇腾
——昇腾
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net