登录社区云,与社区用户共同成长
邀请您加入社区
本课程将介绍在DeepSeek V4网络上如何实现网络精度无损的低bit量化,怎样结合昇腾软硬件特性达成网络极致部署性能的实践经验,分享如何在实际量化模型部署中平衡精度损失与推理加速。
欢迎小伙伴们预约观看,参与互动答题赢CANN周边礼品,不容错过,我们直播间见~
B站预约链接:点击预约
B站预约链接: 点击预约
在DeepSeek V4背后,昇腾CANN都有哪些黑科技?欢迎前往昇腾CANN B站官方账号观看直播~很高兴和哔哩哔哩百万up主。
B站预约链接:点击预约
DeepSeek V4引入全新的Compressor算子,实现模型推理的关键性能突破,本课程深入解析Compressor算子的设计理念、核心算法与实现细节,探讨在低时延场景下的优化策略。
AI Agent作为新一代智能应用范式,其核心挑战不在模型能力,而在多跳推理下的低延迟调度与软硬协同效率。传统GPU架构因Kernel启动开销大、内存搬运频繁,难以适配Agent‘小而碎’的计算特征。昇腾通过CANN编译运行时系统、MindStudio全栈调试工具与NPU硬件深度耦合,实现PyTorch代码零修改迁移,并在典型多跳任务中将P99延迟压至1.1秒内。该方案显著降低AI工程化门槛,适用
NPU推理是AI模型国产化落地的核心环节,其本质区别于GPU的内存管理、流同步与计算图执行机制。理解昇腾硬件特性(如HBM带宽约束、SIMD对齐要求、PCIe延迟抖动)和CANN运行时行为(如aclrtSetDevice就绪机制、动态shape支持边界),是保障DeepSeek V4-Pro等MoE架构大模型稳定推理的前提。技术价值在于规避静默失败、显存泄漏与时序错乱等产线高频问题;典型应用场景涵
大模型推理性能不仅取决于参数规模,更依赖底层硬件抽象、算子优化与编译调度的深度协同。在AI基础设施自主可控趋势下,'去CUDA化'已从概念走向工程实践——它要求重构硬件抽象层(HAL)、运行时调度(CANN Runtime)、自研算子库(如AscendFlash)、图编译器(MindIR)、框架适配(PyTorch Custom Autograd)、混合精度策略及数据管道。DeepSeek V4
稀疏注意力(Sparse Attention)是大语言模型处理长上下文的核心技术,其原理在于通过结构化稀疏计算降低显存带宽压力,而非简单跳过token。相比FlashAttention-2等通用优化方案,DeepSeek-V3.2提出的DSA(DeepSeek Sparse Attention)结合硬件感知编译器CANN,实现了从算法设计到GPU kernel级的端到端协同优化,显著提升128K长
B站直播间链接:点击跳转 视频号、B站搜索: 【昇腾CANN】
以开源仓样例代码为依托,详解Cube类算子开发的设计逻辑、代码架构及关键代码功能,帮助开发者扫清入门障碍,高效上手Cube算子开发
AI 大模型的浪潮已经从“技术探索”全面迈入“场景落地”的新阶段。作为连接大模型与现实世界的关键桥梁,正在重塑千行百业的生产力。面对广阔的行业应用前景,开发者们也面临着真实的痛点:底层算力如何高效调用?模型适配如何更加平滑?从代码开发到行业落地的“最后一公里”究竟该怎么走?,由联合主办的将在上海重磅开启!无论你是深耕算法的极客,还是苦苦寻找解决方案的行业专家,这场干货满满的线下聚会都不容错过!
CANN开发者Meetup|开发体验专场开始报名啦
欢迎化工、材料、能源领域的开发者下载代码、运行测试用例(详情见https://gitcode.com/cann/mat-chem-sim-pred/tree/master/simulation/AI4MD),并通过Issue或社区渠道反馈问题与改进建议。本算子实现了GAFF2的五项势能——键伸缩、键角弯曲、二面角扭转、Lennard-Jones 12-6、库仑静电,力约定与GROMACS一致。分子
1. 引言 CANN开源社区Material Chemical Engineering SIG(材料化学工程特别兴趣小组,以下简称"MCE SIG")发布4款分子动力学(MD)核心算子——GAFF2力场算子、PME长程静电算子、SHAKE键长约束算子、Velocity Verlet时间积分算子。4款算子分别对应MD主循环中的力场计算、长程静电处理、键长约束与时间积分环节,与此前
在处理不同规格输入时,划分的基本块无法均匀分配到所有核上,导致分核不均。需要针对最后一轮基本块进行二次切分(支持切分M和N轴),使其尽量均匀分配到多核中,充分发挥完整算力。Figure 6. 最后一个group尾轮负载均衡原理图:对最后一轮基本块进行二次切分(支持切分M和N轴)当前实验环境为Ascend950PR, GM带宽1.6T/s,32核。E=2,M轴分组,group_list={256,2
本文探讨了昇腾NPU中Memory Pool显存池技术的实现原理与优势。该技术通过预分配大块显存(如4GB)并内部管理分配,避免了频繁调用驱动层导致的性能损耗(每次申请耗时0.5-2ms)。关键技术包括空闲块链表管理、碎片整理和动态扩容,可将LLaMA-7B推理中的显存管理延迟从15ms降至1ms内,并消除500MB碎片空间。文中提供了简化版Python实现,展示了分配/释放的核心逻辑。该技术显著
CANN开源社区讨论板块已发布有奖问答活动,欢迎大家预约直播,参与社区互动~~ https://gitcode.com/cann/asc-devkit/discussions/4。
昇腾体验信箱——资料“捉虫”活动启动了!
📚 HCCL入门系列课程一览第一课:HCCL通信库软件架构介绍 - 6月15号16:00第二课:HCCL通信库算子开发介绍 - 6月16号16:00第三课:HCCL北极星平台使用介绍 - 6月17号16:00三期课程将陆续更新~📖前置学习推荐入门开发者建议优先学习【技术文章】中的《HCCL—昇腾高性能集合通信库简介》《深度学习的分布式训练与集合通信(一)》《深度学习的分布式训练与集合通信(二)
【昇腾CANN】视频号、B站、昇腾社区多平台直播,扫码观看直播,参与直播答题互动赢定制T恤、毛毯!
CANN
——CANN
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net