登录社区云,与社区用户共同成长
邀请您加入社区
本课程将介绍在DeepSeek-V4网络上如何基于TorchTitan-NPU框架攻克超长文本训练瓶颈、实现512K级别长序列的大规模续训练,怎样结合大EP+FSDP以及torch.compile+AutoFuse编译入图方案达成极致训练吞吐性能的实践经验,分享如何帮助昇腾大模型开发者在超长上下文场景下快速开展 CPT/SFT算法验证并实现开箱即优。
适用于分布式或多进程并行通过显式通信完成数据交换OpenMP适用于共享内存并行通过编译指令实现线程级并行在鲲鹏平台上,这两种模型都能稳定运行,并且可以根据应用规模灵活选择。与 MPI 不同,OpenMP 主要用于共享内存并行编程模型简单对现有串行代码侵入性低非常适合单机多核场景在鲲鹏平台上,OpenMP 能够充分利用 CPU 的多核心能力。本文围绕鲲鹏平台的 HPC 应用实践,介绍了并行计算技术栈
过去,MindStudio提供了性能调优工具msProf,集群分析工具msprof-analyze,精度调优工具msProbe,内存调优工具msMemScope,可视化工具msInsight等一系列工具来帮助客户提高算子性能、设备性能、集群性能,同时MindStudio也沉淀了计算(算子调优),通信(快慢卡),下发(Host下发慢),IO瓶颈以及服务化等一系列的调试调优方法论。更多内置 Tools
B站预约链接:点击预约
本课程将介绍在DeepSeek V4网络上如何实现网络精度无损的低bit量化,怎样结合昇腾软硬件特性达成网络极致部署性能的实践经验,分享如何在实际量化模型部署中平衡精度损失与推理加速。
欢迎小伙伴们预约观看,参与互动答题赢CANN周边礼品,不容错过,我们直播间见~
B站预约链接:点击预约
B站预约链接: 点击预约
ONNX是一种通用模型中间表示格式,广泛用于跨框架模型迁移;昇腾AI处理器则依赖专有OM格式实现高性能推理。其转换原理在于通过ATC编译器完成算子映射、精度适配与硬件特性对齐,技术价值体现在可验证的模型兼容性保障与端到端推理性能优化。典型应用场景包括工业质检、智能安防等需在昇腾910B/310P设备上部署YOLO系列模型的边缘AI项目。本文聚焦YOLOv5从PyTorch导出ONNX,再到ATC精
large_N_8192用例的连续虚拟内存地址空间大小中超过256 KB的地方都是存在问题的,其中最后面的地方保留的连续虚拟内存地址空间最大,是导致内存溢出问题最严重的地方。这里我们需要点击超过256 KB的内存块,分析导致内存溢出的具体原因,即这个内存块是在哪一行代码申请的,定位到内存溢出的代码位置。当出现Triton算子内存溢出时,通过日志,我们仅能知道发生了UB overflow,但是具体在
为了方便论述,下文我们以DeepSeek-V3.2为需要适配的目标大模型,来阐述以小验大方案的过程,只需2台Atlas 800T A3即可运行小模型。经过本次实践,我们发现小模型遇到的问题,大模型一定能够遇到,证明了以小验大的价值。那么确定好一个验证的数据集,我们先在推理引擎上推理一次,过程中统计出每一层每一个token分发到的专家,然后根据全量数据集统计的所有专家中,统计出所有专家的激活频率后,
线上赛的胜负已定,线下赛的精彩才刚开始。Agent 的下半场,不在论文里,不在 benchmark 上,在 7 月 4 日上海滩的现场。如果你也坚信——代码应该创造实际价值,Agent 应该成为行业生产力。那么,我们在上海,等你来踢馆,来组局,来亮剑。前十名完成提交的观众,AtomGit 定制礼盒已经摆好,就等你来拆。🎁⚡️ 7 月 4 日,上海见。AtomGit × 昇腾 Agent Hack
DeepSeek V4引入全新的Compressor算子,实现模型推理的关键性能突破,本课程深入解析Compressor算子的设计理念、核心算法与实现细节,探讨在低时延场景下的优化策略。
场景推荐模式适配算法库(PyTorch/vLLM)算子框架研究原型 / 性能验证直调需要图模式 / 算子融合算子框架需要 MIX 并行算子框架(直调不支持)
大模型推理正从通用GPU加速转向专用AI芯片架构,昇腾作为国产NPU代表,凭借稀疏计算、高能效比和软硬协同设计,在混合专家(MoE)等前沿模型结构中展现出独特优势。其核心价值在于支撑算力主权自主——不仅规避供应链风险,更通过HCCP通信协议、CANN算子库和Ascend SQE质量工程体系,实现对FlashAttention、专家路由等关键模块的深度适配。在DeepSeek V4这类超大规模MoE
大模型推理正从单纯依赖GPU算力,转向软硬协同优化的新范式。MoE(Mixture of Experts)作为万亿参数模型的核心架构,其稀疏激活特性对硬件内存带宽、通信效率与调度粒度提出极致要求。传统CUDA生态虽成熟,但在MoE场景下存在隐式拷贝多、专家切换开销大、稀疏计算模拟低效等固有瓶颈。昇腾CANN软件栈通过原生支持哈希路由、零拷贝EP通信和细粒度专家并行,实现了对MoE架构的深度适配。这
大模型推理正从CUDA生态向国产异构计算平台加速迁移,昇腾作为当前信创体系中性能与生态最均衡的AI加速架构,已成为去CUDA化落地的关键载体。其核心在于突破传统GPU抽象层依赖,重构计算图调度、内存池管理与算子融合逻辑,依托MindIR中间表示与OM离线模型实现硬件级协同优化。技术价值体现在启动延迟≤3秒、首token P95≤850ms、千次请求零OOM等可验证指标,广泛适用于政务云、金融AI中
AI Agent作为新一代智能应用范式,其核心挑战不在模型能力,而在多跳推理下的低延迟调度与软硬协同效率。传统GPU架构因Kernel启动开销大、内存搬运频繁,难以适配Agent‘小而碎’的计算特征。昇腾通过CANN编译运行时系统、MindStudio全栈调试工具与NPU硬件深度耦合,实现PyTorch代码零修改迁移,并在典型多跳任务中将P99延迟压至1.1秒内。该方案显著降低AI工程化门槛,适用
昇腾
——昇腾
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net