登录社区云,与社区用户共同成长
邀请您加入社区
20T版本支持40路1080P@30FPS硬件解码,在多路摄像头场景中,这颗芯片可以独立完成“解码→AI推理→编码输出”的全链路任务,无需外挂其他芯片。通过SODIMM接口引出了PCIe X4、USB3.0×3、MIPI CSI 4-Lane×2、HDMI等全功能高速信号,工业设备、机器人、边缘计算盒子的开发者可以灵活设计自己的底板。,但做成了一块可以嵌入产品主板的模块。硬件产品开发有一个经典困境
大语言模型(LLM)的高效落地,本质是模型、框架、硬件三者的深度协同。长上下文模型训练与推理已成为AI工程化核心挑战,其性能瓶颈往往不在算法本身,而在KV Cache管理、混合精度稳定性及硬件内存带宽适配等底层环节。昇腾AI处理器凭借CANN工具链与MindSpore框架,为GLM-5等国产大模型提供了从量化编译、PagedAttention优化到LoRA微调的全栈支持能力。本文聚焦实际交付场景,
授课团队课程兼顾大模型基础原理、轻量化微调前沿技术与昇腾算力工程落地实践,以 Qwen3 系列模型为实操载体讲解核心技术,同步指导学员完成训练调参、Loss 与超参监控、多组实验对比等标准化科研流程,并依托昇腾 NPU 硬件、CANN 一站式开发平台开展 Ascend C 开发与 CANNBot 智能体实践,让全体学员完整完成算子开发、NPU 编译加速、大模型微调三大工程案例,亲手实践自主算力软硬
本文详细介绍了在Mind Studio 3.0.2中解决Python解释器配置、cv2导入不一致和远程调试三大难题的实战方法。通过系统化的解决方案和高效的工作流优化,帮助开发者提升昇腾AI应用开发效率,特别适合华为昇腾平台的开发环境配置。
大模型部署本质上是计算图、内存布局与硬件执行单元的深度协同过程。当通用大模型(如GLM系列)迁移至国产AI芯片(如昇腾910B)时,传统GPU移植范式失效,必须面向DSA架构重构编译流程、显存管理与数值精度控制。核心挑战在于计算图编译失败、Unified Buffer显存爆炸及BF16精度漂移,而解决方案依赖硬件感知的ONNX导出、动态UB切分与混合精度校准等关键技术。veRL等向量化强化学习范式
大语言模型推理优化是AI工程落地的核心环节,其本质是计算、内存与通信三者的协同调度。Qwen3.5作为支持BF16+INT8混合精度与滑动窗口注意力的先进架构,天然适配昇腾AI处理器的硬件特性——如HBM2e内存带宽约束、AI Core密集计算单元及HCCL通信协议。相比通用CUDA生态方案,昇腾平台需重构PagedAttention内存管理、Kernel细粒度融合及分布式同步语义,才能释放真实性
大模型推理正从‘能跑’迈向‘稳跑、快跑、长跑’新阶段。百万上下文并非单纯堆砌显存,而是依赖稀疏注意力(DSA)、硬件级KV Cache优化与NPU原生编译支持的系统工程。DeepSeek V4通过动态稀疏机制大幅降低计算复杂度,昇腾NPU凭借HCCS互联、FP8张量计算与智能内存调度,实现TPOT<10ms的稳定低延迟。该技术组合显著降低Agent长程记忆衰减与工具调用断裂风险,支撑VSCode插
本案例基于华为云智果(AgentArts)智能体平台,结合MaaS平台大模型与知识库能力,构建昇腾C算子开发专业领域知识助手。
本课程将介绍在DeepSeek-V4网络上如何基于TorchTitan-NPU框架攻克超长文本训练瓶颈、实现512K级别长序列的大规模续训练,怎样结合大EP+FSDP以及torch.compile+AutoFuse编译入图方案达成极致训练吞吐性能的实践经验,分享如何帮助昇腾大模型开发者在超长上下文场景下快速开展 CPT/SFT算法验证并实现开箱即优。
适用于分布式或多进程并行通过显式通信完成数据交换OpenMP适用于共享内存并行通过编译指令实现线程级并行在鲲鹏平台上,这两种模型都能稳定运行,并且可以根据应用规模灵活选择。与 MPI 不同,OpenMP 主要用于共享内存并行编程模型简单对现有串行代码侵入性低非常适合单机多核场景在鲲鹏平台上,OpenMP 能够充分利用 CPU 的多核心能力。本文围绕鲲鹏平台的 HPC 应用实践,介绍了并行计算技术栈
昇腾
——昇腾
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net