
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
昇腾 910B NPU 大模型部署实践:vLLM 与 Transformers 方案详解
本文记录在华为昇腾 910B NPU 环境下部署多个开源大模型(Qwen3-4B、QED-Nano、Eva-4B-V2、GLM-OCR、Nanbeige4.1-3B)的完整技术流程。涵盖环境配置、镜像选择、框架对比(vLLM vs Transformers)及常见报错处理方案。硬件:昇腾 910B(32GB HBM)驱动:CANN 8.0 RC1容器:Ascend Docker Runtime网络

昇腾 910B NPU 大模型部署实践:vLLM 与 Transformers 方案详解
公司之前用 A100,但懂的都懂——买不到、买不起、不敢买。华为昇腾 910B 是国产替代方案,理论上性能对标 A100。老板拍板:“就它了,先上一台试试。# 我的第一反应docker run --runtime=nvidia ... # 报错:没有这个 runtimeexport CUDA_VISIBLE_DEVICES=0 # 毫无反应NPU 不是"国产 CUDA",它是完全不同的生态。有自己
到底了







