logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

昇腾 910B NPU 大模型部署实践:vLLM 与 Transformers 方案详解

本文记录在华为昇腾 910B NPU 环境下部署多个开源大模型(Qwen3-4B、QED-Nano、Eva-4B-V2、GLM-OCR、Nanbeige4.1-3B)的完整技术流程。涵盖环境配置、镜像选择、框架对比(vLLM vs Transformers)及常见报错处理方案。硬件:昇腾 910B(32GB HBM)驱动:CANN 8.0 RC1容器:Ascend Docker Runtime网络

文章图片
#华为#语言模型#后端 +1
昇腾 910B NPU 大模型部署实践:vLLM 与 Transformers 方案详解

公司之前用 A100,但懂的都懂——买不到、买不起、不敢买。华为昇腾 910B 是国产替代方案,理论上性能对标 A100。老板拍板:“就它了,先上一台试试。# 我的第一反应docker run --runtime=nvidia ... # 报错:没有这个 runtimeexport CUDA_VISIBLE_DEVICES=0 # 毫无反应NPU 不是"国产 CUDA",它是完全不同的生态。有自己

#华为#语言模型#后端 +1
到底了