Carolier 个人主页

@Carolier

Carolier

2024-03-08 11:27:44 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

昇腾 910B NPU 大模型部署实践：vLLM 与 Transformers 方案详解

本文记录在华为昇腾 910B NPU 环境下部署多个开源大模型（Qwen3-4B、QED-Nano、Eva-4B-V2、GLM-OCR、Nanbeige4.1-3B）的完整技术流程。涵盖环境配置、镜像选择、框架对比（vLLM vs Transformers）及常见报错处理方案。硬件：昇腾 910B（32GB HBM）驱动：CANN 8.0 RC1容器：Ascend Docker Runtime网络

#华为 #语言模型 #后端 +1

昇腾 910B NPU 大模型部署实践：vLLM 与 Transformers 方案详解

公司之前用 A100，但懂的都懂——买不到、买不起、不敢买。华为昇腾 910B 是国产替代方案，理论上性能对标 A100。老板拍板：“就它了，先上一台试试。# 我的第一反应docker run --runtime=nvidia ... # 报错：没有这个 runtimeexport CUDA_VISIBLE_DEVICES=0 # 毫无反应NPU 不是"国产 CUDA"，它是完全不同的生态。有自己

#华为 #语言模型 #后端 +1

到底了