VLLM auto DL环境配置

vllm auto 简单部署

嘉陵妹妹

156人浏览 · 2026-06-07 21:57:35

嘉陵妹妹 · 2026-06-07 21:57:35 发布

1 安装 UV 工具

你现在是 AutoDL 容器（root 用户、base conda 环境），报错 bash: uv: command not found 就是：还没装 uv，或者装了但不在 PATH 里。下面直接给你在这个容器里能一步到位的安装命令

pip install uv # 在 AutoDL 里最快安装（用 pip，最简单）

uv --version # 装完后看一下

1 创建 UV 环境

VLLM 官网安装教程
推荐使用uv这款高性能 Python 环境管理工具来创建和管理 Python 运行环境。请参照官方文档完成 uv 的安装。安装完成后，可通过以下命令新建 Python 环境：
补充说明
uv：当下热门的 Python 环境 / 包管理工具，速度远优于传统的 venv、pip、conda，一般直接保留原名uv即可。
environment：结合语境译为运行环境 / 虚拟环境（Python 领域通用叫法）。

uv venv --python 3.12 --seed --managed-python
source .venv/bin/activate

1：创建一个 Python 3.12 虚拟环境
每个参数含义：
uv venv：用 uv 创建虚拟环境
–python 3.12：指定使用 Python 3.12 版本
–seed：自动在环境里预装 pip（方便兼容老工具）
–managed-python：让 uv 自动下载、管理 Python 解释器（不用你自己装 Python）
2：激活刚才创建的虚拟环境（进入这个独立环境）
激活后效果：
你用的 python、pip 都来自 .venv
安装的包只会存在这个环境里，不会污染系统
终端前面会出现 (.venv) 标志

2 在虚拟环境里面安装VLLM

建议使用 uv，通过 --torch-backend=auto 参数（或环境变量 UV_TORCH_BACKEND=auto），让工具在运行时检测已安装的 CUDA 驱动版本，自动匹配对应的 PyTorch 镜像源。

uv pip install vllm --torch-backend=auto

如果是在国内：建议使用阿里镜像

uv pip install vllm --torch-backend=auto \
  -i https://mirrors.aliyun.com/pypi/simple/ \
  --trusted-host mirrors.aliyun.com

-i：指定阿里云 PyPI 源
–trusted-host：信任阿里云域名，避免 SSL 报错

3 模型下载（ModelScope ）

AutoDL 国内环境通常 HuggingFace 不通，ModelScope 更稳。先装工具：

source /root/.venv/bin/activate
uv pip install modelscope

下载到数据盘，避免系统盘爆：

mkdir -p /root/autodl-tmp/models

modelscope download \
  --model Qwen/Qwen3-0.6B \
  --local_dir /root/autodl-tmp/models/Qwen3-0.6B

4 启动VLLM

vllm serve /root/autodl-tmp/models/Qwen3-0.6B \
  --served-model-name Qwen/Qwen3-0.6B \
  --host 127.0.0.1 \
  --port 8000 \
  --max-model-len 2048

MODEL=Qwen/Qwen3-0.6B定义要跑的模型（轻量小模型，你的显卡轻松跑）
vllm serve $MODEL启动 vLLM API 服务（兼容 OpenAI 接口格式）
–host 127.0.0.1只允许本机访问（安全）
–port 8000服务端口 8000
–max-model-len 2048最大上下文长度 2048（对 0.6B 模型非常合适）

5 另起terminal 测试

返回模型列表之后

curl http://127.0.0.1:8000/v1/models

curl一个命令行工具，用来发送网络请求、获取服务器返回的数据。
http://127.0.0.1:8000
127.0.0.1 = 本机
8000 = 服务运行的端口
→ 意思是：访问你自己电脑上运行的 AI 服务
/v1/models这是 OpenAI 兼容的 API 接口作用：列出当前可用的 AI 模型（比如 llama3、qwen、gemma 等）

curl http://127.0.0.1:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen3-0.6B",
    "prompt": "Explain paged attention in one paragraph.",
    "max_tokens": 64,
    "temperature": 0
  }'

vLLM 服务完全正常运行，API 也能调用，但是模型生成的内容乱七八糟，全是重复的 - Quora，这是典型的小模型（0.6B）+ 英文提示词 + 温度 = 0 导致的生成崩坏。
问题原因
模型太小：Qwen3-0.6B 是超小参数量模型，英文能力很弱，很容易输出乱码 / 重复内容
温度 = 0：完全确定性生成，错了就一路错到底
用了 completions 接口：这个接口是续写模式，小模型更容易跑偏

方法 1：用中文对话接口（推荐，效果最好）

curl http://127.0.0.1:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen3-0.6B",
    "messages": [{"role": "user", "content": "请解释一下分页注意力"}]
  }'

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

Ollama + LocalCode Windows 本地部署指南：免费打造你的私有 AI 编程助手

本文手把手教你如何在 Windows 上免费部署 Ollama + LocalCode，打造完全离线、数据不联网、无使用限制的私有 AI 编程助手。无需 GPU，8GB 内存即可流畅运行 deepseek-coder:latest (1.3B) 模型。文章涵盖安装步骤、常见问题解决、模型选择指南（1.3B/7B/14B）、实战用法及效果验证，适合代码敏感、网络受限或想摆脱付费额度的开发者

AMD开发者中国社区

【模型架构篇01】大模型部署：从vLLM到ollama

大模型部署技术解析本文系统介绍大模型部署的核心挑战与解决方案。主要内容包括：部署挑战：大模型部署面临显存不足、推理速度慢等难题，以70B模型为例，FP16精度下需要148GB显存，远超单卡GPU容量。量化技术：通过降低参数精度减少显存占用，包括FP8、INT8、4-bit等方案。量化后70B模型可压缩至35GB（4-bit），适配消费级GPU。推理框架对比： vLLM：生产级高并发API服

AMD开发者中国社区

AstrBot + Ollama 本地部署完整指南

本文提供了在Windows系统（WSL2 Ubuntu）上通过Docker部署AstrBot（含Agent沙盒）并连接本地Ollama大模型的完整指南。关键步骤包括：1）通过Docker Compose部署AstrBot；2）手动安装配置Ollama服务并开放外部访问；3）下载适配显卡（如RTX 5080）的大模型（推荐qwen2.5:14b）；4）配置AstrBot对接Ollama API。特别