vLLM集成方法
1. 先安装 Python 3.11(Ubuntu 必须先装)2. 再安装 Python 3.113. 创建虚拟环境4.激活环境(关键)4. 最终安装 vLLM(RTX 2080 专用)在✅ 立刻释放 10~15GB 空间(1 秒执行)启动(图片的)启动视频的(视频不能并行)
·
步骤一:Ubuntu 系统安装vllm
先尝试直接下载,如果下载超过一个小时则换下面python3.11的方式下载
pip install vllm -i https://mirrors.aliyun.com/pypi/simple/
1. 先安装 Python 3.11(Ubuntu 必须先装)
sudo apt update
sudo apt install software-properties-common -y
sudo add-apt-repository ppa:deadsnakes/ppa -y
sudo apt update
2. 再安装 Python 3.11
sudo apt install python3.11 python3.11-venv python3.11-dev -y
3. 创建虚拟环境
python3.11 -m venv vllm-env
4.激活环境(关键)
source vllm-env/bin/activate
激活成功后,你的命令行前面会变成:
(vllm-env) ubuntu@ubuntu:~$
4. 最终安装 vLLM(RTX 2080 专用)
在 (vllm-env) 环境下复制这两行:
pip install torch==2.2.0+cu118 -f https://download.pytorch.org/whl/cu118/torch_stable.html -i https://mirrors.aliyun.com/pypi/simple/
pip install vllm==0.4.2 -i https://mirrors.aliyun.com/pypi/simple/
✅ 立刻释放 10~15GB 空间(1 秒执行)
pip cache purge
启动(图片的)
vllm serve ./models/Qwen2.5-VL-7B --host 0.0.0.0 --port 8000 --gpu-memory-utilization 0.9 --max-model-len 32766 --trust-remote-code --enforce-eager
启动视频的(视频不能并行)
vllm serve ./models/Qwen2.5-VL-7B --host 0.0.0.0 --port 8000 --gpu-memory-utilization 0.85 --max-model-len 39712 --trust-remote-code --max-num-seqs 1 --limit-mm-per-prompt '{"video": 1}' --mm-processor-kwargs '{"max_pixels": 65536}'
步骤二:从你的应用发送请求
服务启动后,就可以用任何支持 HTTP 请求的工具或语言来集成它了。
方法一:使用 Python (OpenAI SDK)
from openai import OpenAI
# 将地址指向你启动的 vLLM 服务器
client = OpenAI(
base_url="http://localhost:8000/v1",
api_key="your-secure-api-key-here", # 必须与启动服务时的 --api-key 一致
)
response = client.chat.completions.create(
model="Qwen/Qwen2.5-7B-Instruct", # 模型名应与启动时一致
messages=[
{"role": "system", "content": "你是一个乐于助人的助手。"},
{"role": "user", "content": "请介绍一下你自己。"}
],
temperature=0.7,
stream=True # 是否启用流式输出
)
# 处理流式响应
for chunk in response:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="", flush=True)
方法二:使用 cURL (命令行)
这种方法适合快速测试,不依赖特定的编程语言环境
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer your-secure-api-key-here" \
-d '{
"model": "Qwen/Qwen2.5-7B-Instruct",
"messages": [
{"role": "user", "content": "给我讲个简短的笑话"}
],
"max_tokens": 128,
"temperature": 0.8
}'
更多推荐

所有评论(0)