步骤一:Ubuntu 系统安装vllm

先尝试直接下载,如果下载超过一个小时则换下面python3.11的方式下载

 pip install vllm -i https://mirrors.aliyun.com/pypi/simple/

1. 先安装 Python 3.11(Ubuntu 必须先装)

sudo apt update
sudo apt install software-properties-common -y
sudo add-apt-repository ppa:deadsnakes/ppa -y
sudo apt update

2. 再安装 Python 3.11

sudo apt install python3.11 python3.11-venv python3.11-dev -y

3. 创建虚拟环境

python3.11 -m venv vllm-env

4.激活环境(关键)

source vllm-env/bin/activate

激活成功后,你的命令行前面会变成:

(vllm-env) ubuntu@ubuntu:~$

4. 最终安装 vLLM(RTX 2080 专用)

(vllm-env) 环境下复制这两行:

pip install torch==2.2.0+cu118 -f https://download.pytorch.org/whl/cu118/torch_stable.html -i https://mirrors.aliyun.com/pypi/simple/

pip install vllm==0.4.2 -i https://mirrors.aliyun.com/pypi/simple/

✅ 立刻释放 10~15GB 空间(1 秒执行)

pip cache purge

启动(图片的)

vllm serve ./models/Qwen2.5-VL-7B   --host 0.0.0.0   --port 8000   --gpu-memory-utilization 0.9   --max-model-len 32766   --trust-remote-code   --enforce-eager

启动视频的(视频不能并行)
 

vllm serve ./models/Qwen2.5-VL-7B     --host 0.0.0.0     --port 8000     --gpu-memory-utilization 0.85     --max-model-len 39712     --trust-remote-code     --max-num-seqs 1     --limit-mm-per-prompt '{"video": 1}'     --mm-processor-kwargs '{"max_pixels": 65536}'

步骤二:从你的应用发送请求

服务启动后,就可以用任何支持 HTTP 请求的工具或语言来集成它了。

方法一:使用 Python (OpenAI SDK)

from openai import OpenAI

# 将地址指向你启动的 vLLM 服务器
client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="your-secure-api-key-here", # 必须与启动服务时的 --api-key 一致
)

response = client.chat.completions.create(
    model="Qwen/Qwen2.5-7B-Instruct", # 模型名应与启动时一致
    messages=[
        {"role": "system", "content": "你是一个乐于助人的助手。"},
        {"role": "user", "content": "请介绍一下你自己。"}
    ],
    temperature=0.7,
    stream=True # 是否启用流式输出
)

# 处理流式响应
for chunk in response:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

方法二:使用 cURL (命令行)

这种方法适合快速测试,不依赖特定的编程语言环境

curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer your-secure-api-key-here" \
-d '{
    "model": "Qwen/Qwen2.5-7B-Instruct",
    "messages": [
        {"role": "user", "content": "给我讲个简短的笑话"}
    ],
    "max_tokens": 128,
    "temperature": 0.8
}'

Logo

免费领 100 小时云算力,进群参与显卡、AI PC 幸运抽奖

更多推荐