vLLM-Omni部署Z-Image
vLLM-Omni 已经提供了 OpenAI DALL·E 兼容的图片生成 API,并且文档里直接给了 Z-Image-Turbo 的启动方式。 
你能实现的调用形态是什么?
• ✅ 用 OpenAI 的 SDK / OpenAI-compatible 客户端来调用你自建的 vLLM-Omni 服务(也就是“OpenAI 协议”,不是调用 OpenAI 官方云)。 
• ✅ 走 DALL·E 兼容的 /v1/images/generations(文生图)接口。 
• ⚠️ 图生图/编辑/局部重绘:vLLM-Omni 目前文档示例更明确的是用 Qwen-Image-Edit 来做在线 image-to-image 编辑服务(Z-Image-Turbo 在支持列表里是生成管线)。 
⸻
- 启动 vLLM-Omni 服务(Z-Image-Turbo)
关键点:–omni
vllm serve Tongyi-MAI/Z-Image-Turbo --omni --host 0.0.0.0 --port 8000
官方文档就是这样写的。 
⸻
- 用“OpenAI 风格”的 HTTP 调用(DALL·E 兼容)
curl http://<你的服务器>:8000/v1/images/generations \
-H "Content-Type: application/json" \
-H "Authorization: Bearer <你的token可选>" \
-d '{
"prompt": "一张写实风格的产品海报,中文标题:新年快乐",
"n": 1,
"size": "1024x1024"
}'
(字段名以 vLLM-Omni 的 DALL·E 兼容实现为准;核心就是走 images/generations。) 
⸻
- 直接用 OpenAI Python SDK 来打你自己的服务(最像“通过openai调用”)
from openai import OpenAI
client = OpenAI(
api_key="token-abc123", # 你服务端配置的 token(如未启用鉴权也可随便填)
base_url="http://<你的服务器>:8000/v1" # 指向 vLLM-Omni
)
img = client.images.generate(
model="Tongyi-MAI/Z-Image-Turbo", # 有些兼容实现可不填/会忽略,因为服务实例本身只跑一个模型
prompt="写实摄影风,室内自然光,一杯咖啡,中文文字清晰:早安",
size="1024x1024"
)
# 返回通常是 b64 或 url(看服务实现)
print(img.data[0])
vLLM 的 OpenAI-compatible server 设计就是允许你用官方 OpenAI 客户端去打自建服务;vLLM-Omni 在图片这块走的是 DALL·E 兼容。 
⸻
关键注意点(避免踩坑)
1. 一定要用 vLLM-Omni + --omni,否则普通 vLLM 主要是 Chat/Completions 这类文本接口。 
2. Z-Image-Turbo 单卡显存门槛不高(官方说 16GB VRAM 消费级卡也能比较舒服跑)。 
3. 你如果要做 图生图/编辑/局部重绘,建议先按 vLLM-Omni 文档示例用 Qwen-Image-Edit 起一个编辑服务(更“官方示范路径”)。 
更多推荐


所有评论(0)