vLLM-Omni部署Z-Image

MonkeyKing_sunyuhua

695人浏览 · 2026-01-12 14:23:17

MonkeyKing_sunyuhua · 2026-01-12 14:23:17 发布

vLLM-Omni 已经提供了 OpenAI DALL·E 兼容的图片生成 API，并且文档里直接给了 Z-Image-Turbo 的启动方式。

你能实现的调用形态是什么？
• ✅ 用 OpenAI 的 SDK / OpenAI-compatible 客户端来调用你自建的 vLLM-Omni 服务（也就是“OpenAI 协议”，不是调用 OpenAI 官方云）。
• ✅ 走 DALL·E 兼容的 /v1/images/generations（文生图）接口。
• ⚠️ 图生图/编辑/局部重绘：vLLM-Omni 目前文档示例更明确的是用 Qwen-Image-Edit 来做在线 image-to-image 编辑服务（Z-Image-Turbo 在支持列表里是生成管线）。

⸻

启动 vLLM-Omni 服务（Z-Image-Turbo）

关键点：–omni

vllm serve Tongyi-MAI/Z-Image-Turbo --omni --host 0.0.0.0 --port 8000

官方文档就是这样写的。

⸻

用“OpenAI 风格”的 HTTP 调用（DALL·E 兼容）

curl http://<你的服务器>:8000/v1/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer <你的token可选>" \
  -d '{
    "prompt": "一张写实风格的产品海报，中文标题：新年快乐",
    "n": 1,
    "size": "1024x1024"
  }'

（字段名以 vLLM-Omni 的 DALL·E 兼容实现为准；核心就是走 images/generations。）

⸻

直接用 OpenAI Python SDK 来打你自己的服务（最像“通过openai调用”）

from openai import OpenAI

client = OpenAI(
    api_key="token-abc123",                 # 你服务端配置的 token（如未启用鉴权也可随便填）
    base_url="http://<你的服务器>:8000/v1"   # 指向 vLLM-Omni
)

img = client.images.generate(
    model="Tongyi-MAI/Z-Image-Turbo",        # 有些兼容实现可不填/会忽略，因为服务实例本身只跑一个模型
    prompt="写实摄影风，室内自然光，一杯咖啡，中文文字清晰：早安",
    size="1024x1024"
)

# 返回通常是 b64 或 url（看服务实现）
print(img.data[0])

vLLM 的 OpenAI-compatible server 设计就是允许你用官方 OpenAI 客户端去打自建服务；vLLM-Omni 在图片这块走的是 DALL·E 兼容。

⸻

关键注意点（避免踩坑）
1. 一定要用 vLLM-Omni + --omni，否则普通 vLLM 主要是 Chat/Completions 这类文本接口。
2. Z-Image-Turbo 单卡显存门槛不高（官方说 16GB VRAM 消费级卡也能比较舒服跑）。
3. 你如果要做图生图/编辑/局部重绘，建议先按 vLLM-Omni 文档示例用 Qwen-Image-Edit 起一个编辑服务（更“官方示范路径”）。

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

生产级 LLM 推理框架横评：vLLM、SGLang 等 5 大方案全维度对比

AMD开发者中国社区

FlagOS Day 0 跨芯适配 GLM-5.2：发布即覆盖四款芯片，支持 vLLM + SGLang双插件

同时，FlagGems 新增 6 大领域算子库——FlagDNN、FlagBlas、FlagSparse、FlagFFT、FlagTensor、FlagAudio，覆盖科学计算与信号处理场景，共计 102 个领域算子，从"大模型专用"走向全领域覆盖。厂商目录放置后由插件自动发现加载，vLLM-Plugin-FL、SGLang-Plugin-FL、Megatron-LM-FL、Transformer