国产开源神器！GPT Server：一站式部署大模型全家桶，兼容 OpenAI 接口！

简单来说，GPT Server是一个提供标准 OpenAI 风格 API 的多模态大模型服务。无论你是想做文本生成embeddingreranker语音转文字图片生成，还是内容审核，它都能通过一套统一的接口搞定，极大降低了集成难度。✅ 完全兼容 OpenAI 客户端调用方式✅ 支持多种高性能推理后端✅ 多个模型共享一个端口，自动调度✅ 持续更新，紧跟最新模型发布节奏如果你正在为如何快速部署 Qwe

一如年少模样丶

531人浏览 · 2025-11-15 19:53:45

一如年少模样丶 · 2025-11-15 19:53:45 发布

🚀 国产开源神器！GPT Server：一站式部署大模型全家桶，兼容 OpenAI 接口！

在如今这个“万物皆可大模型”的时代，越来越多开发者、企业和研究者希望快速搭建自己的 AI 服务。但面对五花八门的模型（LLM、VLM、Embedding、TTS……）和复杂的推理引擎（vLLM、LMDeploy、SGLang），部署成本高、接口不统一成了最大痛点。

今天，我要给大家安利一个我自己开源的一个项目——GPT Server，它可能是目前最全面、最易用的大模型统一服务框架之一，堪称「大模型全家桶」的一站式解决方案！

什么是 GPT Server？

简单来说，GPT Server 是一个提供标准 OpenAI 风格 API 的多模态大模型服务。

无论你是想做文本生成、embedding、reranker、语音转文字、图片生成，还是内容审核，它都能通过一套统一的接口搞定，极大降低了集成难度。

而且，它的核心亮点是：

✅ 完全兼容 OpenAI 客户端调用方式
✅ 支持多种高性能推理后端
✅ 多个模型共享一个端口，自动调度
✅ 持续更新，紧跟最新模型发布节奏

如果你正在为如何快速部署 Qwen、DeepSeek 等主流大模型或者embedding、reranker、语音转文字、图片生成，还是内容审核而头疼，那这个项目绝对值得 star ⭐ 一下！

核心功能一览：不只是 Chat，更是全能选手

功能	支持情况	说明
🎨 OpenAI 接口兼容	✅	所有使用 `openai` 库的项目（如 LangChain、Dify、FastGPT）均可无缝接入
💎 全球首个支持 Responses API	✅	兼容 OpenAI 最新推出的 `Responses API` 接口
🚀 多后端加速推理	✅	支持 `vLLM`、`SGLang`、`LMDeploy`、`HF` 多种引擎
🎯 Embedding / Reranker	✅	支持所有 Sentence Transformers 类模型，内置 Infinity 后端，速度超 ONNX/TensorRT
🛡️ 文本审核（Moderation）	✅	提供 `/v1/moderations` 接口，可用于敏感内容识别
📱 ASR（语音转文本）	✅	基于 FunASR 实现，支持 Whisper、SenseVoiceSmall 等模型
🔊 TTS（文本转语音）	✅	支持 Spark-TTS，流式输出，RTF << 1，延迟极低
🖌️ 文生图（SD）	✅	支持 Diffusers 后端的 Stable Diffusion 模型
🏔️ 图片编辑	✅	支持图像修复、风格迁移等操作
🔄 支持多模态模型（VLM）	✅	如 Qwen-VL、InternVL、MiniCPM-V 等

不仅如此，它还额外扩展了以下能力：

支持 Cohere 的 /v1/rerank 接口（可在 Dify 中直接使用）
自定义实现 text-moderation、tts、asr、image generation/edit 等 OpenAI 接口
提供丰富的测试样例（见 tests/ 目录）

快速上手：三步启动你的本地 AI 服务

第一步：配置 Python 环境（推荐使用 `uv`）

安装 uv（下一代 Python 包管理工具）
pip install uv -U
 
初始化环境并激活 
uv sync
source .venv/bin/activate

💡 uv 是当前性能最强、依赖解析最快的包管理器，比 pip 和 conda 更高效！

第二步：准备配置文件

进入项目脚本目录，复制示例配置：

cd gpt_server/script
cp config_example.yaml config.yaml

完整配置说明: https://blog.csdn.net/q506610466/article/details/151360406

第三步：启动服务

你可以选择以下任意一种方式启动：

方式一：命令行启动

uv run gpt_server/serving/main.py

方式二：使用脚本启动

sh gpt_server/script/start.sh

方式三：Docker 启动（推荐生产环境使用）

拉取镜像：

docker pull 506610466/gpt_server:latest

运行容器（需挂载模型路径和配置文件）：

docker run -d \
  --name gpt_server \
  --restart always \
  --shm-size 32g \
  --network host \
  -v /your/model/path:/models \
  -v /your/config/path/config.yaml:/gpt_server/gpt_server/script/config.yaml \
  --gpus all \
  506610466/gpt_server:latest \
  python gpt_server/serving/main.py

调用示例：像调用 OpenAI 一样简单！

安装 OpenAI SDK：

pip install openai

然后就可以像调用官方 API 一样使用本地服务了：

from openai import OpenAI
 
client = OpenAI(base_url="http://localhost:8082/v1", api_key="none")
 
response = client.chat.completions.create(
    model="qwen",
    messages=[{"role": "user", "content": "你好，请介绍一下你自己"}]
)
 
print(response.choices[0].message.content)