🚀 国产开源神器!GPT Server:一站式部署大模型全家桶,兼容 OpenAI 接口!

在如今这个“万物皆可大模型”的时代,越来越多开发者、企业和研究者希望快速搭建自己的 AI 服务。但面对五花八门的模型(LLM、VLM、Embedding、TTS……)和复杂的推理引擎(vLLM、LMDeploy、SGLang),部署成本高、接口不统一成了最大痛点。

今天,我要给大家安利一个我自己开源的一个项目——GPT Server,它可能是目前最全面、最易用的大模型统一服务框架之一,堪称「大模型全家桶」的一站式解决方案!


什么是 GPT Server?

简单来说,GPT Server 是一个提供标准 OpenAI 风格 API 的多模态大模型服务。

无论你是想做文本生成embeddingreranker语音转文字图片生成,还是内容审核,它都能通过一套统一的接口搞定,极大降低了集成难度。

而且,它的核心亮点是:

✅ 完全兼容 OpenAI 客户端调用方式
✅ 支持多种高性能推理后端
✅ 多个模型共享一个端口,自动调度
✅ 持续更新,紧跟最新模型发布节奏



如果你正在为如何快速部署 Qwen、DeepSeek 等主流大模型或者embeddingreranker语音转文字图片生成,还是内容审核而头疼,那这个项目绝对值得 star ⭐ 一下!


核心功能一览:不只是 Chat,更是全能选手

功能 支持情况 说明
🎨 OpenAI 接口兼容 所有使用 openai 库的项目(如 LangChain、Dify、FastGPT)均可无缝接入
💎 全球首个支持 Responses API 兼容 OpenAI 最新推出的 Responses API 接口
🚀 多后端加速推理 支持 vLLMSGLangLMDeployHF 多种引擎
🎯 Embedding / Reranker 支持所有 Sentence Transformers 类模型,内置 Infinity 后端,速度超 ONNX/TensorRT
🛡️ 文本审核(Moderation) 提供 /v1/moderations 接口,可用于敏感内容识别
📱 ASR(语音转文本) 基于 FunASR 实现,支持 Whisper、SenseVoiceSmall 等模型
🔊 TTS(文本转语音) 支持 Spark-TTS,流式输出,RTF << 1,延迟极低
🖌️ 文生图(SD) 支持 Diffusers 后端的 Stable Diffusion 模型
🏔️ 图片编辑 支持图像修复、风格迁移等操作
🔄 支持多模态模型(VLM) 如 Qwen-VL、InternVL、MiniCPM-V 等

不仅如此,它还额外扩展了以下能力:

  • 支持 Cohere 的 /v1/rerank 接口(可在 Dify 中直接使用)
  • 自定义实现 text-moderationttsasrimage generation/edit 等 OpenAI 接口
  • 提供丰富的测试样例(见 tests/ 目录)

快速上手:三步启动你的本地 AI 服务

第一步:配置 Python 环境(推荐使用 uv
安装 uv(下一代 Python 包管理工具)
pip install uv -U
 
初始化环境并激活 
uv sync
source .venv/bin/activate 

💡 uv 是当前性能最强、依赖解析最快的包管理器,比 pip 和 conda 更高效!


第二步:准备配置文件

进入项目脚本目录,复制示例配置:

cd gpt_server/script
cp config_example.yaml config.yaml

完整配置说明: https://blog.csdn.net/q506610466/article/details/151360406


第三步:启动服务

你可以选择以下任意一种方式启动:

方式一:命令行启动

uv run gpt_server/serving/main.py

方式二:使用脚本启动

sh gpt_server/script/start.sh

方式三:Docker 启动(推荐生产环境使用)

拉取镜像:

docker pull 506610466/gpt_server:latest

运行容器(需挂载模型路径和配置文件):

docker run -d \
  --name gpt_server \
  --restart always \
  --shm-size 32g \
  --network host \
  -v /your/model/path:/models \
  -v /your/config/path/config.yaml:/gpt_server/gpt_server/script/config.yaml \
  --gpus all \
  506610466/gpt_server:latest \
  python gpt_server/serving/main.py

调用示例:像调用 OpenAI 一样简单!

安装 OpenAI SDK:

pip install openai

然后就可以像调用官方 API 一样使用本地服务了:

from openai import OpenAI
 
client = OpenAI(base_url="http://localhost:8082/v1", api_key="none")
 
response = client.chat.completions.create(
    model="qwen",
    messages=[{"role": "user", "content": "你好,请介绍一下你自己"}]
)
 
print(response.choices[0].message.content)

🎯 支持的功能包括:

  • client.chat.completions.create() —— 对话生成
  • client.embeddings.create() —— 向量嵌入
  • client.rerank.create() —— 文本重排序(Cohere 风格)
  • client.moderations.create() —— 内容审核
  • client.audio.speech.create() —— TTS 文本转语音
  • client.audio.transcriptions.create() —— ASR 语音转文本
  • client.images.generate() —— 文生图
  • client.images.edit() —— 图片编辑

👉 示例代码详见:GitHub Tests 目录 :https://github.com/shell-nlp/gpt_server/tree/main/gpt_server/tests


致谢与生态联动

该项目整合了多个顶级开源项目的成果,感谢以下项目的支持:

正是站在巨人的肩膀上,才实现了如此强大的功能整合。


总结

在这个 AI 技术飞速发展的时代,我们不仅需要更强的模型,更需要能让这些模型真正跑起来、用起来的工具。

GPT Server 正是这样一个桥梁型项目 —— 它不追求炫技,而是专注于解决实际问题:如何让开发者以最低成本、最快速度将各类大模型集成进自己的应用中。

✅ 统一接口
✅ 多模型共存
✅ 多后端加速
✅ 持续迭代

如果你也在做 AI 工程化、私有化部署、企业级 AI 平台建设,那么 GPT Server 绝对值得一试!


📌 项目地址:https://github.com/shell-nlp/gpt_server
⭐ 如果对你有帮助,别忘了点个 Star 支持作者!

  • PS:都看到这里,来个点赞推荐关注吧。 您的支持是我坚持的最大动力!
Logo

更多推荐