大模型vllm、transformer、xinference 之间的关系

总结来说，vLLM 和 Transformers 是构建高性能推理能力的“发动机”和“基础零件”，而 Xinference 则是一个强大的“智能调度平台”，它能将这些不同的“发动机”和“零件”有机地组织起来，为企业级的复杂部署场景提供便利。vLLM、Transformers 和 Xinference 是大模型推理领域中三个密切相关但定位不同的技术组件，它们之间的关系可以理解为‌引擎、基础库与集成平

haizhixing126

352人浏览 · 2026-01-18 15:13:24

haizhixing126 · 2026-01-18 15:13:24 发布

vLLM、Transformers 和 Xinference 是大模型推理领域中三个密切相关但定位不同的技术组件，它们之间的关系可以理解为‌引擎、基础库与集成平台‌的关系。

vLLM‌ 是一个专注于‌高性能推理‌的引擎。它通过创新的 PagedAttention 和 Continuous Batching 技术，极大提升了显存利用率和并发吞吐量，是运行大语言模型时追求极致速度和效率的首选引擎之一。‌‌
Transformers‌ 是由 Hugging Face 提供的‌基础库‌，它提供了加载、处理和运行各种 Transformer 架构模型的通用接口和工具。它支持广泛的模型格式（如 .safetensors），是许多上层框架的底层依赖。‌‌
Xinference‌ 是一个‌功能全面的分布式推理框架‌，它本身不直接实现底层推理算法，而是‌集成并调度‌了包括 vLLM、Transformers、llama.cpp 等在内的多种推理引擎。‌

它们之间的核心关系体现在：

Xinference 可以调用 vLLM 和 Transformers 作为其后端引擎‌：当你使用 Xinference 部署模型时，你可以选择具体的引擎。例如，你可以让 Xinference 使用 vLLM 引擎来运行 Llama3 以获得高性能，同时用 Transformers 引擎来运行一个嵌入模型（embedding model）。Xinference 提供了一个统一的 API 和可视化界面来管理这些不同的模型和引擎。‌
vLLM 和 Transformers 是独立的、可单独使用的组件‌：你可以直接使用 vLLM 来部署模型，无需 Xinference；同样，你也可以直接使用 Hugging Face Transformers 库来加载和运行模型。Xinference 的作用是将它们整合起来，简化了多模型、多引擎的复杂管理。
依赖关系‌：在安装 Xinference 时，如果你选择安装包含所有功能的版本（如 pip install "xinference[all]"），它会自动安装 vLLM 和 Transformers 作为其依赖项，确保了版本兼容性，无需用户手动单独安装。‌‌

总结来说，vLLM 和 Transformers 是构建高性能推理能力的“发动机”和“基础零件”，而 Xinference 则是一个强大的“智能调度平台”，它能将这些不同的“发动机”和“零件”有机地组织起来，为企业级的复杂部署场景提供便利。‌‌

加入AMD AI开发者计划！

免费领 100 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

Spring AI Ollama 连接超时问题排查与解决：OkHttp 读超时配置全指南

摘要： Spring AI Ollama 集成时出现 HTTP 连接超时问题，表现为调用聊天接口时在10秒左右报错。根本原因是存在两层独立超时机制：模型层超时（spring.ai.ollama.chat.options.timeout）仅控制服务端生成时间，而底层 OkHttp 客户端的默认读超时（10秒）会先触发中断。解决方案包括两种：1）通过 okhttp.read-timeout 全局配置延

AMD开发者中国社区

别再只用GCN了！用PyTorch Geometric实战有向图卷积网络DGCN（附代码）

本文介绍了如何使用PyTorch Geometric实现有向图卷积网络(DGCN)，突破传统GCN在处理有向图数据时的局限性。通过构建三重信息捕获机制（一阶邻近矩阵、二阶入度邻近和二阶出度邻近），DGCN能有效捕捉有向图中的方向性信息，提升节点分类等任务的准确率。文章包含完整的PyG实战代码，适用于社交网络分析、金融交易追踪等场景。