VLLM vs. Ollama

江湖人称麻花滕

1222人浏览 · 2025-02-17 19:34:11

江湖人称麻花滕 · 2025-02-17 19:34:11 发布

大型语言模型 (LLM) 的兴起改变了 AI 驱动的应用程序，开发人员依赖于优化的推理框架，这个领域的两个杰出解决方案是 VLLM 和 Ollama。

VLLM vs. Ollama

关于LangChat

LangChat 是Java生态下企业级AIGC项目解决方案，集成RBAC和AIGC大模型能力，帮助企业快速定制AI知识库、企业AI机器人。

支持的AI大模型： Gitee AI / 阿里通义 / 百度千帆 / DeepSeek / 抖音豆包 / 智谱清言 / 零一万物 / 讯飞星火 / OpenAI / Gemini / Ollama / Azure / Claude 等大模型。

官网地址：http://langchat.cn/

开源地址：

Gitee：https://gitee.com/langchat/langchat
Github：https://github.com/tycoding/langchat

大型语言模型 (LLM) 的兴起改变了 AI 驱动的应用程序，实现了从聊天机器人到自动代码生成的一切。然而，高效运行这些模型仍然是一个挑战，因为它们通常需要大量的计算资源。

为了解决这个问题，开发人员依赖于优化的推理框架，旨在最大限度地提高速度、最大限度地减少内存使用量并无缝集成到应用程序中。这个领域的两个杰出解决方案是 VLLM 和 Ollama——每个解决方案都满足不同的需求。

VLLM 是一个优化的推理引擎，可提供高速令牌生成和高效的内存管理，使其成为大型 AI 应用程序的理想选择。
Ollama 是一个轻量级且用户友好的框架，可简化在本地机器上运行开源 LLM 的过程。

那么，你应该选择哪一个呢？在这次全面的比较中，我们将分解它们的性能、易用性、用例、替代方案和分步设置，以帮助你做出明智的决定。

1、VLLM 和 Ollama概述

在深入了解细节之前，让我们先了解这两个框架的核心目的。

VLLM（超大型语言模型）是由 SKYPILOT 构建的推理优化框架，旨在提高在 GPU 上运行的 LLM 的效率。它专注于：

使用连续批处理快速生成令牌。
通过 PagedAttention 实现高效的内存使用，允许处理大型上下文窗口而不会消耗过多的 GPU 内存。
无缝集成到 AI 工作流中，兼容 PyTorch 和 TensorFlow 等主要深度学习平台。

VLLM 被需要大规模高性能推理的 AI 研究人员和企业广泛使用。

Ollama 是一个本地 LLM 运行时，可简化部署和使用开源 AI 模型。它提供：

预打包模型，例如 LLaMA、Mistral 和 Falcon。
优化的 CPU 和 GPU 推理，用于在日常硬件上运行 AI 模型。
一个简单的 API 和 CLI，允许开发人员以最少的配置启动 LLM。

对于希望在个人机器上试验 AI 模型的开发人员和 AI 爱好者来说，Ollama 是一个绝佳的选择。

2、性能：速度、内存和可扩展性

性能是选择推理框架的关键因素。让我们在速度、内存效率和可扩展性方面比较一下 VLLM 和 Ollama。

关键性能指标：

VLLM 利用 PagedAttention 来最大化推理速度并有效处理大型上下文窗口。这使得它成为聊天机器人、搜索引擎和 AI 写作助手等高性能 AI 应用程序的首选解决方案。

Ollama 提供了不错的速度，但受到本地硬件的限制。它非常适合在 MacBook、PC 和边缘设备上运行较小的模型，但在处理非常大的模型时会遇到困难。

结论：Ollama 更适合初学者，而 VLLM 是需要深度定制的开发人员的选择。

3、用例：何时使用 VLLM 而不是 Ollama？

VLLM 的最佳用例

企业 AI 应用程序（例如客户服务机器人、AI 驱动的搜索引擎）
在高端 GPU（A100、H100、RTX 4090 等）上部署基于云的 LLM
微调和运行自定义模型
需要大型上下文窗口的应用程序

不适合：个人笔记本电脑、休闲 AI 实验

Ollama 的最佳用例

在没有云资源的情况下在 Mac、Windows 或 Linux 上运行 LLM
无需复杂设置即可在本地试验模型
想要使用简单 API 将 AI 集成到应用程序中的开发人员
边缘计算应用程序

不适合：大规模 AI 部署、繁重的 GPU 工作负载

结论：VLLM 适用于 AI 工程师，而 Ollama 适用于开发人员和业余爱好者。

4、快速上手

VLLM要首先安装依赖项：

pip install vllm

在 LLaMA 模型上运行推理：

from vllm import LLM  
llm = LLM(model="meta-llama/Llama-2-7b")  
output = llm.generate("What is VLLM?")

Ollama要安装 Ollama (Mac/Linux)：

brew install ollama

然后下载并运行模型：

ollama run mistral

调用 Ollama 的 API：

import requests  
response = requests.post("http://localhost:11434/api/generate", json={"model": "mistral", "prompt": "Tell me a joke"})  
print(response.json())

结论：Ollama 更易于安装，而VLLM 提供更多定制。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

白嫖48GB显存跑DeepSeek！AMD云GPU私有化部署实战

AMD开发者中国社区

PyTorch性能分析终极指南：从新手到专家的完整调试流程

你是否曾经遇到过这样的困境：PyTorch模型训练速度缓慢，内存占用过高，却不知道问题出在哪里？或者花费大量时间调整超参数，但效果甚微？在深度学习开发中，性能瓶颈往往是阻碍模型部署和产品化的最大障碍。本文将为你提供一套完整的PyTorch性能分析和优化指南，帮助你快速定位问题、提升模型效率，让你的深度学习项目跑得更快、更稳。## 痛点分析：为什么你的PyTorch模型跑得慢？在开始技术细节

AMD开发者中国社区

PyTorch性能优化终极指南：Profiler与TensorBoard实战应用

你是否曾经遇到过这样的困扰？🤔 模型训练速度慢如蜗牛，却不知道问题出在哪里；内存消耗飙升，却无法定位具体原因；模型精度不达标，却难以分析问题根源。在深度学习开发中，性能瓶颈就像隐形的敌人，让你花费大量时间却收效甚微。今天，让我们一起探索PyTorch性能优化的两大神器——Profiler和TensorBoard，让你的模型开发效率提升10倍以上！PyTorch作为当前最流行的深度学习框架之一