本地运行大语言模型的四种方法

程序员小橙

391人浏览 · 2026-03-04 11:17:42

程序员小橙 · 2026-03-04 11:17:42 发布

导读

能够本地运行大语言模型具备诸多优势：

1. 数据隐私性佳，所有数据全程不会离开你的本地设备

2. 可先在本地完成各类测试，再迁移至云端部署

本文为你介绍四种本地运行大语言模型的方法。

Ollama

通过 Ollama 运行模型的操作十分简单，只需执行下述命令即可：

ollama run deepseek-r1

快速上手的第一步，通过一条命令完成 Ollama 的安装：

curl -fssL https://ollama.com/install.sh | sh

现在，你可以通过以下命令下载任意一款官方支持的模型，你可以在这个链接里查看Ollama支持的模型列表：https://ollama.com/search

# 立即下载并在终端中运行模型
ollama run deepseek-r1
# 仅下载模型（不运行）
ollama pull deepseek-r1

如果需要通过编程方式调用，你还可以安装 Ollama 的 Python 包，或是其与 Llama Index、CrewAI 等Agent编排框架的集成插件：

pip install ollama
pip install llama-index-llms-ollama

LMStudio

LMStudio可作为应用程序安装在电脑上，该应用不会收集任何数据，也不会监控操作，所有数据均保存在本地设备中，且个人使用完全免费。

它提供了类ChatGPT的操作界面，可以在对话过程中灵活加载和卸载模型，下方视频演示了该工具的使用方法。

和 Ollama 一样，LMStudio 也支持多款大语言模型。这里可以查看LMStudio支持的模型列表：https://lmstudio.ai/models

vLLMv

LLM 是一款轻量易用的大语言模型推理与部署库，拥有高吞吐性能。仅需几行代码，你就能以兼容 OpenAI 的格式在本地运行大语言模型（如 DeepSeek模型），可以到它的官方文档中查找支持的模型列表：https://docs.vllm.ai/en/latest/models/supported_models/

# 安装vLLM
pip install vllm
# 启动服务
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B --enable-reasoning --reasoning-parser deepseek_r1

创建简单客户端代码调用服务API：


from openai import OpenAI
# OpenAI的API密钥和接口地址
openai_api_key = ""
openai_api_base = "http://localhost:8000/v1"
# 初始化客户端
client = OpenAI(
    api_key=openai_api_key,
    base_url=openai_api_base
)
# 查看可用模型
models = client.models.list()
model = models.data[0].id
# 第一轮对话请求
messages = [{"role": "user", "content": "9.11和9.8哪个更大？"}]
response = client.chat.completions.create(model=model, messages=messages)
# 提取推理过程和回答内容
reasoning_content = response.choices[0].message.reasoning_content
content = response.choices[0].message.content
# 打印结果
print("推理过程：", reasoning_content)
print("回答内容：", content)

Llama.cpp

Llama.cpp 支持以极简的配置实现大语言模型推理，且具有领先的性能表现。

可以到github查找支持的模型：https://github.com/ggml-org/llama.cpp

# 安装Llama.cpp
brew install llama.cpp
# 提高显存限制
sudo sysctl iogpu.wired_limit_mb=180000
# 启动服务（模型约150GB，需约180GB显存支持）
llama-server -c 8192 -ub 64 \
--model-url https://huggingface.co/unsoth/DeepSeek-R1-GGUF/resolve/main/DeepSeek-R1-UD-IQ1_S/DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf
# 访问本地地址：http://127.0.0.1:8080
# 客户端代码和vLLM中的类似

学习资源推荐

如果你想更深入地学习大模型，以下是一些非常有价值的学习资源，这些资源将帮助你从不同角度学习大模型，提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

用OpenCLAW重写CUDA内核

注：实际写作时可结合具体代码示例和性能数据展开，避免泛泛而谈。若需深入技术细节，建议分章节独立成文。

龙虾开发者社区

【无标题】

层级核心特征一句话判断标准所需新能力1纯提示词写过可复用的SKILL.md提示词工程2带资源Skill有references或scripts文件组织3工作流有多步骤决策树+条件分支流程设计4多Agent编排用Phase-Orchestrator调度sub-Agent编排调度5安全管控有安全审查机制和风险分级安全工程6规则引擎用YAML配置驱动评分规则配置化设计7交叉验证从多源数据交叉验证+置信度证

龙虾开发者社区

这种设计的核心思想是模块化。就像给手机安装 App 一样，我们可以为 Agent 动态加载不同的技能，让它具备代码审查、文档生成、数据分析等能力。每个技能都是独立的，可以单独开发、测试和复用。

当用户输入一个请求时，Agent 首先扫描 skills 目录下所有 SKILL.md 的前置元数据，提取各技能的名称与描述，生成可用技能清单。最后，Agent 按照加载的指令执行任务，并将结果返回给用户。一个好的描述应该简洁明确，并包含触发条件，让 Agent 一看就知道"什么场景下该用我"。需要注意的是，deepagents 目前不支持通过 init_chat_model 构造的模型对象，因