简介

文章介绍了本地运行大语言模型的五种工具:Ollama、LM Studio、AnythingLLM、llama.cpp和Open WebUI。本地运行LLM具有隐私与控制、离线能力和成本与自由三大优势。Ollama适合快速设置,LM Studio适合探索实验,AnythingLLM可将LLM与个人文档连接,llama.cpp提供底层控制,Open WebUI提供美观的浏览器界面。文章强调,本地运行LLM不再是极客实验,而是实用、私密且有趣的选择。


这篇文章是为所有想要在本地、安全、私密地运行最先进 LLM 的人准备的,让他们不必在“设置地狱”中抓狂。

我们将介绍我尝试过的工具:OllamaLM StudioAnythingLLM(以及一些荣誉提名)。读完本文,你不只会知道哪些工具好用,还会明白它们为何好用,以及如何在 2025 年让你的本地 AI 运行起来。

一、为什么要在本地运行 LLM?

在我们深入探讨之前,让我们先退一步。当 OpenAIAnthropic 触手可及时,为什么还有人愿意费劲在自己的个人机器上运行数 GB 的模型呢?

原因有三:

  1. 隐私与控制: 没有 API 调用。没有日志。没有“您的数据可能被用于改进我们的模型”这种条款。你可以真正在不泄露任何信息的情况下,在你的机器上运行 Llama 3Mistral
  2. 离线能力: 你可以在飞机上运行它。在地下室。在停电时(好吧,也许不行)。重点是它是本地的,它属于你。
  3. 成本与自由: 一旦你下载了模型,就可以免费使用。没有订阅层级,没有按每 token 计费。你可以加载任何你喜欢的开放模型,对其进行微调,或者明天就将其替换掉。

当然,其代价是硬件

MacBook Air 上运行一个 70 亿参数的模型就像试图用自行车发射火箭一样。但多亏了量化和像 GGUFllama.cpp 等更智能的运行时,现在 7B13B 甚至一些高效的 30B 这样的小型模型运行得非常出色。

二、本地运行 LLM 的 5 种工具

1. Ollama:极简主义的“主力军”

我们要看的第一个工具是 Ollama。如果你最近经常浏览 RedditHacker News,你可能会发现它出现在每个“本地 LLM”的讨论串中。

安装 Ollama 极其简单,你可以直接从它的官方网站下载,然后就可以使用了。没有 Docker。没有 Python 地狱。没有 CUDA 驱动噩梦。

该工具可在 MacOSLinuxWindows 上使用。安装完成后,你可以从可用列表中选择你的模型,然后下载它们。

我下载了 Qwen3 4B 模型,然后就可以立即开始聊天了。下面是你可以设置的有用隐私设置:

你可以控制 Ollama 是否与网络上的其他设备通信。此外,还有一个巧妙的“飞行模式”切换,它基本上锁定了所有内容:你的聊天、你的模型,所有一切都完全保留在本地。

当然,我必须用老办法测试一下。我真的在聊天中途关闭了 WiFi,只是为了看看它是否仍然工作(剧透:它确实工作,哈哈)。

我喜欢什么?

  • 超简洁的用户体验: 它的 UI 在界面上给人的感觉与 ChatGPT/Claude/Gemini 类似,并且你可以轻松下载模型。
  • **高效的资源管理:**Ollama 在底层使用了 llama.cpp,并支持量化模型(Q4、Q5、Q6 等),这意味着你可以在一台不错的 MacBook 上运行它们而不会使其崩溃。
  • API 兼容: 它为你提供了一个模仿 OpenAI API 的本地 HTTP 端点。因此,如果你有使用 openai.ChatCompletion.create 的现有代码,你可以直接将其重定向到 http://localhost:11434
  • 集成性: 许多应用,如 AnythingLLMChatbox 甚至 LM Studio 都可以使用 Ollama 作为后端。它就像是每个人都想接入的本地模型引擎。

Ollama 感觉就像是一份礼物。它稳定、漂亮,并使非工程师也能使用本地 AI。如果你只是想使用模型而不想与设置搏斗,Ollama 是完美的选择。

2. LM Studio:有格调的本地 AI

LM Studio 为你提供了一个时尚的桌面界面(Mac/Windows/Linux),你可以在其中与模型聊天、浏览 Hugging Face 上的开放模型,甚至调整系统提示或采样设置;所有这些都无需接触终端。

当我第一次打开它时,我的感觉是:“好吧,这看起来就像是如果 ChatGPT 住在我的桌面上并且不与服务器通信的样子。”

你可以直接从其官方网站下载 LM Studio

请注意,它列出了 GPT-OSSQwenGemmaDeepSeek 等模型作为兼容模型,这些模型都是免费的,可以私密使用(下载到你的机器上)。下载后,它允许你选择模式:

我选择了开发者模式,因为我想在聊天过程中看到它显示的所有选项/信息。但是,你也可以直接选择用户模式并开始操作。接下来,你需要选择下载哪个模型:

完成后,你就可以简单地开始与模型聊天了。此外,由于这是开发者模式,我能够在下方看到关于聊天的额外指标,例如 CPU 使用率和 token 使用量:

而且,你还有额外的功能,例如设置“系统提示”的能力,这对于设置模型的人设或聊天的主题非常有用:

最后,这里是它可供使用的模型列表:

我喜欢什么?

  • 漂亮的 UI: 老实说,LM Studio 看起来非常专业。多标签聊天会话、内存、提示历史记录,所有设计都非常简洁。
  • **支持 Ollama 后端:**LM Studio 可以在幕后使用 Ollama,这意味着你可以通过 Ollama 的运行时加载模型,同时仍然在 LM Studio 的 UI 中聊天。
  • 模型市场: 你可以直接在应用内搜索和下载模型:Llama 3MistralFalconPhi-3,应有尽有。
  • 参数控制: 你可以调整温度、top-p、上下文长度等。这对于提示实验非常有用。
  • 离线和本地嵌入: 它还支持本地嵌入,如果你想构建检索增强生成(RAG)设置而无需互联网,这会很有帮助。
3. AnythingLLM:让本地模型真正有用

我尝试 AnythingLLM 主要是因为我希望我的本地模型不仅仅是聊天。它将你的 LLM(例如 Ollama)连接到真实数据:PDF、笔记、文档,并让它使用你自己的数据回答问题。

设置很简单,最好的部分是什么?一切都保留在本地。嵌入、检索、上下文,所有这些都发生在你的机器上。

是的,我做了我惯常的 WiFi 测试,在查询中途关闭了它,以确保万无一失。它仍然有效,没有秘密调用,没有意外。

它并不完美,但这是我的本地模型第一次真正感觉有用,而不仅仅是会说话。

让我们从它的官方网站设置它:

让我们转到下载页面,它适用于 Linux/Windows/Mac。请注意,他们一开始就明确而清晰地表达了他们维护隐私的承诺:

设置完成后,你可以选择你的模型提供商和你的模型

有各种各样的模型可供选择,从 GoogleGemmaQwenPhiDeepSeek 等等。对于提供商,你有 AnythingLLMOpenAIAnthropicGeminiNvidia 等选项,选择范围很广!

以下是隐私设置:

一个很棒的事情是,这个工具不仅限于聊天,你还可以做其他有用的事情,例如制作智能体(Agents)、RAG 等。

以下是聊天界面的样子:

我喜欢什么?

  • Ollama 完美配合:完整的本地设置,没有任何隐藏的云端内容。
  • 允许你连接真实数据(PDF、笔记等),因此模型实际上知道一些有用的东西。
  • 使用简单,界面简洁,不需要开发运维(DevOps)博士学位就能运行。
  • 通过完全离线和完全私密地通过了我的关闭 WiFi 测试。
4.llama.cpp, Open WebUI

以下是另外两个值得称赞的工具:

  • llama.cpp: 大多数这些本地设置背后的真正 OG(元老)。它不花哨,但效率高得惊人。如果说 Ollama 是精致的包装器,那么 llama.cpp 就是在底层进行繁重工作的原始肌肉。你可以直接从终端运行它,调整每个参数,甚至为你的特定硬件编译它。纯粹的控制
  • Open WebUI: 可以把它想象成一个漂亮的、基于浏览器的本地模型图层。它与 Ollama 等工具配合使用,为你提供一个干净的聊天界面、内存和多用户支持。有点像托管你自己的私人 ChatGPT,但你的任何数据都不会离开机器。

这两个工具都不完全是新手友好型,但如果你喜欢折腾,它们绝对值得探索。

三、隐私、安全

现在,在本地运行这些模型的全部意义在于隐私

当你使用云端 LLM 时,你的数据是在别处处理的。即使公司承诺不存储它,你仍然是在信任它们。

使用本地模型,这个等式就颠倒了。一切都保留在你的设备上。你可以审计日志沙盒化它,甚至完全阻止网络访问

这对于受监管行业的人,或者只是重视个人隐私的任何人来说,都是巨大的优势。

这不仅仅是偏执,这是关于主权。拥有你的模型权重、你的数据、你的计算资源;这是强大的

我尝试了几种在本地运行 LLM 的工具,老实说,每一种都有自己的风格。有些感觉像引擎,有些像仪表板,有些像个人助理。

以下是我注意到的一些快速总结:

工具 最佳用途 隐私/离线能力 易用性 特殊优势
Ollama 快速设置,原型设计 非常强,如果切换飞行模式则完全本地 超级简单,命令行界面 + 可选图形界面 轻量级,高效,API 准备就绪
LM Studio 探索、实验,多模型 UI 强,大部分离线 中等,图形界面较多 漂亮的界面,滑块控制,多标签聊天
AnythingLLM 使用你自己的文档,上下文感知聊天 强,离线嵌入 中等,需要后端设置 将 LLM 连接到 PDF、笔记、知识库

在本地运行 LLM 不再是极客实验,它实用私密,而且出奇地有趣

Ollama 感觉像一匹主力军LM Studio 是一个游乐场,而 AnythingLLM 则通过你自己的文件让 AI 变得有用。像 llama.cppOpen WebUI 这样的荣誉提名则填补了爱折腾者高级用户的需求。

对我来说,关键在于混合搭配:速度、实验和实用性;同时将所有内容都保留在我自己的笔记本电脑上。

这就是 2025 年本地 AI 的魔力:控制隐私,以及看着一个模型在你自己的机器里思考的那种奇妙的满足感。

​最后

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包:

  • ✅AI大模型学习路线图
  • ✅Agent行业报告
  • ✅100集大模型视频教程
  • ✅大模型书籍PDF
  • ✅DeepSeek教程
  • ✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
​​
在这里插入图片描述

为什么说现在普通人就业/升职加薪的首选是AI大模型?

人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。

img
智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200% ,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。

在这里插入图片描述

​​
在这里插入图片描述

资料包有什么?

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

② AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

在这里插入图片描述

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

在这里插入图片描述

④各大厂大模型面试题目详解

在这里插入图片描述

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

​​​​在这里插入图片描述
在这里插入图片描述

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

在这里插入图片描述

Logo

免费领 100 小时云算力,进群参与显卡、AI PC 幸运抽奖

更多推荐