前言

在 AI 飞速发展的今天,依赖云端大模型 API 虽然方便,但面临着数据隐私泄露、断网无法使用、长期调用成本高等痛点。对于极客和企业开发者来说,在本地部署私有化大模型才是终极解法。

过去,本地部署往往意味着要在 CUDA 版本、PyTorch 依赖和复杂的 HuggingFace 环境中“浴血奋战”。但现在,Ollama 彻底改变了游戏规则——它就像是“大模型界的 Docker”,只需一行命令,就能在本地丝滑运行千亿参数的大模型。

本文将手把手教你如何使用 Ollama,并结合 Python 框架,在本地跑起属于你自己的 AI Agent。

一、 Ollama 极速安装与核心命令

Ollama 的底层采用了高并发的 C++ 编写,并利用 llama.cpp 实现了极其极致的硬件加速,无论是 N卡、A卡 还是 Mac 的 M 系列芯片,都能完美适配。

1. 下载与安装

直接前往 Ollama 官网 下载对应系统的安装包,一键无脑安装。安装完成后,在终端输入 ollama -v 检查版本,确认安装成功。

2. 核心命令速查(建议收藏)

掌握以下 4 个命令,你就能玩转 Ollama 的日常操作:

  • ollama pull <模型名>:预先下载模型到本地(不立刻运行)。
  • ollama run <模型名>:运行模型,并进入交互式对话终端。
  • ollama list:查看本地已安装的所有模型及占用大小。
  • ollama rm <模型名>:删除模型,释放宝贵的硬盘空间。

二、 2026 中国顶尖开源模型推荐

既然是本地运行,选对模型至关重要。目前中文语境下,极其推荐以下两大派系的模型:

1. 通义千问(Qwen)系列 —— 综合与 Agent 首选

阿里开源的 Qwen 在指令遵循和工具调用(Tool Calling)上表现极其优异。

  • 入门级(8G显存):ollama pull qwen2.5:7bqwen2.5-coder:7b
  • 进阶级(16G显存):ollama pull qwen2.5:14b

2. 深度求索(DeepSeek-R1)系列 —— 极致逻辑推理

自带思维链(Chain-of-Thought),极其适合写代码和解数学题。

  • 高性价比推理:ollama pull deepseek-r1:6.7b
  • 高端满血版(24G+显存):ollama pull deepseek-r1:32b

三、 高阶实战:通过 Python 接入本地 AI

Ollama 启动后,会在本地默认开启 http://localhost:11434 的 API 服务。这使得它可以完美无缝地接入各种编程语言。

首先,安装官方 Python 库:

pip install ollama

基础对话脚本:

以下是一个支持流式输出(Stream)的极简脚本,体验不输商业大模型网页端:

import ollama

def stream_chat():

print("正在连接本地 DeepSeek 模型...\n")

# 开启流式输出 stream=True

stream = ollama.chat(

model='deepseek-r1:8b',

messages=[{'role': 'user', 'content': '请用通俗的语言解释什么是量子纠缠?'}],

stream=True

)

print("AI: ", end="", flush=True)

for chunk in stream:

print(chunk['message']['content'], end='', flush=True)

print("\n")

if __name__ == "__main__":

stream_chat()

四、 终极玩法:结合 CrewAI 打造本地智能体

光聊天还不够,真正的生产力在于 AI Agent。我们可以利用本地 Ollama 模型作为“大脑”,结合 CrewAI 框架,让 AI 自己去查资料、写文章。

需额外安装依赖:pip install crewai langchain-ollama

from crewai import Agent, Task, Crew

from langchain_ollama import ChatOllama

# 1. 挂载本地 Ollama 模型

local_llm = ChatOllama(model="qwen2.5:7b", base_url="http://localhost:11434")

# 2. 定义角色(比如一个资深程序员)

coder = Agent(

role='高级 Python 工程师',

goal='编写极其优雅、带注释的 Python 代码',

backstory='你是一个有15年经验的架构师,讨厌冗余代码。',

llm=local_llm,

verbose=True

)

# 3. 分配任务

task = Task(

description='用 Python 写一个简单的贪吃蛇游戏逻辑。',

expected_output='包含完整注释的 Python 代码。',

agent=coder

)

# 4. 启动 Agent

crew = Crew(agents=[coder], tasks=[task])

result = crew.kickoff()

print("########## 最终产出 ##########")

print(result)

运行这段代码,你会看到终端里 AI 在自主思考和规划,最终在本地为你生成高质量的代码!完全免费,彻底离线!


总结

从繁琐的环境配置到一行命令跑通千亿大模型,Ollama 大幅降低了 AI 开发者的门槛。结合 Python 生态,我们在本地部署私人 AI 助理、构建 RAG(检索增强生成)知识库、开发多智能体系统,都已经变得触手可及。

快去试试你的显卡能跑起多强的 AI 吧!如果你在配置过程中遇到任何问题,欢迎在评论区留言探讨。

点赞关注不迷路,持续分享前沿 AI 技术实战!

更多推荐