Ollama 本地部署大模型 + Python Agent 自动化实战（附代码）

张槊哲

408人浏览 · 2026-05-21 21:55:07

张槊哲 · 2026-05-21 21:55:07 发布

前言

在 AI 飞速发展的今天，依赖云端大模型 API 虽然方便，但面临着数据隐私泄露、断网无法使用、长期调用成本高等痛点。对于极客和企业开发者来说，在本地部署私有化大模型才是终极解法。

过去，本地部署往往意味着要在 CUDA 版本、PyTorch 依赖和复杂的 HuggingFace 环境中“浴血奋战”。但现在，Ollama 彻底改变了游戏规则——它就像是“大模型界的 Docker”，只需一行命令，就能在本地丝滑运行千亿参数的大模型。

本文将手把手教你如何使用 Ollama，并结合 Python 框架，在本地跑起属于你自己的 AI Agent。

一、 Ollama 极速安装与核心命令

Ollama 的底层采用了高并发的 C++ 编写，并利用 llama.cpp 实现了极其极致的硬件加速，无论是 N卡、A卡还是 Mac 的 M 系列芯片，都能完美适配。

1. 下载与安装

直接前往 Ollama 官网下载对应系统的安装包，一键无脑安装。安装完成后，在终端输入 ollama -v 检查版本，确认安装成功。

2. 核心命令速查（建议收藏）

掌握以下 4 个命令，你就能玩转 Ollama 的日常操作：

ollama pull <模型名>：预先下载模型到本地（不立刻运行）。
ollama run <模型名>：运行模型，并进入交互式对话终端。
ollama list：查看本地已安装的所有模型及占用大小。
ollama rm <模型名>：删除模型，释放宝贵的硬盘空间。

二、 2026 中国顶尖开源模型推荐

既然是本地运行，选对模型至关重要。目前中文语境下，极其推荐以下两大派系的模型：

1. 通义千问（Qwen）系列 —— 综合与 Agent 首选

阿里开源的 Qwen 在指令遵循和工具调用（Tool Calling）上表现极其优异。

入门级（8G显存）：ollama pull qwen2.5:7b 或 qwen2.5-coder:7b
进阶级（16G显存）：ollama pull qwen2.5:14b

2. 深度求索（DeepSeek-R1）系列 —— 极致逻辑推理

自带思维链（Chain-of-Thought），极其适合写代码和解数学题。

高性价比推理：ollama pull deepseek-r1:6.7b
高端满血版（24G+显存）：ollama pull deepseek-r1:32b

三、高阶实战：通过 Python 接入本地 AI

Ollama 启动后，会在本地默认开启 http://localhost:11434 的 API 服务。这使得它可以完美无缝地接入各种编程语言。

首先，安装官方 Python 库：

pip install ollama

基础对话脚本：

以下是一个支持流式输出（Stream）的极简脚本，体验不输商业大模型网页端：

import ollama

def stream_chat():

print("正在连接本地 DeepSeek 模型...\n")

# 开启流式输出 stream=True

stream = ollama.chat(

model='deepseek-r1:8b',

messages=[{'role': 'user', 'content': '请用通俗的语言解释什么是量子纠缠？'}],

stream=True

)

print("AI: ", end="", flush=True)

for chunk in stream:

print(chunk['message']['content'], end='', flush=True)

print("\n")

if __name__ == "__main__":

stream_chat()

四、终极玩法：结合 CrewAI 打造本地智能体

光聊天还不够，真正的生产力在于 AI Agent。我们可以利用本地 Ollama 模型作为“大脑”，结合 CrewAI 框架，让 AI 自己去查资料、写文章。

需额外安装依赖：pip install crewai langchain-ollama

from crewai import Agent, Task, Crew

from langchain_ollama import ChatOllama

# 1. 挂载本地 Ollama 模型

local_llm = ChatOllama(model="qwen2.5:7b", base_url="http://localhost:11434")

# 2. 定义角色（比如一个资深程序员）

coder = Agent(

role='高级 Python 工程师',

goal='编写极其优雅、带注释的 Python 代码',

backstory='你是一个有15年经验的架构师，讨厌冗余代码。',

llm=local_llm,

verbose=True

)

# 3. 分配任务

task = Task(

description='用 Python 写一个简单的贪吃蛇游戏逻辑。',

expected_output='包含完整注释的 Python 代码。',

agent=coder

)

# 4. 启动 Agent

crew = Crew(agents=[coder], tasks=[task])

result = crew.kickoff()

print("########## 最终产出 ##########")

print(result)

运行这段代码，你会看到终端里 AI 在自主思考和规划，最终在本地为你生成高质量的代码！完全免费，彻底离线！

总结

从繁琐的环境配置到一行命令跑通千亿大模型，Ollama 大幅降低了 AI 开发者的门槛。结合 Python 生态，我们在本地部署私人 AI 助理、构建 RAG（检索增强生成）知识库、开发多智能体系统，都已经变得触手可及。

快去试试你的显卡能跑起多强的 AI 吧！如果你在配置过程中遇到任何问题，欢迎在评论区留言探讨。

点赞关注不迷路，持续分享前沿 AI 技术实战！

亚马逊云科技技术品牌专区

更多推荐

53.1.智能投喂器-硬件定时-基于STM32嵌入式物联网单片机软硬件毕业生系统设计【硬件+APP+云平台】

亚马逊云科技技术品牌专区

CMU 11-785 深度学习导论笔记（一）

神经网络是人工智能中的一种方法，它教会计算机以受人类大脑启发的方式处理数据。近年来，它已成为各种模式识别、预测和分析问题的主要研究方向之一。神经网络在许多问题上确立了最先进的技术水平，并且常常大幅超越之前的基准。上一节我们介绍了神经网络的基本定义，本节中我们来看看神经网络带来的一些突破性应用。语音助手：例如 Siri、Alexa、Google Assistant。视觉与感知：例如人脸检测、人脸识别

亚马逊云科技技术品牌专区

分布式ID的UUID与自定义时钟

第二，由于ID整体随时间戳递增，数据在存储时具有天然的时间局部性，极大提升了数据库的写入性能与范围查询效率。这种“等待”机制，结合工作节点ID的空间划分，确保了跨节点、跨时间的ID全局唯一且严格递增。反之，如果面对的是海量数据、高并发写入的场景，如电商交易、实时监控、社交网络动态等，那么投入精力构建基于自定义时钟的分布式ID服务，将是保障系统长期稳定与高效运行的关键基础设施投资。在云原生与微服务架