Ollama教程（Windows含路径修改+Docker部署攻略)

本文讲述Ollama如何安装下载并修改默认安装位置，避免C盘爆满，同时也讲述了如何用Docker安装配置Ollama。

2401_87660168

1166人浏览 · 2026-03-24 13:00:29

2401_87660168 · 2026-03-24 13:00:29 发布

个人主页：silver_kite

作者简介：后端学习者

引言

Ollama是目前最易用的本地大模型部署工具，一键即可拉取、运行开源大模型（Llama 3、Qwen、Gemma等），支持CPU/GPU加速，同时提供兼容 OpenAI 格式的 API 接口，是个人本地部署大模型、二次开发的首选方案。

本文针对Windows用户，完整覆盖原生安装（含自定义安装位置、模型存放位置修改，解决 C盘空间占用痛点）和Docker容器化部署两种方案，步骤可直接复现，同时补充常见问题排查，新手也能轻松上手。

一、Windows安装Ollama（含路径自定义）

原生安装适合新手用户，操作简单、性能损耗低，默认安装会占用 C 盘空间，本文重点解决安装路径、模型路径的自定义修改问题。

1.1 前置准备

系统要求：Windows 10及以上、Windows 11（需开启 WSL2，Ollama Windows 版基于 WSL2 运行）
硬件建议：至少 8G 内存（运行 7B 模型建议 16G 及以上），NVIDIA 显卡建议安装最新官方驱动以启用 GPU 加速

1.2 自定义安装位置修改

Ollama 官方 Windows 安装包默认安装路径为C:\Users\<你的用户名>\AppData\Local\Ollama，无图形化自定义路径选项，可通过命令行参数指定安装目录：

1.前往Ollama 官网下载 Windows 版安装包OllamaSetup.exe，将安装包放到你想要安装的磁盘（如 D 盘根目录）

2.以管理员身份打开命令提示符（CMD）或 PowerShell

3.执行安装命令，通过/D参数指定安装路径（/D必须为命令的最后一个参数，路径无需加引号，支持带空格的路径）

# 示例：安装到D:\Program Files\Ollama
D:\OllamaSetup.exe /D=D:\Program Files\Ollama

4.回车后弹出安装界面，按提示完成安装即可，安装完成后 Ollama 会自动以后台服务的形式运行。

若你已默认安装到C盘，先在「设置 - 应用 - 已安装的应用」中卸载 Ollama，再按上述步骤重新指定路径安装即可。

1.3 自定义模型存放位置修改（核心痛点解决）

Ollama 默认模型存放路径为C:\Users\<你的用户名>\.ollama\models，大模型单文件动辄几十 GB，极易占满C盘，以下提供两种稳定的修改方案，推荐优先使用环境变量方案。

方案 1：系统环境变量修改（官方推荐，永久生效）

新建你想要存放模型的文件夹，路径避免中文、特殊字符，示例：D:\ollama_models
打开系统环境变量设置：此电脑右键→属性→高级系统设置→环境变量
在「系统变量」（对所有用户生效）或「用户变量」（仅当前用户生效）中，点击「新建」
填写变量信息：
- 变量名：OLLAMA_MODELS（必须完全一致，区分大小写）
- 变量值：你新建的模型文件夹完整路径，示例：D:\ollama_models
一路点击「确定」保存配置，重启 Ollama 服务生效（无需重启电脑）：
- Win+R 输入services.msc打开服务管理器
- 找到名为Ollama的服务，右键→「重启」即可
迁移已有模型：若你之前已经下载过模型，将C:\Users\<你的用户名>\.ollama\models下的所有文件，剪切到新的模型文件夹中，避免重复下载。

方案 2：符号链接（软链接）方案（适合已安装大量模型的用户）

若你不想修改环境变量，可通过 Windows 软链接，将默认的 C 盘模型路径映射到其他磁盘：

先关闭 Ollama 服务（services.msc 中找到 Ollama 服务，右键停止）
将C:\Users\<你的用户名>\.ollama文件夹，完整剪切到你想要存放的路径，示例：D:\Ollama\.ollama

以管理员身份打开 CMD，执行软链接创建命令：

mklink /J "C:\Users\<你的用户名>\.ollama" "D:\Ollama\.ollama"

命令执行成功后，重启 Ollama 服务即可，Ollama 会正常访问原路径，实际数据存放在新的磁盘中。
打开 PowerShell/CMD，执行以下命令查看版本，验证安装是否成功：

方案 3：图形化界面（傻瓜式）

1.4 安装验证与基础使用

打开 PowerShell/CMD，执行以下命令查看版本，验证安装是否成功：

ollama -v

拉取并运行模型，示例拉取deepseek-r1:1.5b模型：

# 拉取模型
ollama pull deepseek-r1:1.5b
# 运行模型，进入对话界面
ollama run deepseek-r1:1.5b

验证 API 接口：Ollama 默认开放127.0.0.1:11434端口，浏览器访问该地址，若显示Ollama is running，则 API 服务正常。

Ollama 命令概览

ollama [flags] # 带标志运行 ollama [command] # 执行命令

命令	说明
serve	启动 Ollama 服务（后台运行）
create	创建自定义模型（基于现有模型修改）
show	查看模型信息（配置、参数等）
run	运行一个模型（下载并启动对话）
stop	停止正在运行的模型
pull	从模型仓库拉取模型到本地
push	将本地模型推送到仓库（如 ollama.com）
signin	登录 ollama.com 账户
signout	退出登录
list	列出本地已下载的模型
ps	列出当前正在运行的模型
cp	复制一个模型（创建副本）
rm	删除本地模型
launch	启动与 Ollama 的集成（如 Docker 镜像）
help	查看命令帮助

二、Docker 安装配置 Ollama

Docker 部署适合有容器使用经验的用户，优势是环境隔离、方便迁移、可与其他服务（如 Open WebUI 前端）一键集成，同时可灵活配置模型持久化、GPU 加速。

2.1 前置准备

安装 Docker Desktop for Windows：前往Docker安装一次搞定。
确认Docker正常运行：打开 PowerShell，执行docker -v，输出版本号即安装成功。
（可选，NVIDIA显卡用户）确保宿主机已安装最新NVIDIA显卡驱动，Docker Desktop已启用 WSL2后端，即可自动支持容器 GPU 加速。

2.2 Docker 单命令部署 Ollama

基础部署（带模型持久化）

核心是通过-v参数挂载宿主机目录，实现模型文件持久化（避免容器删除后模型丢失，同时自定义模型存放位置）：

在宿主机新建模型存放文件夹，示例：D:\Docker\ollama\models
打开 PowerShell，执行以下部署命令：

docker run -d `
--name ollama `
--restart always `
-p 11434:11434 `
-v D:\Docker\ollama\models:/root/.ollama/models `
ollama/ollama:latest

参数说明：

-d：后台运行容器
--name ollama：设置容器名称为 ollama
--restart always：开机自启，容器异常自动重启
-p 11434:11434：端口映射，将容器内 11434 端口映射到宿主机
-v 宿主机路径:/root/.ollama/models：挂载模型目录，容器内默认模型路径为/root/.ollama/models

启用 GPU 加速部署

在基础命令上添加--gpus all参数，即可启用 GPU 加速，大幅提升模型运行速度：

docker run -d `
--name ollama `
--restart always `
--gpus all `
-p 11434:11434 `
-v D:\Docker\ollama\models:/root/.ollama/models `
ollama/ollama:latest

2.3 Docker Compose 部署（推荐，方便管理）

适合长期使用、需要和其他服务集成的场景，通过docker-compose.yml文件统一管理配置：

1. 新建文件夹D:\Docker\ollama，在文件夹内新建docker-compose.yml文件，内容如下：

version: '3.8'
services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    restart: always
    ports:
      - "11434:11434"
    # 模型持久化挂载
    volumes:
      - ./models:/root/.ollama/models
    # GPU加速配置（无GPU可删除deploy段）
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]

2. 在该文件夹内按住 Shift 右键，打开 PowerShell，执行启动命令：

docker-compose up -d

3. 常用管理命令：

# 停止容器
docker-compose down
# 查看容器日志
docker-compose logs -f

2.4 Docker 部署验证与使用

1. 执行docker ps，查看 ollama 容器状态为Up，即部署成功。

2. 进入容器运行模型：

docker exec -it ollama ollama run llama3

3. 宿主机直接访问 API：和原生安装一致，浏览器访问127.0.0.1:11434，显示Ollama is running即正常，可直接对接各类前端、二次开发项目。

2.5 安装模型3种方法（任选一种）

方法 1：最常用 → 直接在 Windows 终端执行（推荐）

打开 PowerShell，直接运行：

docker exec -it ollama ollama pull 模型名称

示例：

# 安装 llama3 8B
docker exec -it ollama ollama pull llama3

# 安装 qwen 通义千问
docker exec -it ollama ollama pull qwen

# 安装 glm4 
docker exec -it ollama ollama pull glm4

# 安装 通义千问7B 量化版
docker exec -it ollama ollama pull qwen:7b

方法 2：进入容器内部安装

docker exec -it ollama /bin/bash

进入后直接执行：

ollama pull llama3 #默认8B

常用模型下载命令（直接复制）

# Llama 3
docker exec -it ollama ollama pull llama3

# Qwen
docker exec -it ollama ollama pull qwen

#  GLM-4
docker exec -it ollama ollama pull glm4

# 14B
docker exec -it ollama ollama pull qwen:14b

# Gemma
docker exec -it ollama ollama pull gemma

查看已安装模型

docker exec -it ollama ollama list

模型会自动保存在你之前挂载的目录（例如 D:\Docker\ollama\models）删除容器不会丢模型！ 下次重建容器直接能用。

三、常见问题排查

修改模型路径后不生效：确认环境变量名OLLAMA_MODELS完全正确，修改后必须重启 Ollama 服务（services.msc 中操作），而非仅重启终端。
Docker 部署后无法访问 API：检查端口映射是否正确，容器是否正常运行，Windows 防火墙是否放行 11434 端口。
GPU 加速不生效：确认 Docker Desktop 的 WSL2 后端已开启，显卡驱动为最新版本，容器启动命令已添加--gpus all参数。
软链接创建失败：必须以管理员身份打开 CMD 执行命令，且原路径C:\Users\<你的用户名>\.ollama必须已被剪切走，不能存在同名文件夹。

总结

新手用户优先选择Windows 原生安装，操作简单，配合环境变量修改路径，即可解决C盘占用问题，开箱即用。
有容器使用经验、需要和其他服务集成的用户，优先选择Docker 部署，环境隔离性好，方便迁移和批量管理。

部署完成后，你可以搭配Open WebUI、Chatbot UI等开源前端，获得更友好的对话界面，也可以基于Ollama 的API接口，开发自己的AI应用。

加入AMD AI开发者计划！

免费领 100 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

从标注优化到全流程落地：Python+YOLOv8 打造 YOLO模型训练一体化平台

AMD开发者中国社区

【大模型推理】KVDrive: A Holistic Multi-Tier KV Cache Management System for Long-Context LLM Inference

如图 6 所示，KVDrive 旨在支持高吞吐量的长上下文 LLM 推理，即使在 GPU 内存紧张的情况下也是如此。当 KV 缓存超过 GPU 容量时，它会被卸载到主机 DRAM 或 SSD，并且系统在预填充阶段在 GPU 内存中构建一个索引。在解码期间，每个新 token 都遵循一个三阶段的工作流程：通过索引识别关键 KV 条目（❶）；将选定的条目从 DRAM 或 SSD 获取到 GPU HBM