最新 Ollama v0.18.2 （zst）手工部署安装指南

修改配置：通过覆盖环境变量（如更新版本：重新运行安装脚本或直接覆盖解压包。安装指定版本：使用环境变量，例如。

kuniao

586人浏览 · 2026-03-29 11:08:18

kuniao · 2026-03-29 11:08:18 发布

Ubuntu 24.04.2 LTS 部署 Ollama + NVIDIA CUDA 完整指南

本教程假设你使用的是 NVIDIA 显卡，并希望 Ollama 能利用 GPU 加速推理。我们将按以下顺序操作：

安装 NVIDIA 驱动与 CUDA Toolkit
手工部署 Ollama（已自动启用 NVIDIA GPU 支持）
将 Ollama 配置为系统服务
（补充）AMD GPU 或 ARM 架构的额外说明

第一部分：安装 NVIDIA 驱动与 CUDA（为 GPU 加速做准备）

1. 检查硬件并更新系统

lspci | grep -i nvidia          # 确认 NVIDIA 显卡存在
sudo apt update
sudo apt install -y gcc make linux-headers-$(uname -r)

2. 安装 NVIDIA 显卡驱动（使用 Ubuntu 自动推荐）

sudo apt install -y ubuntu-drivers-common
sudo ubuntu-drivers autoinstall   # 自动安装最适合的驱动

3. 安装 CUDA Toolkit（通过 NVIDIA 官方 APT 仓库）

# 添加 NVIDIA 仓库密钥
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb

# 安装 CUDA Toolkit
sudo apt update
sudo apt install -y cuda-toolkit

4. 重启并配置环境变量

sudo reboot

重启后，编辑 ~/.bashrc，在末尾添加：

export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

使配置生效：

source ~/.bashrc

5. 验证安装

nvidia-smi          # 应显示驱动版本和 CUDA 版本
nvcc --version      # 应显示 CUDA 编译器版本

第二部分：手工部署 Ollama（NVIDIA GPU 已就绪）

说明：由于我们已经安装了完整的 CUDA 环境，Ollama 将自动识别并使用 NVIDIA GPU，无需额外配置。

1. 下载 Ollama 二进制包（约 1.8 GB）

# 使用 curl 直接下载并解压（推荐）
curl -fsSL https://ollama.com/download/ollama-linux-amd64.tar.zst | sudo tar x -C /usr

或先下载再解压：

wget https://ollama.com/download/ollama-linux-amd64.tar.zst
sudo tar xf ollama-linux-amd64.tar.zst -C /usr

2. 测试 Ollama 是否可运行

ollama serve &      # 后台启动测试
ollama -v           # 应显示版本号

测试无误后，用 pkill ollama 停止测试进程，进入下一步。

第三部分：将 Ollama 配置为系统服务（推荐）

1. 创建专用用户与组

sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama
sudo usermod -a -G ollama $(whoami)

2. 创建 systemd 服务文件

创建 /etc/systemd/system/ollama.service，内容如下（可根据实际 GPU 数量修改环境变量）：

[Unit]
Description=Ollama Service
After=network-online.target

[Service]
ExecStart=/usr/bin/ollama serve
User=root
Group=root
Restart=always
RestartSec=3
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_KEEP_ALIVE=-1"
Environment="OLLAMA_MODELS=/data1/ollama"          # 模型存储目录，请按需修改
Environment="CUDA_VISIBLE_DEVICES=0"               # 使用第一张 GPU，多卡可写 0,1
Environment="OLLAMA_NUM_GPU=1"                     # 使用的 GPU 数量，与上面保持一致
Environment="OLLAMA_GPU_LAYER=cuda"
Environment="OLLAMA_SCHED_SPREAD=1"

[Install]
WantedBy=default.target

提示：如果你有多张 GPU，将 CUDA_VISIBLE_DEVICES=0,1 且 OLLAMA_NUM_GPU=2。

3. 启动并启用服务

sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama
sudo systemctl status ollama   # 检查状态应为 active (running)

4. 查看实时日志

journalctl -e -u ollama -f

第四部分：验证 GPU 加速是否生效

拉取并运行一个模型，观察 GPU 使用情况：

ollama run llama3.2   # 会自动下载模型

在另一个终端执行：

nvidia-smi

如果看到 ollama 进程占用了 GPU 显存和计算资源，说明加速成功。

第五部分：（补充）AMD GPU 或 ARM64 架构的额外说明

如果你使用的是 AMD GPU 或 ARM64 架构，请在完成第一部分（跳过 NVIDIA 驱动安装）后，按以下方式安装 Ollama：

AMD GPU：需使用带 ROCm 支持的包

curl -fsSL https://ollama.com/download/ollama-linux-amd64-rocm.tar.zst | sudo tar x -C /usr

ARM64 架构：使用专用包

curl -fsSL https://ollama.com/download/ollama-linux-arm64.tar.zst | sudo tar x -C /usr

其余服务配置步骤（第三部分）完全相同，只需注意在服务文件中移除 CUDA_VISIBLE_DEVICES 等 NVIDIA 专属变量即可。

第六部分：常用维护操作

修改服务配置

sudo systemctl edit ollama   # 添加或覆盖环境变量
sudo systemctl restart ollama

更新 Ollama 版本

重新下载最新包并覆盖解压：

curl -fsSL https://ollama.com/download/ollama-linux-amd64.tar.zst | sudo tar x -C /usr
sudo systemctl restart ollama

完全卸载 Ollama

sudo systemctl stop ollama
sudo systemctl disable ollama
sudo rm /etc/systemd/system/ollama.service
sudo rm $(which ollama)
sudo rm -r /usr/lib/ollama
sudo userdel ollama
sudo groupdel ollama
sudo rm -r /usr/share/ollama          # 用户数据目录
sudo rm -r /data1/ollama              # 模型存储目录（请确认路径）