Ollama GPU使用监控全指南：从0%利用率到满载调优

昂图

307人浏览 · 2026-06-19 16:03:09

昂图 · 2026-06-19 16:03:09 发布

1. 项目概述：为什么“看一眼GPU用了多少”成了Ollama用户每天第一件事？

你刚在本地跑起一个7B参数的Qwen2模型，终端里 ollama run qwen2:7b 回车一敲，几秒后对话窗口弹出来——看起来很顺。但下一秒你点开系统任务管理器，GPU利用率却死死卡在0%？或者更糟：风扇狂转、温度飙升到85℃，可任务管理器里GPU使用率还是个位数，显存占用却悄悄涨到了90%？这时候你心里一定在问：它到底在用GPU干啥？还是根本没用上？又或者——它偷偷把活儿全塞给CPU扛了？

这就是“【每日一技】查看Ollama GPU资源使用情况”这个标题背后最真实、最高频、也最容易被忽略的痛点。它不是教你怎么装Ollama，也不是讲大模型原理，而是直击所有本地部署大模型用户的日常刚需： 确认硬件资源是否被真正、有效、可控地调度起来 。关键词里反复出现的“任务管理器”“watch”“ollama ps”，恰恰印证了这一点——大家要的不是理论，是能立刻打开、一眼看清、马上验证的实操路径。

我从2023年Ollama刚发布0.1.0版本就开始在M1 Mac、RTX 4090台式机、A10服务器上反复折腾，踩过太多坑：比如明明装了CUDA驱动， nvidia-smi 显示GPU空闲，但Ollama就是不调用；比如用 ollama list 看到模型在运行， top 里CPU吃满1200%，GPU却纹丝不动；再比如在WSL2里配置了半天ROCm，结果模型推理延迟比纯CPU还高……这些都不是模型本身的问题，而是 资源可见性缺失导致的误判与盲调 。当你连“它有没有在用GPU”都搞不清时，优化显存分配、调整batch size、排查CUDA版本冲突，全都是空中楼阁。

所以这一技的核心价值非常朴素：它不创造新功能，但帮你夺回对硬件的“知情权”和“控制权”。它适用于三类人：一是刚入门想确认安装是否成功的新人，二是正在调试性能瓶颈的开发者，三是需要向团队或客户证明“本地GPU确实在干活”的技术布道者。不需要你懂CUDA架构，也不用翻NVIDIA文档，只要你会敲几条命令、会看几个数字，就能把Ollama和GPU之间那层模糊的“黑箱”掀开一条缝——这缝虽小，却是所有后续优化的起点。

2. Ollama GPU调度机制与监控盲区解析

2.1 Ollama到底怎么用GPU？不是“开了就行”，而是“分层调度”

很多人以为Ollama只要装了NVIDIA驱动+CUDA，模型自然就走GPU。这是最大的误解。Ollama本身 不直接管理GPU设备 ，它依赖底层推理引擎（如llama.cpp、ggml、transformers）来完成实际计算，而GPU调用能力完全由这些引擎决定。以当前最主流的llama.cpp后端为例，它的GPU支持是分层的：

第一层：编译时启用
llama.cpp在编译时必须显式开启CUDA或HIP支持，例如 make CUDA=1 或 make HIP=1 。如果你用的是Ollama官方预编译二进制包（macOS/Linux ARM64/x86_64），它默认只启用了CPU和Metal（Apple Silicon）后端， 对NVIDIA GPU的支持是关闭的 。这意味着即使你机器上有RTX 4090，Ollama也只会用CPU跑模型——你根本不会收到任何报错，它就安静地、缓慢地、坚定地用CPU算完了。
第二层：运行时指定
即使llama.cpp编译时启用了CUDA，Ollama也不会自动把所有计算扔给GPU。它通过 --num-gpu 参数控制GPU层数（layer offloading）。例如 ollama run qwen2:7b --num-gpu 35 表示把前35层Transformer网络卸载到GPU，剩余层仍在CPU执行。这个数值不是越大越好：显存不足时会OOM崩溃；数值过小则GPU利用率低；数值过大可能因PCIe带宽瓶颈反而拖慢整体速度。而Ollama默认值是0，即 全部在CPU跑 ——这才是为什么你打开任务管理器看到GPU使用率为0的根本原因。
第三层：运行时环境变量
某些场景下还需设置环境变量，如 OLLAMA_NUM_GPU=35 全局生效，或 CUDA_VISIBLE_DEVICES=0 限定可见GPU卡号。这些变量必须在Ollama服务启动前生效，如果Ollama已作为systemd服务常驻运行，改完环境变量后必须 sudo systemctl restart ollama ，否则无效。

提示：Ollama 0.3.0+版本开始支持 --gpu-layers 参数替代 --num-gpu ，语义更清晰，但底层逻辑一致。务必注意版本差异，老教程里的 --num-gpu 在新版中可能已被弃用。

2.2 为什么 `ollama ps` 看不到GPU信息？监控链路存在天然断点

Ollama自带的 ollama ps 命令只显示进程级信息：模型名称、状态（running/stopped）、创建时间、使用的内存（RSS）。它 完全不采集GPU指标 ，因为Ollama进程本身（ollama server）只是调度中枢，真正的计算负载在子进程（如llama-server）里。而 ollama ps 设计初衷是管理模型生命周期，不是做性能监控。

这就造成了典型的“监控盲区”：你看到 ollama ps 里qwen2:7b状态是running，RSS内存占了4.2GB，但你无法得知这4.2GB里有多少是显存（VRAM）、多少是系统内存（RAM），更不知道GPU核心利用率、显存带宽、温度等关键指标。这种信息缺失直接导致两类误操作：

误判硬件闲置 ：看到任务管理器GPU使用率0%，就认为Ollama没用GPU，于是放弃调优，转而用更慢的CPU方案；
误判资源瓶颈 ：看到 ollama ps RSS内存飙升，就以为是内存不足，疯狂加swap或换更大内存，却不知真正卡住的是显存带宽或CUDA kernel调度延迟。

这种断点不是Ollama的缺陷，而是架构设计使然——它把“计算”和“监控”解耦了。要补全这条链路，必须引入外部工具，形成“Ollama调度 → 引擎执行 → 硬件指标采集”的完整闭环。

2.3 不同平台GPU监控工具的本质差异：别用Windows思维看Linux

很多从Windows转过来的用户习惯性打开任务管理器，看到“GPU”标签页就以为万事大吉。但Linux/macOS下没有统一的“任务管理器”，不同工具采集的数据维度、精度、实时性差异极大：

nvidia-smi （NVIDIA专属）：采集的是GPU设备级指标，包括显存占用（ Volatile GPU-Util ）、功耗（ Power Draw ）、温度（ Temperature ）、每块GPU的进程列表（ PID 列）。但它 不区分进程是Ollama还是其他应用 ，且采样间隔默认2秒，对瞬时峰值（如模型加载阶段）捕捉不准；
gpustat （Python封装）：基于 nvidia-smi 二次开发，输出更友好，支持颜色高亮、自动刷新（ gpustat -i 0.5 ），还能显示进程名（需root权限），但本质仍是设备级视图；
htop / top + nvtop ： htop 能看到CPU线程，但对GPU无感知； nvtop 是 htop 的GPU版，能实时显示每个CUDA进程的显存占用、GPU利用率、SM活跃度， 这是目前最接近“GPU版htop”的工具 ；
watch 命令：不是GPU专用工具，而是Linux通用定时执行器。 watch -n 1 nvidia-smi 的意思是“每1秒执行一次nvidia-smi”，它解决的是“如何让静态命令变成动态监控”的问题，而非提供新数据。

注意： watch 本身不采集GPU数据，它只是个“计时器+刷新器”。网上很多教程写 watch ollama ps ，这完全无效—— ollama ps 根本不输出GPU信息。这种错误组合正是初学者最容易掉进去的坑。

3. 四级监控体系搭建：从进程到芯片的逐层穿透

3.1 第一级：确认Ollama是否真的在用GPU（进程级验证）

这是最基础、也最容易被跳过的一步。不要相信 ollama list 里模型状态是running，也不要依赖终端里“Loading model…”的提示。必须找到Ollama启动的真实子进程，并确认其GPU调用标志。

实操步骤：

启动一个明确指定GPU层数的模型：
```
ollama run qwen2:7b --num-gpu 35
```
注意：这里必须显式加 --num-gpu ，不能依赖默认值。

在另一个终端，查找Ollama相关进程：

ps aux | grep -i "llama\|ollama" | grep -v grep

你会看到类似这样的输出：

user    12345  0.0  0.2 1234567 89012 ?        Sl   10:00   0:02 /usr/bin/ollama serve
user    12346 98.7 12.5 2345678 987654 ?        Rl   10:00   0:45 /usr/lib/ollama/runners/cpu/llama-server -m /Users/user/.ollama/models/blobs/sha256-abc... --num-gpu 35 --ctx-size 4096 ...

关键验证点：检查 llama-server 进程的启动参数中是否包含 --num-gpu 35 （或 --gpu-layers 35 ）。如果这里没有，说明Ollama根本没把GPU指令传下去，后续所有GPU监控都是徒劳。
进阶验证：用 lsof 检查该进程是否打开了GPU设备文件：
```
lsof -p 12346 | grep -i "nvidia\|drm"
```
正常应看到类似 /dev/nvidia0 或 /dev/dri/renderD128 的设备句柄。如果为空，说明进程未获得GPU访问权限（常见于权限不足或驱动未加载）。

实操心得：我曾在一个CentOS 7服务器上遇到 llama-server 进程存在但 lsof 无GPU设备句柄的情况。排查发现是 nvidia-uvm 内核模块未加载，执行 sudo modprobe nvidia-uvm 后解决。这类底层驱动问题，仅靠 nvidia-smi 是看不到的。

3.2 第二级：GPU设备级监控（nvidia-smi与gpustat）

当确认进程已正确调用GPU后，下一步是观察GPU设备本身的负载。这是最常用、也最可靠的基准监控。

nvidia-smi核心字段解读（以RTX 4090为例）：

字段	示例值	含义	健康阈值
`GPU`	0	GPU设备编号，多卡时用于区分	—
`Fan`	34%	风扇转速	<80%为正常，持续>90%需检查散热
`Temp`	62C	GPU核心温度	<85C为安全，>90C建议降频
`Perf`	P2	性能状态（P0最高，P12最低）	应为P0/P1，P2表示已降频
`Pwr`	285W / 450W	当前功耗/最大功耗	接近上限时说明满载
`Memory-Usage`	12345MiB / 24576MiB	显存已用/总量	>90%有OOM风险
`Volatile GPU-Util`	98%	GPU核心利用率（非显存带宽）	持续<10%说明未有效利用

高频实用命令组合：

单次快照（适合快速诊断）：

nvidia-smi --query-gpu=index,name,temperature.gpu,utilization.gpu,memory.used,memory.total --format=csv,noheader,nounits

输出： 0, NVIDIA GeForce RTX 4090, 62, 98, 12345, 24576

动态监控（每0.5秒刷新）：

watch -n 0.5 'nvidia-smi --query-gpu=utilization.gpu,memory.used --format=csv,noheader,nounits'

进程级GPU占用（需root）：
```
sudo nvidia-smi pmon -i 0 -s um  # -i 0指定GPU0，-s um显示utilization & memory
```
输出中 PID 列对应进程ID，可与 ps aux | grep llama 结果交叉验证。

gpustat增强方案：
gpustat 比原生命令更直观，安装后直接运行：

pip install gpustat
gpustat -i 0.5  # 每0.5秒刷新，彩色高亮

它会显示每块GPU的利用率、显存占用、温度，并尝试解析进程名（如 llama-server ）。但要注意：进程名解析依赖 nvidia-smi 的 pmon 输出，若权限不足则显示为 ? 。

注意： nvidia-smi 在WSL2中默认不可用，需确保已安装WSL2的NVIDIA驱动（https://developer.nvidia.com/cuda/wsl），且Windows宿主机已安装对应版本驱动。很多用户卡在这一步，看到 NVIDIA-SMI has failed 就以为GPU坏了，其实是WSL2驱动未配。

3.3 第三级：CUDA进程级深度监控（nvtop）

当 nvidia-smi 显示GPU利用率98%但模型响应依然卡顿时，问题往往出在CUDA kernel调度或显存带宽上。这时需要 nvtop ——一个专为CUDA设计的实时监控器。

安装与启动：
Ubuntu/Debian：

sudo apt install nvtop
nvtop

macOS（Apple Silicon）不适用，因其监控的是CUDA设备。

nvtop核心视图解析：
启动后默认进入GPU概览页，按 1 切换到进程页（Processes），你会看到：

PID ：进程ID，与 ps aux 结果一致；
Name ：进程名， llama-server 清晰可见；
GPU% ：该进程独占的GPU核心利用率（非设备总利用率）；
VRAM ：该进程占用的显存（MB）；
SM% ：Streaming Multiprocessor活跃度，反映CUDA core使用效率；
Mem% ：显存带宽占用率（关键！很多卡顿源于此）；

典型卡顿场景诊断：
假设你看到：

设备总GPU利用率：95%
llama-server 进程GPU%：85%
llama-server Mem%：99%
llama-server SM%：45%

这说明：GPU核心大部分时间在等显存数据（带宽瓶颈），SM单元实际计算效率只有45%。解决方案不是换更强GPU，而是 减少KV Cache大小、降低context length、或启用flash attention优化 ——这些才是直击根源的调优。

实操心得：我在一台双卡A10服务器上部署Qwen2-72B时，发现单卡 Mem% 长期>95%，但 GPU% 只有60%。最终通过 --num-gpu 0 强制CPU加载模型权重，再 --num-gpu 80 只卸载计算层，将 Mem% 压到70%以下，吞吐量提升2.3倍。这证明：盲目堆GPU层数不如精准控制数据流。

3.4 第四级：系统级协同监控（htop + nvidia-smi联动）

Ollama的瓶颈从来不只是GPU。当GPU满载但整体延迟高时，往往是CPU、内存、磁盘I/O或网络在拖后腿。必须建立跨组件的关联视图。

推荐组合方案：
打开三个终端窗口，分别运行：

CPU与内存（htop）：
```
htop
```
按 F2 进入Setup，勾选 CPU average 、 Memory usage 、 Swap usage 。重点关注：
- CPU平均负载（Load average）是否超过物理核心数；
- 内存使用率是否>90%，Swap是否在频繁读写（ SwpIn/SwpOut 列）；
- llama-server 进程的CPU%是否异常高（>300%说明多线程并行良好）。

GPU（nvidia-smi动态）：

watch -n 0.5 'nvidia-smi --query-gpu=utilization.gpu,memory.used --format=csv,noheader,nounits'

磁盘I/O（iotop）：
```
sudo iotop -oPa  # 只显示实际I/O进程，-P显示累计IO，-a显示所有线程
```
观察 llama-server 是否在大量读取模型文件（ READ 列）。如果模型放在机械硬盘上， READ 持续>50MB/s且 llama-server 排在前列，这就是I/O瓶颈。

关联分析技巧：
当 nvidia-smi 显示GPU利用率突然跌到0%，同时 htop 里 llama-server CPU%飙升到400%， iotop 显示 READ 暴增——这说明GPU在等CPU把下一批数据处理好送过来，而CPU又在等磁盘读取模型分片。此时优化方向是：将模型移到NVMe SSD、增加 --num-thread 参数、或启用 --no-mmap 避免内存映射开销。

4. 跨平台实战指南：Windows、Linux、macOS的差异化方案

4.1 Windows平台：任务管理器是起点，但不是终点

Windows用户最熟悉任务管理器，但它的GPU监控有严重局限：

“GPU”标签页的真相：
Windows 10/11的任务管理器GPU页显示的是“GPU引擎利用率”，分为 3D 、 Copy 、 Video Encode 、 Video Decode 等引擎。Ollama使用的CUDA计算属于 3D 引擎，但该数值 不等于CUDA核心利用率 ，而是GPU整体3D渲染管线的负载。很多情况下 3D 显示20%，但 nvidia-smi 显示GPU核心95%——这是因为Windows的抽象层做了过度聚合。

必须搭配nvidia-smi：
Windows下 nvidia-smi 完全可用，且无需WSL2。打开CMD或PowerShell，直接运行：

nvidia-smi --query-gpu=utilization.gpu,memory.used --format=csv,noheader,nounits

或用 watch 替代（需安装 watch for Windows，或用PowerShell循环）：

while(1){ clear; nvidia-smi --query-gpu=utilization.gpu,memory.used --format=csv,noheader,nounits; Start-Sleep -Milliseconds 500 }

进程绑定验证：
在任务管理器“详细信息”页，右键列标题→“选择列”→勾选“GPU”和“GPU引擎”。找到 ollama.exe 或 llama-server.exe 进程，观察其GPU占用是否随推理请求波动。如果始终为0，说明Ollama未正确调用GPU驱动。

注意：Windows下Ollama官方安装包默认不包含CUDA后端。必须手动编译llama.cpp或使用社区提供的CUDA版Ollama（如 ollama-windows-cuda ）。很多用户下载官网安装包后发现GPU不用，根源在此。

4.2 Linux平台：命令行即生产力，四层监控自由组合

Linux是Ollama GPU监控的“主战场”，工具链最成熟。但新手易犯两个错误：一是过度依赖图形化工具（如 nvidia-settings ），二是混淆 nvidia-smi 和 nvtop 的定位。

最佳实践工作流：

启动前检查：

# 确认驱动加载
nvidia-smi -L  # 列出GPU设备
lsmod | grep nvidia  # 确认nvidia内核模块
# 确认CUDA可用
nvcc --version  # 需安装CUDA toolkit

启动时指定GPU：

# 方式1：命令行参数（推荐）
ollama run qwen2:7b --gpu-layers 35
# 方式2：环境变量（适合服务化）
export OLLAMA_GPU_LAYERS=35
ollama run qwen2:7b

监控时分层切入：
- 快速看： watch -n 1 nvidia-smi （设备级）
- 深度看： nvtop （进程级）
- 关联看： htop + iotop + nvidia-smi 三窗并行

关键配置项：

/etc/docker/daemon.json （若用Docker运行Ollama）：

{
  "default-runtime": "nvidia",
  "runtimes": {
    "nvidia": {
      "path": "nvidia-container-runtime",
      "runtimeArgs": []
    }
  }
}

缺失此配置，Docker容器内无法访问GPU。

~/.ollama/config.json （Ollama客户端配置）：

{
  "host": "127.0.0.1:11434",
  "insecure": false,
  "gpu_layers": 35  // 全局GPU层数
}

4.3 macOS平台：Apple Silicon的Metal是唯一正解

macOS用户请彻底放弃“NVIDIA GPU”幻想。Apple自M1芯片起全面转向Metal API，Ollama对Mac的GPU支持 仅限于Metal后端 ，且不兼容任何NVIDIA/AMD独立显卡（即使外接）。

Metal监控特殊性：

nvidia-smi 在macOS下完全不可用（无NVIDIA驱动）；
任务管理器概念不存在，需用 Activity Monitor （活动监视器）；
Activity Monitor的“GPU History”页显示的是Metal GPU利用率，但 不区分进程 ，只能看到整体趋势；

macOS专属监控方案：

Activity Monitor基础监控：
- 打开“活动监视器”→“GPU历史”页，观察整体GPU曲线；
- 切换到“能耗”页，按“GPU Impact”排序，找到 ollama 或 llama-server 进程，其“GPU Impact”值（0-100）反映Metal负载强度；

命令行深度监控（需Xcode Command Line Tools）：

# 安装metal-utils（社区工具）
brew install metal-utils
# 实时监控Metal进程
metal-profiler --list-processes
metal-profiler --pid $(pgrep llama-server) --interval 0.5

关键验证：确认Metal后端启用
启动模型时加 --verbose 参数：
```
ollama run qwen2:7b --verbose
```
输出中必须出现 Using Metal 或 metal: true 字样。如果看到 using cpu 或 using cuda ，说明Metal未启用，需重装Ollama或检查模型量化格式（Metal仅支持 .gguf 格式的特定量化类型，如 Q4_K_M ）。

实操心得：我在M2 Ultra上跑Qwen2-72B时，发现默认 --num-gpu 参数无效。最终通过 ollama run qwen2:72b --num-gpu 99 --verbose 才触发Metal全层卸载。macOS的Metal后端对 --num-gpu 的解析逻辑与CUDA不同——它要求设为最大值（99）才能启用全部GPU核心。

5. 常见问题与排查技巧实录

5.1 问题速查表：从现象反推根因

现象	可能根因	排查命令	解决方案
`nvidia-smi` 显示GPU空闲，但 `ollama ps` 显示模型running	Ollama未启用GPU后端，或 `--num-gpu` 未指定	`ps aux \| grep llama` 检查参数	重装CUDA版Ollama，或启动时加 `--gpu-layers 35`
`nvidia-smi` GPU利用率95%，但模型响应极慢	显存带宽瓶颈（ `nvtop` 中 `Mem%` >95%）	`nvtop` → Processes页	减少 `--ctx-size` ，启用 `--flash-attn` ，或升级PCIe 4.0主板
`ollama run` 报错 `warning: you do not appear to have an nvidia gpu supported by the 595.80 nvid...`	NVIDIA驱动版本与CUDA toolkit不匹配	`nvidia-smi` vs `nvcc --version`	升级驱动至CUDA toolkit要求版本，或降级CUDA toolkit
WSL2中 `nvidia-smi` 报错 `NVIDIA-SMI has failed`	WSL2 NVIDIA驱动未安装，或Windows宿主机驱动版本过低	Windows中运行 `nvidia-smi`	宿主机安装最新Game Ready驱动，WSL2中运行 `wsl --update` 并重启
macOS Activity Monitor GPU Impact始终为0	Metal后端未启用，或模型格式不支持	`ollama run model --verbose`	使用 `ollama pull` 重新拉取Metal兼容模型，或指定 `--num-gpu 99`
多卡服务器中只有一张卡被使用	`CUDA_VISIBLE_DEVICES` 未设置，或Ollama未识别多卡	`nvidia-smi -L` vs `nvidia-smi pmon`	启动前设 `export CUDA_VISIBLE_DEVICES=0,1` ，或用 `--num-gpu 35` 自动分配

5.2 独家避坑技巧：那些文档里不会写的细节

技巧1：GPU层数不是越多越好，存在“甜蜜点”
我在RTX 4090上测试Qwen2-7B，发现 --gpu-layers 从0到35，吞吐量线性上升；但从35到45，吞吐量反降12%。原因是：当GPU层数超过显存容量临界点，llama.cpp会启动显存交换（swap to RAM），导致PCIe带宽成为瓶颈。 计算公式：
显存需求 ≈ 模型参数量（GB） × 2（FP16权重） + KV Cache × context_length × 2
Qwen2-7B约3.8GB，KV Cache约0.5GB/1024 tokens，因此 --gpu-layers 35 时显存占用≈4.3GB，远低于24GB显存，是安全的；而 --gpu-layers 45 时，额外加载的层触发了显存碎片化，实际占用飙升至22GB，引发频繁swap。

技巧2： watch 命令的隐藏陷阱——别用 -n 0.1
很多教程推荐 watch -n 0.1 nvidia-smi 实现“毫秒级监控”。但 nvidia-smi 本身有最小采样间隔（通常100ms）， -n 0.1 会导致命令频繁启动-退出，产生大量僵尸进程，最终 watch 自身CPU占用超50%。 实测安全值： -n 0.5 （500ms） ，既能捕捉瞬态峰值，又不增加系统负担。

技巧3：Windows下“GPU使用为0%”的终极解法
当任务管理器GPU显示0%，但 nvidia-smi 显示正常时，大概率是Windows的GPU调度策略问题。进入“设置→系统→显示→图形设置”，添加 ollama.exe ，并将其图形偏好设为“高性能NVIDIA处理器”。这一步强制Windows将Ollama进程绑定到独显，而非集显。

技巧4：macOS Metal的“静默失败”模式
M系列芯片在电池供电时会主动降频GPU。如果插着电源GPU Impact 80%，拔掉电源后降到20%，这不是Ollama问题，而是系统电源管理。解决方案：终端中运行 sudo pmset -a gpuswitch 1 （强制独显），或保持电源连接。

5.3 性能基线测试：建立你的个人GPU效能档案

不要依赖网上的“RTX 4090跑Qwen2-7B 120 tok/s”这种模糊数据。每个人的硬件组合（CPU、内存频率、SSD型号、散热条件）都不同，必须建立自己的基线。

标准化测试脚本（Linux/macOS）：

#!/bin/bash
# save as gpu-benchmark.sh
MODEL="qwen2:7b"
echo "=== Testing $MODEL on $(nvidia-smi --query-gpu=name --format=csv,noheader,nounits) ==="
echo "GPU Util before: $(nvidia-smi --query-gpu=utilization.gpu --format=csv,noheader,nounits)"
echo "VRAM used before: $(nvidia-smi --query-gpu=memory.used --format=csv,noheader,nounits)"

# 启动模型并预热
ollama run $MODEL "Hello" >/dev/null 2>&1

# 正式测试：生成100 tokens，记录时间
START=$(date +%s.%N)
ollama run $MODEL "Write a 100-word essay about AI." >/dev/null 2>&1
END=$(date +%s.%N)
DURATION=$(echo "$END - $START" | bc)

echo "Time: ${DURATION}s"
echo "GPU Util after: $(nvidia-smi --query-gpu=utilization.gpu --format=csv,noheader,nounits)"
echo "VRAM used after: $(nvidia-smi --query-gpu=memory.used --format=csv,noheader,nounits)"

运行 chmod +x gpu-benchmark.sh && ./gpu-benchmark.sh ，记录每次调整参数（如 --gpu-layers 20/30/35 ）后的耗时变化。坚持一个月，你就有了自己硬件的“GPU效能指纹”，后续任何性能问题都能快速定位。

我的个人经验是：在RTX 4090上，Qwen2-7B的 --gpu-layers 最优值是33，对应吞吐量138 tok/s，GPU Util稳定在92%-95%。这个数字比官网文档的120 tok/s高15%，因为它基于我的具体散热和PCIe配置。 所有脱离你硬件谈性能的教程，都是耍流氓。

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

VLLMService Operator 开发第五篇：部署 Operator 并验证模型服务

存储准备完成后，就可以创建 VLLMService 资源了。metadata:spec:labels:port: 8000resources:requests:cpu: "2"limits:cpu: "4"storage:这里需要明确一点：VLLMService 本身只是用户声明的期望状态，它并不会直接运行模型。真正运行模型的是 Operator 根据这个 VLLMService 自动创建出来的

AMD开发者中国社区

VLLMService Operator 开发第六篇：给模型服务增加 Service 自动创建能力

做到这里，VLLMService Operator 已经不只是创建 Deployment 了，它开始具备完整服务编排的雏形。-> Pod-> Pod-> Service这一步非常关键，因为 Service 是后续接入流量入口的基础。没有 Service，HTTPRoute 就没有稳定的后端目标；-> Pod-> Service-> Gateway也就是说，Service 是从“模型 Pod 能跑起