[特殊字符] Ollama 客户端常用命令及对话指令学习笔记

Ollama 客户端常用命令及对话指令的一些学习笔记

Java的初学者26.3.4

537人浏览 · 2026-05-16 22:21:12

Java的初学者26.3.4 · 2026-05-16 22:21:12 发布

本地跑大模型，从学会 Ollama 开始

一、什么是 Ollama？

Ollama 是一个轻量级的本地大模型运行工具，可以让我们在自己的电脑上轻松下载、运行各种开源大模型（比如 Qwen2、DeepSeek-Coder 等）。不用联网，也不用担心隐私问题，非常适合学习和实验。

下面是我整理的常用命令，大部分都在PowerShell下亲测有效。

二、常用命令详解

1. `ollama run` – 运行模型

bash

ollama run MODEL[:版本] [提示词] [flags]

示例：运行通义千问 0.5B 参数的小模型

ollama run qwen2:0.5b

如果省略版本号，默认使用 :latest：

ollama run qwen2   # 等同于 ollama run qwen2:latest

带提示词直接运行：

ollama run qwen2:0.5b "您好"
# 输出：您好！有什么问题我可以帮助您？

常用参数：

参数	说明
`--format json`	让模型输出 JSON 格式
`--insecure`	忽略 HTTPS 证书（下载模型时用）
`--keepalive`	设置模型在内存中的存活时间
`--nowordwrap`	关闭自动换行
`--verbose`	显示 token 统计信息（耗时、速率等）

--verbose 示例：

bash

ollama run qwen2:0.5b --verbose
>>> 您好
欢迎光临...
total duration: 1.23s
prompt eval count: 10 token(s)
eval rate: 17.22 tokens/s

2. `ollama show` – 查看模型信息

bash

ollama show MODEL [flags]

常用 flags：

flag	作用
`--license`	查看模型许可
`--modelfile`	查看 Modelfile 源文件
`--parameters`	查看内置参数
`--system`	查看系统提示词
`--template`	查看提示词模板

示例：查看 qwen2 的模板

bash

ollama show qwen2 --template

输出类似：

text

{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}...

3. `ollama pull` – 下载模型

模型可以从 Ollama 官网搜索。

bash

ollama pull MODEL[:版本]

示例：

bash

ollama pull qwen2               # 下载最新版
ollama pull qwen2:0.5b          # 下载指定版本
ollama pull qwen2 --insecure    # 忽略证书下载

4. `ollama list` / `ollama ls` – 查看已安装模型

bash

ollama list

输出示例：

text

NAME                    ID              SIZE    MODIFIED      
qwen2:latest            e0d4e1163c58    4.4 GB  10 minutes ago
deepseek-coder:latest   3ddd2d3fc8d2    776 MB  3 hours ago
qwen2:0.5b              6f48b936a09f    352 MB  8 hours ago

字段说明：名称、模型ID、大小、最后修改时间。

5. `ollama ps` – 查看正在运行的模型

bash

ollama ps

输出示例：

text

NAME                    ID              SIZE    PROCESSOR       UNTIL
deepseek-coder:latest   3ddd2d3fc8d2    1.3 GB  100% CPU        About a minute from now

字段说明：名称、ID、内存占用、处理器（CPU/GPU）、剩余存活时间。

6. `ollama rm` – 删除模型

bash

ollama rm MODEL[:版本]

示例：

bash

ollama rm qwen2:0.5b   # 删除后就不再显示了

三、对话内指令（在 `ollama run` 交互界面中使用）

进入模型对话后，输入 / 可以看到所有指令：

bash

ollama run qwen2:0.5b
>>> /?

可用指令：

指令	作用
`/set`	设置会话变量
`/show`	显示模型信息
`/load <model>`	切换模型
`/save <model>`	保存当前会话为模型
`/clear`	清除上下文（重置记忆）
`/bye`	退出对话
`/?, /help`	帮助

还有一些快捷键：Ctrl + l 清屏，Ctrl + d 退出等。

`/show` 子指令

在对话中输入 /show info 可以查看当前模型的基本信息：

text

>>> /show info
Model details:
Family              qwen2
Parameter Size      494.03M
Quantization Level  Q4_0

其他子指令：/show license、/show modelfile、/show parameters、/show system、/show template。

`/set` 子指令 – 调整参数

/set 可以控制输出格式、上下文、温度等。

常用设置：

命令	作用
`/set format json`	输出 JSON 格式
`/set noformat`	取消格式要求
`/set verbose`	显示 token 统计
`/set quiet`	关闭统计
`/set history` / `/set nohistory`	开启/关闭对话历史
`/set wordwrap` / `/set nowordwrap`	自动换行开关

设置参数示例（控制生成多样性）：

text

/set parameter temperature 0.7
/set parameter top_p 0.9
/set parameter num_predict 512
/set parameter stop "."

常用参数解释：

参数	作用	默认值
`temperature`	创造性（越高越随机）	0.8
`top_k`	候选词范围（越高越多变）	40
`top_p`	核采样阈值	0.9
`num_predict`	最大生成 token 数	128
`num_ctx`	上下文窗口大小	2048
`repeat_penalty`	重复惩罚强度	1.1

`/clear` – 清空上下文

模型默认有记忆，会记住之前的对话。如果需要重新开始对话（不切换模型），用 /clear 清除上下文。

示例：

text

>>> 请帮我出1道Java list的单选题
（模型出题）
>>> 再出1道
（模型继续出题）
>>> /clear
Cleared session context
>>> 再出1道
（模型不记得刚才的题目了）

`/load` – 切换模型

在同一个对话中动态切换模型（不用退出重新 ollama run）：

text

>>> /load deepseek-coder
Loading model 'deepseek-coder'
>>> 你是什么大模型
我是 Deepseek Coder，编程专用助手...

`/save` – 保存当前会话为模型

可以把当前会话（包括设置的系统提示词、参数等）保存成一个新模型：

text

>>> /save my-qwen
Created new model 'my-qwen'

保存的模型位于 ~/.ollama/models/manifests/registry.ollama.ai/library/ 下。

`"""` – 多行输入

如果提示词包含换行，可以用三个双引号包裹：

text

>>> """
... 你好
... 你是什么模型？
... """
模型会正常响应。

四、个人总结

通过这几天的学习，我体会到 Ollama 真的是本地玩大模型的利器。它把复杂的模型下载、运行、切换、参数调整都封装成了简单的命令，在没有wifi的时候，也可以调用本地的模型，对初学者非常友好。

我的建议：

先从小的模型开始（比如 qwen2:0.5b 只有 352MB），跑通了再尝试更大的。
多用 --verbose 观察 token 消耗和速率，了解模型性能。
多试试 /set parameter 调整温度、top_p 等，感受生成文本的变化。

当然，我还在学习中，很多地方理解得不一定准确。如果大家发现问题，欢迎在评论区指出，我会认真修正的！也希望能和同样对 AI 感兴趣的同学多多交流～ 🤝

加入AMD AI开发者计划！

免费领 100 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

PyTorch深度学习实战（54）——使用TorchScript和ONNX导出通用PyTorch模型

AMD开发者中国社区

基于vLLM部署Gemma-4-E2B多模态大模型和调用API 服务

基于vLLM的推理引擎大幅提升模型响应速度，FastAPI接口可直接集成到业务系统中，适用于智能问答、图片分析、多模态交互等实际应用场景。多模态大模型，实现图片+文本的多模态问答功能，并通过FastAPI封装为可视化API服务，最终完成本地接口测试。服务启动后，自动加载Processor和Gemma模型到GPU，加载完成后可接收外部请求。成功部署Google Gemma-4-E2B-it多模态大模

AMD开发者中国社区

ESXi 支持哪些 GPU 直通？NVIDIA/AMD 全系列兼容与配置指南

GPU 直通（PCIe Passthrough）是 VMware ESXi 提供的硬件虚拟化技术，通过直接将物理 GPU 设备分配给单台虚拟机独占使用，绕过 ESXi 虚拟化层的资源调度，让虚拟机获得完整的 GPU 算力与功能支持，性能损耗低于 5%，可实现与物理机几乎一致的运行体验。ESXi 对 GPU 直通的支持非常完善，核心兼容型号为 NVIDIA V100/A100/RTX 全系列和 AM