认识Ollama

Jasmine839

708人浏览 · 2025-12-22 11:17:52

Jasmine839 · 2025-12-22 11:17:52 发布

Ollama 是什么？

Ollama 是一个开源工具，用于在本地机器上运行、管理和部署大型语言模型（LLM）。它提供了一个简单而强大的命令行界面（CLI），让用户能够轻松下载、运行和自定义各种开源语言模型，而无需依赖云服务或复杂的配置。

一句话比喻：
Ollama 就像是电脑上的一个“AI模型启动器”，它让你像安装和启动一个游戏或软件一样，轻松地在自己的电脑上安装和运行各种不同功能的AI大脑。

🎯 主要作用

本地运行 LLM
- 允许用户在个人计算机上运行如 Llama、Mistral、Gemma 等开源模型，无需联网。
模型管理
- 支持下载、更新、删除和切换不同的模型版本。
自定义与微调
- 用户可以通过 Modelfile 自定义模型参数、系统提示词和上下文长度等。
API 支持
- 提供类似 OpenAI 的 API 接口，方便集成到现有应用中。
多平台兼容
- 支持 macOS、Linux 和 Windows（通过 WSL）。

⚙️ 核心用法

1. 安装 Ollama

访问 Ollama 官网下载并安装对应平台的版本。

2. 下载和运行模型

# 下载并运行模型（例如 llama3）
ollama run llama3

# 指定模型版本
ollama run llama3:8b

3. 与模型交互

在终端中直接输入问题，例如：

>>> 请用中文解释机器学习的基本概念。

4. 使用 Modelfile 自定义模型

创建一个 Modelfile：

FROM llama3
PARAMETER temperature 0.7
SYSTEM """
你是一个乐于助人的AI助手，请用中文回答用户的问题。
"""

然后构建自定义模型：

ollama create my-model -f Modelfile
ollama run my-model

5. 通过 API 调用

启动 Ollama 后，可以通过 REST API 访问模型：

curl -X POST http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "为什么天空是蓝色的？",
  "stream": false
}'

6. 管理模型

# 列出已安装的模型
ollama list

# 删除模型
ollama rm llama3

# 拉取最新模型版本
ollama pull llama3

7. 高级功能

多模态支持：某些模型支持图像理解（如 LLaVA）。
函数调用：部分模型支持工具调用和函数执行。
上下文管理：可调整上下文窗口大小（最高达 128K token）。

💡 使用场景

隐私保护：敏感数据可在本地处理，无需上传到云端。
离线开发：在没有网络连接的环境中开发和测试 AI 应用。
教育与研究：学生和研究人员可以低成本地实验各种 LLM。
原型开发：快速构建基于 LLM 的应用原型。

🚀 性能优化建议

使用量化模型（如 llama3:8b-q4_K_M）以减少内存占用。
对于 GPU 运行，确保安装了正确的驱动和 CUDA 库。
调整 num_ctx 和 num_gpu 参数以优化性能。

Ollama 极大降低了使用大型语言模型的门槛，让更多人能够轻松体验和利用 AI 技术。

加入AMD AI开发者计划！

免费领 150 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

DCU使用技术报告_下篇_gfx936_DCU_Qwen3.5-27B_rocBLAS-hipBLASLt调优、vLLM工程化与踩坑实战

这次做 DCU 推理优化，最容易上瘾的是看一个 kernel 从 0.50 ms 变成 0.33 ms。真正难的却是后面的判断：它一层有多少次调用，是否命中 CUDA Graph，是否改变生成路径，是否只在某个 chunk 上有效，部署到另一个容器后会不会悄悄回退。Profile 找热点，真实形状做微基准，局部候选用 guard 接入，服务结果决定去留，精度最后否决。DCU、ROCm、Triton

AMD开发者中国社区

模型推理的推理引擎切换：vLLM、TGI 与 TensorRT-LLM 对比

先看业务需求，再看 benchmark。延迟敏感型选 TRT-LLM，吞吐敏感型选 vLLM，和 HuggingFace 生态深度绑定选 TGI。不要追求"一个引擎统治所有场景"。双引擎甚至三引擎并存是合理的，通过统一抽象层屏蔽差异。考虑全生命周期成本，不只是推理延迟。TRT-LLM 的 2ms 延迟优势，可能被几小时的模型转换时间、运维复杂度、和有限的模型兼容性所抵消。