ollama.service服务配置说明

beck_li

3544人浏览 · 2025-02-09 16:10:54

beck_li · 2025-02-09 16:10:54 发布

vim /etc/systemd/system/ollama.service

[Unit]

Description=Ollama Service

After=network-online.target

[Service]

Environment="OLLAMA_HOST=0.0.0.0:11434

解释：监听地址和端口 0.0.0.0是对IP没有限制

Environment="PATH=/usr/local/bin:/usr/bin:/bin:/usr/local/games:/usr/games"

解释：定义可执行文件的搜索路径

Environment="OLLAMA_SCHED_SPREAD=true"

解释：调用分散模式多显卡的情况处理多并发的情况下可以减少时间

Environment="OLLAMA_NUM_PARALLEL=15"

解释：最大线程数，同时允许的最大处理并非数

Environment="OLLAMA_MAX_LOADED_MODELS=1"

解释：最大模型数，同时可以加载最多几个模型（我三张显卡的情况 llama3 70B，和一个27B并行建议1-2）

Environment="OLLAMA_MODELS=/mnt/rayse/files/ollama/models"

解释：模型存储路径

Environment="OLLAMA_KEEP_ALIVE=1h"

解释：模型加载后保留的时间，超过1小时，就卸载了，就要从新加载模型。

ExecStart=/usr/bin/ollama serve

解释：启动服务的指令

User=ollama

解释：指定运行服务的用户，服务将以 ollama 用户的身份运行

Group=ollama

解释：指定运行服务的用户组，服务将属于 ollama 用户组。

Restart=always

解释：配置服务异常停止后的自动重启

RestartSec=3

解释：设置服务停止后重新启动的时间间隔

Environment="CUDA_VISIBLE_DEVICES=0,1

解释：在多张显卡的情况下只用显卡0和显卡1进行运行服务。

[Install]

WantedBy=default.target

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

白嫖48GB显存跑DeepSeek！AMD云GPU私有化部署实战

AMD开发者中国社区

PyTorch性能分析终极指南：从新手到专家的完整调试流程

你是否曾经遇到过这样的困境：PyTorch模型训练速度缓慢，内存占用过高，却不知道问题出在哪里？或者花费大量时间调整超参数，但效果甚微？在深度学习开发中，性能瓶颈往往是阻碍模型部署和产品化的最大障碍。本文将为你提供一套完整的PyTorch性能分析和优化指南，帮助你快速定位问题、提升模型效率，让你的深度学习项目跑得更快、更稳。## 痛点分析：为什么你的PyTorch模型跑得慢？在开始技术细节

AMD开发者中国社区

PyTorch性能优化终极指南：Profiler与TensorBoard实战应用

你是否曾经遇到过这样的困扰？🤔 模型训练速度慢如蜗牛，却不知道问题出在哪里；内存消耗飙升，却无法定位具体原因；模型精度不达标，却难以分析问题根源。在深度学习开发中，性能瓶颈就像隐形的敌人，让你花费大量时间却收效甚微。今天，让我们一起探索PyTorch性能优化的两大神器——Profiler和TensorBoard，让你的模型开发效率提升10倍以上！PyTorch作为当前最流行的深度学习框架之一