DeepSeek对Red Hat AI Inference Server 部署步骤是否需要采用外部存储的解读

云道轩

348人浏览 · 2026-03-05 17:07:38

云道轩 · 2026-03-05 17:07:38 发布

帮我解读一下下面红帽安装Red Hat AI Inference Server 的步骤是否需要使用外部存储

oc apply -f - <<EOF
apiVersion: apps/v1
kind: Deployment
metadata:
name: granite
namespace: rhaiis-namespace
labels:
app: granite
spec:
replicas: 1
selector:
matchLabels:
app: granite
template:
metadata:
labels:
app: granite
spec:
initContainers:
- name: model-loader
image: '<MIRROR_REGISTRY_URL>/rhelai1/granite-3-1-8b-instruct-quantized-w8a8:1.5'
command: ['cp', '-r', '/models/.', '/mnt/models/']
volumeMounts:
- name: model-volume
mountPath: /mnt/models
containers:
- name: granite
image: '<MIRROR_REGISTRY_URL>/rhaiis/vllm-cuda-rhel9:latest'
imagePullPolicy: IfNotPresent
command:
- python
- '-m'
- vllm.entrypoints.openai.api_server
args:
- '--port=8000'
- '--model=/mnt/models'
- '--served-model-name=granite-3.1-8b-instruct-quantized-w8a8'
- '--tensor-parallel-size=1'
resources:
limits:
cpu: '10'
nvidia.com/gpu: '1'
requests:
cpu: '2'
memory: 6Gi
nvidia.com/gpu: '1'
volumeMounts:
- name: model-volume
mountPath: /mnt/models
- name: shm
mountPath: /dev/shm
volumes:
- name: model-volume
emptyDir: {}
- name: shm
emptyDir:
medium: Memory
sizeLimit: 2Gi
restartPolicy: Always
EOF

这个 Red Hat AI Inference Server 的部署步骤不需要使用外部存储。以下是对该步骤的详细解读：

部署结构：
- 定义了一个名为 granite 的 Deployment，其中包含一个 initContainer 和一个主容器。
- initContainer（model-loader）负责从指定的 OCI 镜像（<MIRROR_REGISTRY_URL>/rhelai1/granite-3-1-8b-instruct-quantized-w8a8:1.5）中拷贝模型文件到挂载的卷 /mnt/models。
- 主容器（granite）使用 vLLM 镜像启动推理服务，并挂载同一个卷 /mnt/models 作为模型路径，同时挂载一个内存类型的卷 /dev/shm 用于共享内存。
卷的类型：
- model-volume：类型为 emptyDir: {}，这是 Kubernetes 中的临时卷，初始为空，与 Pod 的生命周期绑定。当 Pod 运行在某个节点上时，该卷会在节点上创建一个空目录，initContainer 将模型文件复制到此目录中，主容器读取该目录。Pod 被删除或迁移时，卷内容随之消失。
- shm：类型为 emptyDir 并指定 medium: Memory，是一个基于内存的临时文件系统（tmpfs），用于提高共享内存访问性能，同样不依赖外部存储。
为什么不需要外部存储：
- 模型文件本身已经打包在 initContainer 的镜像中，无需从外部持久化存储（如 PV/PVC）加载。
- emptyDir 卷直接使用节点本地存储（磁盘或内存），不涉及外部存储系统。
- 每次 Pod 启动时，initContainer 都会重新复制模型，保证模型文件始终可用，但数据不持久化——这符合该场景的设计意图（模型作为镜像的一部分分发，而非独立持久化数据）。

因此，这个部署步骤完全依赖于 Kubernetes 的临时存储机制，无需额外配置外部存储（如 NFS、云存储块设备等）。如果生产环境中需要模型持久化或共享，则需要考虑其他方案，但当前步骤本身不强制使用外部存储。

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

帮我构思一个项目：Trae、Codearts atomcode 等AI agent的调度中心优先windows系统，通过句柄获得这些AI agent的任务信息，对其进行跟踪，用户可以通过调度中心发布

项目摘要：群星（Star）- AI Agent调度中心群星（Star）是一个面向Windows系统的AI Agent调度平台，旨在统一管理Trae、CodeArtsAtom等AI助手。项目通过系统级API（如句柄、进程监控）实现任务跟踪与调度，用户可通过中心发布、修改任务并实时监控反馈。核心功能：星图：自动识别运行中的AI Agent进程星轨：任务队列管理（创建/分配/修改）星语：实时捕

龙虾开发者社区

AI Agent 系统设计：从单链推理到多智能体协作的架构演进

龙虾开发者社区

懂王AI超级Agent应用开发架构师：从零基础到企业级智能体开发的完整路径

在AI技术高速迭代的2026年，学习者的核心竞争力不在于“掌握了多少API”，而在于“能否构建一个可靠、可维护、可扩展的Agent系统”。它不是一套录像，而是一套完整的认知框架和项目资产。540+节课程、5个生产级项目、从Python环境到集群部署、从Prompt工程到模型微调——这套体系的最终目标不是培养“AI工具使用者”，而是培养能够独立设计、开发、优化、部署AI Agent系统的架构师思维。