基于大模型的互联网系统，离线部署到国产信创环境的准备与注意事项（实操版）

本文将针对大模型类应用在国产化内网环境中的离线部署提供完整指南。适用范围包括依赖外网资源的AI应用，需在国产CPU/GPU及操作系统(如麒麟/UOS)的内网环境中稳定运行。核心内容涵盖：1)部署前必须确认的7大事项，包括网络配置、存储改造、GPU规划等；2)技术改造要点，重点解决国密安全、身份审计等合规要求；3)详细实施步骤和验收标准。特别强调对国产硬件和操作系统的适配，提供MinIO对象存储改造

MonkeyKing_sunyuhua

871人浏览 · 2025-09-23 11:20:06

MonkeyKing_sunyuhua · 2025-09-23 11:20:06 发布

适用范围与目标
• 适用对象：原本跑在公有云/互联网环境、依赖外网资源（镜像仓库、开源依赖、对象存储、第三方API）的大模型类应用（检索增强、对话问答、文本/图像理解、OCR 等）。
• 目标：在国产 CPU/GPU 与国产操作系统（如麒麟/UOS/openKylin 等）的内网环境中，完全离线或半离线稳定运行，满足等保/密评等合规要求。

⸻

部署前必须确认的七件事（对应你的 1–7 点，并扩展）

内网互访与端口开通（不是“端口映射”）
• 多为VLAN + ACL模式（非 NAT）。需要网安侧开双向访问控制。
• 产出物：端口矩阵 + 外联白名单（模板见附录 A）。
• 要求：全链路加密（HTTPS/GMTLS），数据库与对象存储连接尽量启用 TLS/国密。
对象存储改造：OSS → 私有 S3（MinIO）
• 现场通常不上公有云 OSS。推荐落地：MinIO（S3 兼容）或厂家提供的 S3 网关。
• 改造点清单：
• 签名算法（AWS SigV4）、分片上传、预签名 URL、PutObject/CopyObject、ListObjectsV2 行为差异；
• 服务端加密（SSE-S3/SSE-KMS）与KMS 对接；
• CA 证书/域名替换；
• 断点续传、一致性语义与小文件大量并发压测。
• 自检命令（示例）：

# 使用 AWS CLI（离线环境需提前打包）或 MinIO mc
aws s3 ls --endpoint-url https://s3.internal.local
mc alias set local https://s3.internal.local <ak> <sk>
mc mb local/app-bucket && mc cp /tmp/test.txt local/app-bucket/

GPU 资源规划：80B + OCR 是否可用？
• 先拿到确切型号（是否国产）与单卡显存。
• 80B 推理显存粗算：权重显存 ≈ 参数量 × 精度（BF16/FP16≈2B、INT8≈1B、INT4≈0.5B），80B 在 FP16 约 160GB 仅权重；再加并行开销、KV Cache 与激活。
• 建议：
• 大模型与 OCR 分离部署（OCR 可走 CPU/GPU 轻量模型）；
• 80B 走并行（张量/流水/专家）+ 量化（INT4/INT8）；
• 若为国产 GPU（如昇腾 910B 等）：需确认 CANN/MindSpore/torch-ascend 的算子覆盖与模型转换链能否支撑现有模型。
• 输出物：吞吐/时延目标、并行与量化方案、压测报告（并发、TP90/TP99、功耗/温度）。
是否能上互联网 & 离线介质方案
• 强假设：全离线或半离线。
• 准备：
• 离线镜像仓库（Harbor 导出 tar）、离线 APT/YUM 源、PIP wheelhouse、Maven/NPM 私服快照；
• U 盘/移动硬盘/光盘（加密与 SHA256 校验）、介质清单；
• 时间同步：内网 NTP/GPS，不依赖公网。
• 产出物：离线仓库目录结构与校验清单（见附录 E）。
入场与权限（跳板机/堡垒机/三员分立）
• 提前报备：人员、设备 SN、软件介质清单及 HASH；
• 账号体系：堡垒机/跳板机访问策略、最小权限部署账号、三员分立（系统/安全/审计）；
• 需准备：部署操作手册、变更单模板、回退预案。
GPU 是否国产，型号适配测试
• 必须获取准确型号 + 驱动/固件版本矩阵；
• NVIDIA 栈：CUDA/TensorRT-LLM/vLLM；
• 国产栈（如昇腾）：CANN/MindSpore/torch-ascend，ONNX→OM 等转换验证；
• 产出物：兼容性 POC 报告（小模型先跑通，验证算子/性能/稳定性/日志）。
操作系统与架构（麒麟 + ARM）
• 镜像必须是 linux/arm64（aarch64）；
• 关键三方库（DB 驱动、OCR、向量库、加密库）要有 ARM 包；没有则本机编译固化入镜像；
• 镜像自检（见附录 C）：
• uname -m 应为 aarch64；
• ldd --version、openssl version、locale -a；
• cgroup v1/v2 与 containerd/docker 兼容性；
• 国产 GPU 的容器运行时适配（device plugin/OCI hooks）。

⸻

技术改造要点（离线 & 合规）

2.1 国密与链路安全
• 算法：SM2/SM3/SM4（必要时 SM9）；
• 协议：GMTLS/国密 SSL（网关/Nginx/Tengine/OpenSSL/Tongsuo/GmSSL），双向认证；
• 数据库/对象存储：传输加密 + 静态加密（KMS/密钥轮换/脱密导出流程）。

2.2 身份与审计
• 单点登录（本地 LDAP/AD/CAS）或内置用户，满足最小权限；
• 审计留痕：操作日志、鉴权日志、敏感操作二次确认，集中采集与不可抵赖（时间签名/哈希链）。

2.3 依赖与许可证
• 第三方依赖做 SBOM，离线 License 校验（如商用 OCR/分词/字体库）；
• 开源合规（Apache/MIT/GPL）与漏洞基线（离线扫描报告）。

2.4 配置与参数
• 多环境配置（密钥/证书/Endpoint 分离）；
• 限流/熔断/降级策略（离线环境的上游不可用时的兜底方案）。

⸻

离线交付物清单（必备）
1. 容器镜像（tar）：应用/中间件/模型服务/监控日志组件；
2. 离线系统包仓库：APT/YUM 镜像快照 + dpkg/rpm 离线包；
3. 语言运行时：JDK/Go/Python（含 wheelhouse 全量 .whl）；
4. 制品库快照：Maven/NPM/PyPI（自建 Nexus/Artifactory/Harbor 的导出）；
5. GPU/国产卡驱动与 SDK：完整离线安装介质 + 版本兼容表；
6. 证书与密钥：内网 CA、GMTLS 证书、KMS 对接文件；
7. 脚本与文档：一键安装/初始化、健康检查、回滚脚本，运维手册、应急预案；
8. 校验文件：SHA256SUMS、签名与验签脚本；
9. SBOM & License：第三方组件清单与许可证说明。

⸻

实施步骤（Day 0 / Day 1 / Day 2）
• Day 0（前置准备）
• 网络与端口矩阵确认；堡垒机账号开通；离线仓库落地；设备上架与 BMC/NTP；
• GPU/OS/镜像 POC；国密证书签发；对象存储桶与策略初始化。
• Day 1（部署与联调）
• 安装容器运行时与私有 Registry；导入镜像；
• 部署 DB/对象存储/缓存/MQ；
• 部署应用与模型服务；完成国密/GMTLS 端到端链路；
• 健康检查与基础功能回归。
• Day 2（压测与验收）
• 并发/时延/稳定性（72h soak test）；
• 断网/节点宕机/磁盘只读/证书过期演练；
• 验收报告与交接（监控/告警/备份恢复/值守）。

⸻

可观测性与运维基线
• 监控：主机/容器/应用（Prometheus + Exporters）、GPU（NVIDIA-SMI/昇腾工具链指标）；
• 日志：集中采集（Filebeat/Vector → ELK/ClickHouse/OpenSearch），按域/严重级别留存与脱敏；
• 链路追踪：OpenTelemetry（采样率与隐私策略）；
• 备份与容灾：数据库全量+增量、对象存储生命周期、配置与镜像版本化备份；
• 告警：阈值 + 异常模式（剧增/剧降），到人到群。

⸻

验收标准（建议）
• 功能：与公网环境一致，关键路径全部通过；
• 性能：达成并发/TP90/TP99 目标值（列明硬件配置）；
• 稳定：72 小时连续运行无内存泄漏/线程泄漏；
• 安全与合规：等保/密评自查单通过；国密链路闭环；
• 可运维：监控/日志/追踪齐备，演练通过；
• 可回退：上线/回退 SOP 可复现。

⸻

风险清单与缓解
• 跨架构缺包/不兼容 → 提前做 ARM/国产 GPU POC，必要时替换库或源码编译；
• 大模型显存/吞吐不达标 → 量化 + 并行，或降模型规模；OCR 单独资源池；
• 离线依赖缺失 → 建立离线制品库与校验清单，演练断网安装；
• 国密只改一段 → 端到端（客户端/网关/服务/存储/DB）一致；
• 日志与合规缺项 → 上线前以审计项做一次“模拟稽核”。

⸻

附录

A. 端口/外联申请单（表格模板）

序号源IP/网段目的IP/网段端口/协议方向用途说明是否必须加密方式
1 业务子网 DB 子网 5432/TCP 出站应用访问数据库是 TLS/GMTLS
2 反向代理应用节点 443/TCP 入站用户HTTPS访问是 GMTLS
3 应用节点对象存储 9000/TCP 出站 S3 接入 MinIO 是 TLS

备注：如需任何外联（许可证、地图、短信），需单列外联白名单与应急“离线兜底”。

B. S3 兼容自检清单
• 签名 V4 / 分片上传 / 预签名 URL；
• 列表与分页（ListObjectsV2）；对象元数据/标签；
• 服务端加密（SSE-S3/SSE-KMS）与桶策略；
• 小文件高并发与大对象断点续传压测；
• CA/域名替换与证书轮换。

C. 麒麟 ARM 镜像自检脚本（示例）

# 架构
docker run --rm your-image:tag uname -m  # 期望 aarch64

# 关键库
docker run --rm your-image:tag sh -lc 'ldd --version; openssl version; locale -a | head'

# cgroup/容器运行时（在宿主）
stat -fc %T /sys/fs/cgroup   # cgroup2fs 表示 v2
systemctl status containerd docker | head -n 5

# 私有 S3 连通（如需）
docker run --rm --net host -e AWS_ACCESS_KEY_ID=... -e AWS_SECRET_ACCESS_KEY=... \
  your-image:tag aws s3 ls --endpoint-url https://s3.internal.local

D. GPU 方案速查（NVIDIA vs 国产 GPU）
• NVIDIA：CUDA/cuDNN/TensorRT-LLM、vLLM；容器用 NVIDIA Container Toolkit；
• 昇腾等国产：CANN + MindSpore/torch-ascend；模型需转换（如 ONNX→OM）；容器使用厂商 device plugin；
• 通用建议：优先小模型 POC → 再迁 70B/80B；OCR 独立节点；全链路观测。

E. 离线仓库目录结构（示例）

   /offline-packages/
  images/ (tar 镜像)
  apt-mirror/  |  yum-mirror/
  pypi/ (wheelhouse)
  maven/  npm/
  gpu-sdk/ (驱动/工具链/文档)
  certs/ (CA/证书/CRL)
  scripts/ (安装/回滚/健康检查)
  SBOM_LICENSES/
  SHA256SUMS

⸻
一页 Checklist（带走就能用）
• 端口矩阵 & 外联白名单已批复
• MinIO/S3 自检通过（签名V4、分片、预签名、加密）
• GPU 型号与并行/量化方案敲定；OCR 独立资源
• 离线仓库/镜像/依赖齐备且有校验
• 跳板/堡垒机/三员分立账号就绪
• 国密证书/GMTLS 端到端联通
• ARM 镜像与三方库 POC 通过
• 监控/日志/追踪/告警上线
• 压测与 72h 稳定性通过；回退预案可演练

北京朝阳AI社区

更多推荐

上下文工程驱动智能体向专用化与通用化平衡

北京朝阳AI社区

上下文工程驱动智能体向规则引擎与神经网络共生

北京朝阳AI社区

MCP 授权机制的现状、问题和解决思路

MCP 服务器（提供 AI 模型上下文的一方）需要一种机制来验证客户端（使用模型的一方）是否有权访问其资源。在该协议的设计中，这一机制是一种基于 OAuth 2.1的标准授权方案。简单来说，MCP 的授权流程是一个标准且安全的 OAuth 2.1 委托授权模式。它没有重新发明轮子，而是复用了业界成熟方案：客户端通过独立可信的授权服务器获取“通行证”（访问令牌），再用该“通行证”访问受保护的 MCP