1. 适用范围与目标
    • 适用对象:原本跑在公有云/互联网环境、依赖外网资源(镜像仓库、开源依赖、对象存储、第三方API)的大模型类应用(检索增强、对话问答、文本/图像理解、OCR 等)。
    • 目标:在国产 CPU/GPU 与国产操作系统(如麒麟/UOS/openKylin 等)的内网环境中,完全离线或半离线稳定运行,满足等保/密评等合规要求。

  1. 部署前必须确认的七件事(对应你的 1–7 点,并扩展)
  1. 内网互访与端口开通(不是“端口映射”)
    • 多为VLAN + ACL模式(非 NAT)。需要网安侧开双向访问控制。
    • 产出物:端口矩阵 + 外联白名单(模板见附录 A)。
    • 要求:全链路加密(HTTPS/GMTLS),数据库与对象存储连接尽量启用 TLS/国密。

  2. 对象存储改造:OSS → 私有 S3(MinIO)
    • 现场通常不上公有云 OSS。推荐落地:MinIO(S3 兼容) 或厂家提供的 S3 网关。
    • 改造点清单:
    • 签名算法(AWS SigV4)、分片上传、预签名 URL、PutObject/CopyObject、ListObjectsV2 行为差异;
    • 服务端加密(SSE-S3/SSE-KMS)与KMS 对接;
    • CA 证书/域名替换;
    • 断点续传、一致性语义与小文件大量并发压测。
    • 自检命令(示例):

# 使用 AWS CLI(离线环境需提前打包)或 MinIO mc
aws s3 ls --endpoint-url https://s3.internal.local
mc alias set local https://s3.internal.local <ak> <sk>
mc mb local/app-bucket && mc cp /tmp/test.txt local/app-bucket/
  1. GPU 资源规划:80B + OCR 是否可用?
    • 先拿到确切型号(是否国产)与单卡显存。
    • 80B 推理显存粗算:权重显存 ≈ 参数量 × 精度(BF16/FP16≈2B、INT8≈1B、INT4≈0.5B),80B 在 FP16 约 160GB 仅权重;再加并行开销、KV Cache 与激活。
    • 建议:
    • 大模型与 OCR 分离部署(OCR 可走 CPU/GPU 轻量模型);
    • 80B 走并行(张量/流水/专家)+ 量化(INT4/INT8);
    • 若为国产 GPU(如昇腾 910B 等):需确认 CANN/MindSpore/torch-ascend 的算子覆盖与模型转换链能否支撑现有模型。
    • 输出物:吞吐/时延目标、并行与量化方案、压测报告(并发、TP90/TP99、功耗/温度)。

  2. 是否能上互联网 & 离线介质方案
    • 强假设:全离线或半离线。
    • 准备:
    • 离线镜像仓库(Harbor 导出 tar)、离线 APT/YUM 源、PIP wheelhouse、Maven/NPM 私服快照;
    • U 盘/移动硬盘/光盘(加密与 SHA256 校验)、介质清单;
    • 时间同步:内网 NTP/GPS,不依赖公网。
    • 产出物:离线仓库目录结构与校验清单(见附录 E)。

  3. 入场与权限(跳板机/堡垒机/三员分立)
    • 提前报备:人员、设备 SN、软件介质清单及 HASH;
    • 账号体系:堡垒机/跳板机访问策略、最小权限部署账号、三员分立(系统/安全/审计);
    • 需准备:部署操作手册、变更单模板、回退预案。

  4. GPU 是否国产,型号适配测试
    • 必须获取准确型号 + 驱动/固件版本矩阵;
    • NVIDIA 栈:CUDA/TensorRT-LLM/vLLM;
    • 国产栈(如昇腾):CANN/MindSpore/torch-ascend,ONNX→OM 等转换验证;
    • 产出物:兼容性 POC 报告(小模型先跑通,验证算子/性能/稳定性/日志)。

  5. 操作系统与架构(麒麟 + ARM)
    • 镜像必须是 linux/arm64(aarch64);
    • 关键三方库(DB 驱动、OCR、向量库、加密库)要有 ARM 包;没有则本机编译固化入镜像;
    • 镜像自检(见附录 C):
    • uname -m 应为 aarch64;
    • ldd --version、openssl version、locale -a;
    • cgroup v1/v2 与 containerd/docker 兼容性;
    • 国产 GPU 的容器运行时适配(device plugin/OCI hooks)。

  1. 技术改造要点(离线 & 合规)

2.1 国密与链路安全
• 算法:SM2/SM3/SM4(必要时 SM9);
• 协议:GMTLS/国密 SSL(网关/Nginx/Tengine/OpenSSL/Tongsuo/GmSSL),双向认证;
• 数据库/对象存储:传输加密 + 静态加密(KMS/密钥轮换/脱密导出流程)。

2.2 身份与审计
• 单点登录(本地 LDAP/AD/CAS)或内置用户,满足最小权限;
• 审计留痕:操作日志、鉴权日志、敏感操作二次确认,集中采集与不可抵赖(时间签名/哈希链)。

2.3 依赖与许可证
• 第三方依赖做 SBOM,离线 License 校验(如商用 OCR/分词/字体库);
• 开源合规(Apache/MIT/GPL)与漏洞基线(离线扫描报告)。

2.4 配置与参数
• 多环境配置(密钥/证书/Endpoint 分离);
• 限流/熔断/降级策略(离线环境的上游不可用时的兜底方案)。

  1. 离线交付物清单(必备)
    1. 容器镜像(tar):应用/中间件/模型服务/监控日志组件;
    2. 离线系统包仓库:APT/YUM 镜像快照 + dpkg/rpm 离线包;
    3. 语言运行时:JDK/Go/Python(含 wheelhouse 全量 .whl);
    4. 制品库快照:Maven/NPM/PyPI(自建 Nexus/Artifactory/Harbor 的导出);
    5. GPU/国产卡驱动与 SDK:完整离线安装介质 + 版本兼容表;
    6. 证书与密钥:内网 CA、GMTLS 证书、KMS 对接文件;
    7. 脚本与文档:一键安装/初始化、健康检查、回滚脚本,运维手册、应急预案;
    8. 校验文件:SHA256SUMS、签名与验签脚本;
    9. SBOM & License:第三方组件清单与许可证说明。

  1. 实施步骤(Day 0 / Day 1 / Day 2)
    • Day 0(前置准备)
    • 网络与端口矩阵确认;堡垒机账号开通;离线仓库落地;设备上架与 BMC/NTP;
    • GPU/OS/镜像 POC;国密证书签发;对象存储桶与策略初始化。
    • Day 1(部署与联调)
    • 安装容器运行时与私有 Registry;导入镜像;
    • 部署 DB/对象存储/缓存/MQ;
    • 部署应用与模型服务;完成国密/GMTLS 端到端链路;
    • 健康检查与基础功能回归。
    • Day 2(压测与验收)
    • 并发/时延/稳定性(72h soak test);
    • 断网/节点宕机/磁盘只读/证书过期演练;
    • 验收报告与交接(监控/告警/备份恢复/值守)。

  1. 可观测性与运维基线
    • 监控:主机/容器/应用(Prometheus + Exporters)、GPU(NVIDIA-SMI/昇腾工具链指标);
    • 日志:集中采集(Filebeat/Vector → ELK/ClickHouse/OpenSearch),按域/严重级别留存与脱敏;
    • 链路追踪:OpenTelemetry(采样率与隐私策略);
    • 备份与容灾:数据库全量+增量、对象存储生命周期、配置与镜像版本化备份;
    • 告警:阈值 + 异常模式(剧增/剧降),到人到群。

  1. 验收标准(建议)
    • 功能:与公网环境一致,关键路径全部通过;
    • 性能:达成并发/TP90/TP99 目标值(列明硬件配置);
    • 稳定:72 小时连续运行无内存泄漏/线程泄漏;
    • 安全与合规:等保/密评自查单通过;国密链路闭环;
    • 可运维:监控/日志/追踪齐备,演练通过;
    • 可回退:上线/回退 SOP 可复现。

  1. 风险清单与缓解
    • 跨架构缺包/不兼容 → 提前做 ARM/国产 GPU POC,必要时替换库或源码编译;
    • 大模型显存/吞吐不达标 → 量化 + 并行,或降模型规模;OCR 单独资源池;
    • 离线依赖缺失 → 建立离线制品库与校验清单,演练断网安装;
    • 国密只改一段 → 端到端(客户端/网关/服务/存储/DB)一致;
    • 日志与合规缺项 → 上线前以审计项做一次“模拟稽核”。

附录

A. 端口/外联申请单(表格模板)

序号 源IP/网段 目的IP/网段 端口/协议 方向 用途说明 是否必须 加密方式
1 业务子网 DB 子网 5432/TCP 出站 应用访问数据库 是 TLS/GMTLS
2 反向代理 应用节点 443/TCP 入站 用户HTTPS访问 是 GMTLS
3 应用节点 对象存储 9000/TCP 出站 S3 接入 MinIO 是 TLS

备注:如需任何外联(许可证、地图、短信),需单列外联白名单与应急“离线兜底”。

B. S3 兼容自检清单
• 签名 V4 / 分片上传 / 预签名 URL;
• 列表与分页(ListObjectsV2);对象元数据/标签;
• 服务端加密(SSE-S3/SSE-KMS)与桶策略;
• 小文件高并发与大对象断点续传压测;
• CA/域名替换与证书轮换。

C. 麒麟 ARM 镜像自检脚本(示例)

# 架构
docker run --rm your-image:tag uname -m  # 期望 aarch64
# 关键库
docker run --rm your-image:tag sh -lc 'ldd --version; openssl version; locale -a | head'
# cgroup/容器运行时(在宿主)
stat -fc %T /sys/fs/cgroup   # cgroup2fs 表示 v2
systemctl status containerd docker | head -n 5
# 私有 S3 连通(如需)
docker run --rm --net host -e AWS_ACCESS_KEY_ID=... -e AWS_SECRET_ACCESS_KEY=... \
  your-image:tag aws s3 ls --endpoint-url https://s3.internal.local

D. GPU 方案速查(NVIDIA vs 国产 GPU)
• NVIDIA:CUDA/cuDNN/TensorRT-LLM、vLLM;容器用 NVIDIA Container Toolkit;
• 昇腾等国产:CANN + MindSpore/torch-ascend;模型需转换(如 ONNX→OM);容器使用厂商 device plugin;
• 通用建议:优先小模型 POC → 再迁 70B/80B;OCR 独立节点;全链路观测。

E. 离线仓库目录结构(示例)

   /offline-packages/
  images/ (tar 镜像)
  apt-mirror/  |  yum-mirror/
  pypi/ (wheelhouse)
  maven/  npm/
  gpu-sdk/ (驱动/工具链/文档)
  certs/ (CA/证书/CRL)
  scripts/ (安装/回滚/健康检查)
  SBOM_LICENSES/
  SHA256SUMS


一页 Checklist(带走就能用)
• 端口矩阵 & 外联白名单已批复
• MinIO/S3 自检通过(签名V4、分片、预签名、加密)
• GPU 型号与并行/量化方案敲定;OCR 独立资源
• 离线仓库/镜像/依赖齐备且有校验
• 跳板/堡垒机/三员分立账号就绪
• 国密证书/GMTLS 端到端联通
• ARM 镜像与三方库 POC 通过
• 监控/日志/追踪/告警上线
• 压测与 72h 稳定性通过;回退预案可演练

Logo

更多推荐