拒绝云端泄露，用 Ollama 在锐龙本上私有化部署

2600_96323174 · 2026-06-24 10:13:12 发布

最近处理一份公司内部的技术方案评审，文档里涉及不少未公开的产品逻辑和客户数据。按照以往习惯，我可能会把关键段落丢给某个在线大模型 API，让它帮忙总结或润色。但这次，我犹豫了。

不是不信任那些服务，而是数据一旦离开本地，哪怕只是几秒的传输，心里总有点不踏实。尤其是商业机密，哪怕泄露风险只有万分之一，落到自己头上就是百分之百。于是，我干脆把笔记本断网，在本地用 Ollama 搭了个私有化环境，全程离线跑完了所有分析。

我手头这台笔记本搭载的是 AMD 锐龙 AI 系列处理器，内置了专用的 NPU 单元。虽然很多人觉得 NPU 主要是为视频会议、实时翻译这些场景准备的，但实际用起来，它跑本地大模型推理的能效比确实不错——功耗低、发热小，而且完全不需要联网。

Ollama 这个工具特别适合这种场景。它把模型下载、服务启动、API 暴露这些步骤都封装得特别简单，几乎不用写什么配置。我用的命令就一行：

ollama run qwen2.5:7b-instruct

模型会自动下载到本地，启动后默认监听 127.0.0.1:11434。如果你希望其他局域网设备也能访问（比如团队内网测试），可以改一下监听地址：

OLLAMA_HOST=0.0.0.0 ollama serve

但像我这种处理敏感文档的场景，反而要确保它只监听本地回环地址，避免意外暴露。Ollama 的配置文件在 ~/.ollama/config.json，可以手动设置：

{
  "host": "127.0.0.1",
  "port": 11434,
  "origin": ""
}

改完重启服务就行。这样，所有请求都只能从本机发起，数据根本出不去。

断网跑模型，听起来好像有点极端，但实际用起来反而更专注。没有网络波动，没有 API 限流，也不用担心 token 用超。锐龙本的 NPU 在跑 7B 参数级别的模型时，响应速度完全够用，生成一段几百字的分析，大概十几秒，和在线 API 差距不大。

更重要的是，整个过程数据都在本地。文档不用上传，提示词不用发送，连模型权重都是离线下载的。哪怕公司网络被监控、哪怕公共 Wi-Fi 有风险，这些敏感信息也始终留在自己的硬盘里。

有时候，技术选型不只是看性能指标，还得考虑“心里那关”。尤其是处理商业文档、客户数据、内部策略的时候，能完全掌控数据流向，那种踏实感是任何云服务都给不了的。

如果你也想试试本地部署，有几个小经验可以分享：

模型选择：7B 参数左右的指令微调模型（比如 Qwen2.5-7B-Instruct、Llama-3-8B-Instruct）在锐龙 AI 的 NPU 上跑起来比较均衡，速度和效果都能兼顾。
内存预留：本地跑模型会占用不少内存，建议至少 16GB，32GB 更从容。Ollama 默认会利用可用内存做缓存，加载过的模型切换起来很快。
离线准备：提前在有网的环境把模型拉下来，ollama pull <模型名> 就行。之后断网也能直接用。
端口安全：如果不需要远程访问，一定把监听地址设为 127.0.0.1，避免服务意外暴露到局域网。

本地部署不是要完全取代云端，而是多一个选择。当你面对真正敏感的数据时，能有一个完全由自己掌控的“安全沙箱”，这种能力本身就是一种底气。
在这里插入图片描述