博主亲测一周，我把本地大模型融入了每天的工作流

2600_96323192

114人浏览 · 2026-06-29 11:25:45

2600_96323192 · 2026-06-29 11:25:45 发布

从早到晚，我把本地大模型“焊”在了工作流里

最近入手了一台搭载 AMD Strix Halo 架构的新笔记本，最让我惊喜的不是游戏帧数，而是那块集成度极高的 Radeon 显卡释放出的端侧 AI 算力。对于开发者而言，本地跑大模型（LLM）一直是“痛并快乐着”：云 API 方便但有隐私顾虑，传统本地部署又常受限于显存带宽，跑起来卡顿如 PPT。Strix Halo 的统一内存架构打破了这一僵局，系统内存可直接被 GPU 高效调用，只要配备 32GB 甚至 64GB 大内存，就能轻松加载 7B 至 32B 参数的大模型。

但这只是硬件基础，软件工具的选择同样关键。在 Windows 环境下，Ollama和LM Studio是两大主流方案。经过一周的深度磨合，我摸索出了一套“双修”策略：日常编码让 Ollama 在后台默默服务，深度调试或处理长文档时则启用 LM Studio。这种组合拳真正挖掘出了 Ryzen AI 的全部潜力。

清晨：行业资讯的自动化摘要

早晨是我信息摄入的高峰期。昨晚收藏的几十篇技术博客和行业新闻，如果人工阅读至少需要一小时。现在，我会直接打开 LM Studio，加载一个支持长上下文的模型（如 Qwen2.5-14B）。

得益于 Strix Halo 的大内存优势，我可以将 Context Length 直接拉满到 128k。这意味着我能一次性把几十篇 PDF 或 Markdown 文件拖进对话框，无需切割文档。LM Studio 的图形界面能实时显示显存占用，确保所有计算层都交由 Radeon GPU 处理，避免切片到慢速系统内存中。

# 示例：在 LM Studio 中设置上下文长度
# 右侧设置栏 -> Context Length -> 拖动滑块至 131072 (128k)
# 确保 GPU Offload 滑块拉满，显示 "100% offloaded"

几秒钟后，模型就能生成一份结构清晰的摘要简报，提取出关键的技术趋势和潜在风险。这种离线处理能力不仅速度快，更重要的是数据完全闭环，不用担心内部研报泄露到云端。

上午：代码辅助与老旧项目重构

进入 coding 时间，我的主力工具切换为 Ollama。它的优势在于轻量化的后台服务模式，资源占用极低，几乎感觉不到它的存在。

我主要在 VS Code 中使用 Continue 插件，配置指向本地 Ollama 服务（默认 http://127.0.0.1:11434）。这种方式实现了“零感知”的编程辅助。印象最深的一次，是需要重构一段十年前的老旧 Java 代码。逻辑混乱且缺乏注释，人工梳理极其痛苦。

我将整个文件丢给本地的 14B 模型，Prompt 很简单：“解释这段代码的功能，并给出现代化的重构建议，保留原有业务逻辑。”

模型不仅迅速解释了每一块代码的功能，还识别出了过时的设计模式，直接生成了包含类型提示和异常处理的重构代码。整个过程没有网络延迟，迭代速度极快。在 Strix Halo 上，即使是 14B 模型，生成速度也能稳定在 28 tokens/s 左右，完全跟得上我的思维节奏。

下午：文章润色与散热小插曲

下午撰写技术文章时，我会再次切换到 LM Studio 进行大纲梳理和段落润色。它的聊天窗口支持多轮对话，非常适合反复推敲措辞。

不过，在长时间高负载推理（特别是运行 32B 大模型）时，我也遇到了一个小问题：笔记本温度明显升高，风扇噪音变大。这是因为 Radeon GPU 在全速运转时发热量不容小觑。

解决方法很简单但有效：

开启性能模式：在系统电源管理中确保处于高性能状态，避免 CPU/GPU 频繁降频导致卡顿。
物理散热：我垫高了笔记本底部，并使用了一个外接散热底座，温度立刻下降了 5-8 度，推理速度也恢复稳定。
驱动更新：务必确认 AMD 显卡驱动已更新至最新版本，以获得最好的 ROCm/Vulkan 支持。旧版本驱动有时会导致 GPU 利用率上不去，出现“假死”现象。

结语：让 AI 成为真正的生产力

这一周的实践让我深刻意识到，本地 AI 不再是极客的玩具，而是实实在在的生产力工具。Strix Halo 架构配合 Ollama 与 LM Studio，构建了一个既安全又高效的私人智能助手环境。

早晨的资讯摘要、上午的代码重构、下午的文章润色，AI 无缝融入了每一个环节。你不需要纠结于选哪个工具，因为它们本就是互补的搭档：Ollama 做幕后英雄，提供稳定的 API 服务；LM Studio 做前台管家，提供灵活的交互体验。只要合理配置，你的笔记本就能成为最得力的智能伙伴，让数据留在本地，让灵感自由流淌。

200小时GPU算力已就位，快来领取：https://marketing.csdn.net/questions/Q2604140858304426315?utm_source=AIpaper
在这里插入图片描述

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

VLLMService Operator 开发第五篇：部署 Operator 并验证模型服务

存储准备完成后，就可以创建 VLLMService 资源了。metadata:spec:labels:port: 8000resources:requests:cpu: "2"limits:cpu: "4"storage:这里需要明确一点：VLLMService 本身只是用户声明的期望状态，它并不会直接运行模型。真正运行模型的是 Operator 根据这个 VLLMService 自动创建出来的

AMD开发者中国社区

Higress v2.2.3 发布：AI Gateway 能力增强，Gateway API 及其推理扩展持续打磨

Higress v2.2.3 版本发布，带来多项核心更新：新增 AI Gateway 的 vLLM 协议透传和上下文限制插件，增强 AI 安全防护与负载均衡；优化 Gateway API 隔离与推理路由配置；改进 Ingress 迁移体验；加固安全认证组件与 TLS 校验；修复多项 Console 问题。社区层面，Higress 正式入驻 CNCF Sandbox。