手写 Python 脚本调用本地模型，Ryzen AI 批量处理文本演示

小助手

1人浏览 · 2026-06-17 10:16:46

小助手 · 2026-06-17 10:16:46 发布

为什么选择本地脚本处理敏感数据

在开发日常中，我们常遇到需要批量处理内部文档、代码注释或会议记录的场景。如果将这些数据发送到云端 API，不仅产生费用，更埋下了数据泄露的隐患。对于金融、法律或核心研发部门，"数据不出域"是硬性红线。

依托 AMD Ryzen AI（特别是 Strix Halo 架构）与 Radeon GPU 的强大算力，我们现在可以在完全离线的笔记本上运行高性能大模型。配合 LM Studio 提供的本地 OpenAI 兼容接口，只需几行 Python 代码，就能构建一个安全、高效且零成本的批量文本处理流水线。本文将直接切入实战，带你手写一个健壮的调用脚本，彻底告别云端焦虑。

环境准备与接口确认

在运行代码前，请确保你的本地推理服务已就绪。推荐使用 LM Studio，它在 Windows 环境下对 AMD Vulkan 后端的支持最为稳定，能充分释放 Ryzen AI 的统一内存优势。

启动服务：打开 LM Studio，加载你需要的模型（推荐 Qwen2.5-Coder 或 Llama 3.1 的量化版）。
开启服务器：点击左侧“开发者设置”（< > 图标），进入 Local Server 面板。
关键配置：
- 确保 GPU Offload 已启用且显示为 Vulkan/Radeon。
- 将 Context Length 拉大（建议 16k-128k），以支持长文档处理。
- 点击 Start Server，默认监听地址通常为 http://127.0.0.1:1234。

此时，你的电脑已经变成了一个私有的 AI 算力节点。接下来，我们用 Python 与之对话。

核心实战：批量文本处理脚本

下面是一个完整的 Python 脚本，它不依赖任何重型框架，仅需标准的 requests 库。该脚本设计了批量处理逻辑、完善的错误捕获机制以及清晰的日志输出，非常适合集成到日常开发工具链中。

import requests
import json
import time
from typing import List, Dict

# === 配置区域 ===
# 本地 LM Studio 服务地址，默认端口 1234
API_URL = "http://127.0.0.1:1234/v1/chat/completions"
HEADERS = {"Content-Type": "application/json"}

# 模拟一批待处理的内部数据（实际使用中可替换为读取本地文件）
TASKS = [
    {"id": 1, "content": "请总结这段关于 Ryzen AI 统一内存架构的技术笔记，提取三个核心优势。"},
    {"id": 2, "content": "将以下 Python 函数注释翻译成中文，并解释其潜在的空指针风险：\ndef get_user_data(uid): return db.query(uid)"},
    {"id": 3, "content": "分析这份会议记录片段，列出所有待办事项（TODO）及其负责人。"}
]

def process_single_task(task_item: Dict) -> Dict:
    """
    发送单个任务到本地模型并处理响应
    """
    task_id = task_item['id']
    prompt_text = task_item['content']
    
    # 构建符合 OpenAI 标准的请求体
    payload = {
        "model": "local-model",  # 本地部署时，此参数可任意填写，LM Studio 会忽略它并使用当前加载的模型
        "messages": [
            {"role": "system", "content": "你是一个运行在本地离线环境的安全 AI 助手。所有数据处理均在本地完成，严禁联网。"},
            {"role": "user", "content": prompt_text}
        ],
        "temperature": 0.3,      # 温度参数：越低越严谨，适合代码/事实提取；越高越发散，适合创意写作
        "max_tokens": 1024,      # 限制最大生成长度，防止过长占用资源
        "stream": False          # 关闭流式输出，便于批量脚本等待完整结果
    }

    try:
        # 发送 POST 请求
        response = requests.post(API_URL, headers=HEADERS, data=json.dumps(payload), timeout=60)
        
        if response.status_code == 200:
            result_content = response.json()['choices'][0]['message']['content']
            return {"id": task_id, "status": "success", "result": result_content}
        else:
            return {"id": task_id, "status": "error", "message": f"API 返回错误码：{response.status_code}"}
            
    except requests.exceptions.ConnectionError:
        return {"id": task_id, "status": "error", "message": "无法连接本地服务，请检查 LM Studio 是否启动"}
    except Exception as e:
        return {"id": task_id, "status": "error", "message": f"发生未知异常：{str(e)}"}

def batch_process(tasks: List[Dict]):
    print(f"🚀 开始本地批量处理，共 {len(tasks)} 个任务...")
    print(f"🔒 运行环境：离线本地模式 (No Internet Access)")
    
    results = []
    for i, task in enumerate(tasks):
        print(f"\n[{i+1}/{len(tasks)}] 正在处理任务 ID: {task['id']}...")
        res = process_single_task(task)
        
        if res['status'] == 'success':
            print(f"✅ 完成。结果预览：{res['result'][:50]}...")
        else:
            print(f"❌ 失败：{res['message']}")
        
        results.append(res)
        # 简单限流，避免瞬间高负载（本地运行通常不需要，但保留以防万一）
        time.sleep(0.5) 
        
    return results

if __name__ == "__main__":
    final_output = batch_process(TASKS)
    
    print("\n--- 最终结果汇总 ---")
    # 这里可以将结果写入本地 JSON 文件或数据库
    for item in final_output:
        if item['status'] == 'success':
            print(f"Task {item['id']}:\n{item['result']}\n{'-'*30}")

关键参数解析

在脚本中，有两个参数直接决定了输出的质量与风格，理解它们对调试至关重要：

model 参数：在云端 API 中，这决定了使用哪个模型。但在 LM Studio 本地模式下，这个字段实际上被忽略了。无论你填什么（如 "local-model" 或 "gpt-4"），LM Studio 都会使用当前界面中已加载的那个模型进行推理。这简化了脚本配置，你只需关注界面上的模型切换。
temperature 参数：这是控制模型“创造力”的旋钮。
- 设置为 0.1 - 0.3：模型会变得非常严谨、确定性强。适合代码解释、数据提取、事实总结等任务，能最大程度减少幻觉。
- 设置为 0.7 - 0.9：模型会更发散、富有创意。适合头脑风暴、文案润色。
- 在本脚本中，我将其设为 0.3，因为我们要处理的是技术笔记和代码，准确性优先。

无网环境下的安全实践

这段代码的核心价值在于物理隔绝。当你运行它时，数据包从 Python 脚本发出，经过 localhost 回环接口，直接进入 LM Studio 进程，调用显存中的模型权重，最后返回结果。整个链路完全不经过网卡，即使拔掉网线也能正常运行。

对于企业内部敏感的代码库、未公开的专利文档或包含用户隐私的日志，这种处理方式消除了所有合规风险。你不再需要签署复杂的数据处理协议，也不用担心第三方服务商的后台审计。Ryzen AI 的大统一内存架构更是让这一切变得流畅，即使是几十页的技术文档，也能在秒级内完成向量化与推理，无需担心显存溢出（OOM）。

集成到日常工作流

不要让这个脚本躺在文件夹里吃灰，它可以成为你开发工作流的一部分：

IDE 插件化：将上述逻辑封装成 VS Code 或 PyCharm 的插件命令。选中一段代码，右键点击“本地 AI 解释”，即可直接在编辑器侧边栏看到结果。
CI/CD 辅助：在本地构建流程中加入此脚本，自动扫描提交日志（Commit Message），检查是否符合规范，或自动生成变更摘要。
知识库维护：编写一个定时任务，监控特定文件夹的新增 Markdown 文档，自动调用脚本生成标签和摘要，更新到本地的 ChromaDB 向量库中。

通过这种方式，你不仅拥有了一台高性能的本地 AI 服务器，更掌握了一套完全可控、隐私安全的自动化处理工具。在端侧 AI 时代，算力就在手边，而安全感，源于每一行代码都运行在自己的机器上。

🎁 开发者“神装”补给站｜CSDN 6 月宠粉专属福利
工欲善其事，必先利其器。为了帮大家扫清 AI 实践的障碍，CSDN AI 开发者计划，在文末为大家准备了一份「AI 开发者能量包」！
在这里插入图片描述

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

96GB 大内存的暴力美学：Strix Halo 本地部署 Qwen2.5-7B，NPU 量化竟让功耗骤降 60%

今年 AMD 联合 CSDN 举办的AI 开发者征文大赛刚好撞上我刚入手的ROG 幻 X 2025 (Strix Halo)——一颗内置 50TOPS NPU、16 核 Zen5 的怪兽，最关键的是它怼了96GB LPDDR5X-8000 统一内存。过去跑大模型只能在云端 GPU 实例上烧钱，数据隐私还得看云厂商脸色。现在一台笔记本就能吞下 70B 模型，还能打开 NPU 加速把功耗压到 28W

AMD开发者中国社区

Llama3-8B 端侧重生：Ryzen AI NPU INT4 量化部署实战，功耗打下来、性能飙上去

本文为 AMD 征文赛道一端侧 AI 创新实战文章，以 Ryzen AI 9 HX 370 内置 XDNA2 NPU 为硬件载体，完成 Llama3-8B 的 INT4/INT8 量化与本地离线推理全流程搭建。文中提供全套可运行环境部署、模型量化、NPU 推理代码，并通过多维度对照测试验证：NPU INT4 推理吞吐是纯 CPU 的 3.6 倍，整机功耗减半且文本精度损失极小。针对 AMD NPU

AMD开发者中国社区

Ryzen AI 与 Radeon GPU 协同应用实战指南

在本地部署大模型进行推理时，最让人头疼的往往不是模型本身的复杂度，而是等待响应的那几秒甚至几十秒。很多开发者在尝试将开源模型引入实际工作流时，发现理论上的算力足以支撑，但实际体验却卡顿严重，根本原因在于推理引擎与硬件资源之间的匹配度不够。无论是为了提升视频剪辑的效率，还是优化游戏 NPC 的实时反应，底层的核心痛点都是如何让计算资源在有限的功耗和延迟约束下发挥最大效能。这个问题之所以值得关注，是因