基于Streamlit与本地LLM的私有AI助手：从语音识别到安全工具调用

在人工智能应用开发中，本地化部署与数据隐私保护正成为关键需求。其核心原理在于将语音识别、大语言模型推理与工具调用等模块集成在用户本地环境中运行，避免数据上传云端。这种架构的技术价值在于实现了完全自主可控的智能交互系统，消除了API调用限制与费用担忧，同时保障了敏感信息的安全性。应用场景广泛覆盖个人效率工具、智能家居控制、离线文档处理等私有化需求。本文通过整合本地语音识别模型Whisper与开源大语

若水斋娜娜

520人浏览 · 2026-05-27 10:18:39

若水斋娜娜 · 2026-05-27 10:18:39 发布

1. 项目概述：一个能听懂话、会干活的本地AI助手

最近我一直在琢磨，能不能搞一个完全运行在自己电脑上的AI助手，它不仅能听懂我说话，还能根据我的指令去执行一些具体的任务，比如查查天气、控制一下智能家居，或者帮我整理文件。最关键的是，整个过程数据不出本地，没有隐私泄露的担忧，也不用担心联网API的调用限制和费用。这个想法听起来挺酷，但实现起来涉及好几个环节：语音识别、AI大脑、工具执行，还得有个好用的界面把它们串起来。

经过一番折腾，我最终用 Streamlit 搭建了一个交互式Web界面，用 本地语音识别（STT） 处理我的语音指令，再结合一个开源的 本地大语言模型（LLM） 作为“大脑”来理解意图和规划行动，最后通过一个 安全的工具执行框架 来实际运行代码或调用本地函数。整个项目就像一个微型的、私有的“贾维斯”，完全在你的掌控之中。如果你也对构建一个能脱离云端、自主工作的智能体感兴趣，或者想深入了解如何将语音、AI和自动化安全地结合起来，那么我踩过的这些坑和总结的方案，或许能给你带来不少启发。

2. 核心架构设计与技术选型思路

构建这样一个系统，核心在于模块化设计和安全边界划定。我们不能让AI模型直接、不受限制地操作我们的系统，那太危险了。我的设计思路是： 语音输入 -> 文本转换 -> 意图理解与任务规划 -> 安全工具调用 -> 结果反馈 。这是一个清晰的流水线，每个环节都可以独立优化和替换。

2.1 为什么选择Streamlit作为交互前端？

首先需要一个界面，能把所有功能聚合起来，并且方便展示结果。我排除了传统的桌面GUI框架（如PyQt、Tkinter），因为它们对于快速原型和Web风格的交互来说有点重。也考虑了Gradio，它确实简单，但在构建复杂一点的多步骤交互和状态管理上，我感觉Streamlit更直观、更像在写一个纯粹的Python脚本。

Streamlit的核心优势在于其“数据流”编程模型。我只需要定义好界面元素（按钮、输入框、聊天容器）和背后的数据处理逻辑，Streamlit会自动处理交互和重新运行。这对于我们这个需要实时显示语音识别状态、AI思考过程和工具执行结果的场景非常合适。例如，我可以轻松地创建一个会话历史记录区，把用户的问题、AI的回复、工具调用的日志都清晰地展示出来。而且，Streamlit应用本质上是一个Web服务，我可以在局域网内任何设备上通过浏览器访问它，扩展了使用场景。

2.2 本地STT模型的选择与权衡

语音识别是整个流程的入口，它的准确性和速度直接影响体验。云端API（如Google、Azure的语音服务）准确率高，但不符合我们“完全本地化”的宗旨。本地STT方案主要有几类：

大型通用模型 ：如OpenAI的Whisper系列。这是当前效果的天花板，支持多语言，对嘈杂环境、口音、专业术语的鲁棒性都非常好。我最终选择了 Whisper ，因为它提供了从 tiny 到 large 的各种尺寸模型，可以在精度和速度之间做灵活权衡。对于桌面应用， base 或 small 模型在保证不错准确率的同时，推理速度已经可以接受。
专用轻量级模型 ：如Vosk、Coqui STT。这些模型通常更小、更快，专注于特定语言（如英语），在资源受限的环境（如树莓派）上表现更好。但如果需要处理中文或混合语言，Whisper的通用性优势就很大了。
操作系统内置 ：macOS的 NSSpeechRecognizer 或Windows的 SpeechRecognition 库（背后是SAPI）。这些方案最轻量，但识别能力、灵活性和跨平台性较差。

注意：Whisper模型第一次运行时需要下载， base 模型大约几百MB。务必确保你的Python环境有足够的磁盘空间和稳定的网络（仅首次下载）。推理时，Whisper对CPU和内存有一定要求，如果追求实时性，可以考虑使用GPU加速（需安装相应版本的PyTorch和CUDA）。

我选择Whisper的 base 模型，在我的开发机（Intel i7 CPU）上，转录一段5秒的语音大约需要1-2秒，这个延迟对于非实时对话场景是可以接受的。如果你的应用需要极低的延迟，可以降级到 tiny 模型，或者探索专门的流式Whisper实现。

2.3 本地LLM作为“大脑”的考量

这是智能体的核心。我们需要一个能理解指令、进行逻辑推理、并生成结构化行动计划（如调用哪个工具、传入什么参数）的模型。同样，为了本地化，我们选择开源LLM。

模型选型 ：像 Llama 3 、 Qwen 2 、 Mistral 系列的模型都是优秀的选择。它们有不同规模的版本（如7B、8B、14B等）。对于工具调用任务，模型需要具备一定的“函数调用”（Function Calling）或“工具使用”（Tool Use）能力。许多社区微调版本（如 Llama-3-8B-Instruct ）在这方面表现不错。我选择了一个针对工具调用进行过指令微调的 Qwen2-7B-Instruct 模型，它在任务规划和参数提取上表现更稳定。
推理后端 ：直接使用PyTorch或Transformers库加载原生模型虽然直接，但对资源要求高，且推理速度可能较慢。更推荐使用专门的推理服务器，如 Ollama 、 LM Studio 或 vLLM 。
- Ollama ：极其简单易用，一条命令就能拉取和运行模型，内置了模型管理，并且提供了干净的API（兼容OpenAI API格式）。这对于快速搭建原型来说是最佳选择。
- LM Studio ：提供了图形界面，方便本地管理和测试模型，同时也提供本地服务器。
- vLLM ：专注于生产环境的高吞吐量、低延迟推理，支持连续批处理和PagedAttention，性能最强，但配置稍复杂。

我选择了 Ollama ，因为它完美地平衡了易用性和功能性。我只需要在终端执行 ollama run qwen2:7b ，一个本地API服务就启动了。然后，我可以用类似调用ChatGPT API的方式（通过 openai 库，将 base_url 指向本地）来与我的本地模型对话，这大大简化了集成工作。

2.4 安全工具执行框架的设计哲学

这是整个系统安全性的生命线。绝对不能让LLM生成的代码或命令被直接、无监督地执行。我的设计原则是 “白名单” 和 “沙箱” 。

工具（Tools）抽象 ：首先，我需要定义AI可以使用的“工具”。每个工具对应一个安全的、预先编写好的Python函数。例如：
- get_weather(city: str) -> str ：调用本地缓存的天气数据或一个安全的、无需认证的公共API。
- search_files(keyword: str, directory: str) -> list ：在指定目录下安全地搜索文件名。
- calculate_expression(expr: str) -> float ：使用 ast.literal_eval 安全地计算数学表达式。
- control_light(device_id: str, action: str) ：通过预定义的MQTT或HTTP客户端控制智能设备。
工具描述与注册 ：为每个工具编写清晰的描述，包括功能、参数及其类型。然后将这些工具“注册”到AI代理系统中。LLM（通过提示词）会学习这些工具的描述，并在需要时决定调用哪一个。
安全调用与沙箱 ：当LLM输出“我需要调用工具X，参数是Y”时，系统不能直接 eval() 这个字符串。我的流程是： a. 解析与验证 ：从LLM的回复中，解析出工具名和参数字典。 b. 白名单检查 ：检查工具名是否在已注册的白名单内。 c. 参数类型与安全检查 ：检查传入的参数类型是否符合函数定义，并对参数值进行基本的清洗和校验（例如，防止目录遍历攻击 ../../../etc/passwd ）。 d. 受限执行 ：在 子进程 或 受限环境 中调用对应的Python函数。对于执行系统命令（如 ls , cat ）这种高风险操作，我选择不提供通用命令执行工具。如果必须，可以考虑使用 subprocess 配合严格的参数过滤和资源限制（超时、内存），但这依然风险很高，应尽量避免。

我采用了 LangChain 或 LlamaIndex 这类框架中的“工具调用”组件作为基础，因为它们已经实现了上述模式的大部分安全逻辑。但即使使用框架，理解其背后的安全机制并对其进行定制化加固（比如增加更严格的参数校验）仍然是至关重要的。

3. 核心模块实现与集成细节

有了清晰的架构，接下来就是动手把各个模块搭建起来，并让它们顺畅地协同工作。我会按照数据流的顺序，逐一拆解实现细节。

3.1 Streamlit应用骨架与状态管理

首先初始化Streamlit应用。我们需要管理一些会话状态（Session State），这是Streamlit中在页面重载间保持数据的关键。

import streamlit as st
import json
from datetime import datetime

# 初始化会话状态
if 'conversation' not in st.session_state:
    st.session_state.conversation = []  # 存储对话历史
if 'audio_data' not in st.session_state:
    st.session_state.audio_data = None  # 存储录制的音频字节
if 'transcript' not in st.session_state:
    st.session_state.transcript = ""  # 存储识别出的文本

# 页面布局
st.set_page_config(page_title="本地AI助手", layout="wide")
st.title("🎤 本地语音控制AI助手")

# 创建两列布局
col_left, col_right = st.columns([1, 2])

with col_left:
    st.header("语音输入")
    # 这里之后会放置录音按钮和状态显示

with col_right:
    st.header("对话与执行")
    # 这里之后会放置聊天历史显示和工具执行日志

状态管理是Streamlit开发的核心。所有用户交互（如点击录音按钮）都会触发脚本的重新运行。我们需要利用 st.session_state 来持久化关键数据，避免每次交互后数据丢失。

3.2 语音录制与Whisper本地识别集成

在左侧栏，我们需要实现录音功能。HTML5的 <input type=”file”> 可以用于上传文件，但对于实时录音，我们需要借助JavaScript。Streamlit的 st.audio_input 组件在较新版本中提供了此功能，但为了更灵活的控制（如录制时长、格式），我使用了 streamlit-webrtc 组件，它提供了真正的实时音频流。不过，为了简化，我先采用一个更直接的方法：使用浏览器API录音并通过 st.audio_input 或文件上传器接收。

这里我展示一个使用 pyaudio 进行后端录音，结合Streamlit按钮控制的方案。注意，这需要用户在本地安装 pyaudio 。

import pyaudio
import wave
import threading
import tempfile
import os

# 录音控制类
class AudioRecorder:
    def __init__(self):
        self.frames = []
        self.is_recording = False
        self.stream = None
        self.p = pyaudio.PyAudio()

    def start_recording(self):
        self.is_recording = True
        self.frames = []
        # 音频流参数
        FORMAT = pyaudio.paInt16
        CHANNELS = 1
        RATE = 16000
        CHUNK = 1024

        self.stream = self.p.open(format=FORMAT,
                                  channels=CHANNELS,
                                  rate=RATE,
                                  input=True,
                                  frames_per_buffer=CHUNK)
        threading.Thread(target=self._record).start()

    def _record(self):
        while self.is_recording:
            data = self.stream.read(CHUNK, exception_on_overflow=False)
            self.frames.append(data)

    def stop_and_save(self):
        self.is_recording = False
        if self.stream:
            self.stream.stop_stream()
            self.stream.close()
        # 保存为临时WAV文件
        FORMAT = pyaudio.paInt16
        CHANNELS = 1
        RATE = 16000
        with tempfile.NamedTemporaryFile(delete=False, suffix='.wav') as tmpfile:
            wf = wave.open(tmpfile.name, 'wb')
            wf.setnchannels(CHANNELS)
            wf.setsampwidth(self.p.get_sample_size(FORMAT))
            wf.setframerate(RATE)
            wf.writeframes(b''.join(self.frames))
            wf.close()
            return tmpfile.name
        return None

# 在Streamlit中初始化录音器
if 'recorder' not in st.session_state:
    st.session_state.recorder = AudioRecorder()

with col_left:
    st.subheader("控制面板")
    col_start, col_stop = st.columns(2)
    with col_start:
        if st.button("🎤 开始录音", key="start_rec", use_container_width=True):
            st.session_state.recorder.start_recording()
            st.info("录音中...请说话")
    with col_stop:
        if st.button("⏹️ 停止并识别", key="stop_rec", use_container_width=True):
            audio_file_path = st.session_state.recorder.stop_and_save()
            if audio_file_path:
                st.session_state.audio_file_path = audio_file_path
                st.success(f"音频已保存，准备识别")
                # 触发识别流程
                st.rerun()  # 触发重新运行以进入识别步骤

接下来，集成Whisper进行识别。我们不会在每次页面重载时都加载模型，那样太慢。利用 st.cache_resource 来缓存模型。

import whisper

@st.cache_resource
def load_whisper_model(model_size="base"):
    """加载并缓存Whisper模型"""
    st.write(f"正在加载Whisper {model_size}模型（首次运行较慢）...")
    model = whisper.load_model(model_size)
    return model

# 在录音停止后，进行识别
if 'audio_file_path' in st.session_state and st.session_state.audio_file_path:
    model = load_whisper_model("base")
    with st.spinner("Whisper正在识别语音..."):
        result = model.transcribe(st.session_state.audio_file_path, language="zh")
        transcript_text = result["text"].strip()
        st.session_state.transcript = transcript_text
        st.session_state.conversation.append({"role": "user", "content": transcript_text})
        st.success(f"识别结果: {transcript_text}")
    # 清理临时文件
    os.unlink(st.session_state.audio_file_path)
    del st.session_state['audio_file_path']

实操心得 ：Whisper的 transcribe 方法默认会进行VAD（语音活动检测）并分段，对于长音频效果很好。 language 参数可以指定，但即使不指定，模型通常也能自动检测。指定语言（如 language=”zh” ）能略微提升识别准确率。识别后的文本最好做一些后处理，比如去除首尾空格、合并因停顿产生的多余标点。

3.3 连接本地Ollama服务与提示词工程

识别出文本后，就需要发送给本地的LLM。假设你已经运行了Ollama并拉取了模型（例如： ollama pull qwen2:7b 然后 ollama serve ），它会在 http://localhost:11434 提供API服务。

我们可以使用 openai 库（因为它兼容OpenAI API格式）来调用，或者直接用 requests 。

from openai import OpenAI
import json

# 配置本地Ollama客户端
client = OpenAI(
    base_url='http://localhost:11434/v1',
    api_key='ollama', # Ollama不需要真正的key，但需要提供
)

# 定义可用的工具列表，以JSON Schema格式描述
tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "获取指定城市的当前天气信息",
            "parameters": {
                "type": "object",
                "properties": {
                    "city": {"type": "string", "description": "城市名称，例如：北京、上海"}
                },
                "required": ["city"]
            }
        }
    },
    {
        "type": "function",
        "function": {
            "name": "calculate",
            "description": "计算一个数学表达式的结果",
            "parameters": {
                "type": "object",
                "properties": {
                    "expression": {"type": "string", "description": "数学表达式，例如：3 + 5 * 2, sqrt(16)"}
                },
                "required": ["expression"]
            }
        }
    },
    # ... 可以定义更多工具
]

# 构建系统提示词，指导AI使用工具
system_prompt = """你是一个运行在用户本地的AI助手。你的目标是理解用户的请求，并决定是否需要使用工具来帮助用户。
你可以使用的工具如下：
{tools_descriptions}
请遵循以下规则：
1. 仔细分析用户问题。
2. 如果问题需要用到上述工具，请以严格的JSON格式回复，格式为：{{"tool": "工具名", "arguments": {{"参数1": "值1", ...}}}}。
3. 如果不需要工具，或者工具不适用，请直接给出友好、有帮助的文本回复。
4. 不要解释你的思考过程，直接输出JSON或文本。
用户问题：{user_input}
"""

def query_local_llm(user_input):
    # 将工具列表转换为描述性文本，放入提示词
    tools_desc = "\n".join([f"- {t['function']['name']}: {t['function']['description']}" for t in tools])
    prompt = system_prompt.format(tools_descriptions=tools_desc, user_input=user_input)

    try:
        response = client.chat.completions.create(
            model="qwen2:7b", # 与Ollama运行的模型名一致
            messages=[{"role": "user", "content": prompt}],
            temperature=0.1, # 低温度使输出更确定，更适合工具调用
            max_tokens=500,
        )
        llm_output = response.choices[0].message.content.strip()
        return llm_output
    except Exception as e:
        return f"调用本地模型失败: {e}"

当用户语音识别完成后，我们调用这个函数：

if st.session_state.transcript:
    user_query = st.session_state.transcript
    with st.spinner("AI正在思考..."):
        llm_response = query_local_llm(user_query)
        st.session_state.conversation.append({"role": "assistant", "content": llm_response, "raw": llm_response})

注意事项 ：提示词工程是关键。你需要清晰地告诉模型工具的格式。我在这里要求模型输出纯JSON，这便于后续解析。更复杂的框架（如LangChain）会帮你处理工具描述的嵌入和输出的解析，但手动构建让你对流程有完全的控制权。温度（ temperature ）设置较低（如0.1），可以减少输出的随机性，让模型更稳定地生成结构化JSON。

3.4 安全工具执行器的实现

现在，我们拿到了LLM的回复。它可能是一段文本，也可能是一个JSON字符串。我们需要解析它，并安全地执行对应的工具。

首先，实现工具函数本身：

import math
import re

# 工具1：获取天气（模拟）
def get_weather(city: str) -> str:
    # 这里应该是调用天气API，为了安全和简化，我们模拟数据
    # 真实场景下，可以调用和风天气、OpenWeatherMap等API的免费层级，但注意API KEY的安全存储（不要硬编码）
    weather_data = {
        "北京": "晴，25°C，微风",
        "上海": "多云，28°C，东南风3级",
        "广州": "阵雨，30°C，南风4级",
    }
    return weather_data.get(city, f"抱歉，未找到{city}的天气信息。目前支持：{', '.join(weather_data.keys())}")

# 工具2：计算数学表达式
def calculate(expression: str) -> str:
    # 安全计算：使用ast.literal_eval，它只能评估字面量表达式，不能执行函数或导入模块。
    # 但literal_eval不支持数学函数如sqrt，所以我们需要先进行预处理和限制。
    # 更安全的做法是使用一个限制性的评估库，如 `simpleeval`。
    try:
        # 移除危险字符，只允许数字、基本运算符、空格和括号
        safe_expr = re.sub(r'[^\d\+\-\*\/\.\s\(\)]', '', expression)
        # 使用eval仍然有风险，即使是过滤后。这里仅为演示。
        # 生产环境请使用：from simpleeval import simple_eval; result = simple_eval(safe_expr)
        result = eval(safe_expr, {"__builtins__": None}, {})
        return f"{expression} = {result}"
    except Exception as e:
        return f"计算表达式 '{expression}' 时出错: {e}"

# 工具映射字典
TOOL_REGISTRY = {
    "get_weather": get_weather,
    "calculate": calculate,
}

然后，实现一个安全的路由和执行器：

import json
import ast

def safe_execute_tool(llm_output: str) -> (str, bool):
    """
    解析LLM输出，并安全执行工具。
    返回：(执行结果或文本回复, 是否执行了工具)
    """
    # 1. 尝试解析为JSON
    tool_call = None
    try:
        # 有些LLM输出可能会被Markdown代码块包裹
        cleaned_output = llm_output.strip()
        if cleaned_output.startswith("```json"):
            cleaned_output = cleaned_output[7:-3].strip() # 去除 ```json 和 ```
        elif cleaned_output.startswith("```"):
            cleaned_output = cleaned_output[3:-3].strip()

        tool_call = json.loads(cleaned_output)
        # 验证JSON结构
        if not isinstance(tool_call, dict) or 'tool' not in tool_call or 'arguments' not in tool_call:
            raise ValueError("JSON格式不正确，缺少'tool'或'arguments'字段")
    except (json.JSONDecodeError, ValueError) as e:
        # 如果解析失败，说明LLM返回的是普通文本回复
        return llm_output, False

    # 2. 白名单检查
    tool_name = tool_call['tool']
    if tool_name not in TOOL_REGISTRY:
        return f"错误：未知工具 '{tool_name}'。", False

    # 3. 参数提取与基本清洗
    args = tool_call['arguments']
    tool_func = TOOL_REGISTRY[tool_name]

    # 4. 执行工具（在try-catch中）
    try:
        # 这里可以根据工具函数的签名，动态传递参数
        # 简单起见，假设参数是字典形式，且与函数参数匹配
        result = tool_func(**args)
        return str(result), True
    except TypeError as e:
        return f"工具调用参数错误: {e}", False
    except Exception as e:
        return f"工具执行过程中出错: {e}", False

最后，在Streamlit中整合这个流程：

# 在获取LLM回复后，立即尝试执行工具
if st.session_state.conversation and st.session_state.conversation[-1]["role"] == "assistant":
    latest_response = st.session_state.conversation[-1]["raw"]
    tool_result, executed = safe_execute_tool(latest_response)

    if executed:
        # 将工具执行结果也加入对话历史
        st.session_state.conversation.append({"role": "tool", "content": f"【工具执行结果】{tool_result}"})
        # 可以可选地将结果再次发送给LLM，让它生成面向用户的总结
        # follow_up_prompt = f"用户之前问：{user_query}。工具返回的结果是：{tool_result}。请用友好的语言将结果告知用户。"
        # final_answer = query_local_llm(follow_up_prompt)
        # st.session_state.conversation.append({"role": "assistant", "content": final_answer})
    # 如果没执行工具，LLM的原始回复已经是面向用户的文本，无需额外处理

# 在右侧栏展示对话历史
with col_right:
    for msg in st.session_state.conversation:
        if msg["role"] == "user":
            st.chat_message("user").write(msg["content"])
        elif msg["role"] == "assistant" and not msg.get("raw", "").startswith("{"): # 过滤掉原始的JSON输出
            st.chat_message("assistant").write(msg["content"])
        elif msg["role"] == "tool":
            with st.expander("🔧 工具执行详情", expanded=False):
                st.info(msg["content"])

核心安全要点 ： safe_execute_tool 函数是安全防火墙。 json.loads 解析确保了结构可控； tool_name 的白名单检查防止了任意函数调用；工具函数内部（如 calculate ）必须实现自己的参数校验和沙箱逻辑（例如使用 simpleeval 替代 eval ）。永远不要相信LLM的原始输出，必须进行层层验证。

4. 系统优化与进阶功能探讨

一个能跑起来的原型只是第一步。要让这个本地AI助手真正好用、可靠，还需要在性能、体验和安全性上做更多打磨。

4.1 性能优化：让响应更快更流畅

Whisper模型加速 ：
- 量化与优化 ：使用Whisper的 fp16 半精度版本，能显著减少内存占用并提升推理速度。加载模型时可以使用 whisper.load_model(“base”).to(“cuda”) 来利用GPU（如果可用）。
- 缓存模型 ：我们已经用了 st.cache_resource ，这确保了模型只加载一次。
- 音频预处理 ：在录音时，可以设置合适的采样率（16kHz对于Whisper足够）和声道数（单声道），避免不必要的重采样。
LLM推理优化 ：
- Ollama参数调优 ：运行Ollama时，可以指定GPU层数（如 ollama run qwen2:7b --num-gpu 20 ）来充分利用显卡。对于纯CPU环境，可以调整线程数（ OLLAMA_NUM_THREADS=8 ）。
- 使用更小的模型 ：如果7B模型响应还是慢，可以尝试3B甚至1.5B的模型，它们在工具调用这类结构化任务上，经过精调后也可能有不错表现。
- 上下文长度 ：在调用API时，合理设置 max_tokens ，避免生成过长无关内容。
Streamlit应用优化 ：
- 避免不必要的重跑 ：使用 st.session_state 精心管理状态，将耗时的操作（模型加载、大文件处理）放在缓存函数或只在必要时执行。
- 异步操作 ：对于录音、识别、LLM查询这些可能耗时的操作，可以考虑使用 asyncio 或线程，防止阻塞主界面。Streamlit本身对异步的支持在加强，但需要小心处理。

4.2 增强用户体验与可靠性

流式语音识别 ：目前的方案是“录音-停止-识别”的回合制。可以升级为 流式识别 ，即一边录音一边实时显示识别出的文字，提供更自然的交互体验。这需要用到Whisper的流式API或类似 faster-whisper 这样的优化库，并对音频进行实时分块处理。
对话历史与上下文管理 ：目前的对话是单轮的。为了让AI能理解上下文（例如用户说“今天天气怎么样？”然后说“那明天呢？”），我们需要在调用LLM时，将整个 conversation 历史（或最近几轮）作为消息列表传入。注意管理上下文长度，避免超出模型限制。
更丰富的工具集 ：工具是AI能力的延伸。可以考虑添加：
- 文件操作 ：安全地列出、读取、搜索指定目录下的文件（绝对禁止访问系统根目录）。
- 系统信息 ：获取CPU、内存使用情况（通过 psutil 库）。
- 日历与待办 ：读写一个本地的JSON或SQLite数据库来管理个人日程。
- 外部服务 ：通过安全的HTTP客户端调用一些无需敏感认证的公开API（如新闻摘要、汇率查询）。
错误处理与用户反馈 ：增加完善的错误处理。网络问题、模型加载失败、工具执行异常等，都应该以友好的方式提示用户，而不是抛出复杂的Python异常。

4.3 安全加固：构建不可逾越的防线

安全是本地AI代理的重中之重，再强调也不为过。

工具函数的输入验证 ：
- 路径遍历防护 ：任何接受文件路径的工具，都必须使用 os.path.abspath() 解析为绝对路径，并检查其是否在以安全目录（如 ~/Documents/ai_assistant_workspace ）为根目录的范围内。
- 命令注入防护 ：如果必须执行系统命令，使用 shlex.quote() 对参数进行转义，并绝对禁止用户控制命令本身（如 ls 是固定的，用户只能控制 ls 的目录参数）。
- 类型与范围检查 ：对数字参数检查范围，对字符串参数检查长度和字符集。
资源限制 ：
- 超时控制 ：使用 signal 模块或 multiprocessing 为每个工具执行设置超时（例如5秒），防止恶意或错误代码陷入死循环。
- 内存与CPU限制 ：在Linux/macOS上，可以使用 resource 模块设置限制；或者将工具执行放在一个拥有资源限制的独立子进程中。
审计与日志 ：记录所有工具调用请求和结果，包括时间、用户输入、调用的工具、参数和执行结果。这有助于事后审查和调试。可以将日志写入本地文件或一个简单的SQLite数据库。
用户身份与权限（多用户场景） ：如果你的应用计划给多人使用，需要引入简单的用户概念。每个用户拥有独立的会话状态和工具执行沙箱（例如独立的工作目录）。Streamlit本身不擅长多用户会话隔离，可以考虑使用 streamlit-authenticator 等组件。

4.4 部署与分享

虽然这是一个“本地”应用，但你仍然可能想在内网分享给同事，或者部署到一台总是开机的家庭服务器上。

打包与依赖管理 ：使用 requirements.txt 或 Poetry 清晰列出所有依赖（streamlit, openai, whisper, pyaudio等）。对于跨平台问题（如 pyaudio 在Windows/macOS/Linux上的安装差异），需要在文档中说明。
Streamlit Cloud/Server ：你可以将代码推送到GitHub，然后在Streamlit Community Cloud上部署。但注意，Streamlit Cloud是公开的，且其计算资源有限，可能无法运行大型LLM。更可行的方案是部署在你自己的服务器上，通过 streamlit run app.py --server.port 8501 --server.address 0.0.0.0 运行，然后通过IP和端口访问。
Docker化 ：为了彻底解决环境问题，可以创建Docker镜像。镜像中预装所有依赖，并下载好模型文件。这使部署变得一键化。Dockerfile需要处理音频设备映射（ --device /dev/snd ）和可能的GPU支持（ --gpus all ）。

5. 常见问题与故障排除实录

在实际搭建和运行过程中，你几乎一定会遇到下面这些问题。这里是我踩坑后的解决方案汇总。

5.1 语音识别相关

问题1：Whisper模型下载慢或失败。

原因：模型文件托管在境外服务器，网络不稳定。
解决：
1. 使用国内镜像源。设置环境变量： export HF_ENDPOINT=https://hf-mirror.com 。然后Whisper会从这个镜像站下载模型。
2. 手动下载。从Hugging Face Hub找到模型文件（如 openai/whisper-base ），用下载工具下载 pytorch_model.bin 等文件，放到本地缓存目录（通常是 ~/.cache/whisper 或 ~/.cache/huggingface/hub 对应的子目录）。

问题2：识别结果全是英文或乱码。

原因：没有指定语言，或者音频质量太差。
解决：
1. 在 transcribe 函数中明确指定 language=”zh” （中文）或 language=”en” 。
2. 确保录音设备正常，环境噪音小。可以尝试先录制一段标准语音测试。
3. 如果音频文件是其他格式（如mp3），Whisper可能会处理不好。确保传入的是WAV格式，或使用 ffmpeg 先进行转换。

问题3：录音没有声音或 pyaudio 报错。

原因： pyaudio 依赖系统音频驱动，可能没有正确安装或找不到设备。
解决：
1. Linux系统：安装 portaudio 开发库： sudo apt-get install portaudio19-dev python3-pyaudio 。
2. macOS： brew install portaudio && pip install pyaudio 。
3. Windows：通常 pip install pyaudio 即可，如果失败，可以从这里下载对应Python版本的 .whl 文件安装。
4. 在代码中，可以先用 p = pyaudio.PyAudio(); print(p.get_device_count()) 检查可用的音频输入设备，然后在 open 流时指定正确的 input_device_index 。

5.2 本地LLM相关

问题1：Ollama服务启动失败或连接被拒绝。

原因：Ollama没有运行，或者端口被占用。
解决：
1. 确保先运行 ollama serve 。它会一直在前台运行。
2. 检查端口 11434 是否被占用： netstat -tulpn | grep 11434 。如果被占用，可以停止相关进程，或者让Ollama使用其他端口（ OLLAMA_HOST=0.0.0.0:11435 ollama serve ）。
3. 检查防火墙是否阻止了本地回环地址 127.0.0.1 的访问（通常不会）。

问题2：LLM回复速度极慢。

原因：模型太大，硬件资源（CPU/内存/GPU）不足。
解决：
1. 换小模型 ：尝试 llama3:8b 换成 llama3:8b-instruct-q4_0 （量化版），或者直接换 phi3:mini （3.8B）等更小的模型。
2. 利用GPU ：运行Ollama时确保它检测到了GPU。可以运行 ollama run llama3:7b 后观察输出日志，或使用 ollama run llama3:7b --verbose 查看。在Ollama的配置文件中可以指定GPU层数。
3. 调整参数 ：减少生成的最大令牌数( max_tokens )，降低 temperature 。

问题3：LLM不按照要求输出JSON，总是输出解释性文字。

原因：提示词不够清晰，或者模型本身不擅长结构化输出。
解决：
1. 强化提示词 ：在系统提示词中给出更明确的例子。例如：“你必须以JSON格式回复，且只包含JSON，不要有任何其他文字。示例：{“tool”: “get_weather”, “arguments”: {“city”: “北京”}}”。
2. 使用模型的原生函数调用能力 ：一些新模型（如Qwen2.5、Llama 3.1）支持OpenAI兼容的 tools 参数。你可以将工具列表通过API的 tools 参数传递给模型，模型会以标准格式返回工具调用请求，这比让模型输出自由格式的JSON更可靠。
3. 后处理 ：如果模型输出总是带着“ json\n”前缀和“\n ”后缀，或者前面有“好的，我将调用...”，那么就在 safe_execute_tool 函数中加强文本清洗逻辑，用正则表达式去提取可能的JSON部分。

5.3 工具执行与安全相关

问题1：工具函数执行时权限错误（如无法读取文件）。

原因：Streamlit服务可能以某个特定用户（如 nobody ）运行，没有访问用户家目录的权限。
解决：
1. 为AI助手设定一个明确、有权限的“工作区”目录，比如 /home/yourname/ai_workspace 。所有文件操作都限制在这个目录内。
2. 在工具函数中，使用 os.path.expanduser(‘~/ai_workspace’) 来获取绝对路径，并确保该目录存在且有读写权限。

问题2： calculate 工具使用 eval 不安全。

原因： eval 可以执行任意Python代码，是巨大的安全漏洞。

解决：

立即替换 ：使用 ast.literal_eval ，它只能评估Python字面量（字符串、数字、元组、列表、字典、布尔值、None），不能执行函数或表达式。

对于数学表达式 ：使用专门的安全库，如 simpleeval 。安装 pip install simpleeval ，然后：

from simpleeval import simple_eval, NameNotDefined
def safe_calculate(expr):
    try:
        # simple_eval默认是安全的，你可以限制它可用的函数
        result = simple_eval(expr, functions={"sqrt": math.sqrt}) # 只允许sqrt函数
        return result
    except (SyntaxError, NameNotDefined, TypeError) as e:
        return f"错误: {e}"

问题3：想添加一个“执行系统命令”的工具，但极度危险，怎么办？

原则：尽量避免。如果业务必须（例如重启某个服务），则实施最严格的限制。

安全方案 ：

命令白名单 ：只允许执行预定义的几个命令，如 [“ls”, “ps”, “systemctl restart myservice”] 。用户只能触发这些命令，不能修改命令本身。
参数严格过滤 ：如果命令需要参数（如 ls <directory> ），必须对参数进行严格的路径规范化（转义所有非字母数字字符）和目录限制。

使用子进程与资源限制 ：

import subprocess
import shlex
def run_safe_command(cmd_template, user_arg):
    allowed_commands = {“list_dir”: “ls -la”}
    if cmd_template not in allowed_commands.values():
        return “命令未授权”
    # 清洗用户输入
    safe_arg = shlex.quote(user_arg) # 转义参数
    full_cmd = f”{cmd_template} {safe_arg}”
    try:
        # 设置超时和运行环境
        result = subprocess.run(full_cmd, shell=True, capture_output=True, text=True, timeout=5, cwd=”/safe/path”)
        return result.stdout
    except subprocess.TimeoutExpired:
        return “命令执行超时”

5.4 Streamlit应用相关

问题1：应用运行后，界面刷新很慢或卡顿。

原因：每次交互（点击按钮）都会导致整个脚本重新运行。如果脚本中有耗时的初始化操作（如加载大模型），就会卡顿。
解决：
1. 充分利用缓存 ：将模型加载、数据读取等操作用 @st.cache_resource 或 @st.cache_data 装饰。
2. 优化逻辑 ：将不随交互变化的代码移到主函数外层。使用 st.session_state 避免重复计算。
3. 使用表单 ：将多个输入组件放在 st.form 内，只有提交表单时才触发重跑，而不是每输入一个字符就重跑。

问题2：想实现“实时语音识别”，一边说一边出文字。

解决：这需要更底层的音频流处理。一个方案是使用 streamlit-webrtc 组件，它可以捕获麦克风实时流。然后结合支持流式识别的Whisper版本（如 faster-whisper + transcribe_streaming ）或使用Whisper的 transcribe 函数并设置 word_timestamps=True 然后进行实时拼接。这是一个进阶话题，实现起来复杂度较高，但能极大提升体验。

构建这样一个端到端的本地AI代理，就像在组装一台精密的仪器。每个模块的选择和调试都需要耐心。从Whisper的准确识别，到本地LLM的稳定响应，再到工具执行的安全管控，最后用Streamlit丝滑地呈现出来，每一步都可能遇到意想不到的问题。但当你对着麦克风说“今天北京天气怎么样？”，然后看到助手自动调用天气工具并给出答案时，那种一切都在自己掌控之中、数据零泄露的成就感，是完全值得的。这个项目不仅是一个可用的工具，更是一个理解现代AI应用架构的绝佳样板。你可以基于这个框架，不断扩展工具集，优化模型，最终打造出一个真正懂你、帮你、且完全属于你的数字助手。

加入AMD AI开发者计划！

免费领 100 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

Spring AI Ollama 连接超时问题排查与解决：OkHttp 读超时配置全指南

摘要： Spring AI Ollama 集成时出现 HTTP 连接超时问题，表现为调用聊天接口时在10秒左右报错。根本原因是存在两层独立超时机制：模型层超时（spring.ai.ollama.chat.options.timeout）仅控制服务端生成时间，而底层 OkHttp 客户端的默认读超时（10秒）会先触发中断。解决方案包括两种：1）通过 okhttp.read-timeout 全局配置延

AMD开发者中国社区

别再只用GCN了！用PyTorch Geometric实战有向图卷积网络DGCN（附代码）

本文介绍了如何使用PyTorch Geometric实现有向图卷积网络(DGCN)，突破传统GCN在处理有向图数据时的局限性。通过构建三重信息捕获机制（一阶邻近矩阵、二阶入度邻近和二阶出度邻近），DGCN能有效捕捉有向图中的方向性信息，提升节点分类等任务的准确率。文章包含完整的PyG实战代码，适用于社交网络分析、金融交易追踪等场景。