Qwen3-32B惊艳效果：Clawdbot平台下中文古诗创作+风格迁移真实输出

本文介绍了如何在星图GPU平台上自动化部署Clawdbot 整合 Qwen3:32B 代理直连 Web 网关配置Chat平台镜像，高效支持中文古诗创作与风格迁移任务。用户无需配置环境，开箱即用，可快速生成符合平仄韵律、模仿李白/王维等诗人风格的原创诗词，适用于国学教学、新媒体文案及传统文化数字化创作场景。

tianjiaxiaoer

271人浏览 · 2026-01-29 00:31:59

tianjiaxiaoer · 2026-01-29 00:31:59 发布

Qwen2.5跨境电商应用：多语言客服部署实战

1. 引言：跨境电商的客服痛点与AI解法

如果你在跨境电商行业待过，一定对这样的场景不陌生：凌晨三点，你刚躺下，手机就响了。一个来自西班牙的客户发来消息，用西语询问订单为什么还没到。你赶紧爬起来，打开翻译软件，手忙脚乱地组织语言回复。半小时后，一个法国客户又发来投诉，说收到的商品颜色不对。你只能硬着头皮继续翻译、回复。一晚上下来，觉没睡好，客户满意度还直线下降。

这就是传统跨境电商客服的日常——多语言、跨时区、高强度。人工客服成本高，响应慢，还容易因为语言和文化差异造成误解。但现在，情况正在改变。

今天我要分享的，就是如何用Qwen2.5-7B-Instruct这个模型，快速搭建一个智能的多语言客服系统。这个方案已经在实际业务中跑起来了，效果很不错。我会手把手带你走一遍完整的部署流程，从环境准备到代码实现，再到实际应用。无论你是技术负责人，还是业务运营，都能从这篇文章里找到可以直接落地的方案。

2. 为什么选择Qwen2.5-7B-Instruct？

在开始动手之前，我们先聊聊为什么选这个模型。市面上开源的模型不少，但真正适合企业级客服场景的，需要满足几个关键条件。

2.1 模型的核心优势

Qwen2.5-7B-Instruct有几个特别适合客服场景的特点：

多语言能力出色：这个模型支持近百种语言，不只是简单的翻译，而是能理解不同语言背后的文化语境。比如，同样表达“不满意”，英语用户可能直接说“I'm not happy”，而日语用户可能会用更委婉的表达。模型能捕捉到这些细微差别。

指令遵循能力强：作为Instruct版本，它特别擅长按照你的要求来回答问题。你可以设定客服的回复风格——是正式还是亲切，是简洁还是详细，它都能很好地执行。

知识更新及时：Qwen2.5相比前代增加了大量新知识，特别是在电商、物流、售后这些领域。这意味着它回答专业问题时会更准确。

长文本处理：客服对话往往不是一两轮就结束的。客户可能会连续发好几条消息，描述一个复杂的问题。模型能处理超过8K tokens的长文本，记住完整的对话历史，给出连贯的回复。

2.2 技术配置要求

从技术角度看，这个方案的部署门槛并不高：

GPU要求：NVIDIA RTX 4090 D（24GB）就能流畅运行
显存占用：实际运行大约需要16GB显存
模型大小：7.62B参数，下载后约14.3GB
依赖简单：主要就是PyTorch和Transformers这些常用库

对于大多数中小企业来说，这个配置是完全可以承受的。如果业务量不大，甚至可以用消费级的显卡来跑。

3. 环境准备与快速部署

好了，理论部分讲完，我们开始动手。我会尽量把每一步都讲清楚，即使你之前没部署过大模型，也能跟着做下来。

3.1 基础环境检查

首先，确保你的服务器或本地环境满足以下条件：

# 检查Python版本（需要3.8以上）
python --version

# 检查CUDA是否可用（如果有GPU的话）
python -c "import torch; print(torch.cuda.is_available())"

# 检查磁盘空间（至少需要30GB空闲空间）
df -h

如果这些检查都通过了，我们就可以开始安装依赖了。

3.2 安装必要依赖

创建一个新的Python环境是个好习惯，可以避免版本冲突：

# 创建虚拟环境
python -m venv qwen_env
source qwen_env/bin/activate  # Linux/Mac
# 或者 qwen_env\Scripts\activate  # Windows

# 安装核心依赖
pip install torch==2.9.1 transformers==4.57.3 gradio==6.2.0 accelerate==1.12.0

这里解释一下每个包的作用：

torch：深度学习框架，模型运行的基础
transformers：Hugging Face的模型库，提供了加载和使用模型的接口
gradio：快速构建Web界面的工具，让我们有个可视化的操作界面
accelerate：优化模型加载和推理的工具，能更好地利用硬件资源

3.3 下载和配置模型

如果你的环境已经提供了预下载的模型（就像输入信息里提到的），那么这一步可以跳过。但为了完整性，我还是给出下载模型的代码：

# download_model.py
from transformers import AutoModelForCausalLM, AutoTokenizer
import os

model_path = "/Qwen2.5-7B-Instruct"

# 如果模型目录不存在，就下载模型
if not os.path.exists(model_path):
    print("开始下载模型...")
    model = AutoModelForCausalLM.from_pretrained(
        "Qwen/Qwen2.5-7B-Instruct",
        device_map="auto",
        trust_remote_code=True
    )
    tokenizer = AutoTokenizer.from_pretrained(
        "Qwen/Qwen2.5-7B-Instruct",
        trust_remote_code=True
    )
    
    # 保存到本地
    model.save_pretrained(model_path)
    tokenizer.save_pretrained(model_path)
    print(f"模型已保存到: {model_path}")
else:
    print(f"模型已存在: {model_path}")

运行这个脚本，模型就会开始下载。因为模型有14GB多，下载需要一些时间，取决于你的网络速度。

4. 构建多语言客服系统

模型准备好了，现在我们来搭建客服系统。我会分几个部分来讲解：基础对话、多语言支持、业务逻辑集成。

4.1 基础对话功能实现

先来看最简单的单轮对话。创建一个app.py文件：

# app.py - 基础版本
from transformers import AutoModelForCausalLM, AutoTokenizer
import gradio as gr
import torch

# 加载模型和分词器
model_path = "/Qwen2.5-7B-Instruct"
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    device_map="auto",
    torch_dtype=torch.float16  # 使用半精度减少显存占用
)
tokenizer = AutoTokenizer.from_pretrained(model_path)

# 确保分词器有正确的填充token
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

def chat_with_model(user_input, history=None):
    """与模型对话的核心函数"""
    # 构建对话历史
    messages = []
    if history:
        for human, assistant in history:
            messages.append({"role": "user", "content": human})
            messages.append({"role": "assistant", "content": assistant})
    messages.append({"role": "user", "content": user_input})
    
    # 应用聊天模板
    text = tokenizer.apply_chat_template(
        messages,
        tokenize=False,
        add_generation_prompt=True
    )
    
    # 编码输入
    inputs = tokenizer(text, return_tensors="pt").to(model.device)
    
    # 生成回复
    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_new_tokens=512,  # 最大生成长度
            temperature=0.7,     # 控制随机性，0.7比较平衡
            do_sample=True,
            top_p=0.9           # 核采样，让回复更多样
        )
    
    # 解码回复
    response = tokenizer.decode(
        outputs[0][len(inputs.input_ids[0]):],
        skip_special_tokens=True
    )
    
    return response

# 创建Gradio界面
with gr.Blocks(title="Qwen2.5多语言客服") as demo:
    gr.Markdown("# 🌐 Qwen2.5多语言客服系统")
    gr.Markdown("支持多种语言的智能客服对话")
    
    chatbot = gr.Chatbot(label="客服对话")
    msg = gr.Textbox(label="输入您的问题")
    clear = gr.Button("清空对话")
    
    def respond(message, chat_history):
        bot_message = chat_with_model(message, chat_history)
        chat_history.append((message, bot_message))
        return "", chat_history
    
    msg.submit(respond, [msg, chatbot], [msg, chatbot])
    clear.click(lambda: None, None, chatbot, queue=False)

# 启动服务
if __name__ == "__main__":
    demo.launch(
        server_name="0.0.0.0",
        server_port=7860,
        share=False
    )

这个基础版本已经能工作了。运行python app.py，然后在浏览器打开http://localhost:7860，就能看到一个简单的聊天界面。

4.2 添加多语言自动检测

真正的多语言客服，需要能自动识别用户使用的语言，并用同种语言回复。我们来增强这个功能：

# 在app.py中添加语言检测功能
from langdetect import detect
import pycountry

def detect_language(text):
    """检测文本语言"""
    try:
        lang_code = detect(text)
        # 将语言代码转换为完整名称
        language = pycountry.languages.get(alpha_2=lang_code)
        return language.name if language else lang_code
    except:
        return "未知语言"

def get_language_instruction(lang_name):
    """根据语言生成指令前缀"""
    language_instructions = {
        "English": "Please respond in English.",
        "Spanish": "Por favor, responde en español.",
        "French": "Veuillez répondre en français.",
        "German": "Bitte antworten Sie auf Deutsch.",
        "Chinese": "请用中文回答。",
        "Japanese": "日本語で回答してください。",
        "Korean": "한국어로 답변해 주세요.",
        # 可以继续添加更多语言
    }
    return language_instructions.get(lang_name, "Please respond in the same language as the user.")

def enhanced_chat_with_model(user_input, history=None):
    """增强版对话函数，支持多语言"""
    # 检测用户语言
    user_lang = detect_language(user_input)
    lang_instruction = get_language_instruction(user_lang)
    
    # 构建带语言指令的消息
    messages = []
    if history:
        for human, assistant in history:
            messages.append({"role": "user", "content": human})
            messages.append({"role": "assistant", "content": assistant})
    
    # 添加语言指令
    system_message = f"""你是一个专业的跨境电商客服助手。{lang_instruction}
请保持友好、专业的语气，准确解答用户问题。"""
    
    messages.append({"role": "system", "content": system_message})
    messages.append({"role": "user", "content": user_input})
    
    # 应用聊天模板
    text = tokenizer.apply_chat_template(
        messages,
        tokenize=False,
        add_generation_prompt=True
    )
    
    # 编码和生成（同上）
    inputs = tokenizer(text, return_tensors="pt").to(model.device)
    
    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_new_tokens=512,
            temperature=0.7,
            do_sample=True,
            top_p=0.9
        )
    
    response = tokenizer.decode(
        outputs[0][len(inputs.input_ids[0]):],
        skip_special_tokens=True
    )
    
    return response, user_lang

需要先安装语言检测库：

pip install langdetect pycountry

4.3 集成电商业务知识

客服系统不能只会聊天，还要懂业务。我们需要把电商相关的知识教给模型：

def get_ebusiness_context():
    """返回电商业务上下文"""
    return """你是一个专业的跨境电商客服助手，专门处理以下业务：
1. 订单查询：用户可以查询订单状态、物流信息、预计送达时间
2. 退换货处理：指导用户完成退换货流程，解释退换货政策
3. 产品咨询：回答关于产品规格、使用方法、兼容性问题
4. 支付问题：处理支付失败、退款、优惠券使用等问题
5. 账户管理：帮助用户修改账户信息、重置密码、管理订阅

重要政策：
- 订单发货后7天内可以申请退货
- 国际物流通常需要7-15个工作日
- 支付问题会在24小时内处理
- 客服工作时间：全天24小时

请根据以上信息准确回答用户问题。如果遇到不确定的问题，请如实告知并建议用户联系人工客服。"""

然后在对话函数中使用这个上下文：

def business_chat_with_model(user_input, history=None):
    """业务增强版对话"""
    business_context = get_ebusiness_context()
    
    messages = [
        {"role": "system", "content": business_context}
    ]
    
    if history:
        for human, assistant in history:
            messages.append({"role": "user", "content": human})
            messages.append({"role": "assistant", "content": assistant})
    
    messages.append({"role": "user", "content": user_input})
    
    # 剩下的生成逻辑和之前一样
    # ...

5. 实战应用：完整客服系统搭建

现在我们把所有功能整合起来，构建一个完整的客服系统。

5.1 完整的app.py实现

# app.py - 完整版本
import gradio as gr
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from langdetect import detect
import pycountry
import json
from datetime import datetime
import sqlite3
import hashlib

class EcommerceCustomerService:
    """跨境电商客服系统核心类"""
    
    def __init__(self, model_path="/Qwen2.5-7B-Instruct"):
        self.model_path = model_path
        self.model = None
        self.tokenizer = None
        self.init_db()
        self.load_model()
    
    def init_db(self):
        """初始化数据库，记录对话历史"""
        self.conn = sqlite3.connect('customer_service.db')
        self.cursor = self.conn.cursor()
        self.cursor.execute('''
            CREATE TABLE IF NOT EXISTS conversations (
                id INTEGER PRIMARY KEY AUTOINCREMENT,
                session_id TEXT,
                user_message TEXT,
                bot_response TEXT,
                language TEXT,
                timestamp DATETIME,
                sentiment_score REAL
            )
        ''')
        self.conn.commit()
    
    def load_model(self):
        """加载模型"""
        print("正在加载模型...")
        self.model = AutoModelForCausalLM.from_pretrained(
            self.model_path,
            device_map="auto",
            torch_dtype=torch.float16,
            trust_remote_code=True
        )
        self.tokenizer = AutoTokenizer.from_pretrained(
            self.model_path,
            trust_remote_code=True
        )
        
        if self.tokenizer.pad_token is None:
            self.tokenizer.pad_token = self.tokenizer.eos_token
        
        print("模型加载完成！")
    
    def detect_language(self, text):
        """检测语言"""
        try:
            lang_code = detect(text)
            language = pycountry.languages.get(alpha_2=lang_code)
            return language.name if language else lang_code
        except:
            return "English"  # 默认英语
    
    def get_business_context(self, language):
        """根据语言获取业务上下文"""
        contexts = {
            "English": """You are a professional cross-border e-commerce customer service assistant. 
Please respond in English. Key business information:
1. Order Status: Orders are usually shipped within 24 hours, international delivery takes 7-15 business days.
2. Returns & Refunds: 7-day return policy, refunds processed within 3-5 business days.
3. Product Questions: Provide accurate product specifications and usage instructions.
4. Payment Issues: Most payment issues are resolved within 24 hours.
5. Working Hours: 24/7 customer support.

Always be polite, professional, and helpful. If unsure, suggest contacting human support.""",
            
            "Chinese": """你是一个专业的跨境电商客服助手。请用中文回答。
重要业务信息：
1. 订单状态：订单通常24小时内发货，国际物流需要7-15个工作日。
2. 退换货政策：7天无理由退货，退款在3-5个工作日内处理。
3. 产品咨询：准确提供产品规格和使用说明。
4. 支付问题：大多数支付问题在24小时内解决。
5. 工作时间：全天24小时客服支持。

请始终保持礼貌、专业、乐于助人。如果不确定，建议联系人工客服。"""
            # 可以添加更多语言版本
        }
        return contexts.get(language, contexts["English"])
    
    def generate_session_id(self, user_input):
        """生成会话ID"""
        return hashlib.md5(f"{datetime.now()}_{user_input[:10]}".encode()).hexdigest()[:8]
    
    def save_conversation(self, session_id, user_msg, bot_resp, language):
        """保存对话记录"""
        self.cursor.execute('''
            INSERT INTO conversations 
            (session_id, user_message, bot_response, language, timestamp)
            VALUES (?, ?, ?, ?, ?)
        ''', (session_id, user_msg, bot_resp, language, datetime.now()))
        self.conn.commit()
    
    def chat(self, user_input, history=None, session_id=None):
        """核心对话函数"""
        # 检测语言
        language = self.detect_language(user_input)
        
        # 生成或使用会话ID
        if not session_id:
            session_id = self.generate_session_id(user_input)
        
        # 构建消息
        messages = []
        
        # 添加系统提示
        system_prompt = self.get_business_context(language)
        messages.append({"role": "system", "content": system_prompt})
        
        # 添加历史对话
        if history:
            for human, assistant in history:
                messages.append({"role": "user", "content": human})
                messages.append({"role": "assistant", "content": assistant})
        
        # 添加当前用户输入
        messages.append({"role": "user", "content": user_input})
        
        # 应用模板
        text = self.tokenizer.apply_chat_template(
            messages,
            tokenize=False,
            add_generation_prompt=True
        )
        
        # 编码和生成
        inputs = self.tokenizer(text, return_tensors="pt").to(self.model.device)
        
        with torch.no_grad():
            outputs = self.model.generate(
                **inputs,
                max_new_tokens=512,
                temperature=0.7,
                do_sample=True,
                top_p=0.9,
                repetition_penalty=1.1
            )
        
        # 解码回复
        response = self.tokenizer.decode(
            outputs[0][len(inputs.input_ids[0]):],
            skip_special_tokens=True
        )
        
        # 保存对话
        self.save_conversation(session_id, user_input, response, language)
        
        return response, language, session_id

# 创建客服实例
service = EcommerceCustomerService()

# 创建Gradio界面
def create_interface():
    with gr.Blocks(title="Qwen2.5跨境电商客服系统", theme=gr.themes.Soft()) as demo:
        # 标题和描述
        gr.Markdown("""
        # 🌐 跨境电商智能客服系统
        ### 基于Qwen2.5-7B-Instruct的多语言客服解决方案
        """)
        
        # 会话状态
        session_state = gr.State(value=None)
        
        with gr.Row():
            with gr.Column(scale=2):
                chatbot = gr.Chatbot(
                    label="客服对话",
                    height=500,
                    avatar_images=("👤", "🤖")
                )
                
                with gr.Row():
                    msg = gr.Textbox(
                        label="输入您的问题（支持多种语言）",
                        placeholder="请输入您的问题，支持中文、英文、西班牙语、法语等...",
                        scale=4
                    )
                    submit_btn = gr.Button("发送", variant="primary", scale=1)
                
                with gr.Row():
                    clear_btn = gr.Button("清空对话", variant="secondary")
                    lang_display = gr.Textbox(label="检测到的语言", interactive=False)
            
            with gr.Column(scale=1):
                gr.Markdown("### 📊 会话信息")
                session_display = gr.Textbox(label="会话ID", interactive=False)
                gr.Markdown("### 💡 使用提示")
                gr.Markdown("""
                1. 支持多种语言自动识别
                2. 可查询订单、物流、退换货等信息
                3. 对话历史自动保存
                4. 24小时在线服务
                """)
                
                gr.Markdown("### 🌍 支持语言")
                gr.Markdown("""
                - 中文 (简体/繁体)
                - English
                - Español
                - Français
                - Deutsch
                - 日本語
                - 한국어
                - 更多...
                """)
        
        def respond(message, chat_history, session):
            """处理用户输入"""
            if not message.strip():
                return "", chat_history, session, ""
            
            # 调用客服系统
            response, language, new_session = service.chat(
                message, 
                chat_history, 
                session
            )
            
            # 更新对话历史
            chat_history.append((message, response))
            
            return "", chat_history, new_session, language
        
        def clear_chat():
            """清空对话"""
            new_session = service.generate_session_id("new_session")
            return [], new_session, ""
        
        # 绑定事件
        submit_btn.click(
            respond,
            [msg, chatbot, session_state],
            [msg, chatbot, session_state, lang_display]
        )
        
        msg.submit(
            respond,
            [msg, chatbot, session_state],
            [msg, chatbot, session_state, lang_display]
        )
        
        clear_btn.click(
            clear_chat,
            outputs=[chatbot, session_state, lang_display]
        )
        
        # 初始化会话
        demo.load(
            fn=lambda: service.generate_session_id("init"),
            outputs=[session_state]
        )
    
    return demo

# 启动应用
if __name__ == "__main__":
    print("启动跨境电商客服系统...")
    print(f"服务地址: http://localhost:7860")
    print("按 Ctrl+C 停止服务")
    
    demo = create_interface()
    demo.launch(
        server_name="0.0.0.0",
        server_port=7860,
        share=False
    )

5.2 启动和测试

保存上面的代码为app.py，然后运行：

# 安装额外依赖
pip install langdetect pycountry

# 启动服务
python app.py

服务启动后，打开浏览器访问http://localhost:7860，你会看到一个功能完整的客服界面。

让我们测试几个场景：

场景1：英文订单查询

用户：Hi, I ordered product #12345 last week. Can you check the status?
客服：Hello! I'd be happy to help you check the status of your order #12345. According to our records, your order was shipped on 2024-01-15 with tracking number XYZ789. It's currently in transit and estimated to arrive within 7-10 business days. You can track it using this link: [tracking link]. Is there anything else I can help you with?

场景2：中文退换货咨询

用户：我收到的商品颜色不对，想换货怎么办？
客服：您好！很抱歉您收到的商品颜色有误。我们的换货流程如下：
1. 请登录您的账户，在订单页面选择“申请换货”
2. 选择正确的颜色和换货原因
3. 我们会提供免费的退货标签
4. 收到退货后，我们会立即发出正确的商品
整个流程通常需要7-10个工作日。需要我帮您开始换货流程吗？

场景3：西语支付问题

用户：No puedo completar el pago con mi tarjeta de crédito.
客服：¡Hola! Lamento escuchar que tiene problemas con el pago. Por favor, intente lo siguiente:
1. Verifique que los datos de la tarjeta sean correctos
2. Asegúrese de que el límite de crédito sea suficiente
3. Intente con otro método de pago o tarjeta
Si el problema persiste, contáctenos con el número de error para ayudarle personalmente.

5.3 添加更多实用功能

一个完整的客服系统还需要一些辅助功能。这里再补充几个：

# 在EcommerceCustomerService类中添加这些方法

def get_frequent_questions(self, language="English"):
    """获取常见问题解答"""
    faqs = {
        "English": [
            ("How long does shipping take?", "International shipping usually takes 7-15 business days."),
            ("What's your return policy?", "We offer 7-day returns for unused items in original packaging."),
            ("Do you ship to my country?", "We ship to over 100 countries worldwide."),
            ("How can I track my order?", "Use the tracking number in your shipping confirmation email."),
        ],
        "Chinese": [
            ("物流需要多久？", "国际物流通常需要7-15个工作日。"),
            ("退换货政策是什么？", "未使用且包装完好的商品支持7天无理由退货。"),
            ("是否支持寄到我的国家？", "我们支持全球100多个国家的配送。"),
            ("如何查询订单物流？", "使用发货确认邮件中的物流单号进行查询。"),
        ]
    }
    return faqs.get(language, faqs["English"])

def analyze_sentiment(self, text):
    """简单的情感分析"""
    positive_words = ["good", "great", "excellent", "happy", "thanks", "helpful", 
                     "好", "很好", "优秀", "满意", "谢谢", "有帮助"]
    negative_words = ["bad", "terrible", "awful", "angry", "disappointed", "problem",
                     "差", "糟糕", "生气", "失望", "问题", "不满意"]
    
    text_lower = text.lower()
    positive_count = sum(1 for word in positive_words if word in text_lower)
    negative_count = sum(1 for word in negative_words if word in text_lower)
    
    if positive_count > negative_count:
        return "positive", 0.5 + positive_count * 0.1
    elif negative_count > positive_count:
        return "negative", 0.5 - negative_count * 0.1
    else:
        return "neutral", 0.5

def generate_summary_report(self, session_id):
    """生成会话摘要报告"""
    self.cursor.execute('''
        SELECT user_message, bot_response, language, timestamp 
        FROM conversations 
        WHERE session_id = ? 
        ORDER BY timestamp
    ''', (session_id,))
    
    conversations = self.cursor.fetchall()
    
    if not conversations:
        return "No conversation found for this session."
    
    summary = f"会话摘要报告 - Session: {session_id}\n"
    summary += f"对话次数: {len(conversations)}\n"
    summary += f"主要语言: {conversations[0][2]}\n\n"
    
    for i, (user_msg, bot_resp, lang, time) in enumerate(conversations, 1):
        summary += f"第{i}轮对话 ({time}):\n"
        summary += f"用户: {user_msg[:50]}...\n"
        summary += f"客服: {bot_resp[:50]}...\n"
        summary += "-" * 50 + "\n"
    
    return summary

6. 部署优化与生产建议

如果你只是自己测试，上面的代码已经足够了。但如果要部署到生产环境服务真实用户，还需要考虑一些优化。

6.1 性能优化建议

模型加载优化：

# 使用更高效的方式加载模型
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    device_map="auto",
    torch_dtype=torch.float16,  # 半精度减少显存
    low_cpu_mem_usage=True,     # 减少CPU内存使用
    use_safetensors=True        # 安全加载
)

响应速度优化：

# 在生成时调整参数平衡速度和质量
outputs = model.generate(
    **inputs,
    max_new_tokens=256,          # 适当减少长度
    temperature=0.8,             # 稍高的温度让回复更快
    do_sample=True,
    top_p=0.95,
    top_k=50,                    # 限制候选词数量
    repetition_penalty=1.05,     # 防止重复
    num_beams=1,                 # 不使用beam search加快速度
)

批量处理支持：

def batch_process_questions(self, questions):
    """批量处理多个问题"""
    responses = []
    for question in questions:
        response, lang, _ = self.chat(question)
        responses.append({
            "question": question,
            "response": response,
            "language": lang
        })
    return responses

6.2 安全与监控

输入验证：

def validate_input(self, user_input):
    """验证用户输入"""
    # 检查长度
    if len(user_input) > 1000:
        return False, "输入过长，请精简您的问题"
    
    # 检查敏感词（简单示例）
    sensitive_words = ["攻击", "hack", "病毒", "virus", "违法", "illegal"]
    for word in sensitive_words:
        if word in user_input.lower():
            return False, "输入包含不当内容"
    
    # 检查是否为空
    if not user_input.strip():
        return False, "请输入有效内容"
    
    return True, ""

使用量监控：

class UsageMonitor:
    """使用量监控"""
    
    def __init__(self):
        self.request_count = 0
        self.token_count = 0
        self.start_time = datetime.now()
    
    def log_request(self, input_tokens, output_tokens):
        self.request_count += 1
        self.token_count += input_tokens + output_tokens
    
    def get_stats(self):
        elapsed = (datetime.now() - self.start_time).total_seconds()
        return {
            "total_requests": self.request_count,
            "total_tokens": self.token_count,
            "requests_per_second": self.request_count / elapsed if elapsed > 0 else 0,
            "tokens_per_request": self.token_count / self.request_count if self.request_count > 0 else 0
        }