Qwen3-4B-Thinking保姆级教程:模型服务健康检查+自动重启脚本编写

1. 引言

Qwen3-4B-Thinking是基于通义千问Qwen3-4B官方模型开发的一个特殊版本,采用了Gemini 2.5 Flash大规模蒸馏数据进行训练,具有原生256K tokens上下文长度(可扩展至1M),特别适合需要长文本理解和推理的应用场景。

本教程将手把手教你如何为Qwen3-4B-Thinking模型服务设置健康检查机制,并编写自动重启脚本,确保服务稳定运行。即使你是Linux新手,也能跟着步骤轻松完成配置。

2. 准备工作

2.1 确认当前服务状态

在开始之前,我们先确认模型服务是否正常运行:

supervisorctl status

如果看到类似qwen3-122b RUNNING的输出,表示服务正在运行。

2.2 了解关键文件位置

我们需要知道几个关键文件的位置:

  • 服务日志:/root/Qwen3.5-122B-A10B-MLX-9bit/service.log
  • 启动脚本:/root/Qwen3.5-122B-A10B-MLX-9bit/start.sh
  • Supervisor配置:/etc/supervisor/conf.d/qwen3-122b.conf

3. 健康检查机制实现

3.1 编写健康检查脚本

创建一个新的健康检查脚本/root/Qwen3.5-122B-A10B-MLX-9bit/health_check.sh

#!/bin/bash

# 定义健康检查URL
HEALTH_CHECK_URL="http://localhost:7860"

# 发送健康检查请求
response=$(curl -s -o /dev/null -w "%{http_code}" $HEALTH_CHECK_URL)

# 检查响应状态码
if [ "$response" -eq 200 ]; then
    echo "$(date): 服务健康状态正常" >> /root/Qwen3.5-122B-A10B-MLX-9bit/health_check.log
    exit 0
else
    echo "$(date): 服务异常,HTTP状态码: $response" >> /root/Qwen3.5-122B-A10B-MLX-9bit/health_check.log
    exit 1
fi

给脚本添加执行权限:

chmod +x /root/Qwen3.5-122B-A10B-MLX-9bit/health_check.sh

3.2 测试健康检查脚本

手动运行脚本测试:

/root/Qwen3.5-122B-A10B-MLX-9bit/health_check.sh

检查日志文件确认是否正常工作:

tail -n 5 /root/Qwen3.5-122B-A10B-MLX-9bit/health_check.log

4. 自动重启机制实现

4.1 创建自动重启脚本

新建自动重启脚本/root/Qwen3.5-122B-A10B-MLX-9bit/auto_restart.sh

#!/bin/bash

# 运行健康检查
/root/Qwen3.5-122B-A10B-MLX-9bit/health_check.sh

# 检查健康检查返回值
if [ $? -ne 0 ]; then
    echo "$(date): 检测到服务异常,尝试重启..." >> /root/Qwen3.5-122B-A10B-MLX-9bit/restart.log
    
    # 尝试通过Supervisor重启服务
    supervisorctl restart qwen3-122b
    
    # 检查重启是否成功
    sleep 10
    /root/Qwen3.5-122B-A10B-MLX-9bit/health_check.sh
    if [ $? -eq 0 ]; then
        echo "$(date): 服务重启成功" >> /root/Qwen3.5-122B-A10B-MLX-9bit/restart.log
    else
        echo "$(date): 服务重启失败" >> /root/Qwen3.5-122B-A10B-MLX-9bit/restart.log
    fi
fi

添加执行权限:

chmod +x /root/Qwen3.5-122B-A10B-MLX-9bit/auto_restart.sh

4.2 设置定时任务

编辑crontab:

crontab -e

添加以下内容(每5分钟检查一次):

*/5 * * * * /root/Qwen3.5-122B-A10B-MLX-9bit/auto_restart.sh

保存后,cron会自动加载新配置。

5. 进阶配置与优化

5.1 增强健康检查

我们可以改进健康检查脚本,增加更多检查项:

#!/bin/bash

# 基础检查:HTTP响应
HEALTH_CHECK_URL="http://localhost:7860"
response=$(curl -s -o /dev/null -w "%{http_code}" $HEALTH_CHECK_URL)

# 进程检查
process_check=$(ps aux | grep "python app.py" | grep -v grep | wc -l)

# 显存检查(如果使用GPU)
gpu_mem=$(nvidia-smi --query-gpu=memory.used --format=csv,noheader,nounits | awk '{print $1}')

# 综合判断
if [ "$response" -eq 200 ] && [ "$process_check" -ge 1 ] && [ "$gpu_mem" -gt 1000 ]; then
    echo "$(date): 服务健康状态正常" >> /root/Qwen3.5-122B-A10B-MLX-9bit/health_check.log
    exit 0
else
    echo "$(date): 服务异常: HTTP状态码=$response, 进程数=$process_check, GPU显存使用=$gpu_mem MB" >> /root/Qwen3.5-122B-A10B-MLX-9bit/health_check.log
    exit 1
fi

5.2 添加邮件通知

修改自动重启脚本,在服务异常时发送邮件通知:

#!/bin/bash

# 运行健康检查
/root/Qwen3.5-122B-A10B-MLX-9bit/health_check.sh

if [ $? -ne 0 ]; then
    echo "$(date): 检测到服务异常,尝试重启..." >> /root/Qwen3.5-122B-A10B-MLX-9bit/restart.log
    
    # 发送邮件通知
    echo "Qwen3-4B-Thinking服务于$(date)检测到异常,正在尝试重启..." | mail -s "模型服务异常告警" your-email@example.com
    
    supervisorctl restart qwen3-122b
    
    sleep 10
    /root/Qwen3.5-122B-A10B-MLX-9bit/health_check.sh
    if [ $? -eq 0 ]; then
        echo "$(date): 服务重启成功" >> /root/Qwen3.5-122B-A10B-MLX-9bit/restart.log
        echo "Qwen3-4B-Thinking服务已成功重启于$(date)" | mail -s "模型服务恢复通知" your-email@example.com
    else
        echo "$(date): 服务重启失败" >> /root/Qwen3.5-122B-A10B-MLX-9bit/restart.log
        echo "警告:Qwen3-4B-Thinking服务重启失败于$(date),请手动检查!" | mail -s "模型服务重启失败" your-email@example.com
    fi
fi

6. 总结

通过本教程,我们为Qwen3-4B-Thinking模型服务建立了完整的健康监控和自动恢复机制:

  1. 健康检查脚本:定期检查服务HTTP状态、进程状态和资源使用情况
  2. 自动重启机制:当检测到异常时自动尝试重启服务
  3. 通知系统:通过邮件及时通知管理员服务状态变化
  4. 日志记录:详细记录所有检查和操作,便于后续排查问题

这套方案可以有效减少服务不可用时间,特别适合需要长期稳定运行的AI模型服务场景。你可以根据实际需求调整检查频率和通知方式,比如增加短信通知或集成到现有的监控系统中。

获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐