LM Studio中Qwen模型的性能如何评估

在 LM Studio 中评估 Qwen 模型性能，通常从和两个维度进行。以下是具体的评估指标、实测数据及一套可自行操作的评估流程。

泉城IT圈子

700人浏览 · 2026-03-30 13:07:19

泉城IT圈子 · 2026-03-30 13:07:19 发布

在 LM Studio 中评估 Qwen 模型性能，通常从运行效率和模型能力两个维度进行。以下是具体的评估指标、实测数据及一套可自行操作的评估流程。

📊 核心评估指标

运行效率 (速度 & 资源)
- 生成速度 (Tokens/s)：每秒生成的 token 数，是衡量流畅度的关键。通常 >14 Tokens/s 的体验接近人类实时阅读速度。
- 资源占用：包括显存/内存占用和 CPU 负载。MoE 模型（如 Qwen3-30B-A3B）通常比同级别稠密模型更节省资源。
- 首 Token 延迟：从发送请求到模型开始输出的时间，对聊天体验影响较大。
模型能力 (质量 & 功能)
- 通用问答与知识：考察事实准确性、推理能力和回答的条理性。
- 代码与数学：评估代码生成、调试、复杂数学题求解的能力。
- 多语言与指令遵循：测试翻译、格式遵循（如 JSON）和角色扮演等能力。
- 安全与稳定性：检查模型是否会生成有害内容，以及在处理长对话时是否容易出错或“忘记”上下文。

📈 Qwen 模型性能实测数据

以下数据均为在 LM Studio 中，使用 GGUF/MLX 量化模型在本地硬件上的实测结果，可供参考。

推理速度 (Tokens/s) 参考

模型 (量化)	硬件配置	生成速度 (Tokens/s)	备注
Qwen3-1.7B (Q6_K)	RTX 5060Ti 16G	~114	轻量级，速度极快
Qwen3-8B (Q4_K_M)	RTX 5060Ti 16G	~59	性能均衡
Qwen3-14B (Q4_K_M)	RTX 5060Ti 16G	~37	速度可接受
Qwen3-30B-A3B (Q3_K_L)	RTX 5060Ti 16G	~58	MoE模型，效率高
Qwen3-30B-A3B (Q4_K_M)	64G 内存 (CPU为主)	~23	纯CPU推理，速度较慢
Qwen3-30B-A3B (Q8_0)	64G 内存 (CPU为主)	~18	精度更高，速度下降
Qwen3.5-9B (Q8)	16G 显存	~60	小模型，速度快
Qwen3.5-9B (Q6)	12G 显存 (3060)	~30	性价比高
Qwen3.5-9B (MLX)	MacBook Pro M4 Pro 48G	~47.1	Mac平台，MLX格式优势明显
Qwen3.5-9B (GGUF)	MacBook Pro M4 Pro 48G	~26.17	Mac平台，GGUF格式
Qwen3.5-27B (Q4)	16G 显存 (4080)	~4	模型较大，速度慢
Qwen3.5-27B (Q3)	16G 显存 (4080)	~35+	需牺牲上下文或精度
Qwen3-Next-80B (4bit)	Mac mini M4 Pro 64G	~14 (处理100k上下文)	超大模型，长文本处理能力强

模型能力与质量评估

Qwen3-4B：在权威评测中，其 MMLU 准确率超越 GPT-4.1-nano，HumanEval (代码) pass@1 达 63.4%，整体能力接近 30B 级别的 MoE 模型，性价比极高。
Qwen3-14B-MLX (M1 Mac)：在53个推理测试提示上，综合评分 A- (3.76/4.0)，在准确性、逻辑、写作等方面表现优秀，但响应速度 (C级) 是短板。
Qwen3.5-9B：推理能力获评 B+，安全对齐良好，但在部分复杂问题上存在事实性偏差和明显延迟。

🛠️ 如何在 LM Studio 中自行评估

准备环境与模型
- 在 LM Studio 中安装对应平台的版本 (如 Windows AI PC 版)。
- 从 lmstudio-community等可信源下载 Qwen 模型的 GGUF 或 MLX 版本。
建立性能基准
- 选择一个固定问题（如“比较9.11和9.8的大小”），在固定参数（如 4096 上下文，GPU Offload 全开）下，记录不同模型的 Tokens/s 和首 Token 延迟。
设计能力测试集
- 通用：常识问答、多轮对话。
- 代码：实现算法、修改现有项目代码。
- 数学：求解应用题、证明题。
- 工具：测试 Function Calling 和 JSON 格式输出。
- 长文本：总结长文、提取要点。
量化评估与决策
- 根据测试结果，结合“能力是否达标”和“速度是否流畅”两个标准，为你的硬件选择最合适的模型。
- 高性价比组合：
  - 8-14B 模型 (Q4_K_M)：适合大多数 16G 显存或 32G+ 内存的设备，速度体验良好。
  - 30B-A3B MoE 模型：在 24G 显存上可流畅运行，能力接近更大模型。
  - 3.5-9B 模型：在 8-12G 显存上速度极快，是日常开发的实用选择。

加入AMD AI开发者计划！

免费领 100 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

PyTorch深度学习实战（54）——使用TorchScript和ONNX导出通用PyTorch模型

AMD开发者中国社区

基于vLLM部署Gemma-4-E2B多模态大模型和调用API 服务

基于vLLM的推理引擎大幅提升模型响应速度，FastAPI接口可直接集成到业务系统中，适用于智能问答、图片分析、多模态交互等实际应用场景。多模态大模型，实现图片+文本的多模态问答功能，并通过FastAPI封装为可视化API服务，最终完成本地接口测试。服务启动后，自动加载Processor和Gemma模型到GPU，加载完成后可接收外部请求。成功部署Google Gemma-4-E2B-it多模态大模

AMD开发者中国社区

ESXi 支持哪些 GPU 直通？NVIDIA/AMD 全系列兼容与配置指南

GPU 直通（PCIe Passthrough）是 VMware ESXi 提供的硬件虚拟化技术，通过直接将物理 GPU 设备分配给单台虚拟机独占使用，绕过 ESXi 虚拟化层的资源调度，让虚拟机获得完整的 GPU 算力与功能支持，性能损耗低于 5%，可实现与物理机几乎一致的运行体验。ESXi 对 GPU 直通的支持非常完善，核心兼容型号为 NVIDIA V100/A100/RTX 全系列和 AM