LM Studio 如何部署qwen
在 LM Studio 中部署通义千问 (Qwen) 模型,通常分为三步:安装 LM Studio、下载 Qwen 模型、加载并运行。以下是详细的操作指南。
在 LM Studio 中部署通义千问 (Qwen) 模型,通常分为三步:安装 LM Studio、下载 Qwen 模型、加载并运行。以下是详细的操作指南。
💻 1. 安装 LM Studio
-
下载:访问官网
https://lmstudio.ai或中文站https://lm-studio.cn,根据您的操作系统 (Windows/macOS/Linux) 下载并安装。 -
启动:首次启动后,建议先在设置中更改模型默认保存路径,以防占用系统盘空间。
🤖 2. 下载 Qwen 模型
LM Studio 支持通过内置市场搜索下载,也支持从本地导入 GGUF 文件。
方式一:通过内置市场下载 (推荐)
-
在 LM Studio 左侧点击 Model Hub / Discover。
-
搜索关键词,如
qwen3-4b-instruct、qwen2.5-7b-instruct或qwen3.5-9b。 -
根据您的硬件配置选择合适的量化版本:
-
显存 ≥ 8GB:可选 7B/9B 模型的 Q4_K_M 版本。
-
显存 4-6GB:可选 4B 模型的 Q4_K_M 版本。
-
显存 ≤ 4GB 或纯 CPU:可选 0.5B/1.8B 等小模型的 Q2_K/Q4_0 版本。
-
-
点击 Download 即可。下载后模型会出现在 My Models / Local Models 列表中。
💡 国内用户提速:在
Settings -> Community Models中启用 “Use Mirror Server”,可大幅提升下载速度。
方式二:从本地导入 GGUF 文件
如果您已从 Hugging Face 等平台下载了 .gguf格式的模型文件,可按以下步骤导入:
-
在 LM Studio 左侧点击 Local Models。
-
点击 Add Model / Load from Disk。
-
选择您下载的
.gguf文件即可。
▶️ 3. 加载与运行
方式一:使用图形化聊天界面
-
切换到 Chat / 对话 标签页。
-
在左上角模型下拉框中,选择您已下载的 Qwen 模型。
-
点击 Load / 加载模型,可根据需要调整上下文长度 (Context Size) 和 GPU 加速层数 (GPU Offload Layers)。
-
加载成功后,即可在对话框中开始聊天。
方式二:启动本地 OpenAI 兼容 API
-
切换到 Server / 服务器 标签页。
-
开启 Enable Server 和 Enable OpenAI Compatibility。
-
选择一个已加载的 Qwen 模型作为服务模型。
-
确认服务地址 (默认为
http://localhost:1234/v1) 和端口,按需勾选“在局域网内提供服务”等选项。 -
点击 Start Server。启动后,该地址即可作为 OpenAI 兼容的本地 API 使用。
🐍 4. 通过 Python 调用本地 API
您可以使用 openai库来调用 LM Studio 暴露的本地 API。
-
安装依赖
bash
pip install openai
-
运行示例代码
python
from openai import OpenAI
指向 LM Studio 的本地服务
client = OpenAI(
base_url="http://localhost:1234/v1",
api_key="lm-studio", # 本地调用,任意非空字符串即可
)
completion = client.chat.completions.create(
model="qwen3-4b-instruct", # 此处模型名需与 LM Studio 中显示的名称一致
messages=[
{"role": "system", "content": "你是一个乐于助人的中文助手"},
{"role": "user", "content": "介绍一下你自己"},
],
temperature=0.7,
)
print(completion.choices[0].message.content)
欢迎来到AMD开发者中国社区,我们致力于为全球开发者提供 ROCm、Ryzen AI Software 和 ZenDNN等全栈软硬件优化支持。携手中国开发者,链接全球开源生态,与你共建开放、协作的技术社区。
更多推荐

所有评论(0)