LM Studio遇到模型加载失败原因之一runtime运行时环境问题

alalaal

1343人浏览 · 2026-04-04 23:40:43

alalaal · 2026-04-04 23:40:43 发布

解决一个模型加载失败问题：

[root@localhost ~]# lms load -c 10240

✔ Select a model to load | zai-org/glm-4.7-flash
Error: Failed to load model.

(X) CAUSE

Failed to load model

有的人以为下载的模型有问题反复的下载，却还是加载失败，这可能是你的runtime环境设置不对。

我就遇到cuda12 不支持sm_61算力的P40显卡，需要修改运行时，runtime修改前如下：

[root@localhost ~]# lms runtime ls
LLM ENGINE SELECTED MODEL FORMAT
llama.cpp-linux-x86_64-avx2@2.8.0 GGUF
llama.cpp-linux-x86_64-avx2@2.7.1 GGUF
llama.cpp-linux-x86_64-nvidia-cuda12-avx2@2.7.1 ✓ GGUF
llama.cpp-linux-x86_64-vulkan-avx2@2.8.0 GGUF
llama.cpp-linux-x86_64-vulkan-avx2@2.7.1 GGUF
[root@localhost ~]#

将nvidia-cuda12-avx2修改为vulkan-avx2：
[root@localhost ~]# lms runtime select llama.cpp-linux-x86_64-vulkan-avx2@2.8.0
Selected llama.cpp-linux-x86_64-vulkan-avx2@2.8.0 for GGUF
[root@localhost ~]# lms runtime ls
LLM ENGINE SELECTED MODEL FORMAT
llama.cpp-linux-x86_64-avx2@2.8.0 GGUF
llama.cpp-linux-x86_64-avx2@2.7.1 GGUF
llama.cpp-linux-x86_64-nvidia-cuda12-avx2@2.7.1 GGUF
llama.cpp-linux-x86_64-vulkan-avx2@2.8.0 ✓ GGUF
llama.cpp-linux-x86_64-vulkan-avx2@2.7.1 GGUF
[root@localhost ~]# lms load -c 102400

✔ Select a model to load | zai-org/glm-4.7-flash
Model loaded successfully in 17.54s.
(16.89 GiB)
To use the model in the API/SDK, use the identifier "zai-org/glm-4.7-flash".
装载成功

AVX2是目前通用CPU计算的核心加速技术，广泛应用于： AI推理，多数本地大模型推理框架依赖AVX2做算子加速，LM Studio等本地推理工具也要求CPU支持AVX2指令集。
虽然成功，但是上下文不能设的过大，否则显存不够用，容易出问题，轻则变慢，重则死机。