解决一个模型加载失败问题:

[root@localhost ~]# lms load -c 10240

✔ Select a model to load | zai-org/glm-4.7-flash
Error: Failed to load model.


   (X) CAUSE

Failed to load model

有的人以为下载的模型有问题反复的下载,却还是加载失败,这可能是你的runtime环境设置不对。

我就遇到cuda12 不支持sm_61算力的P40显卡,需要修改运行时,runtime修改前如下:

[root@localhost ~]# lms runtime ls
LLM ENGINE                                         SELECTED    MODEL FORMAT
llama.cpp-linux-x86_64-avx2@2.8.0                                  GGUF
llama.cpp-linux-x86_64-avx2@2.7.1                                  GGUF
llama.cpp-linux-x86_64-nvidia-cuda12-avx2@2.7.1       ✓            GGUF
llama.cpp-linux-x86_64-vulkan-avx2@2.8.0                           GGUF
llama.cpp-linux-x86_64-vulkan-avx2@2.7.1                           GGUF
[root@localhost ~]#

将nvidia-cuda12-avx2修改为vulkan-avx2:
[root@localhost ~]# lms runtime select llama.cpp-linux-x86_64-vulkan-avx2@2.8.0
Selected llama.cpp-linux-x86_64-vulkan-avx2@2.8.0 for GGUF
[root@localhost ~]# lms runtime ls
LLM ENGINE                                         SELECTED    MODEL FORMAT
llama.cpp-linux-x86_64-avx2@2.8.0                                  GGUF
llama.cpp-linux-x86_64-avx2@2.7.1                                  GGUF
llama.cpp-linux-x86_64-nvidia-cuda12-avx2@2.7.1                    GGUF
llama.cpp-linux-x86_64-vulkan-avx2@2.8.0              ✓            GGUF
llama.cpp-linux-x86_64-vulkan-avx2@2.7.1                           GGUF
[root@localhost ~]# lms load -c 102400

✔ Select a model to load | zai-org/glm-4.7-flash
Model loaded successfully in 17.54s.
(16.89 GiB)
To use the model in the API/SDK, use the identifier "zai-org/glm-4.7-flash".
装载成功

AVX2是目前通用CPU计算的核心加速技术,广泛应用于: AI推理,多数本地大模型推理框架依赖AVX2做算子加速,LM Studio等本地推理工具也要求CPU支持AVX2指令集。
虽然成功,但是上下文不能设的过大,否则显存不够用,容易出问题,轻则变慢,重则死机。

Logo

免费领 200 小时云算力,进群参与显卡、AI PC 幸运抽奖

更多推荐