登录社区云,与社区用户共同成长
邀请您加入社区
本文使用容器 (podman) 编译了 llama.cpp 的 vulkan 后端和 SYCL 后端, 并成功在 Intel GPU (A770) 运行, 获得了较快的语言模型推理速度.SYCL 后端比 vulkan 后端稍微快一点, 但不多. 使用的模型 (gguf), 生成长度, 软件驱动版本, 运行参数设置等很多因素, 都可能影响模型推理的速度, 所以本文中的运行速度仅供参考.SYCL 比
由于本文太长, 分开发布, 方便阅读.
Windows11 系统 I 卡独显 A770 安装 深度学习 Pytorch 环境 1️⃣ I 卡显卡驱动安装 —— https://www.intel.com/content/www/us/en/search.html#sort=relevancy—— 这个一般在装机跑分的时候就已经装过了,后面同样会给新的链接进行下载。2️⃣ MiniConda 非系统盘安装 ——3️⃣https://pyt
通过llama.cpp运行 7B.q4 (4bit 量化), 7B.q8 (8bit 量化) 模型, 测量了生成式 AI 语言模型在多种硬件上的运行 (推理) 速度.根据上述测量结果, 可以得到以下初步结论:(1)显存 (内存) 大就是正义!大, 就是正义!!限制能够运行的模型规模的最主要因素, 就是显存的大小.目前的大部分显卡 (除了高端的比如 4090), 显存都不超过 16GB.
A770
——A770
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net