陈小波个人主页

@weixin_43278082

陈小波

2022-11-23 16:53:00 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

CUDA 118 安装vllm

下载完上面的两个文件之后可以进行离线安装，安装顺序为先安装torch，然后再安装vllm。安装完torch之后，安装vllm的时候就会检测到torch已经安装并且满足要求，就会略过torch的安装，这也是核心所在。最新版本的vllm基本都需要pytorch版本2.4.0或者2.5.0。会默认使用CUDA12进行编译安装，导致安装失败。但实际操作中也会出现一些问题，下面介绍一下我平时探索出的安装方法

在Linux服务上手动安装ollama

使用vllm部署ChatGLM2并提供兼容 OpenAI 的 API Server实现异步访问

运行下面的命令，默认host为0.0.0.0，默认端口为8000，也可以通过--host --port指定。使用chatglm等模型时，请指定 --trust-remote-code参数。调用时可以用下面测试，注意model参数一定要传。SamplingParams 类中的说明。中的sampling_params。按照说明安装就可以了，不赘述。到vllm的GitHub仓库。其他更多的参数请参照。具

#语言模型 #fastapi

手动离线安装ollama

在Linux服务上手动安装ollama

到底了