vLLM 本地化部署大模型
使用 vLLM 本地化部署大模型,安装 vLLM 教程。
/ 创建虚拟环境 /
mkdir -p ~/vllmcd ~/vllmpython -m venv .venv# 激活虚拟环境source ~/vllm/.venv/bin/activate
/ ModelScope 下载 LLM /
👀
安装依赖
pip install modelscope
👀
下载 LLM
首先,在~/vllm 目录下创建 LLM 保存目录 models
mkdir -p ~/vllm/models
在~/vllm 目录创建 download_model.py 文件
#模型下载from modelscope import snapshot_download# 以Qwen/Qwen3-0.6B模型为例model_dir = snapshot_download('Qwen/Qwen3-0.6B', cache_dir="~/vllm/models")
执行 download_model.py 文件下载模型
python download_model.py
/ 运行 LLM /
python -m vllm.entrypoints.openai.api_server \--model ~/vllm/models/Qwen/Qwen3-0.6B \--served-model-name qwen3-0.6b \--max-model-len 4096 \--host 0.0.0.0 \--port 6006 \--api-key aXssda \--api-server-count 1 \--dtype auto \--enable-auto-tool-choice \--tool-call-parser hermes
使用 openai 兼容的 api 服务
--model 本地模型存放路径
--served-model-name API 中使用的模型名称
--max-model-len 模型上下文长度(提示和输出)。
--dtype 可选值: auto, bfloat16, float, float16, float32, half
--enable-auto-tool-choice 为支持的模型启用自动工具选择
--tool-call-parser 根据您使用的模型选择工具调用解析器,解析器参照 https://docs.vllm.com.cn/en/latest/features/tool_calling/
--host 主机名
--port 端口号,默认 8000
--api-key 如果提供,服务器将要求在请求头中提供其中一个密钥
--api-server-count 运行的 API 服务器进程数量,默认 1
完整参数请参考 https://docs.vllm.com.cn/en/latest/cli/serve/


/ 使用 LLM 代码 /
local_llm = ChatOpenAI(model="qwen3-0.6b", # 和 --served-model-name 一致api_key="aXssda", # 和 --api-key 一致base_url="http://192.168.0.104:6006/v1",temperature=0.6,stream_usage=True,streaming=True,)print(local_llm.invoke("讲一个关于猫的冷笑话"))


如何学习AGI大模型?
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取