logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型学习8下-高性能推理引擎vLLM学习笔记

vLLM的定位是服务端LLM推理引擎,而不是个人本地试玩工具。如果只是本地体验模型,或者主要使用CPU推理、GGUF模型,llama.cpp和Ollama通常更合适。vLLM的核心场景,是将开源LLM稳定部署为在线服务。它的优势主要体现在GPU推理、高并发处理、监控指标和生产部署能力上,适用于企业内部模型服务、RAG系统、Agent平台,以及需要多人同时调用的API服务。不过vLLM本身并未提供官

#学习
到底了