帅到被针对_ 个人主页

@m0_52827625

帅到被针对_

2024-03-10 16:04:42 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

4月14日实习日记 | vllm源码解读 (一)

通过使模型类的构造函数统一，模型运行器可以轻松地创建和初始化模型，而无需知道特定的模型类型。通过使构造函数统一，我们可以轻松地创建视觉模型和语言模型，并将它们组合成视觉语言模型。启动服务的话，会执行vllm/entrypoints/cli/main.py 这个文件，解析命令行的参数，然后这个文件里又包含了下面三行，会遍历 CMD_MODULES 列表，对各个模块的子命令进行初始化。这个类当中，首先

#python

在docker中使用vLLM部署大模型

注意，如果在启服务的时候遇到了下面这个错误，需要进入到模型所在的文件夹，找到config.json，修改其中的max_position_embeddings字段和你的max_model_len匹配。这里注意，–limit-mm-per-prompt参数尽量加上，如果不加的话，一个对话里最多只能有一张图片，多了就会报错400，这里我随便设成了5，一个对话中对于5张图片就会报400。这个网站就可以实现

首先要在服务器中的一个docker中启动vllm服务启动成功使用测试脚本测试最大并发数lenlenlenlenlen这段代码是超哥写的测试代码。但是这段代码有一个问题，经过调试以及阅读博客，发现流式响应response对象中没有usage对象，没办法统计提问消耗的 token，回答消耗的 token，以及总共消耗的 token 数。，我在网上找到了这个帖子，里面说可以通过 tiktoken进行统计

#python

到底了