logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型-vllm 实现lora解析

实现解析器接口pass2. 注册解析器。

#人工智能
大模型-vllm 投机解码实现

【代码】大模型-vllm 投机解码实现。

#人工智能
大模型-qwen+audio的vllm部署初探-1

替换 projector:把线性 projector 替为小型 transformer / attention 层,使 audio→text 映射更强。离线缓存 audio embeddings:对于高吞吐场景,提前把 audio encoder 的输出 cache 到磁盘(或 redis),生成时直接使用。支持 streaming:将改为 chunked 处理,并允许incremental 替换

#python
大模型-qwen+audio的vllm部署初探-2

我们将输出一个增强版 Python 代码文件在原有和流式模式接口缓存状态维护动态 prompt 更新逻辑最后部分给出一个最小推理示例,演示完整流程。

#pytorch
大模型-vllm的知识点记录-1

较小的 max_num_batched_tokens 可以实现更好的 ITL,因为中断解码的预填充较少。较高的 max_num_batched_tokens 可以实现更好的 TTFT,因为您可以在批次中添加更多预填充。若生成配置中指定了 max_new_tokens,则会在服务器范围内对所有请求的输出 token 数量施加限制。它通过将计算绑定 (预填充) 和内存绑定 (解码) 请求定位到同一批次

大模型-qwen+audio的vllm部署初探-1

替换 projector:把线性 projector 替为小型 transformer / attention 层,使 audio→text 映射更强。离线缓存 audio embeddings:对于高吞吐场景,提前把 audio encoder 的输出 cache 到磁盘(或 redis),生成时直接使用。支持 streaming:将改为 chunked 处理,并允许incremental 替换

#python
大模型-qwen+audio的vllm部署初探-2

我们将输出一个增强版 Python 代码文件在原有和流式模式接口缓存状态维护动态 prompt 更新逻辑最后部分给出一个最小推理示例,演示完整流程。

#pytorch
大模型-vllm的知识点记录-1

较小的 max_num_batched_tokens 可以实现更好的 ITL,因为中断解码的预填充较少。较高的 max_num_batched_tokens 可以实现更好的 TTFT,因为您可以在批次中添加更多预填充。若生成配置中指定了 max_new_tokens,则会在服务器范围内对所有请求的输出 token 数量施加限制。它通过将计算绑定 (预填充) 和内存绑定 (解码) 请求定位到同一批次

    共 24 条
  • 1
  • 2
  • 3
  • 请选择