logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型-vllm投机解码模块解析

源码注释写得很明确:当前 draft model 整体放在最后一个 pipeline parallel rank 上这并不理想,尤其当 draft model 层数较多时这说明当前设计偏向“先打通功能,再逐步优化流水并行切分”。职责:定义 speculative config schema自动推断 method构造 draft model config约束 ngram / eagle / medu

#android
大模型-vllm投机解码模块解析

源码注释写得很明确:当前 draft model 整体放在最后一个 pipeline parallel rank 上这并不理想,尤其当 draft model 层数较多时这说明当前设计偏向“先打通功能,再逐步优化流水并行切分”。职责:定义 speculative config schema自动推断 method构造 draft model config约束 ngram / eagle / medu

#android
大模型-解析vllm lora 模块

在的中添加 batch 级别日志:logger.info("[LoRA] Batch 激活适配器: %s", active_names)客户端 model="asr-v1"│▼│▼_load_adapter() → PEFTHelper.from_local_dir() → 读取 adapter_config.json▼│→ 读取 adapter_model.safetensors│→ 按模块名组

#人工智能
大模型-解析vllm lora 模块

在的中添加 batch 级别日志:logger.info("[LoRA] Batch 激活适配器: %s", active_names)客户端 model="asr-v1"│▼│▼_load_adapter() → PEFTHelper.from_local_dir() → 读取 adapter_config.json▼│→ 读取 adapter_model.safetensors│→ 按模块名组

#人工智能
大模型-vllm 实现lora解析

实现解析器接口pass2. 注册解析器。

#人工智能
大模型-自定义多模态模型Vllm online部署实现

当我们有一个多模态的模型之后,比如支持文本和音频一起输入的asr 模型,支持图片和文本的输入的视觉模型,我们改如何在云端的gpu 上使用vllm推理框架把模型部署起来呢?这里的部署不是简单的使用vllm 将模型加载运行起来,这个加载运行在官网都有示例,这个比较简单。而是说我们需要支持自定义的输入,或者模型结构有变化之后,如何在vllm 中实现自定义的模型推理。但是我们在实际的业务中往往会有自己的输

#人工智能
大模型-自定义多模态模型Vllm online部署实现

当我们有一个多模态的模型之后,比如支持文本和音频一起输入的asr 模型,支持图片和文本的输入的视觉模型,我们改如何在云端的gpu 上使用vllm推理框架把模型部署起来呢?这里的部署不是简单的使用vllm 将模型加载运行起来,这个加载运行在官网都有示例,这个比较简单。而是说我们需要支持自定义的输入,或者模型结构有变化之后,如何在vllm 中实现自定义的模型推理。但是我们在实际的业务中往往会有自己的输

#人工智能
大模型-vllm 实现lora解析

实现解析器接口pass2. 注册解析器。

#人工智能
大模型-vllm 投机解码实现

【代码】大模型-vllm 投机解码实现。

#人工智能
大模型-qwen+audio的vllm部署初探-1

替换 projector:把线性 projector 替为小型 transformer / attention 层,使 audio→text 映射更强。离线缓存 audio embeddings:对于高吞吐场景,提前把 audio encoder 的输出 cache 到磁盘(或 redis),生成时直接使用。支持 streaming:将改为 chunked 处理,并允许incremental 替换

#python
    共 27 条
  • 1
  • 2
  • 3
  • 请选择