weixin_42479327 个人主页

@weixin_42479327

weixin_42479327

2022-12-01 09:53:11 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

tensorrt-llm与vllm的量化性能比较

准备部署lora微调好的语言大模型，有tensorrt-llm和vllm两种加速策略可选，而量化策略也有llm.int8，gptq，awq可用，怎样的组合才能获得最佳精度与速度呢，这是个值得探讨的问题，本文以llama-factory训练的qwen-7b的lora模型为基准，探究这几个组合对性能的影响。大模型的效果评估是件很难做的事，尤其是对文本生成类的lora模型，比较简单的办法是把生成文本与

#人工智能 #自然语言处理 #语言模型

yolov8模型结构改进方法

根据模块类型，将其添加到对应位置，清晰明了。通过此方法可以快速搭建新模型架构。接下来只需填充配置文件及对应参数就好。具体实施过程，参考下一篇将gold引入yolov8的文章。

vllm源码解析(三)：块管理(BlockManager)

目前为止，我们提到了很多次物理块的概念，到底什么是块呢？首先来看下物理块block(在块管理器BlockSpaceManager中使用)self,) -> None:# 该物理块在对应设备上的全局block索引号# 每个block槽位数量(默认16)# 在prefix caching场景下使用，其他场景值为-1# 该物理块的hash值是由多少个前置token计算而来的，非prefix cachin

#人工智能 #transformer #自然语言处理 +4

vllm源码解析(二)：调度策略分析

你有没有遇到过这种情况，某天，你老板（**调度**）来到你面前，跟你（**running**）说，亲，你的工作饱和吗（**最大吞吐量**），要不要给你再来点？我想你肯定没遇到过。真实的情况是，老板会直接把工作甩你脸上，工作不饱和你就干吧，没时间干（**gpu资源不足或处理数量超出阈值**）就先积压起来（watiing or swapped），有时间再搞。

#人工智能 #transformer #自然语言处理 +3

GLIP代码调试与效果分析

如果图中没有提示词物品, 可能会强行安利一个不能处理太长的句子, 会超出理解范围提示词很重要, 检测不到的物品, 可能换个表达就能检测出来了.作为开集检测模型, GLIP还是非常优秀的, 比如零样本检测. 还可以实现视频检测任务. 快速自动标注等,至于检测精度, 还不能与有监督算法相比.对于工业部署, zero-shot还是算了, 薛定谔的检测结果不太靠谱. 微调后应该会好很多.

#人工智能 #transformer #深度学习 +2

vllm源码解析(五)：LLM模型推理

self.model_executor.execute_model，调用与vllm耦合后的LLM模型进行推理。这是本篇要讲解内容，我们先来看下模型输入长什么样,execute_model_req：从调度系统中获得，可以用于做推理的seq_groups, 对seq_groups及可用到的各种属性做了封装，暂时不必管都是什么意思，用到时再现场分析。8.1中完成了资源调度工作，接下来该送入初始化好的模型

#深度学习 #人工智能 #自然语言处理 +1

用Gold-yolo模块改进yolov8模型

Gold-Yolo是华为诺亚方舟实验室2023年发布的工作，主要优化检测模型的neck模块。论文上展示的效果挺棒的, 打算引入到yolov8中,替换原有的neck层.目标检测模型一般都是分成3个部分，backbone,neck,head，其中neck部分,主要是类似fpn的结构，将不同层级的特征进行融合。

#人工智能 #目标检测 #计算机视觉

vllm源码解析(四)：LLM模型权重加载与kv-cache初始化

图来自B站某个视频，发现找不到原视频了！我们先来看下LLM是怎么结合到vllm中的。这是模型的入口，model_path路径指向下载的。可以看到通过from_engine_args来加载，继续往下看from_engine_args输入参数如下：cls(…, 这在本章开头的结构图中也能清晰看到。tokenizer比较简单，这里略过，schedule在第二篇文章中已经讲过。

#深度学习 #人工智能 #自然语言处理 +2

vllm源码解析(一)：整体架构与推理代码

vlllm官方代码更新频发,每个版本都有极大变动, 很难说哪个版本好用.第一次阅读vllm源码是0.4.0版本,对这版圈复杂度极高的调度代码印象深刻0.4.1对调度逻辑进行重构,完全大变样, 读代码速度快赶不上迭代的速度了。现在已经更新到0.5.4, 经过长时间观察，发现主要的调度逻辑基本也稳定了下来, 应该可以作为一个固话的版本去阅读。本文解读依据vllm 0.5.4版本. 没有修改任何代码,大

#自然语言处理 #语言模型 #深度学习 +2

llama-factory训练RLHF-PPO模型

除了ppo, dpo(Direct Preference Optimization:直接偏好优化)也是一种常见的调优手段, 不过多篇paper研究证明性能不如PPO, 在计算资源不足的情况下DPO也是个不过的选择,因为不需要训练奖励模型, 而且训练速度快,效果也比较稳定, 不像PPO那样很容易训崩.其他LLM偏好对齐训练技术还有ORPO,IPO,CPO以及效果看起来很棒的KTO.还有最新发表的RL

#深度学习 #人工智能 #自然语言处理 +2

共 14 条

请选择