HanSomeLing 个人主页

@qq_37261783

HanSomeLing

2023-11-09 16:05:14 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Qwen-VL技术报告笔记

之前有很多文章说qwen-vl用的是q-former的架构，这里我看并不是用了q-former的架构，只能说是用了q-former的的思想，都有一个query向量，但是q-former是一个多层的transformer架构，比较复杂（blip2-opt-2.7b包含12层的transformer，感兴趣的可以去看看源码，transformers库也集成了这个模型），这里只是用了一个交叉注意力层，简

#人工智能

Qwen2-VL笔记

qwen2-vl中说：“We have retained the Qwen-VL framework, which integrates vision encoders and language models.”，但是代码上qwen2-vl和qwen-vl的模型结构并不一致，除了动态分辨率和旋转位置编码外，连接部分用的是一层mlp（类似于llava的结构），而不是qwen-vl的类q-former

#人工智能 #论文阅读 #计算机视觉

到底了