logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Qwen-VL技术报告笔记

之前有很多文章说qwen-vl用的是q-former的架构,这里我看并不是用了q-former的架构,只能说是用了q-former的的思想,都有一个query向量,但是q-former是一个多层的transformer架构,比较复杂(blip2-opt-2.7b包含12层的transformer,感兴趣的可以去看看源码,transformers库也集成了这个模型),这里只是用了一个交叉注意力层,简

文章图片
#人工智能
Qwen2-VL笔记

qwen2-vl中说:“We have retained the Qwen-VL framework, which integrates vision encoders and language models.”,但是代码上qwen2-vl和qwen-vl的模型结构并不一致,除了动态分辨率和旋转位置编码外,连接部分用的是一层mlp(类似于llava的结构),而不是qwen-vl的类q-former

文章图片
#人工智能#论文阅读#计算机视觉
到底了