简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
Qwen-VL技术报告笔记
之前有很多文章说qwen-vl用的是q-former的架构,这里我看并不是用了q-former的架构,只能说是用了q-former的的思想,都有一个query向量,但是q-former是一个多层的transformer架构,比较复杂(blip2-opt-2.7b包含12层的transformer,感兴趣的可以去看看源码,transformers库也集成了这个模型),这里只是用了一个交叉注意力层,简
Qwen2-VL笔记
qwen2-vl中说:“We have retained the Qwen-VL framework, which integrates vision encoders and language models.”,但是代码上qwen2-vl和qwen-vl的模型结构并不一致,除了动态分辨率和旋转位置编码外,连接部分用的是一层mlp(类似于llava的结构),而不是qwen-vl的类q-former
到底了