从7B到235B：阿里Qwen-VL多模态大模型的四次技术革命！

本文详细介绍了阿里Qwen-VL系列多模态大模型的四次重大迭代，从2023年7B参数的初始版本到2025年235B参数的最新版本。每次迭代都带来了技术创新，包括原生动态分辨率处理、多模态旋转位置嵌入、DeepStack多层特征融合等，使模型从基础视觉理解逐步升级到支持长视频理解、精准定位和高级推理能力，展示了多模态AI技术从感知到代理的全面突破。

网安福宝

913人浏览 · 2025-09-27 07:15:00

网安福宝 · 2025-09-27 07:15:00 发布

多模态大模型正成为连接视觉与语言的关键桥梁。从2023年到2025年，我们见证了阿里Qwen-VL系列模型的四次重大迭代，每一次升级都标志着视觉理解技术的新突破。

从最初7B参数的Qwen-VL，到如今235B参数的Qwen3-VL，这不仅仅是参数规模的跨越式增长，更是技术架构的深度革新。原生动态分辨率、多模态旋转位置嵌入、DeepStack多层特征融合——每一项技术创新都在重新定义机器如何"看懂"世界。

特别是最新发布的Qwen3-VL-235B，不仅支持20分钟以上的长视频理解，还能实现帧级别的时间戳对齐，甚至推出了具备推理能力的Thinking版本。这些突破让我们看到了通用人工智能在视觉理解领域的无限可能。

本文将带你深入了解Qwen-VL四代模型的完整进化历程，从技术原理到架构创新，从训练策略到应用场景，全面解析这一多模态AI领域的重要里程碑。让我们一起探索，机器是如何一步步学会"看懂"这个复杂而精彩的世界的。欢迎关注阿东玩AI

Qwen-VL模型发展历程回顾

Qwen-VL (2023年8月)

论文: Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

链接: https://arxiv.org/pdf/2308.12966

主要特点:

基于Qwen-LM (7B参数) 进行微调
包含两个版本：

预训练模型 Qwen-VL
指令微调模型 Qwen-VL-Chat

核心能力：

多语言交互
多图像输入
细粒度视觉理解（目标定位、文本读取等）

Qwen-VL 系列模型在开源视觉-语言模型（LVLMs）领域的创新主要体现在架构设计、训练范式、能力突破三大维度，针对性解决了此前开源模型存在的“性能落后闭源模型”“细粒度理解不足”“多模态与文本能力失衡”等核心痛点，具体创新点如下：

一直在更新，更多的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

一、架构创新：轻量高效的视觉-语言融合设计

区别于传统“视觉编码器+LLM”的简单拼接，Qwen-VL 提出“语言对齐视觉编码器+位置感知适配器”的模块化架构，在保证融合效果的同时兼顾效率：

**位置感知的 VL 适配器（Position-aware Adapter）**为解决高分辨率视觉特征序列过长导致的计算冗余问题，设计了基于交叉注意力的适配器：通过 256 个可学习查询向量压缩视觉特征，并融入2D 绝对位置编码，避免压缩过程中空间信息丢失。这一设计既将视觉特征长度固定为 256（适配 LLM 输入），又保留了细粒度定位所需的位置细节，是模型实现“视觉 grounding（定位）”能力的核心基础。
极简输入输出接口设计统一的多模态交互格式：用 <img>/</img> 标记图像起止，用 <box>/</box>+<ref>/</ref> 关联边界框与描述文本，无需额外扩展词表或复杂模态标记。这种简洁接口支持“多图输入、跨图对话、定位-描述联动”等复杂场景，降低了多任务适配门槛。

二、训练范式创新：三阶段递进式优化与数据治理

针对开源模型训练不充分、任务覆盖单一的问题，Qwen-VL 提出“基础预训练→多任务预训练→指令微调”的三阶段 pipeline，并配套精细化数据治理策略：

分阶段能力递进训练
阶段1（基础预训练）：用 1.4B 清洗后的中英图像-文本对（源自 LAION、DataComp 等）冻结 LLM，仅优化视觉编码器与适配器，快速建立“视觉-语言基础对齐”；
阶段2（多任务预训练）：解锁 LLM 全模型训练，引入 7 类细粒度任务（字幕生成、VQA、grounding、OCR 等，共 76.1M 样本），并将图像分辨率从 224×224 提升至 448×448，针对性强化“文本读取、目标定位”等核心能力；
阶段3（指令微调）：用 350k 人工标注+模型生成的多模态指令数据（含多图对话、定位指令）微调，同时混合纯文本数据，避免“多模态训练退化文本能力”。
多语言+细粒度的语料构建突破此前开源模型以英文数据为主、任务单一的局限：
语料覆盖中英双语（英文 77.3%、中文 22.7%），包含 PDF/HTML 文档、自然场景 OCR、图表等真实世界数据；
专门构建“image-caption-box 三元组”数据（如 GRIT、RefCOCO 系列），将“描述生成”与“目标定位”绑定训练，直接赋能细粒度理解。

三、能力突破：开源模型首次实现“全场景强能力覆盖”

此前开源 LVLMs 多侧重“图像描述、基础 VQA”，Qwen-VL 首次在开源模型中实现“基础能力+细粒度能力+对话能力”的全栈突破，性能比肩甚至超越部分闭源大模型：

细粒度视觉理解的开源领跑首次在开源模型中同时实现“视觉定位（grounding）、文本读取（OCR）、文本导向 VQA”三大核心细粒度能力：
在 RefCOCO+（testB）、GRIT 等定位基准上，Qwen-VL 准确率达 77.21%、78.22%，远超 Shikra 等同类开源模型；
在 TextVQA（63.8）、DocVQA（65.1）、ChartQA（65.7）等文本导向任务上，大幅领先 BLIP-2、InstructBLIP，甚至接近单任务优化的闭源模型 PALI-X。
多模态与文本能力的平衡解决了“多模态训练导致文本能力下降”的行业痛点：通过在多任务预训练和指令微调阶段混入纯文本数据，Qwen-VL 在 MMLU（50.7）、C-Eval（51.1）等纯文本基准上性能与初始化的 Qwen-7B 持平，甚至略有提升，打破“多模态与文本能力不可兼得”的认知。
零样本/少样本泛化能力的跃升在无任务微调的情况下，Qwen-VL 展现出极强的泛化性：
零样本图像字幕任务中，Flickr30K 的 CIDEr 分数达 85.8，超越 80B 参数量的 Flamingo-80B（67.2）；
少样本场景下（如 OKVQA、VizWiz），性能优于同规模的 Flamingo-9B，甚至比肩 80B 级别的 IDEFICS-80B，验证了其“通用视觉-语言理解”能力。
Qwen2-VL (2024年9月)

论文: Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution

链接: https://arxiv.org/pdf/2409.12191

参数规模: 2B、7B、72B三种版本

核心创新:

一、视觉处理：原生动态分辨率机制（Naive Dynamic Resolution）

这是Qwen2-VL最核心的突破，彻底改变了传统LVLM固定分辨率处理的范式。

1. 核心问题解决

传统LVLM需将所有输入图像缩放/填充至固定分辨率（如224×224），导致高分辨率图像细节丢失（如文档小字、复杂图表）或低分辨率图像冗余计算。Qwen2-VL则让模型像人类视觉一样“按需分配注意力”——不同分辨率图像生成不同数量的视觉令牌，无需强制统一尺

2. 技术实现细节

移除绝对位置嵌入：替换传统ViT的固定位置嵌入，引入2D-RoPE（二维旋转位置嵌入），精准捕获图像的空间坐标信息（高度、宽度），适配任意宽高比。
动态令牌压缩：通过简单MLP层将相邻2×2的视觉令牌压缩为1个，搭配<|vision_start|>/<|vision_end|>特殊令牌标记边界，在保证精度的同时控制序列长度。
分辨率边界控制：仅设定min_pixels（100×28×28）与max_pixels（16384×28×28），令牌数量完全由图像原生分辨率决定，避免过度缩放。

3. 实际价值

效率与精度平衡：平均视觉令牌消耗仅1924（低于固定1600令牌方案），但在DocVQA（96.5分）、OCRBench（877分）等任务中刷新SOTA。
鲁棒性提升：对极端宽高比（如长文档、竖屏截图）和不同清晰度图像的适配性显著优于固定分辨率模型。

二、跨模态融合：多模态旋转位置嵌入（M-RoPE）

解决了文本、图像、视频的位置信息统一建模难题，让跨模态融合更自然。

1. 核心问题解决

传统LVLM用1D-RoPE处理文本，用独立机制处理图像/视频位置，导致多模态位置信息割裂——无法有效关联“文本描述的空间位置”与“图像中的实际坐标”，也难以建模视频的“时空动态”（如动作顺序）。

2. 技术实现细节

三维组件拆解：将旋转嵌入拆分为时间、高度、宽度三个独立组件，分别适配不同模态的位置特性：

文本：三组件共享同一位置ID，等效传统1D-RoPE，保持语言理解能力；
图像：时间ID固定（静态），高度/宽度ID随像素坐标变化（捕捉空间位置）；
视频：时间ID随帧序号递增（捕捉时序），高度/宽度ID同图像（捕捉帧内空间）。

长序列外推能力：通过降低图像/视频的位置ID数值，模型可在训练时仅支持16K令牌的情况下，推理时处理80K令牌（对应超20分钟长视频），突破序列长度限制。

3. 实际价值

跨模态对齐更精准：例如在“根据文本描述定位图像物体”任务中，M-RoPE能将文本中的“左上角”与图像坐标直接关联，视觉定位精度（如RefCOCO测试集90.4分）超越同类开源模型。
长视频理解更强：在EgoSchema（长视频基准）中达77.9分，显著超越GPT-4o的72.2分。

三、模态统一：图像与视频的一体化处理范式

打破了“图像、视频视为独立模态”的传统设计，实现两者的无缝兼容与高效处理。

1. 核心问题解决

传统模型需为图像和视频设计两套编码器（如2D CNN处理图像、3D CNN处理视频），导致架构冗余且跨模态迁移能力弱（如无法用图像知识辅助视频理解）。

2. 技术实现细节

统一输入格式：将图像视为“2帧完全相同的视频”，视频按2帧/秒采样，确保图像与视频的输入结构一致；
3D卷积处理动态信息：引入深度为2的3D卷积，将视频帧转换为“3D管状物”（而非孤立2D补丁），捕捉帧间的时序关联，同时避免序列长度爆炸（单视频令牌限制16384）。

3. 实际价值

长视频处理能力：支持20分钟以上视频的问答、内容总结，在Video-MME（1小时视频基准）中无字幕场景达71.2分，接近Gemini 1.5-Pro的75.0分。
训练效率提升：图像与视频数据共享训练范式，无需额外适配，减少算力消耗。

训练方案:

三阶段训练：仅训练视觉编码器 → 全参数训练 → LLM指令微调
训练数据：1.4万亿tokens数据集（含图像-文本对、OCR数据等）

Qwen2.5-VL (2025年2月)

论文: Qwen2.5-VL Technical Report

链接: https://arxiv.org/pdf/2502.13923

参数规模: 3B、7B、72B三种版本

一直在更新，更多的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

Qwen2.5-VL 在视觉-语言模型（LVLM）领域的创新点可概括为 架构设计、时序处理、数据与训练、核心能力拓展 四大维度，具体如下：

一、架构层面：高效原生分辨率感知设计

1. 融合窗口注意力的动态分辨率视觉编码器

核心创新：重新设计视觉Transformer（ViT），在多数层采用 窗口注意力（Window Attention），仅4层保留全注意力。窗口尺寸固定为112×112（对应8×8 patch），小于该尺寸的区域无需填充，直接以原生分辨率处理。
解决痛点：传统ViT的全注意力计算复杂度随图像尺寸呈二次增长，难以适配大尺寸图像或高分辨率文档；该设计将复杂度降至线性，同时避免强制分辨率归一化导致的空间信息失真（如小物体丢失、比例失衡）。
技术细节：采用14×14 patch尺寸，输入图像仅调整为28的整数倍（而非固定尺寸），配合2D-RoPE（旋转位置编码）精准捕捉空间关系，且ViT与LLM架构对齐（统一使用RMSNorm归一化、SwiGLU激活函数），提升跨模态兼容性。

2. 轻量化视觉-语言融合器

核心创新：通过“分组压缩+MLP投影”实现视觉特征与文本特征的高效对齐——将空间相邻的4个ViT patch特征分组拼接，再通过两层MLP投影至LLM的文本嵌入维度。
解决痛点：直接输入原始ViT patch序列会产生大量tokens，导致LLM计算负担过重；该设计动态压缩特征长度，在降低开销的同时保留关键空间信息。

二、时序层面：长视频理解的时序建模突破

1. 动态FPS采样与绝对时间编码

核心创新：将“动态分辨率”从空间维度拓展至时序维度，通过 动态FPS采样 适配不同帧率的视频（如15fps、30fps），同时将 多模态旋转位置编码（MRoPE）的时序分量与绝对时间戳对齐。
解决痛点：传统LVLM处理视频时依赖固定帧率采样或文本时间标记，难以捕捉事件节奏（如“快速移动”“长时间静止”），且无法精准定位秒级事件；该设计通过时间ID间隔直接学习时序动态，无需额外计算开销。
技术效果：支持处理长达数小时的视频，在Charades-STA（事件时序定位）中实现50.9的mIoU，显著超越GPT-4o（35.7）。

2. 3D patch分区的视频适配

核心创新：对视频采用“14×14×2”的3D patch分区（即2帧为一组），将视频帧序列转换为更紧凑的token序列。
解决痛点：单帧独立处理会导致视频token量爆炸，且丢失帧间关联；该设计在兼容静态图像ViT架构的同时，强化时序连续性建模。

三、数据与训练：规模化与精细化双升级

1. 4.1万亿token的多模态预训练数据体系

核心创新：预训练数据从Qwen2-VL的1.2万亿tokens扩充至 4.1万亿tokens，涵盖8大类核心数据，且针对关键任务设计专项数据集：

文档数据：首创QwenVL HTML格式，统一封装表格、图表、化学式、乐谱等元素的布局坐标（data-bbox）与内容，合成600万真实表格、100万图表样本。
定位数据：包含1万+物体类别的开放词汇检测数据，以及点级/边界框级标注，结合copy-paste augmentation增强泛化性。
长视频数据：针对超30分钟的视频合成多帧caption，支持秒级（s）与时分秒帧（hmsf）两种时间格式标注。

解决痛点：传统LVLM数据存在模态单一、场景覆盖不足（如专业文档、长视频）的问题；该数据体系实现“感知-推理-交互”全链路覆盖。

2. 三阶段分层预训练与偏好对齐

核心创新：设计“视觉预训练→多模态预训练→长上下文预训练”三阶段流程，配合“SFT+DPO”后训练优化：

阶段1（视觉预训练）：仅训练ViT，聚焦图像特征提取与语言对齐。
阶段2（多模态预训练）：联合训练ViT与LLM，加入VQA、视频定位等推理数据。
阶段3（长上下文预训练）：将序列长度从8192提升至32768，专攻长文档、长视频任务。
后训练：200万条SFT数据（文本/多模态各50%）采用ChatML格式支持多轮对话，DPO基于人类偏好数据优化输出质量。

解决痛点：传统联合训练易导致“模态偏科”（如视觉能力强但语言推理弱）或长上下文退化；分层训练实现能力循序渐进提升。

四、能力层面：从“感知”到“代理”的功能突破

1. 全场景文档“解析+理解”一体化

核心创新：打破传统“布局分析→文本提取→图表解读”的分工具流程，实现多语言、多元素（手写体、公式、乐谱）文档的端到端处理。
技术支撑：依赖QwenVL HTML格式的标准化数据与ViT的原生分辨率感知，在CC-OCR（文档解析）中达79.8分，OCRBench_v2（中英综合任务）中分别超Gemini 1.5 Pro 9.6%/20.6%。

2. 点级/边界框级精准目标定位

核心创新：支持以绝对坐标、JSON格式输出物体的边界框或精准点位，结合“检测-计数-推理”联动能力。
技术效果：在CountBench（物体计数）中达93.6分，超越Claude 3.5（89.7）、GPT-4o（87.9）；开放词汇检测（ODinW）达43.1 mAP，缩小与专业检测模型的差距。

3. 设备交互级智能代理能力

核心创新：通过“UI元素定位+多步决策推理”实现电脑、手机等设备的GUI交互，统一移动端/桌面端操作的函数调用格式。
数据支撑：采集多平台截图数据，合成UI元素标注与操作轨迹（含推理过程注释），在MobileMiniWob++（移动端交互）中成功率达68%，超越GPT-4o（61%）。

创新点总结表


创新维度	核心创新点	解决的关键问题	代表性效果
架构效率	窗口注意力动态分辨率ViT	高分辨率计算开销大、空间信息失真	MMBench-EN达88.6分
时序建模	绝对时间对齐MRoPE+动态FPS采样	长视频时序感知弱、事件定位不准	Charades-STA mIoU 50.9
数据体系	4.1T多模态数据+QwenVL HTML文档格式	场景覆盖不足、文档解析碎片化	CC-OCR 79.8分
训练优化	三阶段预训练+SFT+DPO	模态偏科、长上下文退化	长视频LVBench 47.3分（超GPT-4o 16.5分）
功能拓展	文档一体化解析+点级定位+设备代理	任务依赖多工具、交互能力弱	MobileMiniWob++成功率68%

Qwen3-VL (2025年9月)

模型: Qwen3-VL-235B-A22B

版本: 包含 Instruct 与 Thinking 两个版本

技术报告: https://qwen.ai/blog?id=99f0335c4ad9ff6153e517418d48535ab6d8afef&from=research.latest-advancements-list

开源地址:

Thinking版本: https://huggingface.co/Qwen/Qwen3-VL-235B-A22B-Thinking
Instruct版本: https://huggingface.co/Qwen/Qwen3-VL-235B-A22B-Instruct

架构调整与核心创新

1. MRoPE-Interleave 优化:

改进原始MRoPE的特征维度分块方式
原始MRoPE按时间(t)、高度(h)、宽度(w)顺序分块，导致时间信息全部分布在高频维度上
MRoPE-Interleave通过交错排列方式优化了维度分配

2. DeepStack 多层视觉特征融合:

核心思路: 将传统多模态大模型(LMM)的单层视觉tokens输入改为多层注入
技术背景: 基于论文《DeepStack: Deeply Stacking Visual Tokens is Surprisingly Simple and Effective for LMMs》

论文链接: https://arxiv.org/pdf/2406.04334
项目主页: https://deepstack-vl.github.io/

传统方法的问题:

大多数LMMs将视觉token作为序列输入到LLM的第一层
虽然简单但显著增加计算和内存成本
必须在输入层处理大量额外token

DeepStack解决方案:

将不同的视觉token输入到LLMs的不同层中
显著减轻视觉token引入的效率开销
将token堆叠成网格，从下至上注入到第一层和中间的Transformer层
堆栈的每一层通过简单的残差连接与LLMs中的一层相连

实现优化:

将来自ViT不同层的视觉特征进行token化
以此作为视觉输入，有效保留从底层(low-level)到高层(high-level)的视觉信息
提升视觉细节捕捉能力和图文对齐精度

时序建模机制改进

文本时间戳对齐机制:

将原有的视频时序建模机制T-RoPE变为文本时间戳对齐机制
采用"时间戳-视频帧"交错的输入形式
实现帧级别的时间信息与视觉内容的细粒度对齐
原生支持两种时间输出格式：

"秒数"格式
“时:分:秒”(HMS)格式

关于我

{
"target":"简单认识我",
"selfInfo":{
"genInfo":"大厂面试官，中科院硕士，从事数据闭环业务、RAG、Agent等，承担技术+平台的偏综合性角色。善于调研、总结和规划，善于统筹和协同，喜欢技术，喜欢阅读新技术和产品的文章与论文",
"contactInfo":"abc061200x, v-adding disabled",
"slogan":"简单、高效、做正确的事",
"extInfo":"喜欢看电影、喜欢旅游、户外徒步、阅读和学习，不抽烟、不喝酒，无不良嗜好"
   }
}
齐
* 原生支持两种时间输出格式：

+ "秒数"格式
+ "时:分:秒"(HMS)格式

关于我
---

```plaintext
{
"target":"简单认识我",
"selfInfo":{
"genInfo":"大厂面试官，中科院硕士，从事数据闭环业务、RAG、Agent等，承担技术+平台的偏综合性角色。善于调研、总结和规划，善于统筹和协同，喜欢技术，喜欢阅读新技术和产品的文章与论文",
"contactInfo":"abc061200x, v-adding disabled",
"slogan":"简单、高效、做正确的事",
"extInfo":"喜欢看电影、喜欢旅游、户外徒步、阅读和学习，不抽烟、不喝酒，无不良嗜好"
   }
}

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新，更多的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述