【MLLM】Qwen-Omni系列全模态模型架构和训练

山顶夕景

1510人浏览 · 2025-05-03 15:27:19

山顶夕景 · 2025-05-03 15:27:19 发布

note

Qwen3-Omni系列模型，模型输入可以是文本、图片、语音、视频；输出可以是流式的文本/语音：
- Thinker（思考者）：基于混合专家（MoE）架构，负责文本语义的理解与生成，是模型处理逻辑、知识和推理的“大脑”。它确保了在处理音视频任务时，核心的文本与图像能力不受干扰，真正实现“全模态不降智”。
- Talker（表达者）：同样基于 MoE 架构，专注于流式语音 Token 的生成。它直接接收来自 Thinker 的高层语义表征，确保语音输出与文本意图高度一致，避免了传统端到端模型在语音生成过程中对语义理解的损耗。
Qwen3-omni模型训练：
- 预训练：编码器对齐阶段（S1）即先训练adapter再训练编码器、通用阶段 (S2)即全参训练、长上下文阶段 (S3)即逐渐增加长视频、长音频数据的比例训练。
- Thinker的后训练：轻量级SFT、强弱模型蒸馏即离策略蒸馏（Off-policy Distillation）+在线策略蒸馏（On-policy Distillation）、GSPO强化学习训练（基于规则的奖励、基于模型评估的奖励）
- Talker的后训练：多模态到语音的映射、持续预训练 (CPT)、直接偏好优化 (DPO)、说话人微调即学习特定音色
- 在Qwen3-Omni-30B-A3B的基础上微调得到了 Qwen3-Omni-30B-A3B-Captioner。该模型能为任意音频输入生成详细、低幻觉的字幕
Qwen3-omni的后续工作：通义团队将沿多个技术方向持续推进模型升级，包括多说话人ASR、视频OCR、音视频主动学习等核心能力建设，并强化基于智能体的工作流与函数调用支持。
Qwen3-Omni模型代码源码解读：Qwen3-Omni全模态模型源码解读
使用：打开千问 https://chat.qwen.ai/，支持语音通话和视频通话
Qwen 2.5 Omni 的实时交互能力：视频聊天：支持实时视频交互。多模态理解：可以同时处理视频画面和声音。即时响应：支持流式输出，反应快速自然

一、Qwen3-Omni系列模型

1、模型架构

一个真正的性能无损的多模态系统应具备两大特性：

1能力对等：在各个单模态任务上，其性能与专门的单模态模型相当。
2协同增益：能促进新颖的、单模态模型不具备的跨模态推理和交互能力。

五大关键升级：

Thinker和Talker均升级为混合专家（MoE）架构。
用自研的、在2000万小时有监督音频上训练的AuT音频编码器取代了Whisper，提供了更强的通用音频表示。
语音生成端采用多codebook（multi-codebook）表示，增强了对多样化声音和声学现象的建模能力。
Talker从单轨解码转向多轨编解码器（codec）建模，并用轻量级的卷积网络（ConvNet）取代了计算密集的扩散模型（DiT）。
输入输出音频码率降至12.5Hz，实现了单帧即时语音合成。

阿里此次开源了三种 Qwen3-Omni 模型变体，均基于 30B 参数，采用 Apache 2.0 许可：

Qwen3-Omni-30B-A3B-Instruct：优化指令跟随，适合交互式任务。
Qwen3-Omni-30B-A3B-Thinking：增强复杂推理，适合逻辑分析。
Qwen3-Omni-30B-A3B-Captioner：低幻觉音频字幕生成，适合媒体应用。

组成模块：

Thinker（思考者）：基于混合专家（MoE）架构，负责文本语义的理解与生成，是模型处理逻辑、知识和推理的“大脑”。它确保了在处理音视频任务时，核心的文本与图像能力不受干扰，真正实现“全模态不降智”。
Talker（表达者）：同样基于 MoE 架构，专注于流式语音 Token 的生成。它直接接收来自 Thinker 的高层语义表征，确保语音输出与文本意图高度一致，避免了传统端到端模型在语音生成过程中对语义理解的损耗。

（1）概述

模型架构：

音频编码：模型的音频编码器采用基于 2000 万小时数据训练的 AuT 模型，为音视频理解提供了强大的通用表征基础。
推理加速：为实现毫秒级实时交互，Talker 采用了创新的多codebook自回归方案，在每一步解码中，MTP（Multi-Token Prediction）模块会预测当前音频帧的残差codebook。随后，Code2Wav 模块将这些codebook即时合成为波形，实现逐帧流式音频生成。

Qwen3-Omni 通过 Vision Encoder 和 AuT 音频编码器将图文音视频输入编码为隐藏状态，由 MoE Thinker 负责文本生成与语义理解，再由 MoE Talker 结合 MTP 模块，实现超低延迟的流式语音生成。

推理效果：得益于这一协同设计，Qwen3-Omni 纯模型端到端的音频对话延迟可低至 211ms，视频对话延迟可低至 507ms，交互体验如真人对话般自然流畅。

（2）音频转换器 (Audio Transformer, AuT)

在这里插入图片描述

AuT是一个基于Attention的编码器-解码器模型，它在2000万小时的有监督音频数据上从零开始训练。其训练数据包含80%的中英文ASR（自动语音识别）伪标签数据、10%的其他语言ASR数据和10%的音频理解数据。AuT采用了动态大小的注意力窗口，以平衡实时预填充缓存的效率和离线音频任务的性能。在Qwen3-Omni中，作者们使用了约6亿参数的AuT编码器作为音频编码器。

（3）多模态输入

多模态输入处理：

文本：使用Qwen的分词器。
音频：重采样至16kHz，转换为128通道的mel谱图，再由AuT编码器处理。
图像/视频：采用Qwen3-VL的视觉编码器，该编码器从SigLIP2-So400m初始化，约5.4亿参数。

注意：时间对齐的多模态旋转位置嵌入 (TM-RoPE)：
受Qwen2.5-Omni启发，作者们采用了TM-RoPE，它将传统RoPE分解为时间、高度、宽度三个维度。

（4）语音生成

Qwen3-Omni的Talker模块直接在RVQ（残差矢量量化）token上操作。它采用一种层级预测方案：主干网络接收当前帧的聚合codebook特征，并用一个线性头预测第0个codebook；然后，一个多令牌预测（MTP）模块生成所有剩余的残差codebook。这一策略使模型能够学习声学细节的完整表示，增强了声音的表现力。因此，波形重建被简化为一个轻量级的因果ConvNet（Code2Wav），这在降低推理延迟和计算成本的同时，实现了比复杂的DiT-based声码器更高的音频保真度。

（5）为流式和并发所做的设计

分块预填充 (Chunked Prefilling) 和 MoE 架构：保留了Qwen2.5-Omni中的分块预填充机制，音频和视觉编码器能沿时间维度输出块。Thinker和Talker异步预填充，显著减少了首个token的响应时间（TTFT）。同时，MoE架构通过减少长序列处理中的KV Cache I/O消耗，有效提升了服务吞吐量和并发能力。
流式多码本编解码器生成：为最小化首包延迟，作者们提出了一个仅依赖左侧上下文的多码本生成机制。一旦Talker生成第一个token，MTP模块就会预测当前帧的剩余token，然后这些token被一个流式的、仅关注左侧上下文的解码器解码成波形。这与Qwen2.5-Omni需要等待足够上下文才能合成的机制形成鲜明对比，极大地降低了首包延迟。
轻量级MTP模块和ConvNet：MTP模块是一个超轻量级的定步自回归Transformer，而基于ConvNet的解码器也能高效地进行批处理推理。两者都具有低计算开销和高吞吐量的特点。

表1: Qwen3-Omni-30B-A3B的架构设计和端到端首包延迟
在这里插入图片描述

表2: Qwen3-Omni在不同并发下的理论首包延迟
在这里插入图片描述
如上表所示，在单并发的冷启动设置下，Qwen3-Omni的端到端首包延迟理论上可低至234毫秒（音频）/ 547毫秒（视频）。得益于MoE架构和轻量化设计，即使在多并发场景下，其延迟和实时率（RTF）也保持在可接受的范围内，确保了流畅的流式音频响应体验。

2、模型训练

（1）预训练

Qwen3-Omni在一个包含多种语言和模态（图文、视频文、音文、音视频、音视频文、纯文本）的多样化数据集上进行预训练。其预训练分为三个阶段：

编码器对齐阶段（S1）：在初始预训练阶段，Qwen3-Omni的LLM组件使用Qwen3的参数进行初始化，视觉编码器采用自 Qwen3-VL，音频编码器使用 AuT 初始化。两个编码器在固定的 LLM 上分别进行训练，最初都专注于训练各自的适配器（adapters），然后再训练编码器本身。
- 我们摒弃了 Bai et al. (2025) 和 Xu et al. (2025) 中使用的在LLM冻结时联合训练编码器和适配器的阶段，因为这种方法可能导致编码器去补偿冻结 LLM 的局限性，从而导致感知能力下降。
通用阶段 (S2)：解冻所有参数，在一个约2万亿token的大规模多模态数据集上进行训练，以增强模型的综合理解和交互能力。
长上下文阶段 (S3)：将最大token长度从8192增加到32768，并增加长音频和长视频在训练数据中的比例，显著提升了模型对长序列数据的理解能力。

（2）后训练

1）Thinker模块

Thinker的后训练同样分为三阶段：

轻量级SFT：通过有针对性的指令微调，弥合预训练表示与下游任务之间的差距。
强弱模型蒸馏：
- 离策略蒸馏（Off-policy Distillation）：首先进行离策略蒸馏，让学生模型学习教师模型（如Qwen3-32B或Qwen3-235B）的响应，以获得基础推理能力；
- 在线策略蒸馏（On-policy Distillation）：然后进行在策略蒸馏，让学生模型自己生成响应，再通过最小化与教师模型logits的KL散度进行微调。
GSPO：利用GSPO（Group Sequence Policy Optimization）全面增强模型在文本、图像、视频和音频等所有模态上的能力和稳定性。反馈信号来自两种奖励：
- 基于规则的奖励：用于数学、代码等可验证的多模态任务。
- 基于模型的奖励：对于缺乏客观评价指标的任务，采用“LLM即评委”的协议，使用Qwen3和Qwen2.5-VL作为自动评估器。

2）Talker

Talker的后训练分为四阶段，以实现与文本同步的语音响应生成。所有训练数据均采用 ChatML 格式，以确保与思考者（Thinker）的一致性。

多模态到语音的映射：利用数亿条带多模态上下文的语音数据进行训练，建立从多模态表示到语音的映射。
持续预训练 (CPT)：用高质量数据进行CPT，以减轻第一阶段噪声数据带来的幻觉，并提升长上下文处理能力。
直接偏好优化 (DPO)：构建多语言语音样本的偏好对，使用DPO优化模型，以提高多语言语音生成的稳定性和泛化能力。
说话人微调：在基础模型上进行特定说话人的微调，以实现特定音色的采纳，并提升语音的自然度、表现力和可控性。

3）字幕生成器 (Captioner)

为了弥补当前多模态研究中对音频字幕生成的忽视，作者们在Qwen3-Omni-30B-A3B的基础上微调得到了 Qwen3-Omni-30B-A3B-Captioner。该模型能为任意音频输入生成详细、低幻觉的字幕，为多模态感知研究提供了重要的基础工具。

3、模型评估

音视频能力强劲：在 36 项音视频基准测试中，32 项取得开源模型最佳效果，22项达到 SOTA 水平。性能表现超越 Seed-ASR、GPT-4o-Transcribe 等闭源模型。
文本能力稳定：在 MMLU-Redux、AIME25 等文本评测中，Qwen3-Omni-30B-A3B 得分分别为 85.9 和 64.0，与参数量更大的单模态模型 Qwen3-235B-A22B（89.2, 24.7）表现接近。
图像能力扎实：在 MMMU 和 CountBench 图像理解评测中得分 69.1 和 90.0，与专用视觉模型 Qwen2.5-VL-72B 表现相当。
在这里插入图片描述

（1）X→文本评估

文本→文本：在通用任务、推理、代码、对齐、智能体和多语言等六大类任务上进行评估。如表4和表5所示，Qwen3-Omni-30B-A3B-Instruct在GPQA、AIME25等多个基准上超越了更大规模的开源模型和强大的闭源模型GPT-4o。其Thinking版本也表现出与Gemini-2.5-Flash-Thinking相当的性能。

[表4: Qwen3-Omni-Instruct与其他非推理基线的文本→文本性能]

[表5: Qwen3-Omni-Thinking与其他推理基线的文本→文本性能]

音频→文本：在ASR、S2TT、语音聊天、音频推理和音乐理解等任务上进行评估。如表6、7、8所示，Qwen3-OmnOmni在这些任务上取得了惊人的成绩，在多个基准上刷新了SOTA记录，超越了包括Gemini-2.5-Pro、GPT-4o-Audio在内的众多专业或通用模型。这充分展示了其在通用音频理解和推理方面的强大能力。
[表6: 音频→文本任务的转录性能对比]

[表7: 音频→文本任务的语音交互和音频推理性能对比]

[表8: 音频→文本任务的音乐理解性能对比]

视觉→文本：在通用视觉问答、数学/STEM、文档理解、计数和视频理解等任务上进行评估。如表9和表10所示，Qwen3-Omni-Instruct表现出与更大规模的Qwen2.5-VL-72B相当的性能，并在数学/STEM相关任务上优于GPT-4o等模型。其Thinking版本在多个基准上也取得了显著进步。

[表9: Qwen3-Omni-Instruct与其他非推理基线的视觉→文本性能]

音视频→文本：在WorldSense、DailyOmni和VideoHolmes等基准上进行评估。如表11和表12所示，Qwen3-Omni在这些需要整合音视频信息的任务上取得了SOTA性能，展示了其在基础多模态整合和复杂推理方面的巨大潜力。
[表11: Qwen3-Omni-Instruct的音视频→文本性能]

（2）X→语音评估

作者们在零样本语音生成、多语言语音生成和跨语言语音生成三个方面评估了Qwen3-Omni的语音生成能力。

零样本语音生成：如表13所示，Qwen3-Omni表现出极具竞争力的性能，在经过RL优化后，其生成稳定性和内容一致性达到了最佳水平。
[表13: Seed-TTS测试集上的零样本语音生成]

多语言语音生成：如表14所示，Qwen3-Omni在中文、英文、法文等语言上显著超越了MiniMax和ElevenLabs，并在其他语言上表现相当。
[表14: MiniMax多语言测试集上的多语言语音生成]

跨语言语音生成：如表15所示，Qwen3-Omni在任意语言到英语/韩语的音色克隆上优于CosyVoice3，展示了其在不同语言环境下的强大适应性。
[表15: CosyVoice3跨语言测试集上的跨语言语音生成]

（3）跨模态无损性能评估

为了严格验证“性能无损”这一核心论点，作者们设计了一个受控对比实验。他们训练了三个参数量匹配的模型：纯文本模型、纯视觉模型和多模态的Omni模型。Omni模型在与单模态模型完全相同的文本和视觉语料上训练，唯一的区别是额外加入了音频和音视频数据。

[表16: Qwen系列30B-A3B模型的同尺寸同期性能对比]
在这里插入图片描述

如上表所示，实验结果有力地证明了：

1、在预训练早期就整合多模态数据，可以在不牺牲语言能力的情况下，将语言模型与视觉或音频共同训练。

2、文本模态的加入，显著提升了视觉和音频的性能。

3、音频数据的加入，也能提升模型在MMMU和OCR相关任务上的视觉性能。

这表明，联合多模态训练不仅能实现性能对等，甚至还能在不同模态间产生相互促进的增益效应。

4、相关实践

（1）模型微调训练

ms-swift main分支已支持Qwen/Qwen3-Omni-30B-A3B-Instruct系列，Qwen/Qwen3-VL-235B-A22B-Instruct系列模型的Transformers & Megatron后端的训练。

Qwen3-Omni:

最佳实践：https://github.com/modelscope/ms-swift/pull/5900
训练脚本：https://github.com/modelscope/ms-swift/blob/main/examples/megatron/multimodal/omni/moe.sh

Qwen3-VL:

最佳实践：https://github.com/modelscope/ms-swift/pull/5805
训练脚本：https://github.com/modelscope/ms-swift/tree/main/examples/models/qwen3_vl

（2）模型推理

进行模型推理：

import soundfile as sf

from transformers import Qwen3OmniMoeForConditionalGeneration, Qwen3OmniMoeProcessor
from qwen_omni_utils import process_mm_info

MODEL_PATH = "Qwen/Qwen3-Omni-30B-A3B-Instruct"
# MODEL_PATH = "Qwen/Qwen3-Omni-30B-A3B-Thinking"
# MODEL_PATH = "/root/paddlejob/workspace/env_run/model/Qwen_moe/Qwen3-Omni-30B-A3B-Instruct"

model = Qwen3OmniMoeForConditionalGeneration.from_pretrained(
    MODEL_PATH,
    dtype="auto",
    device_map="auto",
    attn_implementation="flash_attention_2",
)

processor = Qwen3OmniMoeProcessor.from_pretrained(MODEL_PATH)

conversation = [
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-Omni/demo/cars.jpg"},
            {"type": "audio", "audio": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-Omni/demo/cough.wav"},
            {"type": "text", "text": "What can you see and hear? Answer in one short sentence."}
        ],
    },
]

# Set whether to use audio in video
USE_AUDIO_IN_VIDEO = True

# Preparation for inference
text = processor.apply_chat_template(conversation, add_generation_prompt=True, tokenize=False)
audios, images, videos = process_mm_info(conversation, use_audio_in_video=USE_AUDIO_IN_VIDEO)
inputs = processor(text=text, 
                   audio=audios, 
                   images=images, 
                   videos=videos, 
                   return_tensors="pt", 
                   padding=True, 
                   use_audio_in_video=USE_AUDIO_IN_VIDEO)
inputs = inputs.to(model.device).to(model.dtype)

# Inference: Generation of the output text and audio
text_ids, audio = model.generate(**inputs, 
                                 speaker="Ethan", 
                                 thinker_return_dict_in_generate=True,
                                 use_audio_in_video=USE_AUDIO_IN_VIDEO)

text = processor.batch_decode(text_ids.sequences[:, inputs["input_ids"].shape[1] :],
                              skip_special_tokens=True,
                              clean_up_tokenization_spaces=False)
print(text)
if audio is not None:
    sf.write(
        "output.wav",
        audio.reshape(-1).detach().cpu().numpy(),
        samplerate=24000,
    )

二、Qwen2.5-Omni系列模型

Qwen2.5-Omni-7B/3B全模态模型：

全模态LLM，Qwen2.5-Omni-7B/3B全模态模型：
- 输入可以是文本、图片、语音、视频
- 输出可以是流式的文本/语音
提出了一种名为 TMRoPE（时间对齐多模态 RoPE）的新颖位置嵌入，用于同步视频输入和音频的时间戳
实时语音和视频聊天：专为完全实时交互而设计的架构，支持分块输入和即时输出
和单模态模型作对比，更强：Qwen2.5-Omni 在音频功能方面优于类似大小的 Qwen2-Audio，并达到了与 Qwen2.5-VL-7B 相当的性能
Qwen 2.5 Omni 的实时交互能力：
- 语音对话：像打电话一样自然流畅
- 视频聊天：支持实时视频交互
- 多模态理解：可以同时处理视频画面和声音
- 即时响应：支持流式输出，反应快速自然

1、Qwen2.5-Omni-7B模型

是全模态LLM：输入可以是文本、图片、语音、视频，输出可以是流式的文本/语音
提出Thinker-Talker模型架构
提出了一种名为 TMRoPE（时间对齐多模态 RoPE）的新颖位置嵌入，用于同步视频输入和音频的时间戳
实时语音和视频聊天：专为完全实时交互而设计的架构，支持分块输入和即时输出
和单模态模型作对比，更强：Qwen2.5-Omni 在音频功能方面优于类似大小的 Qwen2-Audio，并达到了与 Qwen2.5-VL-7B 相当的性能

在这里插入图片描述

Qwen2.5-Omni-7B是一个端到端的多模态模型，可以接收文本、图像、音频和视频的输入，以文本或语音作为输出，参数模型结构见图2-3。

HF link:
https://huggingface.co/Qwen/Qwen2.5-Omni-7B
Paper：
https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf

Qwen2.5-Omni提出了Thinker-Talker架构，同时提出了TMRoPE（时间对齐多模态 RoPE）的新型位置编码，用于同步视频输入的时戳与音频，支持全实时交互，支持分块输入和即时输出。

Qwen2.5-Omni，文本部分初始化采用Qwen2.5模型，Vision编码器初始化采用Qwen2.5-VL部分，Audio编码器初始化使用Whisper-large-v3。

Qwen2.5-Omni效果很强，在音频能力上优于同等规模的Qwen2-Audio，在视觉能力上与Qwen2.5-VL-7B相当。

注意：如果需要音频输出，系统提示词必须为“You are Qwen, a virtual human developed by the Qwen Team, Alibaba Group, capable of perceiving auditory and visual inputs, as well as generating text and speech.”

2、Qwen2.5-Omni-3B模型

HF link: https://huggingface.co/Qwen/Qwen2.5-Omni-3B

Paper: https://huggingface.co/papers/2503.20215

3、模型架构

在这里插入图片描述
一、架构设计:

Thinker-Talker架构: Thinker负责处理和理解来自文本、音频和视频模态的输入，生成高层次的表示和相应的文本。Talker则负责接收Thinker的高层次表示，并以流式方式生成语音令牌。
TMRoPE: 提出了一种新的位置嵌入方法TMRoPE，显式地结合时间信息以同步音频和视频。通过对原始旋转嵌入进行分解，分别处理时间、高度和宽度信息。
流式处理: 采用块状流处理方法，支持多模态信息的实时处理。音频和视频编码器分别采用块状注意力和闪存注意力机制，以提高处理效率。

二、生成过程:

文本生成: 由Thinker直接生成文本，采用自回归采样方法，基于词汇表上的概率分布生成文本。
语音生成: Talker接收Thinker的高层次表示和文本令牌的嵌入，自回归地生成音频令牌。引入滑动窗口块注意力机制，限制当前令牌的上下文访问范围，增强流式输出的质量。

三、训练过程:

预训练: 分为三个阶段，第一阶段锁定LLM参数，训练视觉和音频编码器；第二阶段解冻所有参数，进行更广泛的多模态数据训练；第三阶段使用长序列数据进行训练，增强模型对复杂长序列数据的理解能力。
后训练: 包括指令跟随数据训练、DPO优化和多说话人指令微调，提升语音生成的稳定性和自然性。

4、模型效果

在这里插入图片描述

Reference

[1] https://github.com/QwenLM/Qwen2.5-Omni
[2] 性能无损，全能合一！Qwen3-Omni技术报告深度解读
[3] https://github.com/Dao-AILab/flash-attention
[4] ImportError: /lib/x86_64-linux-gnu/libc.so.6: version GLIBC_2.32‘ not found
[5] https://stackoverflow.com/questions/71940179/error-lib-x86-64-linux-gnu-libc-so-6-version-glibc-2-34-not-found
[6] https://github.com/modular/modular/issues/3684#issuecomment-2480409734
[7] https://github.com/Dao-AILab/flash-attention/releases
[8] https://modelscope.cn/models/Qwen/Qwen3-Omni-30B-A3B-Instruct
[9] Qwen3-Omni-30B-A3B-Captioner：https://github.com/QwenLM/Qwen3-Omni/blob/main/cookbooks/omni_captioner.ipynb
[10] moe训练脚本：https://github.com/modelscope/ms-swift/blob/main/examples/megatron/moe/qwen3_moe.sh
[11] Qwen Team，Qwen3-Omni Technical，Report.https://arxiv.org/pdf/2509.17765
[12] 通义千问，https://modelscope.cn/models/Qwen/Qwen3-Omni-30B-A3B-Instruct
[13] Qwen，https://qwen.ai/blog?id=fdfbaf2907a36b7659a470c77fb135e381302028&from=research.research-list

北京朝阳AI社区

更多推荐

大模型开发 - 26 Origin Tools： Spring AI 结构化多聊天客户端实战

北京朝阳AI社区

计算机毕业设计选题

北京朝阳AI社区

yolo介绍

人工智能的快速发展推动计算机视觉成为热门研究领域，而目标检测作为其核心任务，经历了从传统方法到深度学习的技术演进。在YOLO诞生前，目标检测算法普遍面临速度瓶颈。R-CNN等主流算法采用复杂的多阶段流程，需要先生成候选区域再进行分类和回归，严重制约了检测效率。2016年，革命性的YOLO算法横空出世，将目标检测转化为回归问题，直接在图像上预测边界框和类别概率，实现了端到端的训练和检测范式。