多模态大模型综述阅读

多模态大模型, MLLMs）是指能够同时处理、理解和生成多种类型数据（即“模态”）的人工智能模型。这些模态包括但不限于文本、图像、音频、视频、传感器数据等。其核心目标是打破单一模态的信息壁垒，实现跨模态的语义关联与协同处理，从而更全面地理解和生成复杂信息。

小筱不是小小

646人浏览 · 2025-08-17 20:33:51

小筱不是小小 · 2025-08-17 20:33:51 发布

参考文献：《A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks》

https://arxiv.org/abs/2408.01319

一.多模态大模型的定义

多模态大模型（Multimodal Large Language Models, MLLMs）是指能够同时处理、理解和生成多种类型数据（即“模态”）的人工智能模型。这些模态包括但不限于文本、图像、音频、视频、传感器数据等。其核心目标是打破单一模态的信息壁垒，实现跨模态的语义关联与协同处理，从而更全面地理解和生成复杂信息。

多模态大模型的组成：

1）多模态输入编码器

多模输入编码器是MLLM中的重要组成部分，旨在将各种模态的原始输入数据转换为模型可以有效处理的结构化格式

文本：对于文本数据，编码器利用嵌入层等技术，将单词映射到连续数字的向量中，以及多层感知器（MLP）或更高级的转换器，用于管理文本中的远程依赖关系和上下文。

图像：视觉数据使用最先进的架构进行处理，如Vision Transformers（ViT），它处理将图像的部分作为序列，以更好地捕捉关系，或残差网络（ResNet），这有助于在不丢失层上下文的情况下学习更深层次的特征。

音频：音频数据使用C-Former、HuBERT、BEAT或Whisper等模型进行分析。这些模型中的每一个都是量身定制的，以捕捉声音的独特属性，从基本音调到复杂的口语，从而增强模型准确解释听觉信息的能力。

序列数据：对于EEG和心跳等序列数据，编码器采用1D-CNN和长短期记忆（LSTM）单元的组合。这种设置在提取数据中的时间和空间模式方面特别有效，这对医疗应用中的早期诊断至关重要。

通用编码器：最近的一项创新是通用编码器，其旨在跨高度多样化的数据类型（包括音频、视频和功能性磁共振成像（fMRI））标准化编码过程。该编码器利用一种通用的方法来处理和集成多种形式的数据，提高数据处理的一致性和效率。这些编码器中的每一个都将原始输入转换为特征向量，然后将其转换为固定长度的特征序列。

2）特征融合机制

早期融合：在初始阶段结合输入数据，利用不同模式的原始互联性。

中间融合：在特征提取阶段合并特征，允许每种模态将其独特的属性贡献给统一的表示。

后期融合：在决策阶段整合单个模态路径的最终输出，通常用于需要从多种数据类型中进行综合判断的任务。

联合融合：一种混合方法，融合早期、中期和晚期融合，以最大限度地提高所有阶段的数据利用率。这些融合过程通常采用预训练的LLM，这些LLM最初是为文本数据设计的，但通过先进的特征投影和序列化技术，可以处理和合成多模态输入。

3）多模态输出解码器

最后，多模输出解码器将融合的、集成的多模信息重新转换回适合特定任务的可用形式，如图像字幕，解码器可能会根据视觉输入生成描述性文本。视频理解任务，它可以结合视觉和听觉数据生成注释或摘要。每个解码器都经过精心设计，以优化准确性和质量，确保输出准确反映从集成模态中获得的综合见解。

二.多模态大模型的主要任务

文本、图像、音频、视频、传感器数据等

三.多模态大模型的发展路径

图像理解

MLLM中图像理解技术的发展阶段：1.基于传统特征提取方法的图像理解->2.深度学习技术在图像理解中的应用->3.多模态图像理解和跨模态学习->4.强化学习在图像理解中的应用->5.图像生成和理解的集成

1.基于传统特征提取方法的图像理解

在早期，图像理解主要依赖于传统的特征提取方法，如HOG和SIFT。这些方法涉及手动设计特征来描述图像内容，然后利用传统的机器学习算法进行分类和检测等任务。虽然这些方法在一些简单的图像任务中表现良好，但在面对复杂的图像数据时，它们在描述能力和泛化能力方面存在局限性。

2.深度学习技术在图像理解中的应用

通过深度卷积神经网络（CNN）等技术，可以直接从原始像素数据中学习高级特征表示，从而实现更精确的图像分类、对象检测、图像分割和其他任务。

3.多模态图像理解和跨模态学习

随着NLP和计算机视觉的交叉，多模态图像识别已成为研究热点。通过整合图像和文本等多模态数据，可以实现图像描述和视觉问答等任务。

4.强化学习在图像理解中的应用

近年来，强化学习在图像识别中的应用越来越多。强化学习可以帮助模型在复杂环境中做出决策，从而增强其图像理解能力。当与深度学习技术结合时，强化学习可以在图像分类和对象检测等任务中实现更智能和自适应的图像理解过程。

5.图像生成和理解的集成

最近的研究表明，将图像生成和理解相结合可以产生更全面、更深入的信息理解。通过生成对抗网络（GAN）等生成模型，可以生成具有语义灵活性的图像，以帮助模型更好地理解图像内容。

代表模型：

MiniGPT-4

架构：MiniGPT-4旨在将来自预训练视觉编码器的视觉信息与高级LLM对齐。具体来说，它利用Vicuna作为语言解码器，该解码器基于LLaMA构建，可以执行各种复杂的语言任务。对于视觉感知，该模型采用了与BLIP-2中相同的视觉编码器，由ViT骨干和预训练的Q-Former组成。语言和视觉模型都是开源的。线性投影层桥接视觉编码器和LLM之间的间隙。该架构允许MiniGPT-4处理各种视觉语言任务，而无需依赖外部视觉模型

数据集：在第一个预训练阶段，MiniGPT4使用大量对齐的图像-文本对进行训练。这包括概念标题、SBU和LAION等数据集，总计约500万个图文对。在第二个微调阶段，将策划一个更小但高质量的数据集，其中包括为视觉语言对齐量身定制的详细图像描述。该阶段仅涉及3500个高质量的图像文本对，这些图像文本对是在会话模板中设计的，以提高模型的生成可靠性和可用性

训练与评估：MiniGPT-4采用两阶段训练方法。初始预训练阶段涉及在大量对齐的图像-文本对上训练模型，保持预训练的视觉编码器和LLM冻结，同时只训练线性投影层。此阶段跨越20000个训练步骤，批量大小为256，在4个A100 GPU上大约需要10个小时。第二个微调阶段解决了第一阶段之后观察到的局限性，例如不连贯的语言输出。它使用较小但高质量的数据集对模型进行微调，显著提高了其生成可靠性。这种微调在计算上是高效的，使用单个A100 GPU只需要大约7分钟。

InstructBLIP

架构：InstructBLIP在BLIP-2架构的基础上，引入了一个感知指令的Q-Former模块。该模块接收指令文本标记作为额外输入，通过自我关注层与查询嵌入进行交互。此过程鼓励提取与任务相关的图像特征，使LLM能够接收有助于遵循指令的视觉信息。InstructBLIP使用与ViT骨干BLIP-2相同的图像编码器，并使模型适应不同的冻结LLM，包括FlanT5-XL、FlanT5-XXL、Vicuna-7B和Vicuna13B。该架构促进了指令感知的视觉特征提取，大大提高了保留和保留评估的性能。

数据集：InstructBLIP使用26个公开可用的数据集进行训练，并转换为指令调优格式。这些数据集涵盖了广泛的任务，如图像字幕、视觉问答（VQA）和视觉指令跟踪。值得注意的数据集包括OK-VQA、ScienceQA、HatefulMemes、Visual Dialog、MSVD和MSRVTT。训练过程平衡了数据集，以防止过拟合较小的数据集和欠拟合较大的数据集，确保跨不同任务的有效学习。

训练与评估：InstructBLIP采用两阶段培训过程。第一阶段涉及视觉语言预训练，从预训练的BLIP-2检查点初始化模型。只有Q-Former的参数被微调，同时保持图像编码器和LLM冻结。第二阶段是指令调优，涉及用最多60000个步骤训练模型，每3000个步骤验证一次性能。AdamW优化器与特定的超参数一起使用，并在1.5天内在16个Nvidia A100 GPU上进行训练。推理涉及为图像字幕和开放式VQA任务生成响应，并使用词汇排名进行分类和多选VQA任务。

图像生成

首先，通过整合不同模态的信息，多模态模式可以实现条件图像生成任务。例如，给定一个文本描述，多模态模型可以学习文本和图像之间的对应关系，从而生成与描述匹配的图像。这种方法使图像生成更具针对性和语义连贯性，提高了生成图像的质量和准确性。其次，多模态模型在图像生成中的应用也体现在跨模态生成任务中。例如，将艺术风格从一个图像应用到另一个图像，以实现图像风格的转换；或者基于图像内容生成相应的语音描述。这些任务要求模型有效地学习不同模态数据之间的相关信息，从而实现跨模态信息的转换和生成，为图像生成任务带来更多的创造力和想象力。

1.基于生成对抗网络（GAN）的图像生成->2.图像生成模型的改进和优化->3.结合图像和文本的多模式生成->4.迁移学习和自监督学习在图像生成中的应用。

1.基于生成对抗网络（GAN）的图像生成

GAN作为一种深度学习架构，在s的图像数据生成早期被广泛用于生成逼真的图像。GAN由生成器和鉴别器组成，通过对抗训练提高了生成器生成逼真图像的能力。尽管GAN在图像生成方面取得了重大成功，但其训练过程面临着模式崩溃和训练不稳定等挑战。研究人员不断优化GAN模型，并在训练过程中引入新的技术和方法来解决这些问题。

2.图像生成模型的改进和优化

为了应对GAN的挑战，研究人员提出了各种改进和优化技术。例如，条件生成对抗网络（cGAN）的引入实现了特定条件下的图像生成；Wasserstein GAN（WGAN）通过增强损失函数来提高训练稳定性；生成对抗网络（GAN）的升级版本，如ProGAN、StyleGAN等，可以生成更高分辨率和更逼真的图像。这些改进和优化措施显著提高了图像生成模型的质量和稳定性。

3.结合图像和文本的多模态生成

随着NLP和计算机视觉的融合发展，研究人员开始研究图像和文本的多模态生成器。这一阶段的重点是将文本描述与图像生成相结合，实现图像描述生成、视觉问答等任务。多模态发电技术带来更广泛的应用和生成任务的创新，扩大图像生成的多样性和范围

4.迁移学习和自监督学习在图像生成中的应用

近年来，迁移学习和自我监督学习等技术在图像生成任务中得到了广泛的应用。迁移学习有效地将学习到的知识转移到新任务中，提高了图像生成的有效性，而自监督学习利用数据中的内在标签信息来学习有效的表示，提高了生成模型的性能。这些技术的应用为图像生成任务带来了更多的可能性和效率的提高，推动了图像数据生成技术的不断进步

代表模型：

ProGAN

架构：ProGAN或GAN的渐进式增长采用了一种独特的架构，在这种架构中，生成器和鉴别器在训练过程中都是渐进式增长的。这意味着从低分辨率开始，随着训练的进行，逐步添加新的层来模拟越来越精细的细节。生成器和鉴别器都以4x4像素的分辨率开始，并通过每一步将分辨率加倍来增长到最大分辨率，如1024x1024像素。这种增量方法通过允许模型在关注细节之前学习高级结构来稳定训练并提高图像质量。关键创新包括生成器中的逐像素特征向量归一化和鉴别器中的小批量标准偏差，这有助于在整个训练过程中保持生成图像的稳定性和变化性。

数据集：ProGAN主要在高质量的数据集上进行训练，如Celebra HQ，它由名人的高分辨率图像组成。该数据集对于模型学习生成逼真的人脸至关重要。此外，ProGAN已经在LSUN等其他大规模数据集上进行了测试，其中包括教堂、卧室和户外场景等类别，使该模型能够生成除人脸之外的各种逼真图像。

训练与评估：ProGAN的训练包括一种新技术，其中发生器和鉴别器逐渐生长。该方法从简单的4x4分辨率开始，逐步添加图层以提高生成图像的分辨率。训练使用带有梯度惩罚的Wasserstein GAN损失（WGAN-GP）来提高稳定性和收敛性。训练在多个GPU上进行，例如8个Tesla V100 GPU，持续数天，以确保高质量的结果。ProGAN的评估表明，它能够生成具有最小伪影的高度逼真的图像，如CelebrAHQ和LSUN等基准数据集所示。

MM-Interleaved

架构：MM Interleaved是一种端到端的生成模型，专为交织的图像文本数据而设计。它集成了视觉基础模型（VFM）、LLM和扩散模型（DM），以有效地处理文本和图像生成任务。该架构包括三个关键组件：基于VFM的图像标记器，它使用预训练的视觉模型（如CLIP-ViT）提取图像特征，然后由感知重采样器处理，将每个图像映射到固定数量的视觉标记；基于LLM的多模态模型，利用预训练的LLM（如Vicuna）从交织的图像文本序列中提取上下文特征；以及扩散模型，用于通过利用去噪扩散过程的强度从文本输入生成图像。该架构进行了端到端的优化，以保留细粒度的图像细节并有效地处理多个图像，从而减少了通常与多图像场景相关的计算和内存需求。

数据集：MM Interleaved的训练涉及两阶段方法。首先，该模型使用大规模图像文本数据集的混合进行预训练，包括LAION-COCO和LAIONEn，它们提供了广泛的图像文本对。webdataset的使用确保了在预训练阶段高效的数据加载和处理。为了进行微调，MM Interleaved采用了为复杂多模态指令设计的数据集，如MMC4、OK-VQA和VQA。这些数据集帮助模型学习遵循复杂的多模态指令，并基于交织序列生成连贯的文本和图像输出。

培训与评估：MM Interleaved的培训流程分为两个阶段。第一阶段是单模态预训练，涉及在大规模图像-文本配对数据上分别对模态特定组件（VFM和LLM）进行预训练，以使其输出与LLM的单词嵌入空间对齐。第二阶段，多模态指令调优，涉及使用高质量的多模态指令跟踪数据集对集成模型进行微调。这个过程包括正面和负面例子，以提高模型处理输入模式任意组合的能力。该培训利用DeepSpeed ZeRO1进行高效的分布式培训，确保大规模培训期间的可扩展性和性能。使用零样本基准对各种数据集进行评估，确保模型在识别视觉细节和基于文本和视觉条件生成一致输出方面的通用性和有效性。

视频理解

当前主流的视频理解算法涵盖了动作识别、时间动作定位、视频问答（VQA）和视频检索等基础领域。与纯文本和图像相比，视频具有多模态特性，包含同步的音频、文本和视觉信息，为视频理解分析提供了丰富的数据源。

1.完全依赖于LLM处理多模态特征交互的能力->2.在LLM之前执行初步的多模态特征交互

1.完全依赖于LLM处理多模态特征交互的能力

这种类型的模型通过使用编码器和投影模块的组合来处理包括视频在内的所有模态，以获得模态特征，然后将其共同输入到LLM中进行进一步处理。这种方法的优点是其较低的训练参数要求，可以快速增强模型处理多模态数据的能力。

2.在LLM之前执行初步的多模态特征交互

这些模型在LLM之前使用交叉注意层或QFormers等结构执行模态特征的初始对齐和交互，从而减少了LLM上的后续特征处理负担。然而，与第一种类型相比，这些模型具有更高的训练成本。此外，需要处理复杂视频理解任务的模型，视觉基础模块通常被引入以深入理解视频帧中的对象之间的位置关系。

代表模型

Video-LLaMA

结构：Video-LLaMA设计有两个分支：视觉语言分支和音频语言分支，分别将视频帧和音频信号转换为与LLM文本输入兼容的查询表示。在视觉语言分支中，视频帧首先由BLIP 2处理图像编码器获取每帧的图像特征。然后将这些特征添加到其相应的位置嵌入中，并输入到视频QFormer中。视频Q-Former从所有帧中提取特征并输出固定长度的综合表示。最后，线性层将视频特征映射到与后续LLM中的文本特征相同的维度。在音频语言分支中，音频信号被划分为每个2秒的片段。然后将每个片段转换为128维Mel频谱图特征。来自多模态模型ImageBind的编码器用于从这些音频片段中提取特征。跟视觉语言分支相像，音频特征与其对应的位置嵌入相结合，并被馈送到音频Q-Former中。音频Q-Former与视频Q-Former一样，将所有音频片段的特征映射到固定长度的综合表示中。最后，线性层将此特征映射到与LLM特征相同的维度。

数据集：对于视觉语言分支，Video-LLaMA在视频文本数据集Webvid-2M和图像字幕数据集CC 595 K，上进行预训练。随后，使用MiniGPT-4，LLaVA，和VideoChat，以增强模型的视频理解和指令理解能力。对于有声语言分支，由于缺乏大规模，高质量的音频文本数据集，这项工作利用了ImageBind强大的跨模态处理能力。它直接使用视觉文本数据集训练音频语言分支。尽管没有经过音频文本数据的训练，ImageBind强大的对齐功能允许Video-LLaMA在测试期间有效地将音频与LLM的文本空间对齐

训练：Video-LLaMA的训练涉及的模块包括视频Q-Former、音频Q-Former、位置嵌入和两个分支中的线性层。图像编码器、音频编码器和最终的LLM在训练过程中被冻结。这项工作只提供了一些测试示例，而没有给出Video-LLaMA的量化指标。

X-InstructBLIP

结构：X-InstructBLIP使用BLIP 2中的Q-Former处理所有非文本数据。在为每个模态提取特征之后，该模型使用具有两个Transformer层的Q-Former来计算模态之间的交叉注意力，促进多模态特征之间的交互。负责交互的QFormer然后输出固定长度的综合特征，在LLM中，该特征进一步与指令文本特征交互以产生最终响应。

数据集：该模型的视频编码器使用COCO字幕数据集上训练的图像编码器的参数进行初始化。此外，它还在WebVid-2M和MSRVTT QA等数据集上进行训练，以增强其视频字幕和视频问答能力。为了更好地评估模型的跨模态推理能力，这项工作引入了DisCRn，第一个设计用于评估基于推理的跨模态判别推理的数据集。

训练：在训练过程中，X-InstructBLIP冻结用于提取模态特征的Q-Former和顶级LLM的参数。只有负责模态交互和投影层的Q-Former才被训练。此外，X-InstructBLIP在3D，音频，图像和无声视频模态的测试任务中优于其他模型。

视频生成

视频生成是指训练人工智能自主地产生高保真视频内容，根据生成方法的不同，目前的人工智能视频生成可以分为基于文本的视频生成、基于图像的视频生成和视频到视频的合成。具体来说，文本条件视频生成任务基于文本指令生成视频。在图像条件视频生成任务中，模型从一个或多个输入参考图像生成相应的视频。视频到视频合成任务从输入视频生成新视频。随着MLLM的发展，更多的模型现在支持任意到任意任务，允许跨各种形式的转换和生成，包括同时使用文本、图像或视频来指导新视频的生成。

视频生成的技术演进大致可分为三个阶段

1.基于深度学习的模型->2.自回归模型->3.扩散模型

1.基于深度学习的模型

早期，创成对抗网络（GAN）和变分自动编码器（VAE）的引入标志着视频生成技术的重大转折点。然而，这些基于深度学习的方法通常是单一的、静态的，分辨率较低。

2.自回归模型

基于变换器的自回归模型，如Video Transformer，通过自注意机制捕获视频序列中的长程相关性，提高了视频生成的性能和效率

3.扩散模型

扩散模型成为AI视频生成的主流技术路径，与GAN等前代模型相比，扩散模型的训练过程通常更稳定，得到的图像或视频质量更高，特别是训练好的时候，生成的结果往往更真实，而且扩散模型不依赖于特定的网络结构，具有很好的兼容性。

代表模型

NeXT-GPT

结构：NeXT-GPT使用ImageBind从各种模态中提取特征。每个模态的特征然后通过各自的投影层映射到LLM空间。投影特征，沿着指令文本，输入到LLM，特别是维库纳（7 B-v0）。经过LLM的理解和推理，得到了每种模态的输出特征。为了更好地适应后续的生成过程，NeXT-GPT在每个多模态解码器之前使用了基于Transformer的投影层，将LLM的信号令牌表示转换为更适合解码器的特征。值得注意的是，编码和解码阶段的投影层都是基于transformer的。该模型还结合了可学习的概念标记，它通过分组机制将网格级特征分层聚合成语义概念表征，然后将这些概念表征送入LLM。

数据集：为了训练多模态对齐能力，该模型主要使用Webvid-2M，CC 3 M和AudioCaps分别作为视频字幕，图像捕捉和音频字幕任务的训练数据。NeXT-GPT还构建了MosIT指令数据集。该数据集不仅支持复杂的跨模态理解和推理任务，还有助于生成更高质量的多模态数据。具体而言，它旨在包括多轮对话，每轮对话由3-7个互动组成，涉及各种跨模式互动。

训练与评估：在训练过程中，NeXT-GPT保持每个模态的编码器和解码器以及中间LLM冻结。只有编码和解码阶段的基于Transformer的投影层是可训练的，实现了轻量级的多模态对齐学习。此外，为了增强LLM的能力和可控性，NeXT-GPT使用自构建的MosIT数据集进行模态切换指令调优。在指令调优过程中，除了更新投影层，该模型还应用LoRA来进一步更新LLM的参数。为了评估视频理解任务，该方法在MSRVTT，MSVD-QA，MSRVTTQA和NExTQA数据集上测试了模型的视频字幕和视频问题回答能力。此外，这项工作还在MSRVTT数据集上测试了模型的视频生成能力。NEXT-GPT在这些评估中表现出出色的性能。

音频理解

在音频理解方面，MLLM已经在自动语音识别（ASR）和语音到文本翻译（S2TT）等任务中展示了强大的功能。这些不同的应用强调了MLLM在音频理解领域的多功能和强大的功能。

代表模型

Qwen-Audio

架构：Qwen-Audio包含一个音频编码器和一个。音频编码器使用32层Transformer的Whisper-large-v2模型作为初始化模型，Qwen-7 B作为的基础组件。模型的训练目标是在给定音频序列和文本对的情况下最大化下一个文本token序列的概率。

数据集：为了解决联合训练多任务和多数据集的挑战，Qwen-Audio提出了一个多任务训练框架。该框架将解码器的输出作为来自30多个任务、8种语言和多种音频类型的数据的一系列分层标签，以减少由于任务目标、语言、注释粒度、此外，为了更好地理解语音识别和音频问答等任务中的语音信号，在训练中引入了细粒度的单词级时间戳，以提高模型对齐音频信号和时间戳的能力。

训练与评估：通过统一多任务数据集的训练格式，Qwen-Audio模型通过最大化相似任务之间的知识共享来提高性能。在训练过程中，只优化音频编码器，并在训练完成后通过指令微调来优化。通过这种两阶段训练，Qwen-Audio在多个任务之间展示了强大的广义理解能力。

SALMONN

架构：SALMONN由两个组件组成，旨在实现具有高时间分辨率的音频-文本对齐。首先，听觉信号处理使用双编码器架构：基于Whisper-Large-v2的语音编码器负责对语音信号进行编码，一个微调的基于BEATS的音频编码器负责对非语音信号进行编码。两个听觉编码器的输出通过一个窗口连接，级查询Transformer，以便将编码器输出转换成用于输入到维库纳LLM的增强的音频信号。接下来，增强的LLM输入和输出是通过低秩自适应方法（LoRA）进行的指令调谐，以实现音频-文本跨模态对准，从而赋予该模型零触发能力。

数据集：语音识别数据集LibriSpeech和GigaSpeech M-sets，以及音频字幕数据集WavCaps和AudioCaps被用作预训练数据集，多个任务下的数据集用于指令微调。

训练与评估：在预训练阶段，使用上述听觉数据集训练Q-Former和LoRA，以学习音频信号和文本之间的对齐。在第二阶段，通过一系列旨在解决模型过拟合问题的任务执行指令调谐。在以下三个任务水平上评估了指令调谐模型：调谐任务（模型在指令调优期间看到的任务），基于语音的NLP任务（如语音到文本转换、语音情感识别等），以及基于语音和非基于语音的理解任务评测结果表明，该模型在上述所有任务中都表现出了较好的性能，验证了其在高时间分辨率音频文本对齐和跨模态对齐中的有效性。

音频生成

音频生成涉及训练模型接受多种输入模态，如文本、语音、图像等，以理解这些多模态内容并创建、合成或改进兼容的音频输出。这项任务在多模态数据集的构建和指令微调中至关重要。通过研究多模态大语言模型在音频生成中的应用，我们可以更好地了解他们的工作机制和表现。

代表模型

SpeechGPT

架构：该模型由三个主要部分组成：离散单元提取器，LLM和单元声码器。离散单元提取器使用隐藏单元BERT（HuBERT）来将连续语音信号转换成离散单元序列，LLM使用Meta AI LLaMA模型来感测多模态输入并生成多模态输出，并且单元声码器是多扬声器单元Hi-Fi-GAN，以将离散表示解码成语音信号。

数据集：LibriLight作为模态自适应预训练阶段数据集，GigasSpeech，普通语音，librisSpeech和moss 002-sft-data作为跨模态指令微调阶段数据集，moss-002-sft-data作为模态链指令微调阶段。

训练与评估：培训过程分为三个阶段：首先进行模态自适应预训练阶段，在该阶段中，基于LibriLight数据集构造离散单元信号-文本对;然后进行跨模态指令微调阶段，在该阶段中，跨模态指令数据集，即多模态指令-离散单元-文本数据集，是建立在现有的离散单元信号文本对的基础上，这是从生成的GPT-4的任务描述。最后，执行模态指令链微调阶段，以训练文本离散单元生成器将文本指令转换为语音指令数据，以获得语音指令-语音响应、语音指令-文本响应、文本指令-语音响应、文本指令-语音响应和文本指令-文本响应链式指令，其用于实现具有固有跨模态会话能力的MLLM。

AudioGPT

架构：首先是模态转换，用于将输入的各种模态转换为具有一致模态的查询;第二是LLM模块，其中植入ChatGPT，用于对话引擎与提示管理器一起进行任务分析;第三是负责将任务分配给适当的音频基础模型;最后，在执行任务之后生成响应。

数据集：提供了在音频模型任务下使用的各种数据集，以验证audioGPT通过音频基础模型实现通用音频任务的能力。

训练与评估：该进程分为四个主要阶段：模态转换、任务分析、模态转换和响应生成。模态转换阶段使用输入/输出接口在语音和文本之间转换，弥合语言模型LLM和ChatGPT之间的差距。任务分析阶段使用对话引擎和提示管理器来帮助ChatGPT理解用户处理音频信息的意图。在模型分配中在响应生成阶段，ChatGPT接收结构化的输入，如押韵、音色和语音控制，并分配适当的音频基础模型用于理解和生成。在响应生成阶段，音频基础模型执行生成并返回最终响应的任务。

四.多模态大模型实验相关

五.多模态大模型发展趋势

1.多模态信息融合的可解释性

虽然MLLM可以通过整合来自不同模态的信息来显著提高任务性能，但其内部机制的复杂性和不透明性往往导致可解释性降低。了解不同模态如何组合以及每个模态对最终决策的贡献对于全面分析多模态数据交互至关重要。目前，多模态信息的整合常常被视为一个“黑箱”，这使得用户很难理解模型为什么以及如何做出特定的决策。未来的研究应该集中在解决几个关键问题上：我们如何分析基于不同模态信息的MLLM的决策过程？我们如何通过提高多模态模型的解释能力来增强其在医疗和金融等关键领域的可信度？深入理解不同模态之间的相互作用机制及其与特定任务的相关性对于提高模型的可解释性至关重要。

2.MLLM的发展方向

随着模型尺寸的不断扩大，关于MLLM是否应该追求“大而全面”的方法或“小而专业”的方法。一方面，创建通用的人工智能生成内容系统来解决广泛的现实任务是一个有吸引力的目标。然而，越来越多的证据表明，更小，更有针对性的模型可以在特定领域提供上级性能。因此，在通用性和专业化之间找到正确的平衡--确保多模态大型语言模型能够在特定任务中表现出色，同时保持强大的泛化能力--已成为未来研究的关键问题。