logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

TOWARDS INTERPRETING VISUAL INFORMATIONPROCESSING IN VISION-LANGUAGE MODELS

视觉 - 语言模型(VLM)是处理和理解文本与图像的强大工具。本文以主流视觉语言模型 LLaVA 为研究对象,探究其语言模型模块中视觉词元的处理机制。研究重点包括:目标信息的定位、视觉词元表征在各层中的演化规律,以及预测过程中的视觉信息融合机理。通过消融实验发现:移除专属目标词元后,模型的目标识别准确率下降超过70%。实验同时观察到:随着层数加深,视觉词元表征在词表空间中变得越来越可解释,说明视觉

#语言模型#人工智能#自然语言处理
DOLA: DECODING BY CONTRASTING LAYERS IMPROVESFACTUALITY IN LARGE LANGUAGE MODELS

尽管大语言模型(LLMs)具备出色的能力,但它们容易产生**幻觉**,即生成与预训练所见事实不符的内容。本文针对预训练大语言模型,提出一种简洁的解码策略以降低幻觉。该方法既不需要依托检索得到的外部知识,也无需额外微调。利用“大语言模型中的事实知识通常集中分布在特定 Transformer 层”这一特性,我们将深层和浅层隐状态映射到词表空间,并对比两者的对数概率分布,从而得到下一词的输出分布。我们发

#语言模型#人工智能#自然语言处理
Mitigating Hallucinations in Multi-modal Large Language Modelsvia Image Token Attention-Guided Deco

多模态大语言模型(MLLM)将大语言模型原生的文本生成能力与对其他模态信息的理解能力相结合,在开放式任务中具备广阔的应用前景。然而,尽管这类模型取得了长足进展,但其往往会生成看似合理、实则错误的内容。这一现象被称为幻觉,严重限制了模型的实际落地应用。本文从输入词元与输出词元的交互角度,深入探究了幻觉的内在成因。研究发现:当输出词元对图像词元的注意力下降时,模型更容易产生幻觉。基于这一发现,本文提出

#语言模型#人工智能#自然语言处理
SEE WHAT YOU ARE TOLD: VISUAL ATTENTION SINKIN LARGE MULTIMODAL MODELS

大型多模态模型(LMM)依靠 Transformer 解码器中文本词元和视觉词元之间的**注意力机制**来“看懂”图像。理想情况下,这类模型应当聚焦**与文本词元相关的关键视觉信息**。然而,现有研究发现:大型多模态模型往往存在一种明显倾向——会持续对某些特定视觉词元分配很高的注意力权重,即便这些视觉词元与对应的文本内容无关。本文围绕这类无关视觉词元的形成原因展开探究,并分析其特征。

#人工智能
ATTENTION RESIDUALS

带有前置归一化(PreNorm)[60]的残差连接[12]是当前大语言模型(LLM)的标准配置,但这类残差连接会以固定单位权重累加所有层的输出。这种均匀聚合方式会随着网络层数加深,导致隐藏状态数值无节制增大,进而逐渐稀释每一层的特征贡献度[27]。本文提出**注意力残差机制(AttnRes)**:摒弃固定累加方式,对前序网络层的输出采用softmax注意力聚合,让每一层能够根据输入,通过可学习权重

#人工智能#论文阅读#学习
【论文阅读】Modality Bias in LVLMs:Analyzing and Mitigating Object Hallucination via Attention Lens

大型视觉语言模型(LVLMs)已展现出卓越的多模态理解与推理能力,却仍存在严重的目标幻觉问题。现有研究大多将这一缺陷归因于模型中视觉编码器与大语言模型(LLMs)的规模不匹配所引发的语言先验偏差。具体而言,当前的大型视觉语言模型均基于大语言模型构建,这类模型往往过度依赖文本提示词和大语言模型的内部知识,生成与视觉线索不符的描述内容。然而,通过对幻觉生成机制的深入探究,我们通过实证研究发现了一个此前

#论文阅读
【论文阅读】Hidden in plain sight:VLMs overlook their visual representations

语言为视觉任务性能的指定与评估提供了一种自然的交互接口。要实现这一潜力,视觉语言模型(VLMs)必须成功融合视觉信息与语言信息。本研究将视觉语言模型与其视觉编码器的直接输出结果进行对比,以此探究模型在跨模态信息融合方面的能力。在一系列以视觉为核心的基准任务(如深度估计、特征匹配)中,我们发现视觉语言模型的表现远逊于其视觉编码器,性能甚至降至接近随机猜测的水平。我们通过对视觉语言模型的整体展开一系列

#论文阅读
【论文阅读】Hidden in plain sight:VLMs overlook their visual representations

语言为视觉任务性能的指定与评估提供了一种自然的交互接口。要实现这一潜力,视觉语言模型(VLMs)必须成功融合视觉信息与语言信息。本研究将视觉语言模型与其视觉编码器的直接输出结果进行对比,以此探究模型在跨模态信息融合方面的能力。在一系列以视觉为核心的基准任务(如深度估计、特征匹配)中,我们发现视觉语言模型的表现远逊于其视觉编码器,性能甚至降至接近随机猜测的水平。我们通过对视觉语言模型的整体展开一系列

#论文阅读
VISION TRANSFORMERS NEED REGISTERS

本文揭示了视觉Transformer(ViT)模型在特征图中普遍存在的伪影问题,表现为高范数令牌集中在低信息背景区域。研究发现,这些令牌被模型"回收利用"进行内部计算,导致局部信息丢失。作者提出在输入序列中添加"寄存器令牌"的解决方案,实验表明该方法能彻底消除伪影,提升密集预测任务性能,并支持更大规模模型的无监督目标发现。研究还发现,寄存器令牌会自然形成差异

#论文阅读#学习
Learning Dynamics of LLM Finetuning

学习动态(Learning dynamics)通常是一个宽泛术语,描述特定因素的变化如何影响模型的预测结果。本文将其限定为 “模型参数θ的变化如何影响对应函数fθ​的变化”,即Δθ与Δfθ​之间的关系。当模型通过梯度下降(GD)更新参数时,我们有:,(1)其中,步骤t→t+1中参数θ的更新,由对样本对(xu​,yu​)执行一次梯度更新得到,η为学习率。简而言之,本文中的学习动态旨在回答以下问题:基

#人工智能
    共 12 条
  • 1
  • 2
  • 请选择