
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
论文信息:Shengbang Tong, David Fan, John Nguyen 等 (FAIR, Meta & NYU),2026年3月。

这篇论文面临的主要挑战是如何提高模型在细粒度识别任务中的性能。CLIP(Contrastive Language–Image Pre-training)模型虽然在广泛的候选识别上表现出色,但在区分细微差别的细粒度项目上精度不足。而多模态大型语言模型(MLLMs)虽然在分类细粒度类别上表现出色,但随着类别数量的增加,其性能会下降,主要是由于处理大量词汇和细微差别时受到有限上下文窗口大小的限制。

关键是,模型不仅需要识别当前任务的数据(如正在学习中的任务),还要记住以前学过的任务,甚至能够处理未来可能遇到的新任务。“局部iid”是指在某个特定的任务中(比如在任务 t 中),数据是独立同分布(iid)的,也就是说,在某个任务的学习阶段内,数据可以随机地、不相关地抽取出来。虽然在每个任务中,数据是随机独立的(iid),但在不同任务之间,数据不是随机的。例如,模型可能会先连续看到许多水果图片,然

这篇论文探讨了大型预训练语言模型在处理知识密集型自然语言处理(NLP)任务时面临的挑战。尽管这些模型在参数中存储了大量事实知识,并在微调后能够在下游NLP任务中取得很好的效果,但它们在访问和精确操作知识方面的能力仍然有限。此外,为模型的决策提供出处(provenance)和更新它们的世界知识仍然是开放的研究问题。

在特征空间中,特征之间的collapse会导致representation learning 中的关键问题,这是因为特征之间不可区分。基于线性插值的增强方法(例如mixup)已经显示出它们在缓解类间塌陷(称为inter-class collapse)方面的有效性,可以提高了模型在长尾数据集和对比自监督学习上(contrastive self-supervised learning)的性能。但是从粗

在线批次选择(Online batch selection)方法通过在训练期间动态选择数据批次,为提供了一种自适应替代方案。然而,现有方法要么依赖于参考模型(reference model),要么依赖于一些可能无法捕获真实数据信息的简单启发式方法。静态数据选择(static data selection):在训练过程之前仅进行一次数据训练的选择。这种方法主要是出于效率考虑,因为花在数据选择上的时间

尽管大型视觉-语言模型(LVLMs)在图像理解和推理任务上(例如,物体的存在和计数、定位、物体之间的比较,以及识别物体的属性)表现出色,但在细粒度物体分类(例如区分不同动物种类)方面()的能力尚未得到充分测试,尽管这对于下游任务非常重要。并且 现有的评估基准主要测试LVLMs的图像理解和推理能力,而很少考虑细粒度物体分类这一独立技能。

大型语言模型(LLMs)如GPT-4、PaLM和LLaMA在各种推理任务中展现出了令人印象深刻的性能。除了通过扩大模型规模来提高推理性能外,还有更有效的方法可以进一步增强LLMs的功能和性能。然而,现有的(single-query reasoning)和(multi-query reasoning)方法都面临一些局限性,如缺乏普遍性和泛化能力、计算密集型、以及忽视从先前任务中提取一般性和高层次的指

现存的减轻虚假练习的方法大都局限在(1)在image-level上(2)在unimodal setting下。尽管多模态大模型(MLLM)在很多vision-language人物上表现很好,但是对于 Spurious Correlations/Spurious Biases 的辨别能力的研究探索比较少。RAVL 通过一个新的区域感知损失函数(region-aware loss function)来

在Llava1.5-7b进行微调,微调数据是Imagenet-1.28M 和原始665K LLAVA 的instruction-tuning数据,能够显著提高Llava1.5-7b在ImageNet上的分类能力,以及在ImageWikiQA的表现。作者发现:prompt的变化、减少context中的 label set size、让VLM执行概率推断(probabilistic inference








