logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

ICCV 2025|ReasonVQA:一个融合结构化知识的多跳推理视觉问答基准数据集

本文提出了一个面向视觉问答(VQA)任务的新型数据集—— ReasonVQA。该数据集自动整合了结构化百科知识,通过低成本框架构建而成,能够生成复杂的多跳问题。我们在 ReasonVQA 上对当前最先进的 VQA 模型进行了评估,实证结果表明,该数据集对这些模型构成了显著挑战,凸显了其在视觉问答领域基准测试与技术推进中的潜力。此外,该数据集可根据输入图像轻松扩展规模;当前版本在需调用外部知识的视觉

文章图片
#人工智能
COLING 2025|LoRA-drop:基于输出评估的高效 LoRA 参数剪枝

低秩适配(LoRA)是广泛应用的参数高效微调(PEFT)方法,但在大规模模型中,LoRA 仍面临较高的计算和存储成本。以往的研究通过剪枝技术来解决这一问题,通常基于参数特征(如数量、规模、梯度等)评估其重要性。然而,LoRA 的输出会直接影响微调后的模型性能,初步实验表明,部分 LoRA 模块的输出值显著偏高,对层输出产生了较大影响。为此,我们提出了LoRA-drop 方法:通过评估 LoRA 输

文章图片
#剪枝#算法#机器学习
NeurIPS2023|QLORA:量化大语言模型的高效微调

结果一致表明:在采用成熟评估设置的学术基准测试中,基于 NF4(4 位正态浮点数)数据类型的 4 位 QLORA,其性能可媲美 16 位全量微调与 16 位 LoRA 微调。同时证实,NF4 的效果优于 FP4(4 位浮点数),且双重量化(DQ)技术不会导致性能下降。综合来看,这些结论构成了强有力的证据,证明 4 位 QLORA 微调能够稳定产生与 16 位微调方法相当的结果。在给定的微调与推理资

文章图片
#语言模型#人工智能#自然语言处理
CVPR 2025|XLRS-Bench:你的多模态大语言模型能否理解超大尺寸超高分辨率遥感影像?

多模态大语言模型(MLLMs)的突破性进展,亟需新基准定量评估其能力、揭示局限并指明研究方向。但在遥感(RS)领域,因遥感影像超高分辨率、语义关联复杂,现有基准存在图像尺寸远小于真实场景、标注质量有限、评估维度不全等问题,评估面临挑战。为此,本文提出综合基准 XLRS-Bench,用于评估 MLLMs 在超高分辨率遥感场景的感知与推理能力。其拥有已知最大平均图像尺寸(8500×8500 像素),样

文章图片
#语言模型#人工智能#自然语言处理
CVPR 2025 | MambaVision:一种 Mamba-Transformer 混合视觉骨干网络

将MambaVision与基于卷积、Transformer、卷积-Transformer混合、纯Mamba四大类架构的主流模型进行了全面对比,结果表明:在ImageNet Top-1准确率与图像推理吞吐量两项核心指标上,我们的模型大幅超越了此前的同类工作,刷新了该领域的帕累托前沿。进一步的优化实验表明,将自注意力扩展至每个阶段的最后N/2层时,模型取得了最优的82.3% Top-1准确率,证明了平

#transformer#网络#深度学习
CVPR 2025|XLRS-Bench:你的多模态大语言模型能否理解超大尺寸超高分辨率遥感影像?

多模态大语言模型(MLLMs)的突破性进展,亟需新基准定量评估其能力、揭示局限并指明研究方向。但在遥感(RS)领域,因遥感影像超高分辨率、语义关联复杂,现有基准存在图像尺寸远小于真实场景、标注质量有限、评估维度不全等问题,评估面临挑战。为此,本文提出综合基准 XLRS-Bench,用于评估 MLLMs 在超高分辨率遥感场景的感知与推理能力。其拥有已知最大平均图像尺寸(8500×8500 像素),样

文章图片
#语言模型#人工智能#自然语言处理
CVPR 2024|TRINS:迈向具备阅读能力的多模态语言模型

大型多模态语言模型在图像理解与编辑上表现卓越,但多数经视觉调优的模型受训练数据限制,难以理解图像中嵌入的文本。为此,本研究提出 TRINS 数据集(富含文本的图像指令数据集),核心目标是提升这类模型的文本阅读能力。该数据集基于 LAION (即大规模人工智能开放网络)构建,采用机器与人类辅助结合的混合标注策略,包含 39,153 张含文本图像、对应描述及 102,437 个问答样本,且每条标注平均

#语言模型#人工智能#自然语言处理
到底了