AlanT_95 个人主页

@AlanT_95

AlanT_95

2025-11-29 08:35:23 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

ICCV 2025|ReasonVQA：一个融合结构化知识的多跳推理视觉问答基准数据集

本文提出了一个面向视觉问答（VQA）任务的新型数据集—— ReasonVQA。该数据集自动整合了结构化百科知识，通过低成本框架构建而成，能够生成复杂的多跳问题。我们在 ReasonVQA 上对当前最先进的 VQA 模型进行了评估，实证结果表明，该数据集对这些模型构成了显著挑战，凸显了其在视觉问答领域基准测试与技术推进中的潜力。此外，该数据集可根据输入图像轻松扩展规模；当前版本在需调用外部知识的视觉

#人工智能

COLING 2025|LoRA-drop：基于输出评估的高效 LoRA 参数剪枝

低秩适配（LoRA）是广泛应用的参数高效微调（PEFT）方法，但在大规模模型中，LoRA 仍面临较高的计算和存储成本。以往的研究通过剪枝技术来解决这一问题，通常基于参数特征（如数量、规模、梯度等）评估其重要性。然而，LoRA 的输出会直接影响微调后的模型性能，初步实验表明，部分 LoRA 模块的输出值显著偏高，对层输出产生了较大影响。为此，我们提出了LoRA-drop 方法：通过评估 LoRA 输

#剪枝 #算法 #机器学习

NeurIPS2023|QLORA：量化大语言模型的高效微调

结果一致表明：在采用成熟评估设置的学术基准测试中，基于 NF4（4 位正态浮点数）数据类型的 4 位 QLORA，其性能可媲美 16 位全量微调与 16 位 LoRA 微调。同时证实，NF4 的效果优于 FP4（4 位浮点数），且双重量化（DQ）技术不会导致性能下降。综合来看，这些结论构成了强有力的证据，证明 4 位 QLORA 微调能够稳定产生与 16 位微调方法相当的结果。在给定的微调与推理资

#语言模型 #人工智能 #自然语言处理

CVPR 2025|XLRS-Bench：你的多模态大语言模型能否理解超大尺寸超高分辨率遥感影像？

多模态大语言模型（MLLMs）的突破性进展，亟需新基准定量评估其能力、揭示局限并指明研究方向。但在遥感（RS）领域，因遥感影像超高分辨率、语义关联复杂，现有基准存在图像尺寸远小于真实场景、标注质量有限、评估维度不全等问题，评估面临挑战。为此，本文提出综合基准 XLRS-Bench，用于评估 MLLMs 在超高分辨率遥感场景的感知与推理能力。其拥有已知最大平均图像尺寸（8500×8500 像素），样

#语言模型 #人工智能 #自然语言处理

CVPR 2025 | MambaVision：一种 Mamba-Transformer 混合视觉骨干网络

将MambaVision与基于卷积、Transformer、卷积-Transformer混合、纯Mamba四大类架构的主流模型进行了全面对比，结果表明：在ImageNet Top-1准确率与图像推理吞吐量两项核心指标上，我们的模型大幅超越了此前的同类工作，刷新了该领域的帕累托前沿。进一步的优化实验表明，将自注意力扩展至每个阶段的最后N/2层时，模型取得了最优的82.3% Top-1准确率，证明了平

#transformer #网络 #深度学习

CVPR 2025|XLRS-Bench：你的多模态大语言模型能否理解超大尺寸超高分辨率遥感影像？

#语言模型 #人工智能 #自然语言处理

CVPR 2024|TRINS：迈向具备阅读能力的多模态语言模型

大型多模态语言模型在图像理解与编辑上表现卓越，但多数经视觉调优的模型受训练数据限制，难以理解图像中嵌入的文本。为此，本研究提出 TRINS 数据集（富含文本的图像指令数据集），核心目标是提升这类模型的文本阅读能力。该数据集基于 LAION （即大规模人工智能开放网络）构建，采用机器与人类辅助结合的混合标注策略，包含 39,153 张含文本图像、对应描述及 102,437 个问答样本，且每条标注平均

#语言模型 #人工智能 #自然语言处理

到底了