
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
ICCV 2025 | VSSD:具有非因果状态空间对偶性的 Vision Mamba
本文提出了VSSD模型,通过非因果状态空间对偶性(NC-SSD)解决了传统SSM在视觉任务中的两大挑战:因果性限制和2D结构破坏问题。NC-SSD突破因果性瓶颈,使每个图像块对模型的贡献与其位置无关,保留全局感受野的同时维持线性复杂度。基于NC-SSD构建的VSSD模型在ImageNet分类等任务中表现优于CNN、ViT和现有SSM模型,实现了精度与效率的双重提升。方法创新包括:1)将SSD参数A

ICML 2024|DoRA :Weight-Decomposed Low-Rank Adaptation权重分解低秩适应
本文提出了一种新的参数高效微调方法DoRA,通过将预训练权重分解为幅度和方向两个独立组件进行优化。DoRA利用LoRA机制专门调整方向分量,同时微调幅度分量,使学习模式更接近全量微调(FT)。实验表明,DoRA在多项任务中性能优于传统LoRA,且不增加推理延迟。该方法结合了权重分解和低秩适应的优势,通过解耦幅度和方向的调整过程,提升了模型微调的精度和稳定性。

CVPR 2025|VL-RewardBench:视觉语言生成式奖励模型的挑战性基准测试
本文提出VL-RewardBench基准测试集,用于评估视觉-语言生成式奖励模型(VL-GenRMs)的性能。该基准包含1250个高质量测试样本,覆盖通用多模态指令、视觉幻觉检测和多模态推理三类任务,通过AI辅助标注和人工验证确保数据质量。实验评估16个主流模型发现,商用模型表现中等(GPT-4o准确率65.4%),开源模型难以超越随机水平。关键发现包括:模型失效主要源于视觉感知而非推理能力;测试

到底了







