
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
arxiv.org随着人工智能系统日益融入日常生活,可解释性领域引起了广泛关注。这一趋势尤其受到现代AI模型的复杂性及其决策过程的驱动。基础模型的出现,以其广泛的泛化能力和新兴用途为特征,进一步复杂化了这一领域。基础模型在可解释性领域中占据了一个模棱两可的位置:其复杂性使其本质上难以解释,但它们越来越多地被用作构建可解释模型的工具。在本综述中,探讨了基础模型与可解释人工智能(XAI)在视觉

摘要: 本文提出了一种简单高效的优化器改进方法——谨慎优化器(Cautious Optimizer),仅需一行代码即可显著提升现有基于动量的优化器(如AdamW、Lion)的性能。该方法通过梯度对齐检测(仅在与当前梯度方向一致时执行更新)避免无效振荡,在理论上保留了原优化器的收敛性,且能加速损失下降。实验表明,改进后的C-AdamW和C-Lion在LLaMA 1B预训练中分别实现1.47倍和1.2

SAM 2. 本文提出了感知万物模型(Perceive Anything Model, PAM),这是一个概念上简洁高效、用于图像和视频全面区域级视觉理解的框架。本文的方法通过集成大语言模型(Large Language Models, LLMs) 扩展了强大的分割模型SAM 2,使其能够同时进行目标分割并生成多样化、区域特定的语义输出,包括

本文的核心动机是解决现有 MLLMs 在动态推理中的效率瓶颈。尽管混合专家(MoE)架构已被证明可以有效平衡模型容量与推理效率,但大多数研究集中于设计全新的稀疏模型,而非充分利用现有 MLLMs 的潜力。作者观察到,现有 MLLMs 的不同层对于不同样本的贡献存在显著差异,这表明其内部知识可能以类似 MoE 的方式分布。因此,探索如何在现有 MLLMs 中实现动态路由成为一项重要且具有挑战性的任务

Ming-Omni:统一多模态感知与生成模型本文提出了Ming-Omni,一个突破性的统一多模态模型,能够同时处理图像、文本、音频和视频输入,并具备语音与图像生成能力。该模型采用专用编码器提取各模态特征,通过创新的MoE架构(配备模态专属路由器)实现多模态信息的统一处理。Ming-Omni是首个在模态支持上媲美GPT-4o的开源模型,相关代码和权重已公开。

本文提出ICEdit框架,通过三大创新技术实现高效精准的指令式图像编辑:(1)上下文编辑范式,利用大规模扩散变换器(DiT)固有理解能力,将编辑指令转换为描述性提示;(2)极简参数微调策略,仅需0.1%传统训练数据(5万样本)和1%可训练参数;(3)早期过滤推理时缩放技术,通过视觉语言模型快速筛选高质量噪声样本。实验表明,ICEdit在EmuEdit和MagicBrush基准上达到最先进性能(VI

本文提出了一种用于医学时间序列处理的稀疏混合学习核(SMoLK)架构,在保持高性能的同时具备可解释性和高效性。该方法通过一组轻量级可学习卷积核构建单层稀疏神经网络,实现了对光电容积脉搏波(PPG)伪影检测和单导联心电图(ECG)房颤分类的高效处理。实验表明,SMoLK在多个基准数据集上的性能与参数规模大数个数量级的深度模型相当,而参数量显著减少(最大模型仅100KB)。该架构通过核权重吸收和相关核

作者引入了动态Tanh(DyT),这是一种逐元素操作DyT(x) = tanh(αx),作为Transformer中标准化层的直接替代品。DyT的灵感来自于观察发现,Transformer中的层标准化(Layer Normalization, LN)通常会产生类似Tanh的S形输入-输出映射。 通过引入DyT,无需标准化的Transformer可以在大多数情况下无需超参数调整的情况下,匹配

开发了VSI-Bench,这是一个用于评估多模态大语言模型(MLLMs)视觉-空间智能的基准测试,包含超过5000个问答对,这些问答对来源于公共室内3D场景重建数据集ScanNet、ScanNet++和ARKitScenes验证集中提取的288段以自我为中心的视频。VSI-Bench涵盖八项任务,分为三种任务类型:构型分析、测量估计和时空推理。有关VSI-Bench任务的概览,请参见图2;有关数据

摘要: 本文系统综述了大型语言模型(LLMs)的可解释性方法(XAI),针对Transformer架构的三种主要类型(仅编码器、仅解码器、编码器-解码器)提出了标准化分类体系。研究指出,LLMs的"黑箱"特性在高风险领域应用中存在显著隐患,而现有XAI方法通过特征归因、注意力分析、思维链提示等技术揭示模型决策过程。文章详细分析了不同架构下的可解释性挑战与解决方案,比较了各类方法








