
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
arxiv.org随着人工智能系统日益融入日常生活,可解释性领域引起了广泛关注。这一趋势尤其受到现代AI模型的复杂性及其决策过程的驱动。基础模型的出现,以其广泛的泛化能力和新兴用途为特征,进一步复杂化了这一领域。基础模型在可解释性领域中占据了一个模棱两可的位置:其复杂性使其本质上难以解释,但它们越来越多地被用作构建可解释模型的工具。在本综述中,探讨了基础模型与可解释人工智能(XAI)在视觉

摘要: 本文提出了一种简单高效的优化器改进方法——谨慎优化器(Cautious Optimizer),仅需一行代码即可显著提升现有基于动量的优化器(如AdamW、Lion)的性能。该方法通过梯度对齐检测(仅在与当前梯度方向一致时执行更新)避免无效振荡,在理论上保留了原优化器的收敛性,且能加速损失下降。实验表明,改进后的C-AdamW和C-Lion在LLaMA 1B预训练中分别实现1.47倍和1.2

Ming-Omni:统一多模态感知与生成模型本文提出了Ming-Omni,一个突破性的统一多模态模型,能够同时处理图像、文本、音频和视频输入,并具备语音与图像生成能力。该模型采用专用编码器提取各模态特征,通过创新的MoE架构(配备模态专属路由器)实现多模态信息的统一处理。Ming-Omni是首个在模态支持上媲美GPT-4o的开源模型,相关代码和权重已公开。

本文提出ICEdit框架,通过三大创新技术实现高效精准的指令式图像编辑:(1)上下文编辑范式,利用大规模扩散变换器(DiT)固有理解能力,将编辑指令转换为描述性提示;(2)极简参数微调策略,仅需0.1%传统训练数据(5万样本)和1%可训练参数;(3)早期过滤推理时缩放技术,通过视觉语言模型快速筛选高质量噪声样本。实验表明,ICEdit在EmuEdit和MagicBrush基准上达到最先进性能(VI

本文提出了一种用于医学时间序列处理的稀疏混合学习核(SMoLK)架构,在保持高性能的同时具备可解释性和高效性。该方法通过一组轻量级可学习卷积核构建单层稀疏神经网络,实现了对光电容积脉搏波(PPG)伪影检测和单导联心电图(ECG)房颤分类的高效处理。实验表明,SMoLK在多个基准数据集上的性能与参数规模大数个数量级的深度模型相当,而参数量显著减少(最大模型仅100KB)。该架构通过核权重吸收和相关核

开发了VSI-Bench,这是一个用于评估多模态大语言模型(MLLMs)视觉-空间智能的基准测试,包含超过5000个问答对,这些问答对来源于公共室内3D场景重建数据集ScanNet、ScanNet++和ARKitScenes验证集中提取的288段以自我为中心的视频。VSI-Bench涵盖八项任务,分为三种任务类型:构型分析、测量估计和时空推理。有关VSI-Bench任务的概览,请参见图2;有关数据

本文的核心思想在于提出了一种名为。

本综述系统梳理了此类新兴基础模型的研究进展,涵盖多模态融合(视觉、文本、音频等)的典型架构设计、训练目标(对比学习、生成式学习)、预训练数据集、微调机制以及文本、视觉和异构提示范式等核心要素。通过系统性综述基础模型在多个领域的最新应用进展,本文为研究者提供了全面的技术图谱。本综述的独特价值体现在三个方面:首先,突破文本提示VL模型的单一范畴,系统覆盖文本提示(对比式、生成式、混合式、对话式)、视觉

Perceiver & Perceiver IO: 人工智能的多功能工具

Multi-source Domain Adaptation in the Deep Learning Era: A Systematic Survey[paper]AbstractIn many practical applications, it is often difficult and expensive to obtain enough large-scale labeled data







