logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

视觉基础模型的可解释性综述 2025

arxiv.org随着人工智能系统日益融入日常生活,​可解释性领域引起了广泛关注。这一趋势尤其受到现代AI模型的复杂性及其决策过程的驱动。​基础模型的出现,以其广泛的泛化能力和新兴用途为特征,进一步复杂化了这一领域。​基础模型在可解释性领域中占据了一个模棱两可的位置:其复杂性使其本质上难以解释,但它们越来越多地被用作构建可解释模型的工具。在本综述中,探讨了基础模型与可解释人工智能(XAI)​在视觉

文章图片
Cautious Optimizers: Improving Training with One Line of Code 一种新的优化方法,仅用一行代码改进训练

摘要: 本文提出了一种简单高效的优化器改进方法——谨慎优化器(Cautious Optimizer),仅需一行代码即可显著提升现有基于动量的优化器(如AdamW、Lion)的性能。该方法通过梯度对齐检测(仅在与当前梯度方向一致时执行更新)避免无效振荡,在理论上保留了原优化器的收敛性,且能加速损失下降。实验表明,改进后的C-AdamW和C-Lion在LLaMA 1B预训练中分别实现1.47倍和1.2

文章图片
#人工智能
感知万物:图像与视频中识别、解释、描述与分割万物

​SAM 2​​. ​本文提出了​​感知万物模型(Perceive Anything Model, PAM)​​,这是一个概念上简洁高效、用于图像和视频​​全面区域级视觉理解​​的框架。本文的方法通过集成​​大语言模型(Large Language Models, LLMs)​​ 扩展了强大的分割模型​​SAM 2​​,使其能够​​同时进行目标分割​​并生成​​多样化、区域特定的语义输出​​,包括

文章图片
#音视频
Routing Experts: 学习在多模态大型语言模型中路由动态专家 ICLR 2025

本文的核心动机是解决现有 MLLMs 在动态推理中的效率瓶颈。尽管混合专家(MoE)架构已被证明可以有效平衡模型容量与推理效率,但大多数研究集中于设计全新的稀疏模型,而非充分利用现有 MLLMs 的潜力。作者观察到,现有 MLLMs 的不同层对于不同样本的贡献存在显著差异,这表明其内部知识可能以类似 MoE 的方式分布。因此,探索如何在现有 MLLMs 中实现动态路由成为一项重要且具有挑战性的任务

文章图片
#语言模型#人工智能
Ming-Omni:统一的多模态感知与生成模型​ (​​Inclusion AI, 蚂蚁集团​)

Ming-Omni:统一多模态感知与生成模型本文提出了Ming-Omni,一个突破性的统一多模态模型,能够同时处理图像、文本、音频和视频输入,并具备语音与图像生成能力。该模型采用专用编码器提取各模态特征,通过创新的MoE架构(配备模态专属路由器)实现多模态信息的统一处理。Ming-Omni是首个在模态支持上媲美GPT-4o的开源模型,相关代码和权重已公开。

文章图片
#人工智能#深度学习
图像编辑的DeepSeek —— ICEdit : 基于大规模扩散Transformer的上下文生成式指令图像编辑

本文提出ICEdit框架,通过三大创新技术实现高效精准的指令式图像编辑:(1)上下文编辑范式,利用大规模扩散变换器(DiT)固有理解能力,将编辑指令转换为描述性提示;(2)极简参数微调策略,仅需0.1%传统训练数据(5万样本)和1%可训练参数;(3)早期过滤推理时缩放技术,通过视觉语言模型快速筛选高质量噪声样本。实验表明,ICEdit在EmuEdit和MagicBrush基准上达到最先进性能(VI

文章图片
#人工智能#深度学习
[Nature Machine Intelligence 2025] 基于稀疏学习核的医疗时间序列处理方法:兼顾可解释性与高效性

本文提出了一种用于医学时间序列处理的稀疏混合学习核(SMoLK)架构,在保持高性能的同时具备可解释性和高效性。该方法通过一组轻量级可学习卷积核构建单层稀疏神经网络,实现了对光电容积脉搏波(PPG)伪影检测和单导联心电图(ECG)房颤分类的高效处理。实验表明,SMoLK在多个基准数据集上的性能与参数规模大数个数量级的深度模型相当,而参数量显著减少(最大模型仅100KB)。该架构通过核权重吸收和相关核

文章图片
#人工智能#深度学习
无需归一化的 Transformer(何凯明,LeCun) CVPR 2025

作者引入了动态Tanh(DyT)​,这是一种逐元素操作DyT(x) = tanh(αx),作为Transformer中标准化层的直接替代品。​DyT的灵感来自于观察发现,Transformer中的层标准化(Layer Normalization, LN)通常会产生类似Tanh的S形输入-输出映射。​ 通过引入DyT,​无需标准化的Transformer可以在大多数情况下无需超参数调整的情况下,匹配

文章图片
#transformer#深度学习
Thinking in Space: 多模态大语言模型如何观察、记忆和回忆空间(纽大(谢赛宁团队), 耶鲁大学, 斯坦福(李飞飞))

开发了VSI-Bench,这是一个用于评估多模态大语言模型(MLLMs)视觉-空间智能的基准测试,包含超过5000个问答对,这些问答对来源于公共室内3D场景重建数据集ScanNet、ScanNet++和ARKitScenes验证集中提取的288段以自我为中心的视频。VSI-Bench涵盖八项任务,分为三种任务类型:构型分析、测量估计和时空推理。有关VSI-Bench任务的概览,请参见图2;有关数据

文章图片
#语言模型#人工智能#自然语言处理
迈向透明人工智能: 可解释性大语言模型研究综述

摘要: 本文系统综述了大型语言模型(LLMs)的可解释性方法(XAI),针对Transformer架构的三种主要类型(仅编码器、仅解码器、编码器-解码器)提出了标准化分类体系。研究指出,LLMs的"黑箱"特性在高风险领域应用中存在显著隐患,而现有XAI方法通过特征归因、注意力分析、思维链提示等技术揭示模型决策过程。文章详细分析了不同架构下的可解释性挑战与解决方案,比较了各类方法

文章图片
#语言模型#人工智能#自然语言处理
    共 178 条
  • 1
  • 2
  • 3
  • 18
  • 请选择