
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
现代人工智能面临的一项重大挑战,是如何主要通过观察来学习理解世界并学会行动(LeCun,2022)。本文探索了一种自监督方法,将互联网规模的视频数据与少量交互数据(机器人轨迹)相结合,以开发能够在物理世界中进行理解、预测和规划的模型。我们首先在一个包含超过100万小时互联网视频的视频与图像数据集上,预训练了一个不依赖动作信息的联合嵌入预测架构 V-JEPA 2。V-JEPA 2 在运动理解任务上表

但它们提出的模块(如 Bridger,Xu et al., 2023;一些开创性工作(如 ETRIS 和 BarleRIa,Wang et al., 2023)尝试以参数高效的方式微调 CLIP(Radford et al., 2021)以用于指代表达图像分割,但仍面临若干局限:(i)这些方法主要依赖于在骨干网络早期阶段进行多模态特征融合,未能充分利用更全面的全局特征,从而导致性能不够理想。Zhu

人能在几秒钟做出反应的时间都可以看作是感知范围内的事情。

联合嵌入预测架构 (JEPA) 为在紧凑的潜在空间中学习世界模型提供了一个引人注目的框架,但现有方法仍然脆弱,依赖于复杂的多项损失、指数移动平均、预训练编码器或辅助监督来避免表征崩溃。本文提出了 LeWorldModel (LeWM),这是第一个与目前唯一的端到端替代方案相比,LeWM 将可调损失超参数从六个减少到一个。LeWM 可以在单个 GPU 上训练 1500 万个参数,只需几个小时即可完成

大规模视觉-语言模型(VLMs),例如 CLIP,通过利用大规模的视觉-文本配对数据,在零样本学习(ZSL)中取得了显著成功。然而,这些方法通常缺乏可解释性,因为它们计算的是整张查询图像与类别词嵌入之间的相似度,难以解释其预测结果。为了解决这一问题,一种可行的方法是开发具有可解释性的模型,为此,我们提出了 LaZSL,一种用于可解释零样本学习的局部对齐视觉-语言模型。。大量实验表明,我们的方法在可

大型语言模型(LLMs)在多种自然语言处理任务中展现出了卓越的性能。然而,其庞大的参数规模在训练过程中带来了显著的内存挑战,。现。尽管这些方法有助于缓解内存限制,但与全秩更新相比,它们通常会产生次优的结果。在本文中,我们探索了超越低秩训练的内存高效方法,提出了一种名为。该方法通过将小波变换应用于梯度,显著降低了维护优化器状态所需的内存需求。我们证明了GWT能够与高内存消耗的优化器无缝集成,从而在不

遥感变化检测对于监测城市扩张、灾害评估和资源管理至关重要,能够及时、准确且大尺度地揭示地表景观的动态变化。尽管深度学习推动了变化检测领域的变革,但现代模型日益复杂的架构和计算需求并未带来相应的显著精度提升。本研究未追随这一趋势,而是探索一种更高效的方案,聚焦于在保持高精度的同时最小化资源消耗的轻量化模型——这是星载处理的必要前提。为此,我们提出FLICKCD(意为“快速轻扫即获卓越结果”),旨在突

物理信息神经网络(PINNs)在求解偏微分方程方面具有潜力,但在实现高精度方面常常面临挑战,尤其是在复杂的真实世界场景中。所提出的 ad-PINN 引入了两项主要创新:(1)一种具有双嵌套机制的自适应激活函数,称为双曲正切对偶函数(dual-tanh),该函数能够动态调整其斜率和形状,以优化超越传统激活函数的学习能力;(2)一种自适应 Huber 损失函数,该函数能够自动调整其参数,无需手动调参。
近年来,跨模态 Transformer 在 RGB-D 语义分割任务中取得了显著进展,能够有效融合 RGB 与深度两种模态的信息。然而,现有方法往往忽略了不同模态所包含信息量的差异,对两种模态一视同仁,并采用相同架构的模型进行处理。这种做法可能会限制分割性能,尤其考虑到 RGB 图像通常比深度图像包含更丰富的信息。为了解决这一问题,我们提出了,一种基于知识蒸馏的引导式多模态融合方法,重点突出主导模

随着传感器技术的发展,RGB+X 系统将传统 RGB 相机与另一种辅助传感器相结合,从而增强感知能力,并为语义分割等重要任务提供更丰富的信息。然而,由于需要特定的采集设备,获取大规模 RGB+X 数据较为困难。因此,传统的 RGB+X 分割方法通常会利用相对丰富的 RGB 数据进行预训练。然而,这些方法缺乏能够充分挖掘预训练模型潜力的相应机制,而且预训练所用 RGB 数据集的规模本身也仍然有限。近








