
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文提出了一种最大熵异质智能体强化学习(MEHARL)框架,用于学习合作式多智能体强化学习(MARL)中的随机策略。该框架通过将合作式MARL问题嵌入到概率图模型中,推导出最大熵(MaxEnt)目标,并基于此提出了异质智能体软演员-评论家(HASAC)算法。理论上,证明了HASAC具有单调改进和收敛到量化响应均衡(QRE)的性质,并推广了最大熵异构智能体镜像学习(MEHAML)模板,为任何诱导方法

这篇论文介绍了一种名为OPERA的新方法,旨在减轻多模态大型语言模型(MLLMs)中的幻觉问题。幻觉问题是指模型在用户给出的图像和提示中生成错误陈述,例如产生不相关或无意义的回应,错误识别图像中不存在的对象的颜色、数量和位置。OPERA通过在beam-search解码过程中引入过度信任惩罚项和回顾分配策略,有效地减少了幻觉问题,而无需额外的数据、知识或训练。

本文提出了一种新颖的时序自适应RGBT跟踪框架,称为TATrack,旨在解决现有RGBT跟踪器在时间信息利用方面的不足。传统的RGBT跟踪器主要依赖空间信息进行目标定位,往往忽视了时间信息的动态变化。TATrack采用时空双流结构,通过在线更新模板捕获时间信息,同时进行多模态特征提取和跨模态交互。该框架设计了一种时空交互机制(STI),使得跨模态交互能够跨越更长的时间尺度。实验结果表明,TATra

本文提出了Bench2Drive,这是第一个用于以闭环方式评估端到端自动驾驶(E2E-AD)系统多种能力的基准。随着基础模型的快速扩展,E2E-AD技术正接近变革的门槛。然而,现有的评估方法主要采用开环日志回放,无法全面反映算法的驾驶性能。Bench2Drive的官方训练数据包含200万个完全标注的帧,来自13638个短视频片段,涵盖44种交互场景、23种天气和12个城镇。评估协议要求E2E-AD

该研究提出了一种名为MA-LMM(Memory-Augmented Large Multimodal Model)的模型,旨在提高对长期视频内容的理解能力。MA-LMM通过在线处理视频帧并将过去的视频信息存储在记忆库中,解决了大型语言模型(LLMs)在处理视频时受到的上下文长度限制和GPU内存限制的问题。该模型不仅能够有效地处理长视频,还能够在不需要额外训练的情况下,作为即插即用的模块集成到现有的

本文提出了一种新颖的双重扩散过程模型——残差去噪扩散模型(RDDM),该模型将传统的单去噪扩散过程分解为残差扩散和噪声扩散。RDDM通过引入残差,将原本不适用于图像恢复的去噪扩散模型扩展为一个统一且可解释的模型,适用于图像生成和恢复任务。具体来说,残差扩散表示从目标图像到退化输入图像的方向性扩散,而噪声扩散表示扩散过程中的随机扰动。RDDM能够有效地统一需要不同确定性或多样性要求的任务,如图像生成

本文介绍了一种名为 DeepCache 的新型训练无关范式,旨在加速扩散模型。DeepCache 通过利用扩散模型反向去噪过程中相邻步骤的固有时序冗余,缓存并检索跨相邻去噪阶段的特征,从而减少冗余计算。该方法利用 U-Net 的结构特性,在更新低级特征的同时重用高级特征,实现了显著的加速效果。实验表明,DeepCache 在不牺牲图像生成质量的前提下,显著提高了扩散模型的推理速度,并且优于现有的需

提出了一种创新方法,用于从单张RGB图像中生成自然振荡动态,如树木、花朵和衣物随风摆动。研究者们通过学习真实视频序列中提取的运动轨迹,在傅里叶域中建立一个称为“光谱体积”的密集、长期运动表示。利用这一表示,结合扩散模型,可以从单张图像预测出整个视频的运动纹理,进而通过图像基础渲染技术生成动画。该方法不仅能创建无缝循环视频,还能实现用户与真实图像中对象的交互式动态模拟,显著提升了从静态图像生成动态内

这篇论文介绍了一种大型深度卷积神经网络(CNN),用于在ImageNet LSVRC-2010比赛中对1.2百万高分辨率图像进行分类,这些图像涵盖了1000个不同的类别。该网络在测试数据上实现了37.5%的top-1错误率和17.0%的top-5错误率,显著优于之前的最佳水平。网络包含6000万参数和650,000个神经元,由五个卷积层组成,其中一些后接最大池化层,以及三个全连接层,最后是一个10

本文提出了VideoMamba,一种基于状态空间模型(SSM)的视频理解模型,旨在解决视频理解中的局部冗余和全局依赖问题。VideoMamba通过其线性复杂度算子,实现了高效的长期建模,这对于高分辨率长视频的理解至关重要。该模型在无需大量数据集预训练的情况下,展现了在视觉领域的可扩展性、对短期动作的敏感性、在长期视频理解中的优越性以及与其他模态的兼容性。广泛的评估表明,VideoMamba在处理短








