
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文研究了文本到图像的行人再识别(TIReID)中的一个新问题——噪声对应(Noisy Correspondence, NC)。在实际应用中,训练数据中的图像-文本对可能存在错误对应,即噪声对应,这会导致模型学习错误的视觉-语义关联。

本文提出了VideoMamba,一种基于状态空间模型(SSM)的视频理解模型,旨在解决视频理解中的局部冗余和全局依赖问题。VideoMamba通过其线性复杂度算子,实现了高效的长期建模,这对于高分辨率长视频的理解至关重要。该模型在无需大量数据集预训练的情况下,展现了在视觉领域的可扩展性、对短期动作的敏感性、在长期视频理解中的优越性以及与其他模态的兼容性。广泛的评估表明,VideoMamba在处理短

本文提出了一种新的象棋强化学习架构,名为AlphaGateau,旨在克服现有强化学习模型在游戏适应性和可扩展性方面的局限性。传统的AlphaZero算法依赖于卷积神经网络(CNN)架构,限制了其在不同棋盘尺寸和变体之间的迁移能力。为此,本文采用图神经网络(GNN)来表示游戏状态,利用图的结构特性来增强模型的灵活性和泛化能力。通过扩展经典的图注意力网络(GAT)以包含边特征,AlphaGateau能

随着社交媒体的兴起,假新闻的传播已成为一个重大问题,可能误导公众认知并影响社会稳定。尽管深度学习方法(如CNN、RNN和基于Transformer的模型如BERT)在假新闻检测中取得了一定进展,但它们主要关注内容而忽视了新闻传播过程中的社会背景。为了解决这一问题,本文提出了一种名为GAMC的无监督假新闻检测方法,利用图自编码器与掩码和对比学习相结合。GAMC通过对原始新闻传播图进行数据增强,生成增

本文提出了AltNeRF,一个新颖的框架,旨在通过自监督单目深度估计(SMDE)从单目视频中生成鲁棒的神经辐射场(NeRF)表示,而无需依赖已知的相机姿态。AltNeRF通过学习深度和姿态先验来规范NeRF训练,增强了NeRF对场景几何的精确描绘能力,并为后续的姿态细化提供了稳健的起点。该框架引入了一种交替算法,将NeRF输出与SMDE结合,通过一致性驱动机制提升深度先验的完整性。实验结果表明,A

本文提出了一种新的安全强化学习算法,称为长期二元反馈安全强化学习(LoBiSaRL),旨在解决具有二元安全反馈和未知随机状态转移的约束马尔可夫决策过程(CMDPs)中的安全问题。现有的安全强化学习方法通常依赖于数值安全反馈,无法保证学习过程中的安全性,且假设存在已知的安全策略。LoBiSaRL通过建模二元安全函数,确保在每个时间步长上仅执行安全的状态-动作对,同时优化策略以最大化奖励。理论分析表明

本文提出了一种名为mFairFL的多维公平联邦学习方法,旨在解决联邦学习中群体公平性和客户端公平性的问题。联邦学习(FL)作为一种分布式学习范式,允许多个数据持有者在不共享数据的情况下共同训练模型。然而,标准的FL方法可能导致某些客户端在模型训练中处于不利地位,尤其是在数据异质性显著的情况下。mFairFL通过引入差分乘子构建优化目标,结合公平性约束,旨在同时实现群体公平性和客户端公平性。该方法在

本文提出了一种新的联邦因果发现策略(FedCausal),旨在从分散的异构数据中学习统一的全局因果图。随着隐私意识的提高,数据不允许被公开,导致从分散数据中学习因果图变得非常困难。FedCausal通过设计一个全局优化公式,能够自然地聚合来自客户端的数据因果图,并在不暴露本地数据的情况下约束全局图的无环性。与其他联邦因果学习算法不同,FedCausal将局部和全局优化统一为一个完整的有向无环图(D

本文提出了一种名为B-Spine的新型深度学习管道,用于从低质量X光图像中学习脊柱的B样条曲线表示并估计Cobb角,以实现脊柱曲率的鲁棒性和可解释性。现有方法在脊柱曲率估计中面临高昂的标注成本和对图像质量的敏感性等问题,尤其是在处理模糊和低质量图像时。B-Spine通过引入SegRefine网络,利用无配对图像到图像的转换技术生成高质量的脊柱掩模,并通过基于掩模的B样条预测模型来预测脊柱中心线的B

本文介绍了一种基于模型的可能近似正确(PAC)学习算法,用于马尔可夫决策过程(MDPs)中的线性时序逻辑(LTL)和ω-正则目标。算法的核心是ε-递归时间,即策略收敛到满足ω-正则目标的速度。研究证明该算法只需多项式数量的样本,并通过实验验证了理论。此外,算法无需事先了解MDP的精确图结构,具有较强的实用性。








