
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
DINO是一种改进的端到端目标检测器,通过三个关键创新提升DETR类模型的性能。首先,对比去噪训练(CDN)引入正负样本对,有效减少重复预测;其次,前瞻两次方案(LFT)优化解码器梯度传播,提升框预测精度;最后,混合查询选择结合动态和静态查询,平衡收敛速度和训练稳定性。实验表明,DINO在COCO数据集上达到63.3AP的SOTA性能,且训练效率显著提高,12轮训练即可超越传统方法50轮的效果。该

本文提出SFS-Conv,一种用于SAR目标检测的高效卷积模块,通过空间-频率分流策略增强特征多样性。该模块将输入特征分流至空间和频率两个维度:空间感知单元动态调整感受野捕获多尺度上下文,频率感知单元采用分数Gabor变换提取纹理特征。通过无参数的选择模块自适应融合双路特征,构建的轻量级SFS-CNet在多个SAR检测基准上以更小计算量超越现有方法,如HRSID数据集达95.7% AP50(1.8

《ByTheWay:无训练提升文本生成视频质量新方法》针对当前T2V模型存在的结构不合理、时间不连贯和运动不足三大问题,提出了一种创新解决方案。研究团队通过分析时间注意力机制,发现不同解码块间注意力图差异与质量问题相关,其能量与运动幅度正相关。

CVPR 2025论文《生成摄影》提出了一种创新框架,解决了当前文本到图像生成模型(如StableDiffusion3)无法保持场景一致性的核心问题。研究团队通过维度提升(将多相机设置生成转化为时序一致的视频问题)和差分相机内参学习(基于物理仿真构建训练数据),首次实现了对镜头焦距、景深等相机参数的精确控制。实验表明,该方法在场景一致性(LPIPS指标)和物理准确性上显著优于现有模型,相关系数达0

SPAI,通过光谱学习检测任意分辨率的AI生成图像。不同于传统方法追踪特定模型的伪影,SPAI创新性地建模真实图像的频谱分布作为判别标准。系统采用掩膜频谱学习进行自监督训练,通过频谱重建相似性捕捉生成图像的分布差异,并引入频谱上下文关注机制处理不同分辨率。实验表明,SPAI在13种最新生成模型上平均AUC达91.0%,较现有最佳方法提升5.5%,且对常见图像处理具有鲁棒性。该方法仅需真实图像训练,

X2-VLM提出了一种创新的多粒度视觉语言预训练框架,通过统一架构同时学习对象级、区域级和图像级的视觉语言对齐。该模型采用模块化设计,使用双重预训练目标(多粒度对齐和定位),实现了图像-文本和视频-文本任务的高效统一处理。实验表明,X2-VLM在多项基准测试中表现优异,其模块化特性还支持零成本的跨语言适应。该工作为多模态AI提供了统一处理多粒度视觉语言任务的新范式,在性能和模型规模间取得了良好平衡

通用具身代理(GEA),通过多模态大语言模型实现跨领域任务统一处理。核心创新包括:1)设计多体验动作分词器,将异构动作统一编码为token序列;2)采用两阶段训练策略(监督学习+在线强化学习);3)实现跨领域知识迁移。实验表明,GEA在机器人操控(94.7% Meta-World)、游戏(44% Procgen专家水平)等任务中显著超越基线方法7-22%。关键发现:在线强化学习对错误恢复能力至关重

通用具身代理(GEA),通过多模态大语言模型实现跨领域任务统一处理。核心创新包括:1)设计多体验动作分词器,将异构动作统一编码为token序列;2)采用两阶段训练策略(监督学习+在线强化学习);3)实现跨领域知识迁移。实验表明,GEA在机器人操控(94.7% Meta-World)、游戏(44% Procgen专家水平)等任务中显著超越基线方法7-22%。关键发现:在线强化学习对错误恢复能力至关重

通用具身代理(GEA),通过多模态大语言模型实现跨领域任务统一处理。核心创新包括:1)设计多体验动作分词器,将异构动作统一编码为token序列;2)采用两阶段训练策略(监督学习+在线强化学习);3)实现跨领域知识迁移。实验表明,GEA在机器人操控(94.7% Meta-World)、游戏(44% Procgen专家水平)等任务中显著超越基线方法7-22%。关键发现:在线强化学习对错误恢复能力至关重

《MVPortrait:文本引导的多视图生动肖像动画》提出了一种创新性两阶段框架,通过FLAME 3D面部模型作为中间表示,实现文本驱动的多视角肖像动画生成。该系统采用解耦设计,分别训练运动和情感扩散模型,再通过多视图视频生成模型输出动画。实验表明,该方法在文本对齐、情感表达和多视角一致性上优于现有技术,且兼容文本、语音和视频多种驱动方式。该技术为虚拟主播、影视制作等领域提供了新的解决方案,代表了
