Angelina_Jolie 个人主页

@Angelina_Jolie

Angelina_Jolie

2023-02-28 20:41:10 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

CVPR 2026 Highlight | VideoCUPS：利用运动与深度线索,首个无监督视频全景分割框架，性能刷新 SOTA

慕尼黑工业大学等机构联合推出VideoCUPS，首次实现无需人工标注的无监督视频全景分割(VPS)。该方法仅需单目视频，通过运动线索和深度信息自动生成高质量伪标签，并引入VideoDropLoss和自增强训练策略提升性能。实验表明，VideoCUPS在Cityscapes-VPS等数据集上STQ指标达22.2%，跨域泛化能力强，且仅需10%标注数据微调即可达到全监督效果。这一突破大幅降低了VPS的

#计算机视觉

Jasmine: Harnessing Diffusion Prior for Self-supervised Depth Estimation

本文提出Jasmine，首个基于Stable Diffusion的自监督单目深度估计框架。通过混合批次图像重建(MIR)代理任务保护SD视觉先验，无需高精度监督；设计Scale-Shift GRU(SSG)模块解决尺度分布不对齐问题。在KITTI基准上达到自监督方法SoTA性能（AbsRel 0.090），并展现卓越的零样本泛化能力。实验表明，Jasmine在多个数据集上优于现有方法，同时保持丰富

#计算机视觉

借力RGB大模型！事件相机零样本玩转特征匹配与3D感知

摘要：多伦多大学团队提出REALM框架，通过将事件相机数据映射到RGB基础模型的共享潜空间，实现跨模态感知。该方法仅训练10%参数，使冻结的MASt3R模型能零样本处理事件数据，在特征匹配任务上AUC@5°提升至26.2%，部分场景性能提升9倍。REALM采用LoRA适配器和渐进式空间掩码训练策略，既保留RGB模型的几何语义先验，又解决事件数据稀疏性问题。实验表明其在宽基线匹配、深度估计等任务上超

#人工智能

借力RGB大模型！事件相机零样本玩转特征匹配与3D感知

#人工智能

顶刊必备的图，原来这么简单！t-SNE降维，特征可视化，可解释性，深度学习故障识别，回归预测的必备工具！2个应用示例，直接运行！

t-SNE的目标是帮助我们在一个更低维度的空间中（通常是2D或3D）对数据进行可视化，同时保留数据点之间的相似性关系。t-SNE的目标是最小化这两个概率分布之间的差异，以确保高维空间中相似的点在低维空间中仍然保持相似。然后，在低维空间中，它再计算点与点之间的相似性，并构建另一个概率分布。t-SNE的核心思想是保持高维空间中数据点之间的相似性关系，尽量在低维空间中保持相似的关系。简而言之，t-SNE

#深度学习 #人工智能

深度学习训练过程可视化工具

地址：https://cbovar.github.io/ConvNetDraw/

#深度学习 #人工智能

告别离散网格：InfiniDepth用神经隐式场重新定义深度估计

摘要：浙江大学团队提出InfiniDepth，首次将神经隐式场引入单目深度估计，实现任意分辨率连续深度预测。通过多尺度局部隐式解码器（15M参数）和DINOv3 ViT-Large特征金字塔，该方法在合成数据集Synth4K上高频细节区域超越DepthAnythingV2等SOTA模型5-8个百分点。创新性InfiniteDepthQuery策略自适应分配子像素查询预算，显著改善大视角下的新视角

#计算机视觉 #人工智能

CVPR‘26 | Adobe新作DAGE：高效细粒度的深度估计+姿态估计，三维重建新SOTA！

摘要：本文提出DAGE，一种双流Transformer架构，用于高效、精细的几何估计。该模型通过低分辨率流处理全局一致性与相机姿态估计，采用交替注意力机制降低计算成本；高分辨率流则保留原始分辨率细节。轻量级适配器融合双流特征，实现全局一致且细节丰富的几何输出。实验表明，DAGE在3D重建、深度估计和相机姿态预测任务中达到SOTA性能，支持2K分辨率和长序列处理（最高1000帧），运行速度显著优于

#计算机视觉 #人工智能

CVPR 2026 | 哈工大（深圳）&清华等提出 DreamPRVR：引入扩散模型“先想https://mmbiz.qpic.cn/sz_mmbiz_png/P9M象后检索”，刷新长视频检索三项榜单

摘要：哈尔滨工业大学、清华大学等团队提出DreamPRVR模型，解决长视频检索中的"局部尖峰"问题。该模型通过扩散模型想象全局背景，生成语义寄存器，增强局部特征匹配的准确性。采用文本扰动采样和异步注意力机制，显著提升三大数据集（ActivityNet Captions等）的检索性能，同时保持高效推理。代码已开源，为多模态检索提供了新思路。

#人工智能 #计算机视觉

CVPR 2026 | NVIDIA推出Fast-FoundationStereo：首个实时零样本立体匹配大模型，速度飙升10倍！

NVIDIA推出Fast-FoundationStereo模型，在保持立体匹配大模型强大零样本泛化能力的同时，通过特征蒸馏、分块架构搜索和结构化剪枝等创新技术，将推理速度提升10倍以上，实现实时运行（47FPS）。该模型在多个基准测试中表现优异，既能媲美顶级泛化模型的精度，又具备实时处理能力，为自动驾驶等实时应用提供了高效解决方案。研究采用了知识蒸馏、互联网级真实数据伪标签等技术，有效解决了合成数

#计算机视觉 #人工智能 #3d

共 33 条

请选择