logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【论文笔记】Feat2GS:以3DGS的视角评估2D大模型的3D感知

视觉基础模型 (VFM) 是在广泛的数据集上进行训练的,但通常仅限于 2D 图像,自然会出现一个问题:它们对 3D 世界的理解程度如何?由于架构和训练协议(即目标、代理任务)存在差异,迫切需要一个统一的框架来公平、全面地探究他们的 3D 感知。现有的 3D 探索工作主要关注单视图 2.5D 估计(例如深度和法线)或双视图稀疏 2D 对应(例如匹配和跟踪)。但是这些任务忽略了纹理感知,并且需要 3D

文章图片
#论文阅读
综述:3D and 4D World Modeling(method)

世界建模已成为人工智慧研究的基石,使智能体能够理解、表示并预测其所处的动态环境。以往的研究大多强调针对2D 图像和视频数据的生成式方法,却忽视了快速增长的、基于原生 3D 与 4D 表示(如 RGB-D 影像、占据网格、LiDAR 点云)的 大规模场景建模研究。与此同时,由于缺乏对“世界模型”的标准化定义与分类体系,现有文献中出现了零散甚至不一致的论述。本综述旨在填补这一空白,首次对3D 与 4D

文章图片
#3d#计算机视觉#几何学 +4
综述:3D and 4D World Modeling(method)

世界建模已成为人工智慧研究的基石,使智能体能够理解、表示并预测其所处的动态环境。以往的研究大多强调针对2D 图像和视频数据的生成式方法,却忽视了快速增长的、基于原生 3D 与 4D 表示(如 RGB-D 影像、占据网格、LiDAR 点云)的 大规模场景建模研究。与此同时,由于缺乏对“世界模型”的标准化定义与分类体系,现有文献中出现了零散甚至不一致的论述。本综述旨在填补这一空白,首次对3D 与 4D

文章图片
#3d#计算机视觉#几何学 +4
dockers、nvidia-dicker、nvidia-container-toolkit踩坑记

关于深度学习项目的docker部署踩坑记录,主要用来告诉大家一件事情,安装nvidia-container-toolkit而不是nvidia-docker,不要浪费时间在找没用的帖子身上,食用方式,一只手握住鼠标,一只手握住一杯卡布奇诺,嘶。。。

文章图片
#深度学习#windows#docker +1
【论文笔记】AnySplat: pose-free feed-forward 3DGS

3D基础模型[Vggt、Dust3r、Fast3r]的最新进展改变了我们看待从2D图像重建3D场景问题的方式。通过在几秒钟内将密集的点云从单个视图推断为数千个视图,这些方法简化甚至消除了传统的多阶段重建管道,使3D场景重建在更广泛的应用中更容易访问。如图1,AnySplat是一种面向无约束、无位姿标注多视角图像的前馈式新视角合成网络。该网络采用几何变换器将输入图像编码为高维特征,继而解码为高斯参数

文章图片
#3d#计算机视觉#几何学 +2
【论文笔记】BlockGaussian:巧妙解决大规模场景重建中的伪影问题

三维高斯泼溅(3DGS)技术的最新进展在新视角合成任务中展现出非凡潜力。分治策略虽已实现大规模场景重建,但在场景分区、优化与融合环节仍存在显著挑战。本文提出BlockGaussian创新框架,通过内容感知的场景分割策略和可见性感知的区块优化技术,实现高效优质的大规模场景重建。具体而言,我们的方法基于不同区域的内容复杂度差异进行动态分区,从而平衡计算负载,提升重建效率。针对区块独立优化时的监督失配问

文章图片
#论文阅读#3d#计算机视觉 +2
【深度估计】Depth Anything(v1~v2):释放大规模无标签数据的力量

本文提出了一种鲁棒的单目深度估计实用解决方案——Depth Anything¹。我们并未追求新颖的技术模块,而是致力于构建一个简洁而强大的基础模型,能够处理任何场景下的任意图像。为此,我们通过设计数据引擎来扩增数据集,收集并自动标注了大规模(约6200万)无标记数据,显著提升了数据覆盖范围,从而有效降低泛化误差。我们研究了两种简单而有效的策略来实现数据规模化:首先,利用数据增强工具创建更具挑战性的

文章图片
#计算机视觉#人工智能#3d +2
OpenCV-Python Tutorial : A Candy from Official Main Page(四)

在这一章中,我们将尝试理解什么是"特征",为什么它们很重要,为什么角点(corners)是重要的特征等问题。1.什么是特征在计算机视觉中,"特征"是指图像中具有独特性的、易于识别的部分。比如:边缘(Edges)、角点(Corners,也称为兴趣点/关键点)、斑点(Blobs,也称为感兴趣区域)。图像匹配:找到两幅图像中的相同部分目标检测:识别图像中的特定物体跟踪:跟随视频中物体的运动3D重建:从多

文章图片
#opencv#python#人工智能
nerfstudio以及相关使用记录(长期更新)

NeRFStudio 是NeRF/3DGS研究和开发的集成平台。提供了一个用户友好的界面和一系列工具,帮助研究人员和开发者更高效地构建、训练和评估 NeRF 模型。

文章图片
#计算机视觉#深度学习#3d +2
    共 19 条
  • 1
  • 2
  • 请选择