logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

3EED论文精读

项目内容问题户外3D视觉定位缺乏多平台、大规模基准,现有模型跨平台泛化能力差方法构建3EED数据集(3平台、128K对象、22K表达)+ 4种基准协议 + CPA/MSS/SAF基线模型核心发现跨平台性能差距大(车载→无人机从52%→1.5%);联合训练可显著提升;稀疏性是无人机最大挑战意义首个面向多平台户外3D视觉定位的大规模基准,推动跨平台泛化研究。

文章图片
#人工智能
3D-RAD论文精读

方面创新点数据首个大规模、多任务、多时间点的3D医学VQA数据集任务引入静态/纵向时间诊断任务,贴近真实临床流程质量严格的LLM+人工双重过滤,确保高质量QA对评估系统评估多个SOTA模型,揭示其在时间推理上的不足开源数据集和代码公开,推动3D医学视觉理解研究。

文章图片
#人工智能
SpatialMosaic论文精读

贡献说明问题定义明确了多视角空间推理中的三大挑战:部分可见、遮挡、低重叠数据流水线提出可扩展的自动标注与QA生成方法,适用于现有3D场景数据集数据集构建了 SpatialMosaic 和 SpatialMosaic-Bench,规模大、挑战性强模型架构提出 SpatialMosaicVLM,融合几何与视觉特征,提升多视角空间推理能力实验验证在多个基准上验证了模型在遮挡、低重叠、零样本迁移下的优越性

文章图片
#人工智能
Anywhere3D-Bench论文精读

问题解决方案现有基准只覆盖物体级定位提出首个跨4个层次的3D视觉定位基准模型无法理解物体之外的区域设计空间级(space-level)任务,包括距离、轨迹、常识空间部件级定位能力差引入部件移动、功能、关系等细粒度任务缺乏系统性评估全面评估LLM、MLLM、专用3D模型,并分析错误类型。

文章图片
#3d
OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence论文精读

维度贡献理念从“发布数据集”转向“开源数据引擎”表示首次系统化采用3D OBB作为空间推理的统一基元数据开源OpenSpatial-3M,300万样本,5大类任务工程高效并行 + 自动3D提升 + 场景图驱动效果显著提升多种模型的空间推理能力,SOTA。

文章图片
#人工智能
基于超大尺寸图像的语义分割论文和代码汇总

文章目录2021Progressive Semantic Segmentation(CVPR)High Quality Segmentation for Ultra High-resolution Images2021Progressive Semantic Segmentation(CVPR)code : https://github.com/VinAIResearch/MagNet摘要: 这项

文章图片
#计算机视觉#深度学习#人工智能
农业场景下的slam论文汇总

在农业场景下,SLAM(Simultaneous Localization and Mapping)应用通常用于农业机器人、自主车辆或者无人机等设备的导航和场地监测。这些设备需要能够在未知的或者变化的农田环境中准确定位自身位置,并且构建地图以便执行任务,例如喷洒农药、种植作物或者检测土壤质量等。以下是在农业场景下SLAM应用的简单描述:定位与导航: 农业机器人或者无人机需要准确的定位信息来执行任务

文章图片
#人工智能
Medical Thinking with Multiple Images论文精读

提出 MedThinkVQA:第一个专家标注、多图像、带中间推理监督的医学 VQA 基准设计三步骤推理结构:使诊断过程可观察、可评估、可监督建立多维度评估体系:包括步骤级事实性、错误类型、教育价值等公开数据集与代码:提供 HuggingFace 数据集、GitHub 代码、在线排行榜揭示模型关键短板:当前医学 VLM 的主要瓶颈是跨图像证据提取与融合,而非单纯推理长度不足。

文章图片
#人工智能
Spatial Reasoning with Vision-Language Models in Ego-Centric Multi-View Scenes论文精读

贡献说明新基准首个面向“以自我为中心的多视角动态场景”的3D空间推理基准新方法提出轻量、高效的“文本认知地图”增强方法,避免点云/ BEV的高计算成本实验全面评测16个SOTA VLM,包括闭源、开源、3D专用模型可插拔性Ego3D-VLM可无缝集成到任意VLM中,无需重新训练。

文章图片
#语言模型#人工智能#自然语言处理
ViewSpatial-Bench论文精读

贡献说明新基准ViewSpatial-Bench:首个系统评估多视角空间定位的基准,涵盖5类任务、5712个样本自动化标注流水线可扩展、高效生成3D空间关系数据,支持多视角训练新模型MVSM:通过多视角微调,显著提升跨视角空间推理能力实证发现当前VLMs在视角转换任务上普遍存在系统性缺陷,且训练数据中缺乏3D空间信息是主因。

文章图片
#人工智能
    共 170 条
  • 1
  • 2
  • 3
  • 17
  • 请选择