
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
作为生成模型,它重新定义了优先级,从追求“AI感”转向追求“精准对齐”。作为理解模型,它展示了生成式框架也能出色地完成深度估计等理解任务,实现了从“直接推断”到“分布推理”的转变。作为迈向视频和3D的基石,它采用的视频VAE和在姿态编辑、新视角合成上的优异表现,预示着它向视频生成领域扩展的巨大潜力。作为理解与生成统一的桥梁,它补全了 Qwen 系列在生成能力上的关键拼图,与 Qwen2.5-VL

Qwen3-VL 通过架构创新、大规模多样化的训练数据和精心设计的训练流程,成功打造了一个在多模态理解、长上下文处理、复杂推理和纯文本能力上都极其强大的模型系列。它不仅是性能标杆,更是指向了未来可能的具身智能体和通用AI的基础引擎:一个能够无缝融合感知、推理和行动,在数字和物理世界中学习和协作的系统。

首先 pip 换源加速下载并安装依赖包。

在SIXray、PIDray等未见过的数据集上评估分类性能,STING-BEE的F1分数达到34.69%,远超第二名的MiniGPT-v2(18.45%),证明其对扫描仪差异和新型违禁品有很强的泛化能力。这篇工作为X光安检领域填补了“多模态”这一空白。STCray数据集为研究复杂场景下的威胁检测提供了新基准,而STING-BEE则首次验证了视觉语言模型在该领域的潜力。虽然目前在精确的空间定位和目标

LLMDet为“如何在视觉语言大模型上针对目标检测任务进行微调”这个问题提供了一条与上下文提示完全不同的、更高级的路径。上下文提示是“授人以鱼”:给通用MLLM(如Gemini、Qwen)提供详细指令和示例图,让它直接输出检测框。这受限于MLLM在检测任务上的非原生架构(无NMS、无置信度),效果不稳定且上限低。LLMDet是“授人以渔”:不用通用MLLM来做检测,而是用LLM作为老师,在训练过程

目标跟踪是遥感领域空间地球观测的重要研究方向。虽然现有的基于相关滤波器和基于深度学习(DL)的目标跟踪算法取得了很大的成功,但对于目标遮挡问题仍然不能令人满意。由于背景的复杂变化而造成的遮挡和跟踪镜头的偏差,导致物体信息丢失,从而导致检测的遗漏。传统上,被遮挡下的目标跟踪方法大多采用复杂的网络模型,对被遮挡对象进行重新检测。为了解决这个问题,我们提出了一种新的目标跟踪方法。首先,建立了一个基于深度

项目内容问题户外3D视觉定位缺乏多平台、大规模基准,现有模型跨平台泛化能力差方法构建3EED数据集(3平台、128K对象、22K表达)+ 4种基准协议 + CPA/MSS/SAF基线模型核心发现跨平台性能差距大(车载→无人机从52%→1.5%);联合训练可显著提升;稀疏性是无人机最大挑战意义首个面向多平台户外3D视觉定位的大规模基准,推动跨平台泛化研究。

方面创新点数据首个大规模、多任务、多时间点的3D医学VQA数据集任务引入静态/纵向时间诊断任务,贴近真实临床流程质量严格的LLM+人工双重过滤,确保高质量QA对评估系统评估多个SOTA模型,揭示其在时间推理上的不足开源数据集和代码公开,推动3D医学视觉理解研究。

贡献说明问题定义明确了多视角空间推理中的三大挑战:部分可见、遮挡、低重叠数据流水线提出可扩展的自动标注与QA生成方法,适用于现有3D场景数据集数据集构建了 SpatialMosaic 和 SpatialMosaic-Bench,规模大、挑战性强模型架构提出 SpatialMosaicVLM,融合几何与视觉特征,提升多视角空间推理能力实验验证在多个基准上验证了模型在遮挡、低重叠、零样本迁移下的优越性

问题解决方案现有基准只覆盖物体级定位提出首个跨4个层次的3D视觉定位基准模型无法理解物体之外的区域设计空间级(space-level)任务,包括距离、轨迹、常识空间部件级定位能力差引入部件移动、功能、关系等细粒度任务缺乏系统性评估全面评估LLM、MLLM、专用3D模型,并分析错误类型。








