logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【CVPR26-纪荣嵘-厦门大学】PixDLM:面向无人机推理分割的双路径多模态大语言模型

架构,搭配全新DRSeg基准,彻底解决无人机视角下推理分割的小目标丢失、视角畸变、语义推理弱三大难题,成为无人机视觉理解的强力基线模型。基准数据集:1万张超高清无人机图+思维链QA标注,覆盖城市、公园、住宅区、工业区、滨水区,含昼夜、多高度、大量小目标。:超高清画面里充斥大量小目标(车辆、行人、设施仅占数十像素),传统MLLM压缩token会丢失细节。:倾斜视角+高空视角,几何畸变严重,现有地面/

#无人机#语言模型#人工智能 +1
【PyTorch总结】PyTorch的基础使用

文章目录Initializing TensorHow to initialize and convert tensort to other types(int, float, double)Array to Tensor conversion and vice-versaMathTensor IndexingTensor ReshapingInitializing Tensorimport tor

【ICLR26-张文桥-浙江大学】TumorChain:面向可追溯临床肿瘤分析的交错式多模态思维链推理

TumorChain-7B平均准确率**84.41%**,大幅超越GPT-5-mini、Claude3、Qwen2.5-VL、Lingshu、RadFM等所有基线。,首次实现3D CT肿瘤分析从影像到病理的全流程可追溯、低幻觉、高精度推理,为临床肿瘤AI落地提供可靠、可解释的新范式。推理链构建与评估缺失,结果不可追溯、不可解释。覆盖四大临床任务:器官/肿瘤定位、病灶属性分析(形状/边界/密度/数量

【港中文-岳翔宇组-arXiv25】OneThinker: 用于图像和视频的统一推理模型

更贴心的是,还专门给34万样本加了“思考过程”注释(比如“先找图片里的圆,再用几何定理算角度”),让模型一开始就知道“怎么想”,而不只是“怎么答”。不管是答题、追踪还是分割,都让模型用统一格式输出——先写思考过程,再给结果(比如分割任务输出坐标,答题任务输出选项),不用为不同任务设计不同接口,大大提升了实用性。:不同任务的“评分标准”不一样(比如答题对了给满分,定位准了给渐变分),直接一起训练会导

【清华大学-MM25】Open3D VQA:面向无人机开放空间的多模态大语言模型空间推理基准

Open3D-VQA基准首次构建了空中视角下的三维空间推理评测体系,既揭示了当前AI在距离测算、视角转换等任务中的短板,也为无人机导航、城市智能分析等领域的技术优化提供了关键支撑。模拟数据微调效果显著:仅用模拟场景数据微调后,LLaVA和Qwen2-VL在真实场景中的推理准确率分别提升6.5%和22.3%,验证了数据的泛化价值。多维任务设计:涵盖4种空间视角(如上帝视角、第一人称视角)和7类推理任

#无人机#语言模型#人工智能 +1
【汇总】CVPR25语义分割相关文章【语义分割】

本次CVPR25涉及到语义分割的文章大约有144篇,粗略分为以下几类:其中与医学图像相关的占比是最多的,值得注意的是开放词汇语义分割今年也有不少。VLM-Based语义分割。Amodal 语义分割。音频-视觉联合语义分割。

【CVPR26-索尼】EW-DETR:通过增量低秩检测Transformer实现动态世界目标检测

索尼印度研究院联合印度国际信息技术研究所提出的EW-DETR框架,首创了演化世界目标检测(EWOD)范式,通过增量LoRA适配器、查询归一化目标适配器和熵感知未知混合器三大核心模块,实现了无样本约束下的增量类别学习、跨域场景适配和精准未知检测,同时提出FOGS综合评价指标,大幅超越现有方法,为目标检测模型在动态真实世界的落地应用提供了全新的解决方案和研究方向。同时通过可学习的融合权重,结合分类器输

#transformer#目标检测#深度学习 +2
【腾讯微信团队-饶峰云-arXiv25】WeDetect:通过检索实现快速开放词汇目标检测

WeDetect-Ref(复杂指令理解器):结合大语言模型(LLM)处理复杂指令,先由WeDetect-Uni生成候选框,再让LLM作为分类器,通过二进制分类头对所有候选框并行打分,一次性筛选出符合指令的目标。同时首次实现大模型在COCO数据集上AP突破50,比肩传统专业检测器。WeDetect(基础检测器):模型家族的“地基”,基于预训练的CLIP模型微调,搭配1500万张图片、3.3亿个标注框

#目标检测#目标跟踪#人工智能 +2
【西安交通大学-曹相湧组-arXiv25】SegEarth-OV3:探索SAM 3在遥感图像开放词汇语义分割中的应用

SegEarth-OV3 基于 SAM 3 模型,用“双头部融合+存在性过滤”两大简单策略,让遥感影像的开放词汇语义分割实现“无需训练、精准识别、开箱即用”,既突破了传统方法的类别限制和精度瓶颈,又简化了流程,为城市规划、灾害监测等领域提供了更高效的工具!在 UDD5 数据集上,精度更是达到 71.7%,超过了全监督训练的基准模型。研究者们把这两个头部的结果结合起来:用“实例头”抓小目标的精细边界

【CVPR26-俞思悦-西交利物浦大学】TALENT:面向指代表达图像分割的目标感知高效微调方法

文章:TALENT: Target-aware Efficient Tuning for Referring Image Segmentation代码:https://github.com/Kimsure/TALENT单位:西交利物浦大学、利物浦大学、中国石油大学(华东)、北京科技大学、北京交通大学RIS需要建立文本描述 ↔ 视觉区域的一对一精确匹配,对类别、属性、空间关系的细粒度对齐要求极高,是

    共 76 条
  • 1
  • 2
  • 3
  • 8
  • 请选择