在下万个人主页

@2503_93960299

在下万

2025-11-28 20:18:20 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【无标题】

面向光学/SAR/红外多源遥感影像的通用多模态大模型，单模型统一实现遥感分类、图像描述、VQA、水平/旋转框目标检测五大任务，配套自研百万级遥感多模态指令数据集MMRS-1M。

#人工智能

ArXiv 2024 | MambaOut：视觉任务真的需要Mamba吗

的学习笔记与心得分享，受个人学识与理解所限，文中对论文内容的解读或有不够周全之处，一切以原论文正式表述为准。本文仅用于学术交流与传播，内容均由作者独立整理完成，不代表任何平台或机构立场。模型规模分为四个版本：Femto、Tiny、Small、Base，对应不同的通道数和Block堆叠数量。如文中所涉文字、图片等内容存在版权争议，请及时与作者联系，作者将在第一时间核实并妥善处理。其中 (G, I,

#人工智能

EMNLP 2024|Infrared-LLaVA: Enhancing Understanding of Infrared Images in Multi-Modal Large Language

在多模态大语言模型（MLLMs）席卷通用视觉领域的当下，红外图像这一具有“全天候感知”能力的特殊模态，却因数据稀缺、模态特性差异大等问题，成为多模态理解的“盲区”。哈尔滨工业大学与鹏城实验室联合团队提出的Infrared-LLaVA，通过辩论式多智能体数据生成、专属基准构建与精细化模型训练，构建了一套完整的红外图像理解解决方案。本文将从技术原理、核心公式、实验细节到文章关键图片解读，全面拆解这一创

#人工智能

论文阅读|AgroBench：深耕农业领域的视觉语言模型基准数据集，解锁智能种植新可能

在农业现代化进程中，精准识别作物病害、虫害、杂草，以及科学进行田间管理，是保障作物产量、实现可持续生产的关键。近年来，视觉语言模型（VLMs）凭借强大的跨模态理解能力，在通用领域展现出巨大潜力，但在农业这一高度专业化的场景中，却因缺乏全面、权威的评估基准而发展缓慢。由大阪大学、京都大学等机构联合推出的AgroBench（农学家AI基准），填补了这一空白——它由农业专家标注，覆盖7大农业核心任务、2

#论文阅读 #语言模型 #人工智能

EMNLP 2024|Infrared-LLaVA: Enhancing Understanding of Infrared Images in Multi-Modal Large Language

#人工智能

到底了