logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

ArXiv 2024 | MambaOut:视觉任务真的需要Mamba吗

的学习笔记与心得分享,受个人学识与理解所限,文中对论文内容的解读或有不够周全之处,一切以原论文正式表述为准。本文仅用于学术交流与传播,内容均由作者独立整理完成,不代表任何平台或机构立场。模型规模分为四个版本:Femto、Tiny、Small、Base,对应不同的通道数和Block堆叠数量。如文中所涉文字、图片等内容存在版权争议,请及时与作者联系,作者将在第一时间核实并妥善处理。其中 (G, I,

#人工智能
EMNLP 2024|Infrared-LLaVA: Enhancing Understanding of Infrared Images in Multi-Modal Large Language

在多模态大语言模型(MLLMs)席卷通用视觉领域的当下,红外图像这一具有“全天候感知”能力的特殊模态,却因数据稀缺、模态特性差异大等问题,成为多模态理解的“盲区”。哈尔滨工业大学与鹏城实验室联合团队提出的Infrared-LLaVA,通过辩论式多智能体数据生成、专属基准构建与精细化模型训练,构建了一套完整的红外图像理解解决方案。本文将从技术原理、核心公式、实验细节到文章关键图片解读,全面拆解这一创

#人工智能
论文阅读|AgroBench:深耕农业领域的视觉语言模型基准数据集,解锁智能种植新可能

在农业现代化进程中,精准识别作物病害、虫害、杂草,以及科学进行田间管理,是保障作物产量、实现可持续生产的关键。近年来,视觉语言模型(VLMs)凭借强大的跨模态理解能力,在通用领域展现出巨大潜力,但在农业这一高度专业化的场景中,却因缺乏全面、权威的评估基准而发展缓慢。由大阪大学、京都大学等机构联合推出的AgroBench(农学家AI基准),填补了这一空白——它由农业专家标注,覆盖7大农业核心任务、2

#论文阅读#语言模型#人工智能
EMNLP 2024|Infrared-LLaVA: Enhancing Understanding of Infrared Images in Multi-Modal Large Language

在多模态大语言模型(MLLMs)席卷通用视觉领域的当下,红外图像这一具有“全天候感知”能力的特殊模态,却因数据稀缺、模态特性差异大等问题,成为多模态理解的“盲区”。哈尔滨工业大学与鹏城实验室联合团队提出的Infrared-LLaVA,通过辩论式多智能体数据生成、专属基准构建与精细化模型训练,构建了一套完整的红外图像理解解决方案。本文将从技术原理、核心公式、实验细节到文章关键图片解读,全面拆解这一创

#人工智能
到底了