logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Deepstack论文阅读笔记

摘要 传统多模态大模型通常将所有视觉tokens串联输入LLM第一层,导致高分辨率图像下计算量和内存占用激增。本文提出DeepStack方法,将高分辨率视觉tokens分层注入LLM的不同层中,在不增加输入tokens数量的前提下,显著提升模型性能,尤其在OCR、图表分析等依赖细节的任务上表现优异。实验表明,该方法在文本导向任务(如DocVQA、TextVQA)和视频QA任务中均优于基线模型,且计

#论文阅读
深度学习中的数据预处理操作

常用预处理方法1、零均值零均值是数据预处理最为常用的方法。即将每一维原始数据减去这一维数据的均值,将结果替代原始的数据。预处理的结果是每一维数据的均值是0。X -= np.mean(X,axis = 0)2、归一化(normalization)归一化就是将原始数据归一到相同的尺度,有两种归一化的方法:1)先对每一维数据进行零均值,然后除以每一维数据的标准差。X -= np.mean...

[目标检测]Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample S

1、 为什么要做这个研究(理论走向和目前缺陷) ?Anchor based 和Anchor free算法的性能差距原因不明。2、 他们怎么做这个研究 (方法,尤其是与之前不同之处) ?通过比较两个比较有代表性的anchor based和anchor free的单步检测器retinaNet和FCOS,先一步步控制变量,最后得出差距原因在于正负例anchor(box/point)的采样策略不同造成的差

【3D目标检测】HDNET: Exploiting HD Maps for 3D Object Detection论文综述(2018)

1、 为什么要做这个研究(理论走向和目前缺陷) ?之前的3D目标检测都不用高精地图,而是直接基于感知设备获得的数据做感知,高精地图一般只用于规划,白白浪费了这么简单易得的提升检测效果的方法。2、 他们怎么做这个研究 (方法,尤其是与之前不同之处) ?还是将点云进行体素化分成3D网格(占有网格,即网格中有点记为1,无点记为0),但是现有点云减去了地图中的地面高度信息,以实现将有坡度的地面拉直。同时增

【3D目标检测】PointFusion: Deep Sensor Fusion for 3D Bounding Box Estimation论文综述(2018)

1、为什么要做这个研究(理论走向和目前缺陷) ?做3D目标检测的大部分都是要面向自动驾驶的,这论文找了个理由说是“通用”,不限于数据集比如lidar-image,或者rgb-d,感觉很牵强。2、他们怎么做这个研究 (方法,尤其是与之前不同之处) ?不太清楚这论文出来时F-PointNet出来没,感觉都是一个风格的,但是这个论文在预测3D框时同时融合了图像特征和点云特征,融合方法就是简单的conca

【3D目标检测】HDNET: Exploiting HD Maps for 3D Object Detection论文综述(2018)

1、 为什么要做这个研究(理论走向和目前缺陷) ?之前的3D目标检测都不用高精地图,而是直接基于感知设备获得的数据做感知,高精地图一般只用于规划,白白浪费了这么简单易得的提升检测效果的方法。2、 他们怎么做这个研究 (方法,尤其是与之前不同之处) ?还是将点云进行体素化分成3D网格(占有网格,即网格中有点记为1,无点记为0),但是现有点云减去了地图中的地面高度信息,以实现将有坡度的地面拉直。同时增

SSD: Single Shot MultiBox Detector(单步多框检测器)论文综述

SSD: Single Shot MultiBox Detector(单步多框检测器)论文综述SSD算法是在YOLO的基础上改进的单阶段方法,通过融合多个feature map上的BB,在提高速度的同时提高了检测的精度,性能超过了YOLO和Faster-rcnn(大目标条件)。单步算法,无需proposal,类似一个优化了的rpn网络。从每个fm(feature map)上的每个像素点都输出...

到底了