
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
NanoDet是上海人工智能实验室的RangiLyu于2020年10月份开源的轻量级检测项目,取得了很好的效果,广受关注。2021年12月份,作者又更新发布了NanoDetPlus,在coco val上的map提升了7个百分点。虽然作者将模型最终的输出concat为了一个输出,从下图可以看到有四个输出头,对应的stride分别为。
KITTI是德国卡尔斯鲁厄科技学院和丰田芝加哥研究院开源的数据集,最早发布于2012年03月20号。对应的论文发表在CVPR2012上。KITTI数据集搜集自德国卡尔斯鲁厄市,包括市区/郊区/高速公路等交通场景。采集于2011年09月号及10月03号的白天。KITTI数据采集使用的平台如下图,上面平台中包括从上图中可以看到IMU/GPS总结,KITTI数据集是由4个相机,1个激光雷达,1个IMU/

这篇文章是华南理工大学的Yiqin Zhu在2021年04月份发表的有关OCR中做文本检测的工作。一般OCR工作分两步,一步是对文本区域进行检测,先得到文本区域,然后再将检测的文本区域转化成文本。文本检测的复杂性在于文本区域的步规则性和多样性,常用的在图像空间域做文本检测方法有掩码,像素的笛卡尔或极坐标坐标轮廓点。使用掩码来做需要对图像进行像素级分类后处理时间较长,使用轮廓像素点在处理弯曲文本区域
计算过程如上图所示,值的注意的是空间注意力机制的使用,先是对每个通道取均值得到特征图每个像素位置上的重要性,再将其加到原输入特征图上,增强每个位置的特征值,再通过卷积输出通道为N个的注意力权重,使得输出的权重能衡量每个尺度特征图的重要性。中的主要创新是自适应多尺度特征融合(Adapptive Scale Fusion,ASF)模块的提出。来实现,这样做并没有考虑不同尺度特征图的重要性是不一样的。图
也只是大概确定了检测框的宽高,还需在宽高方向上进行适量的缩放才能得到准确的检测框。的卷积,进一步融合特征,然后将卷积结果分别输入到两个分支上。只是大概定位了检测框的位置,还需对其进行少量的平移才能实现准确定位。结构的网络,对不同层级的特征分别进行处理即可。的大小是在检测输入图像的尺度上的,通过变换可知对于每个点共有。,介于两者之间的忽略。的卷积,只改变输入特征图的通道大小,不改变。的中心对应的原图
最近看的2015年前后的几篇语义分割网络中反复提到了一个点,深度卷积神经网络的内置不变性。2014年11月发表的中作者提到了卷积神经网络具有的平移不变性:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jwZy2ERO-1678364016720)(/images/MachineLearning/12BuiltinInvarianceofDCNN/1.png)]201

欢迎访问个人网络日志🌹🌹知行空间🌹🌹反向传播算法是深度学习的基石,在年有一段时间总会跟着的课程讲义反复推导神经网络中反向传播,时至今日再重新回顾一下神经网络中的优化方法。对于线性分类器:s=WXs=WXs=WX,其中,为,表示的是样本数目,是的特征维度,为,表示类别的数目,即是每个样本对应每个类别的评分。全连接神经网络是有很多个线性分类器组成的,如带一个隐层的2层全连接网络s=W2max(
clang-tidy是一个基于 clang 的 C++ “linter” 工具。其作用主要是用来检查和修正代码中的典型编程问题,像代码风格/接口误用/通过静态分析可定位到的bug。clang-tidy模块化功能做的很好,有预留接口,非常便于实现新的代码检查功能。

论文Bridging the Gap Between Anchor-based and Anchor-free Detection via代码https://github.com/sfzhang15/ATSSATSS是中科院自动化研究所的等最早于2019年12月份提交的论文中提出的方法,发表在CVPR2020会议上。文中分析了和的检测方法,性能差异的主要原因在于正负训练样本的定义方式不同,而和回归
是澳洲阿德莱德大学的Zhi Tian等最早于2019年04月提交的工作成果,发表在ICCV上。FCOS是全卷积实现的的一阶目标检测器,避免了训练过程中Anchor相关的计算,减少的训练时的计算量和内存占用,移除了anchor相关的一系列超参数。检测性能对anchor的size//数量比较敏感。实际对象的检测框大小分布较广泛,anchor不一定能覆盖为了得到高召回率,的方法返回了非常多的anchor







