简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
近年来,视觉 Transformer 模型得到了极大的发展,相关工作在分类、分割、检测等视觉任务上都取得了很好的效果。然而,将 Transformer 模型应用于视觉领域并不是一件简单的事情。与自然语言不同,视觉图片中的特征数量更多。由于Softmax 注意力是平方复杂度,直接进行全局自注意力的计算往往会带来过高的计算量。针对这一问题,先前的工作通常通过减少参与自注意力计算的特征数量的方法来降低计
论文: https://arxiv.org/abs/2311.15599模型: https://huggingface.co/DingXiaoH/UniRepLKNet/tree/main主页:https://invictus717.github.io/UniRepLKNet/提出了四条guide line用于设计大核CNN架构模型,用于图像识别,语音、点云、时序任务上,并且均取得了较SOTA的成
根据博主自己算法落地和一些其他博主的总结面试的时候,面试官特别讨厌直接使用paperswithcode上SOTA模型,如果该模型work的话,就直接用,并没有思考该模型为什么适用于特征任务,因此尝试法并不可取,这也是本博文的初衷。1、熟悉数据吴恩达:80%数据 + 20%的模型 = 更好的AI对于新的项目任务来说,第一步就是需要熟悉数据,例如检测任务,可以写一个可视化代码查看标注是否合理,查看一下
1.Two stage目标检测算法 先进行区域生成(region proposal,RP)(一个有可能包含待检物体的预选框),再通过卷积神经网络进行样本分类。 任务:特征提取—>生成RP—>分类/定位回归。 常见的two stage目标检测算法有:R-CNN、SPP-Net、Fast R-CNN、Faster R-CNN和R-FCN等。2.One stage目标检测算法 不用R