logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

基于 Transformer 的底层视觉骨干网络

Transformer架构自2017年提出以来,在自然语言处理领域取得突破性进展,随后被成功引入计算机视觉任务并展现强大能力。本文就SwinIR等相关论文为主线,整理一些基于Transformer的底层视觉骨干网络。这类模型采用的模块化架构:Transformer模块负责在特征空间学习长程依赖与内容感知表示,而输入输出分辨率的变化、退化类型的差异则通过可替换的重建头、损失函数等灵活适配。这一设计使

#transformer#深度学习#人工智能 +1
RT-DETR模型:在实时目标检测超越YOLO(附数据集,源码链接,项目搭建指南)

RT-DETR(Real-Time DEtection TRansformer)是一个实时的基于Transformer的目标检测模型,首先是论文:Attention Is All You Need),作为基础知识本文略。DETR(论文:End-to-End Object Detection with Transformers),见我上一篇博客。RT-DETR(论文:DETRsBeat YOLOso

#目标检测#计算机视觉#算法
RT-DETR模型:在实时目标检测超越YOLO(附数据集,源码链接,项目搭建指南)

RT-DETR(Real-Time DEtection TRansformer)是一个实时的基于Transformer的目标检测模型,首先是论文:Attention Is All You Need),作为基础知识本文略。DETR(论文:End-to-End Object Detection with Transformers),见我上一篇博客。RT-DETR(论文:DETRsBeat YOLOso

#目标检测#计算机视觉#算法
将Transformers用于目标检测的开山之作:DETR

而我们的真值则是几个框,预测框的数量N远远大于真实框的数量,为了实现一一对应我们要把真实框的数量补得和预测框数量一样多。:在DETR中,对于一张图片,我们的输出是N个预测框,一个框由2组参数代表,分别是框相对于图像的坐标x,y;再看第一部分,如果是有物体的真实框,我们就计算预测框的概率,概率是越大越好,所以我们给前面加个负号,这样都是越小越好了。,预测框点集中的点和真实框点集中的点进行有权重的连接

#transformer#目标检测#深度学习
到底了