Azusa309 个人主页

@a123456789djjs

Azusa309

2025-04-30 22:08:42 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

基于 Transformer 的底层视觉骨干网络

Transformer架构自2017年提出以来，在自然语言处理领域取得突破性进展，随后被成功引入计算机视觉任务并展现强大能力。本文就SwinIR等相关论文为主线，整理一些基于Transformer的底层视觉骨干网络。这类模型采用的模块化架构：Transformer模块负责在特征空间学习长程依赖与内容感知表示，而输入输出分辨率的变化、退化类型的差异则通过可替换的重建头、损失函数等灵活适配。这一设计使

#transformer #深度学习 #人工智能 +1

RT-DETR模型：在实时目标检测超越YOLO（附数据集，源码链接，项目搭建指南）

RT-DETR（Real-Time DEtection TRansformer）是一个实时的基于Transformer的目标检测模型，首先是论文：Attention Is All You Need），作为基础知识本文略。DETR（论文：End-to-End Object Detection with Transformers），见我上一篇博客。RT-DETR（论文：DETRsBeat YOLOso

#目标检测 #计算机视觉 #算法

RT-DETR模型：在实时目标检测超越YOLO（附数据集，源码链接，项目搭建指南）

#目标检测 #计算机视觉 #算法

将Transformers用于目标检测的开山之作：DETR

而我们的真值则是几个框，预测框的数量N远远大于真实框的数量，为了实现一一对应我们要把真实框的数量补得和预测框数量一样多。：在DETR中，对于一张图片，我们的输出是N个预测框，一个框由2组参数代表,分别是框相对于图像的坐标x，y；再看第一部分，如果是有物体的真实框，我们就计算预测框的概率，概率是越大越好，所以我们给前面加个负号，这样都是越小越好了。，预测框点集中的点和真实框点集中的点进行有权重的连接

#transformer #目标检测 #深度学习

到底了