logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

论文精读:《MOTR: End-to-End Multiple-Object Tracking with Transformer》

本文提出MOTR,一种基于Transformer的端到端多目标跟踪方法。针对传统方法依赖后处理关联导致的非端到端问题,MOTR创新性地扩展DETR框架,引入可逐帧传递更新的"轨迹查询"(Track Query)机制来建模目标时序信息。通过轨迹感知标签分配(TALA)、时序聚合网络(TAN)和集体平均损失(CAL)三个关键技术,MOTR实现了视频序列的端到端时序建模。

文章图片
#transformer#深度学习#人工智能
论文精读:《FairMOT: On the Fairness of Detection and Re-Identification in Multiple Object Tracking》

本文详细解读 FairMOT 如何利用 Anchor-free 架构、DLA-34 特征融合以及低维 Re-ID 特征,成功打破这一瓶颈 。它不仅在 MOT17 等各大榜单霸榜,更在 RTX 2080Ti 上实现了 30 FPS 的实时推理 。从理论痛点到工程细节,带你彻底读懂这一 MOT 领域的里程碑工作。

文章图片
#人工智能#目标跟踪
精度:《MViTv2: Improved Multiscale Vision Transformers for Classification and Detection》

MViTv2是Facebook AI Research和UC Berkeley提出的改进版多尺度视觉Transformer,作为统一架构适用于图像分类、目标检测和视频分类三大任务。它在MViTv1基础上引入分解式相对位置嵌入(高效处理位置关系)和残差池化连接(补偿信息损失),显著提升性能。实验表明,MViTv2在ImageNet(88.8%准确率)、COCO(58.7 AP)和Kinetics-4

文章图片
#计算机视觉
到底了