logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

FairMOT理解与实现

理解:(1)概述:多目标跟踪,单纯跟踪能力不足以完成任务,所以,不同于单目标跟踪,这里加入了检测任务,可以将多目标跟踪任务看成为目标检测+重识别任务。(2)论文网络结构:文中网络结构分3大部分:网络结构在:.\src\lib\models\networks\pose_dla_dcn.py中。①:Encoder-decoder 部分网络中,这是backbone network部分,主干网络为DLA-

#深度学习
FairMOT理解与实现

理解:(1)概述:多目标跟踪,单纯跟踪能力不足以完成任务,所以,不同于单目标跟踪,这里加入了检测任务,可以将多目标跟踪任务看成为目标检测+重识别任务。(2)论文网络结构:文中网络结构分3大部分:网络结构在:.\src\lib\models\networks\pose_dla_dcn.py中。①:Encoder-decoder 部分网络中,这是backbone network部分,主干网络为DLA-

#深度学习
将百度网盘中数据集直接下载到服务器上

如何将百度网盘中数据集直接下载到服务器上

文章图片
#服务器
siamRPN论文理解与复现

**论文地址:http://openaccess.thecvf.com/content_cvpr_2018/papers/Li_High_Performance_Visual_CVPR_2018_paper.pdf论文讲解:siamRPN的网络结构由两部分组成,siam+RPNSiam部分:主要功能是提取特征RPN部分:功能为产生候选框以及二分类vectorRPN流程:①从主干网络得到templa

#深度学习#python#人工智能
Mnn 模型转化指南

MNN模型转化以及量化的方法指南

#mnn
视频理解研究

相比较于视频研究,基于深度学习的图像这块,已经取得很不错的成果。目前,在基于深度学习的视频研究这块,有一下几种方式:(1)逐帧处理融合思想:逐帧提取图像特征,然后融合深度特征图。弊端:简单粗暴带来的弊端有:前后帧之间存在大量信息冗余,冗余计算量太大。(2)ConvLSTM这种方法主要依赖于LSTM挖掘每帧之间的时序关系,计算量很大,很难训练,不常用在视频分析中。(3)主流的研究方向基本...

Wav2Lip原理以及训练

常规SyncNet:功能:音频和嘴唇同步实质:判断音频和唇形在某个共同参数空间下的相似性。网络结构:一种伪孪生网络结构,分别提取嘴形特征和音频特征,然后通过对比损失计算两者之间的距离。

文章图片
#计算机视觉
细粒度分析--RACNN

论文:https://ieeexplore.ieee.org/document/8099959代码:https://github.com/11-626/RA-CNNCVPR2017的Oral文章。概述:在multiple scales上,以类似cascade network的形式使得网络相互增强学习,进行基于region 的特征表达。横向:传统vgg分类网络,用来classificati...

音频降噪之人声分离

集成目前最先进的从音频文件中分离人声的源分离模型。本工程,将Ultimate Vocal Remover GUI v5.5.1界面工具,改写成可以在服务器端批量推理的工具。界面仓库地址:https://github.com/Anjok07/ultimatevocalremovergui。

文章图片
#音视频
到底了