烂笔头 | OpenMMLab 第一讲

0 前情提要open-mmlab部分框架，加方法综述，亲测可看。林达华主讲。涉及：图像分类 —— MMClassification目标检测 —— MMDetection图像分割 —— MMSegmentation行为识别 —— MMAction2时序动作检测时空动作检测生成对抗系列——图像编辑 —— MMEditing图像修复超分辨率抠图没找到ppt。计算机视觉困难：同类物体外观差异巨大不同物体外

Patricia_daye

815人浏览 · 2021-05-26 16:13:02

Patricia_daye · 2021-05-26 16:13:02 发布

0 前情提要

open-mmlab部分框架，加方法综述，亲测可看。

林达华主讲。

涉及：

图像分类 —— MMClassification
目标检测 —— MMDetection
图像分割 —— MMSegmentation
行为识别 —— MMAction2
- 时序动作检测
- 时空动作检测
生成对抗系列——图像编辑 —— MMEditing
- 图像修复
- 超分辨率
- 抠图

没找到ppt。

计算机视觉

困难：

同类物体外观差异巨大
不同物体外观相似
拍摄环境的影响

1 图像分类

人工定义 👉 机器学习

1.1 发展

图像特征和分类器（1990s~2012)
深度学习（2012~）
网络结构的演进（2012~2017+）
新的趋势（2017~）

img-ewqiYTLB-1622015450124

1.2 MMClassification

img-yYgTrluj-1622015450128

2 目标检测

2.1 发展

基本思想：滑窗检测
- 准确，不易遗漏
- 窗口数目巨大，计算量大
基本思想：区域提议（region proposal）
- 基于区域的方法 RCNN
两阶段方法的演进（2014~2017）
一阶段方法（2015~）
新的趋势（2018~）

img-BqQ4wHSN-1622015450130

2.2 MMDetection

img-2TOzDlxY-1622015450132

2.3 模块化设计

img-jfcuLvdR-1622015450132

3 语义分割

img-8Wn2MFnP-1622015809175

img-hPhkFc1H-1622015450134

3.1发展

本质上来说，也是一个分类问题。可以充分利用之前的分类网络。

深度学习的突破：全卷积网络 FCN（2015）
分割模型的进化（2015~）
- UNet 编码器-解码器
- DeepLab 空洞卷积
- 局部信息歧义 👉 上下文的重要性
在模型中捕捉上下文信息（2016~）
- PSPNet 2016 不同尺度的池化
- DeepLab v3 2017 不同尺度的空洞卷积

img-4Fjfgl75-1622015450135

3.2 MMSegmentation

img-zxc3F3wc-1622015450136

img-tIAePS9P-1622015450138

4 视频理解

识别视频中的体育运动、检索视频中的片段……

时序动作检测：When + What
时空动作检测：Where + When + What
视频 = 空间 + 时间 = 外观 + 动作

img-HEpp52VQ-1622015450146

4.1 发展

从手工特征到卷积网络（~2014）
从单流到双流（2014~）
- 双流网络 Two Stream Networks 2014：图像和光流
- 时序分段网络 TSN 2016：视频切割成多个片段 snippets
大规模视频数据集的出现（2017~）
从2D卷积到3D卷积（2017~）
- I3D 2017：2D卷积膨胀到3D卷积
- SlowFast 2019：视频整体变化缓慢，但动作高速变化；使用不同频率
压缩3D网络（2018~）
- S3D/R2+1D 2018：分解 3D 卷积核 👉 空间 2D + 时间 1D
- CSN 2019/X3D 2020：减少通道之间的连接，分组卷积、分层卷积
更大的数据（2019~）
弱监督学习（2019~）

img-bJcacSXR-1622015450147

4.2 MMAction2

img-tFRFnopc-1622015450148

5 生成对抗模型

生成难以分辨的真实人脸、输入音频让图中的人说话、风格转化、动漫特效……

无中生有——生成对抗网络

5.1 发展

GAN 2014
DCGAN 2015：基于卷积和反卷积
WGAN 2017：改善了训练不稳定
BigGAN 2017/styleGAN 2018：大模型，大数据集
CycleGAN/pix2pix 2017：风格转化
SeFa 2020：可解释的模型

5.2 图像修复

传统视觉：PatchMatch（2009）
早期探索深度学习：Context Encoder（2016）：编码解码+对抗训练
更好的效果，更多样的深度模型
- Global & Local（2017）：在CE基础上，加局部对抗训练
- DeepFill（2018）v2（2019）/Pconv（2018）：Attention机制，单阶段👉多阶段