综述：利用深度学习实现的虚拟试衣技术（基于图像）

学习报告5目录学习报告51. 二维虚拟试衣技术1.1 发展历史1.2人体解析1.2.1 人体分割VITON & CP-VTONMG-VTONClothFlow 条件布局生成器1.2.2 姿势表示——关键点热图1.2.3 姿势表示——DensePoseM2E-TONUnsupervised Pose Flow Learning for Pose Guided Synthesis1.3服装变.

chocoboeater

22513人浏览 · 2020-04-23 22:17:51

chocoboeater · 2020-04-23 22:17:51 发布

学习报告5

1. 二维虚拟试衣技术

1.1 发展历史

在过去的几年中，在线时装行业已经受到诸如增强现实，虚拟现实，可穿戴技术和互联试衣间等最新技术创新的影响。无论是用于创建新产品目录还是为购物者提供沉浸式环境，它都可能影响电子商店并为新的易于图像编辑的可能性打开大门。

在早期，相关工作的处理使用三维测量和基于模型的方法，例如2012年的DRAPE: DRessing Any PErson ，2014年的Subspace Clothing Simulation Using Adaptive Bases，2017年的。然而，它们本质上是计算密集型的并且需要昂贵的成本，这对于购物者而言通常是不可接受的。而利用图像合成技术则可以降低零售商的成本。在计算机视觉中，图像生成模型（例如2014年的GAN，2016 年的PixelDTGAN等）能够生成高质量的真实感图像，已成功应用于众多应用中。

最近的工作旨在利用深度生成模型来解决虚拟试戴问题，例如2017年的有条件的类比GAN：在人像上时尚换装（CAGAN），2018年的VITON：基于映像的虚拟试穿网络以及同年的改进版Toward Characteristic-Preserving Image-based Virtual Try-On Network（CP-VTON），2019年的Towards Multi-pose Guided Virtual Try-on Network（MG-VTON ）。

CAGAN （有条件的类比GAN：在人像上时尚换装）提出了一种基于U-Net的GAN 方法。但是，由于这些网络无法处理较大的空间变形，因此这些方法无法产生实际的结果。在VITON 中，作者使用形状上下文匹配算法（使用形状上下文进行形状匹配和对象识别，2012）将布料扭曲在目标人物上，并使用U-Net生成器学习图像合成。为了改进此模型，CP-VTON 引入了卷积几何匹配器（用于几何匹配的卷积神经网络架构，2017），该算法学习几何变形的参数（即thin-plate spline transform薄板样条变换，1989）以使布料与目标人对齐。在MG-VTON，该任务将扩展到多姿势试穿系统，该系统需要修改人的姿势以及上身的衣服。

大多数的试穿方法都是基于单个图像的，不过也有基于视频的虚拟试穿，例如2019年的FW-GAN: Flow-navigated Warping GAN for Video Virtual Try-on。

1.2人体解析

以根据身体（各部分）、脸部、头发、衣服和目标姿势的近似形状估算目标图像的合理人体分析，可以有效地指导人体部位的精确区域的合成。

人类解析已经被研究用于人体部分的精细分割（基于关键点的弱监督人解析）。后来有研究者将对象分割扩展到对象零件级分割（使用整体模型和身体部位检测和表示对象），并发布了PASCAL PART数据集，其中包括人体的像素级零件注释。有人收集了一个新的人数据集（LIP）进行人体分析和服装分割（面向人：自我监督的结构敏感学习和人类解析的新基准，面向人：联合体分析与姿态估计网络及新基准）。有研究者提出了一种多路径优化网络，以实现高分辨率和精确的零件分割（RefineNet：用于高分辨率语义分割的多路径优化网络）。利用LIP可以提取覆盖人体图像中衣服部分的感兴趣区域。

除了人类解析为部分分割，在工程使用零件相似性字段的实时多人2D姿势估计和Densepose研究了人类姿势为姿态分析估计。前者的研究者提出了一种基于关键点的人体姿态估计的部分亲和力场。后来，为了实现更准确的姿势估计，DensePose通过将每个像素映射到一个密集的姿势点，提出了稠密的人类姿势估计方法。

1.2.1 人体分割

（参考链接：论文翻译人体解析数据集及论文 ClothFlow PGN）

服装的外观在很大程度上取决于体型，因此如何转移目标时装项目取决于不同身体部位（如手臂或躯干）的位置和体型。使用人类分析器来计算人类分割图。

VITON & CP-VTON

在这里插入图片描述

如图，网络输入之一人体表示p由三个部分组成。

Body shape：使用面向对象：自我监督的结构敏感学习和人类解析的新基准的人类分析器来计算人类分割图，其中不同的区域表示人体的不同部分，如手臂、腿等。进一步将分割图转换为一个1通道二进制掩码，其中1表示人体（除了脸和头发），0表示其余。直接从I派生的二元掩模被降采样到较低的分辨率，以避免当身体形状和目标服装发生冲突时出现伪影。

Face and hair：为了保持人的身份，作者结合了人脸、肤色、发型等物理属性，使用同一个人类解析器提取人脸和头发区域的RGB通道，在生成新图像时注入身份信息。

MG-VTON

为了在处理衣服和姿势时保持人的结构一致性，作者设计了一个以姿势衣服为导向的人体解析网络，该网络以衣服的图像，姿势热图，身体的近似形状，脸和头发的mask为条件。如图所示，由于直接将人和衣服的图像输入模型，基线方法无法保留人的某些部分（例如，裤子的颜色和头发的样式已被替换）。在这项工作中，作者利用人工分析图来解决这些问题，这可以帮助生成器在零件级别上合成高质量图像。

在这里插入图片描述

Conditional Parsing Learning条件解析学习模块包含一个由姿势衣服引导的网络，该网络预测人体的解析图，从而有助于生成高质量的人像。

在这里插入图片描述

ClothFlow 条件布局生成器

ClothFlow：这是一个appearance-flow-based生成模型，用于合成穿戴服装的人，用于姿势指导人的图像生成和虚拟试穿。

要合成人物图像，一个好的实践是首先预测一个语义布局，该布局对外观的生成构成结构约束。我们使用现成的姿势估计器（使用零件相似性字段的实时多人2D姿势估计）和人类解析器（PGN通过零件分组网络进行实例级人员解析），以获得用于训练目标布局生成器的个人姿势和布局表示，最终得到目标人体的分割信息。

在这里插入图片描述

条件式人体布局生成器以目标姿态为条件预测目标人体的分割布局信息。这样可以把形状和外观的生成分解开来，从而使得
ClothFlow 生成的结果在空间上更具一致性。

1.2.2 姿势表示——关键点热图

（参考链接：使用零件相似性字段的实时多人2D姿势估计论文翻译）

在这里插入图片描述

Posemap：人体姿势的变化会导致服装的不同变形，使用使用零件相似性字段的实时多人2D姿势估计的姿势估计器显式地建模姿势信息。计算出的人体姿势表示为18个关键点的坐标。为了利用它们的空间布局，每个关键点被进一步转换为一个热图，在关键点周围有一个11⇥11的邻域，在其他地方填充1和0。所有关键点的热图进一步叠加成18通道姿态的热图。

1.2.3 姿势表示——DensePose

DensePose：将2D的RGB图像的所有人体像素实时映射到3D模型的技术。本研究的目的是通过建立从人体的2D图像到基于表面的3D表征的密集对应（dense correspondence）来进一步推进机器对图像的理解。

M2E-TON

在这里插入图片描述

为了获得更精确的姿态估计，dense pose提出了将每个像素映射到一个稠密的姿态点的稠密人体姿态估计方法。在此论文的工作中，作者使用估计的密集姿势来进行衣服区域扭曲和姿势对齐，这为姿势指导的合成提供了更丰富的姿势细节。

Unsupervised Pose Flow Learning for Pose Guided Synthesis

（论文地址）

为了实现无监督的姿势流训练方案，作者在阶段I中提出了一种新颖的纹理保留目标，以提高学习流的质量，这对于姿势指导的合成任务至关重要。作者还提出了基于增强的自我监督，以稳定流量训练。基于学习的姿势流，作者在阶段II中使用建议的 GarmentNet和SynthesisNet提出了从粗到细的服装到图像的合成管道。GarmentNet和SynthesisNet共享一个统一的网络结构，该结构利用学习的位姿流进行多尺度特征域变形。此外，作者提出了一种新的门控乘法注意模块，用于感知错位的合成。

在这里插入图片描述

GarmentNet

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yVm2aTSP-1587648366671)(media/dd33121355efa4d46947aaafe28f77f3.png)]

.SynthesisNet

为了合成更逼真的图像，作者在GarmentNet和SynthesisNet中设计了遮罩层，以保留目标图像背景和人物身份以进行逼真的合成。作者使用DensePose解析而不是人物关键点作为姿势输入。DensePose解析包含身体分割和网格坐标，它们提供了更丰富的信息，可用于逼真的姿势引导合成。

尽管该方法可以将关键点热图用作替代的人类姿势表示，但作者认为稀疏关键点不能为准确的人像生成提供足够的姿势信息。相比之下，DensePose解析和网格坐标提供了密集的伪3D信息，该信息可用来表示姿势细节。

1.3服装变形

Thin Plate Spline 薄板样条

（参考链接：算法说明，薄板样条变换）

给定两张图片中一些相互对应的关键点，如何能够将其中一张图片形变到另外一张图片上使得这些关键点都对应重合？这就是TPS方法所要解决的问题，TPS可以对表面进行柔性的变形。

Thin Plate Spline（TPS，薄板样条）插值是常用的2D插值方法。它的物理意义是：假设在原形状中有N个点，这N个点在形变之后新坐标之下对应新的N个点。用一个薄钢板的形变来模拟2D形变，确保这N个点能够正确匹配，那么怎样的形变，可以使钢板的弯曲能量最小？TPS插值是这个问题的数值解法。

传统的插值方法如双线性插值，仅仅能够保证映射前后的图片有四个基准点被准确映射。TPS则通过扭曲图片来保证有多个点能够同时被映射，同时最小化弯曲能量。

在这里插入图片描述

用于Acaste（红色）和Calymene（绿色）之间几何变换的总TPS样条曲面。（A）Acaste地标配置的基础（非变形）网格。（B）Calymeme地标结构的基本（非变形）网格。（C）Calymeme-Acaste变换的薄板样条曲面。（D）用于Acaste-calymem变换的薄板样条曲面。

空间变换网络（STN）

（参考链接：博客1 博客2 Spatial Transformer Network ）

STN作为一个特殊的网络模块可嵌入到网络的某一层中，从而实现支持空间变换（仿射变换、投影变换）等，为网络提供旋转不变性、平移不变形等性质。

在这里插入图片描述

Localisation Network：该网络就是一个简单的回归网络。将输入的图片进行几个卷积操作，然后全连接回归出6个角度值（假设是仿射变换），2*3的矩阵。

Grid generator：网格生成器负责将V中的坐标位置，通过矩阵运算，计算出目标图V中的每个位置对应原图U中的坐标位置。即生成T(G)。

Sampler：采样器根据T(G)中的坐标信息，在原始图U中进行采样，将U中的像素复制到目标图V中。

用于几何匹配的卷积神经网络架构 CVPR 2017

（参考链接：论文札记）

（近来的研究中，许多几何变形的模块由该结构启发而来）

本文主要做了两件事：

用深度学习方法模拟经典的图像相似度估计问题
用深度学习方法估计仿射变换参数，以及更为复杂的thin-plate spline
transformation

经典的相似度估计方法，比如使用SIFT获取局部特征丢弃不正确的匹配进行模糊匹配，然后将模糊匹配的结果输入到RANSAC或者Hough transform中进行精确匹配，虽然效果不错但是无法应对场景变换较大以及复杂的几何形变的情况。本文使用CNN提取特征以应对这两点不足。

用CNN特征替换原有经典特征，即使场景变换很大，也能够很好的提取特征
设计一个匹配和变换估计层，加强模型鲁棒性

在这里插入图片描述

几何匹配的架构

end-to-end

输入：两幅图片

输出：仿射变换的6个参数

思路：先用双路CNN提取两幅图片的特征，然后用correlation-layer进行融合，这个过程可以视为模糊匹配，然后进入回归层得到具体预测出的仿射变换的6个参数。

仿射变换又称仿射映射，是指在几何中，一个向量空间进行一次线性变换并接上一个平移，变换为另一个向量空间。

CP-VTON几何匹配模块Geometric Matching Module (GMM)

（参考链接：论文笔记）

在这里插入图片描述

GMM是一种用 pixel-wise L1 loss 训练的端到端神经网络，用来将输入服装 c 与人物表示 p（姿势关键点热图，身体形状mask，原图保留区域）对齐，并产生扭曲的服装图像。

GMM由四部分组成：

（1）两个分别用于提取 p 和 c 的高级特征的网络。

（2）Correlation Matching：将两个高级特征组合为单个张量的相关层，作为回归网络的输入。

（3）用于预测空间变换参数 θ 的回归网络。

（4）TPS Warping

该方法与用于几何匹配的卷积神经网络架构中方法的区别在：

从头开始训练，而不是使用预先训练的VGG网络。
训练ground truth是从穿着者的真实衣服中获取的，而不是从模拟变形中综合而来的。
GMM受到变形输出和基本情况之间像素级L1损耗的直接监督。

MG-VTON几何匹配模块：由用于几何匹配的卷积神经网络架构启发的使用卷积神经网络的模块。

在这里插入图片描述

受用于几何匹配的卷积神经网络架构的启发，采用卷积神经网络学习变换参数，包括特征提取层，特征匹配层和变换参数估计层。如图所示，以衣服图像的mask和身体形状的mask为输入，该mask首先通过特征提取层。然后，通过使用匹配层来预测相关图。最后，直接基于相关图应用回归网络来估计衣服图像的TPS（薄板样条）变换参数。

1.4 人像合成与虚拟试穿

生成对抗网络（GAN）已用于基于图像的生成。近来，GAN已经用于人图像生成。骨骼辅助关节运动生成提出了一种以骨骼为指导的人像生成方法，该方法基于条件GAN基础结构，以人像和目标骨骼为条件。PG2（姿势引导人像生成）应用了一个由粗到精的框架，该框架由粗化阶段和精炼阶段组成。此外，他们提出了一种新颖的模型（纠缠人图像生成），以通过使用分解策略进一步提高结果的质量。可变形GAN基于姿势的人类图像生成的可变形GAN和在看不见的姿势中合成人的形象尝试通过在粗矩形区域上使用仿射变换来减轻不同姿势之间的不对齐问题，并分别在像素级别上扭曲零件。V-UNET(用于条件外观和形状生成的变体U-网) 引入了变体U-Net以通过用Stickman标签重构形状来合成人的图像。任意姿势下的无人监督图像合成应用了CycleGAN 直接操纵姿势。但是这些工作都无法保持与姿势相对应的纹理细节一致性。因为他们在人的图像合成中忽略了考虑人类解析图和姿势之间的相互作用。人体分析图可以指导生成器在精确的区域级别上合成图像，从而确保人体结构的连贯性。

VITON和CP-VTON都提出了基于图像的虚拟试穿网络，该网络可以通过使用变形策略将所需的衣服转移到人身上。VITON通过形状上下文TPS warp（使用形状上下文进行形状匹配和对象识别）直接计算变换映射。CP-VTON引入了一种学习方法来估计转换参数。FashionGAN（做你自己的普拉达：结构连贯的时尚合成）学会在以描述不同服装的句子为条件的人的输入图像上生成新衣服。然而，以上所有方法仅在固定姿势上合成人的图像，这限制了在实际的虚拟试戴模拟中的应用。ClothNet（着装的人的生成模型）提出了一个基于图像的生成模型，以生产以颜色为条件的新衣服。CAGAN 提出了一个条件类比网络来合成以成对的衣服为条件的人物图像，这限制了实际的虚拟试穿场景。

CP-VTON试戴模块

在这里插入图片描述

输入人的特征和变形后的衣服图片，输出一个组合mask和初步图片。再使用组合mask对初步图片和变形衣服图进行组合。

M2E-TON Fitting Network（FTN）

（参考链接：博客）

作者将目标人物P的身体部分与改变姿势的模特 $M_{R}$ 的服饰部分结合起来，作为 FTN 的输入。FTN是普通的 Encoder-Decoder 结构。作者并没有使用深度网络来提升表现，而是使用了残差网络。对比起一般的深度网络，残差网络有很多旁路的支线将输入直接连到后面的层，使得后面的层可以直接学习残差，这样能使网络更容易学习。

在这里插入图片描述

作者使用与 VITON 一样的方法提取出 clothes mask，使用 DensePose 提取出 upper body region mask，再将二者结合成一个 union mask。为了获得更平滑的 mask，作者把 union mask 作为 ground truth 来训练一个网络用以生成 Region of Interest mask（记为 $P_{\text{RoI}}$ ）。

MG-VTON Warp-GAN（改变着装与姿势）

在这里插入图片描述

由于像素的不对齐会导致产生模糊的结果（基于姿势的人类图像生成的可变形GAN），因此作者引入了一个深层的Warp Generative Adversarial Network（Warp-GAN），将所需的衣服外观扭曲到合成的人解析图中，从而缓解了输入人之间的不对齐问题。姿势和所需的人体姿势。与可变形GANs不同，作者通过使用仿射和TPS（薄板样条）变换从瓶颈层扭曲特征图，而不是仅使用仿射直接处理像素。归功于用于几何匹配的卷积神经网络架构的泛化能力，作者直接使用它的预训练模型来估计参考解析与合成解析之间的转换映射。然后，通过使用此变换映射，使无衣服参考图像变形。

1.5 纹理细节细化

（一些纹理细化模块的结构）

M2E-TON 纹理细化网络Texture Refinement Network（TRN）

TRN 用于增强 MA 的细节，把融合 MA与MW生成的边缘去掉，使图像变得平滑。与 FTN的结构相似。

在这里插入图片描述

MG-VTON Refinement render细化渲染器

在粗略阶段，可以保留识别信息和人的形状，但是由于衣服图像的复杂性，质地细节会丢失。将变形的衣服直接粘贴到目标人身上可能会导致产生伪影。学习扭曲衣服图像和粗结果之间的组合mask由于姿态的多样性还产生伪影（如VITON，CP-VTON）。为了解决上述问题，作者提出了一种利用多姿势合成mask的细化渲染来恢复纹理细节并去除一些伪影。

在这里插入图片描述

1.6损失函数

（参考链接：感知损失，CP-VTON）

（一些常见的损失函数。）

1.6.1 Adversarial Loss

普通的 GAN Loss，用以区分真实图像与生成图像。

1.6.2 Cycle-Consistency Loss

循环一致性损失。CycleGAN同时学习G和F两个映射，要求将X的图片转换到Y空间后，应该还可以转换回来，而循环一致性损失监督这一点。

1.6.3 Perceptual Loss

感知损失与两张图片在语义上的相似度有关。在实时样式传输和超分辨率的感知损失一文中提到了两个感知损失，分别是：

Feature重建损失，使用 VGG网络来提取两张图的特征，并以他们对应特征的 L2 范数作为损失。

风格重建损失，使用 Gram matrix 来衡量图像的风格。对两张图片，在loss网络的每一层都求出Gram矩阵，然后对应层之间计算欧式距离，最后将不同层的欧氏距离相加，得到最后的风格损失。

1.6.4 Geometric Matching Loss

几何匹配学习的目标函数。它是扭曲结果与ground truth图（目标人物身上的衣服）之间以像素为单位的L1损失。（CP-VTON）

1.7 评估标准

（参考链接：SSIM算法，LPIPS论文， PSNR和SSIM，PSNR）

1.7.1 Peak Signal-to-Noise Ratio（PSNR）

峰值信噪比是一个表示信号最大可能功率和影响它的表示精度的破坏性噪声功率的比值的工程术语。由于许多信号都有非常宽的动态范围，峰值信噪比常用对数分贝单位来表示。

在这里插入图片描述

所以MSE(均方误差)越小，则PSNR越大；所以PSNR越大，代表着图像质量越好。

一般来说，

PSNR高于40dB说明图像质量极好（即非常接近原始图像），
在30—40dB通常表示图像质量是好的（即失真可以察觉但可以接受），
在20—30dB说明图像质量差；
最后，PSNR低于20dB图像不可接受

1.7.2 Structural Similarity（SSIM）

SSIM（structural similarity）结构相似性，也是一种全参考的图像质量评价指标，它分别从亮度、对比度、结构三方面度量两幅图像相似性，其值越大越好，最大为1。作为结构相似性理论的实现，结构相似度指数从图像组成的角度将结构信息定义为独立于亮度、对比度的，反映场景中物体结构的属性，并将失真建模为亮度、对比度和结构三个不同因素的组合；用均值作为亮度的估计，标准差作为对比度的估计，协方差作为结构相似程度的度量。

与传统检测图像质量的方法MSE，PSNR与人眼的实际视觉感知是不一致的，SSIM算法在设计上考虑了人眼的视觉特性，比传统方式更符合人眼视觉感知，MSE或者是PSNR算法，都是对绝对误差的评估，SSIM是一种基于感知的计算模型，它能够考虑到图像的结构信息在人的感知上的模糊变化，该模型还引入了一些与感知上的变化有关的感知现象，包含亮度mask和对比mask，结构信息指的是像素之间有着内部的依赖性，尤其是空间上靠近的像素点。这些依赖性携带着目标对象视觉感知上的重要信息。

1.7.3 Learned Perceptual Image Patch Similarity（LPIPS）

学习感知图像块相似性。计算图像面片之间的距离。更高意味着更进一步/更不同。低意味着更相似。

对于人类来说，快速评估两幅图像之间的感知相似度几乎是毫不费力的，但其潜在过程却被认为是相当复杂的。尽管如此，当今最广泛使用的感知指标（例如PSNR和SSIM）是简单的浅层函数，无法解决人类感知的许多细微差别。最近，深度学习社区发现，在ImageNet分类中训练的VGG网络的功能作为图像合成的训练损失非常有用。但是这些所谓的“知觉损失”是如何感知的呢？哪些要素对其成功至关重要？为了回答这些问题，研究者引入了人类感知相似性判断的新数据集。通过系统地评估了不同体系结构和任务中的深层功能，并将它们与经典指标进行比较。研究者发现，深度特征在数据集上的表现大大优于所有先前的指标。该结果不仅限于ImageNet训练的VGG功能，而且还适用于不同的深度体系结构和监督级别（受监督，自监督，甚至无监督）。结果表明，感知相似性是一种在深度视觉表示中共享的新兴属性。

2.数据集

（一些常见、有名的数据集）

Deep Fashion（参考链接：博客）

LIP

DeepFashion2（参考链接：翻译）

3.虚拟试衣的应用

3.1 人物图像的换装

根据输入衣服，改变原图模特的着装。

在这里插入图片描述

来自End-to-End Learning of Geometric Deformations of Feature Maps for Virtual Try-On（2019）论文。展示了CP-VTON与WUTON两个模型针对同样输入的结果比对，可见WUTON在保留服装细节上的优秀表现。

根据输入衣服与输入姿势，改变原图模特的着装与姿势。

在这里插入图片描述

来自Towards Multi-pose Guided Virtual Try-on Network（2019）论文。MG-VTON通过处理各种衣服和各种姿势得出的模型结果。衣服和姿势的输入图像显示在第一行中，而人的输入图像显示在第一列中。在其他列中显示了由衣服和姿势操纵的结果。

根据输入模特图像（没有干净的服装图像），替换原图模特的着装。

在这里插入图片描述

来自Inpainting-Based Virtual Try-on Network for Selective Garment Transfer（2019）论文。通过提供用户图像和模特图像，I-VTON允许用户选择她希望试穿的衣服。并且从定性结果来看，这个基于图片修复的虚拟试穿网络，在保留服装的详细信息和用户身份上超过了过去的工作如CP-VTON和M2E-TON等。

3.2基于人物图像的时尚

根据模特图像上的已有服装自动生成搭配的缺失部件。

在这里插入图片描述

来自FiNet : Compatible and Diverse Fashion Image Inpainting（2019）论文。FiNet根据形状和外观上的兼容性和多样性来修补丢失的时尚物品。

对模特图像上的现有服装的进行微调使其更具时尚感。
在这里插入图片描述

来自Fashion++: Minimal Edits for Outfit Improvement（2019）论文。一种新颖的图像生成方法，称为Fashion ++，最少的服装编辑建议对现有服装进行较小的更改，以提高其时尚性。例如，更改可能需要（左）卸下附件；（中）换上领口高的上衣；（右）塞进衬衫。

3.3视频人物的换装

在这里插入图片描述

来自FW-GAN: Flow-Navigated Warping GAN for Video Virtual Try-On（2019）论文。给定一个人物图像、想要的衣服和一系列目标姿势，FW-GAN学习自动将想要的衣服装配到人物身上，重构人物的姿势，并输出真实的视频。在第一列中输入图像，在第一行中输入姿势，在其他列中为每个姿势输入虚拟尝试的结果。

总结

这段时间对二维虚拟试衣相关文章的技术原理、成果等进行了综合的了解，尤其是一些常见的模块的原理与应用。虽然并不全面，比如有一些新技术用到的Flow Learning，也有很多没有深入的地方，但也对该领域的许多重要技术都有了了解。

FW-GAN: Flow-Navigated Warping GAN for Video Virtual Try-On	ICCV 2019	视频的人物换装
ClothFlow: A Flow-Based Model for Clothed Person Generation	ICCV 2019	相对CP-VTON面对自我遮挡与伪影表现良好
End-to-End Learning of Geometric Deformations of Feature Maps for Virtual Try-On	2019	相对CP-VTON改善了衣服细节的保留效果
Poly-GAN: Multi-Conditioned GAN for Fashion Synthesis	2019	相对CP-VTON面对自我遮挡表现良好
Towards Multi-pose Guided Virtual Try-on Network	ICCV 2019	可由姿势关键点生成不同姿势的换装结果
Finet : Compatible and Diverse Fashion Image Inpainting	ICCV 2019	提供多种时尚的修复方案
M2E-Try On Net: Fashion from Model to Everyone	2018	将模特身上的服装转移到其他人像上
Toward Characteristic-Preserving Image-based Virtual Try-On Network	ECCV 2018	相对VITON改善了衣服细节的保留效果
VITON: An Image-based Virtual Try-on Network	CVPR 2018