A Survey on Deep Transfer Learning 2018 翻译

在这里插入图片描述
((o)/~虽然这篇文章是2018年的,不是很新,但是写的通俗易懂,很适合刚接触迁移学习的同学,所以就翻译了)

independent and identically distributed(i.i.d.)独立同分布

摘要

深度学习作为一种新兴的分类平台,近来日益受到研究人员的关注,并已成功应用于多个领域。在生物信息学和机器人学等领域,由于数据采集和标注成本高,构造一个大规模的,和标注良好的数据集是非常困难的,这些问题都限制了它的发展。迁移学习放宽了训练数据必须独立同分布(i.i.d.)的假设有了测试数据,这激发了我们使用迁移学习来解决训练数据不足的问题。本文综述了深度神经网络在迁移学习中的研究现状及其应用。本文对深度迁移学习进行了定义,分类,并对深度迁移学习技术的最新研究成果进行了综述。

简介

深度学习近来日益受到研究人员的关注,并已成功应用于众多现实世界的应用中。深度学习算法试图从海量数据中学习高层特征,这些特征使得深度学习超越了传统的机器学习。它可以通过无监督或半监督的特征学习算法和分层特征提取来自动提取数据特征。相比之下,传统的机器学习方法需要人工设计严重增加用户负担的特征。可以说,深度学习是机器学习中基于大规模数据的表示学习算法。

**数据依赖是深度学习中最严重的问题之一。**与传统的机器学习方法相比,深度学习对海量训练数据的依赖性非常强,因为它需要大量的数据来理解数据的潜在模式。可以发现一个有趣的现象,模型的规模和所需数据量的大小几乎呈线性关系。一个可以接受的解释是,对于一个特定的问题,模型的表达空间必须足够大,才能发现数据下的特征模式。模型中的前序层可以识别训练数据的高级特征,后续层可以识别训练数据,帮助做出最后决定所需的信息。

训练数据不足是一些特殊领域不可避免的问题。 (感觉哪里都数据不足啊 /(ㄒoㄒ)/~~ )数据的收集是复杂和昂贵的,这使得建立一个大规模的,高质量的带注释的数据集是极其困难的。例如,生物信息学数据集中的每一个样本往往展示了一个临床试验或一个痛苦的病人。另外,即使我们付出了昂贵的代价获得了训练数据集,也很容易过时,从而不能有效地应用于新的任务中。
迁移学习放宽了训练数据必须独立同分布(i.i.d.)的假设通过测试数据,激励我们使用迁移学习来解决训练数据不足的问题。在迁移学习中,训练数据和测试数据不需要是I.I.D.,目标域中的模型不需要从头开始训练,可以显著减少目标域中的训练数据需求和训练时间。
过去,迁移学习的研究大多是在传统的机器学习方法中进行的。由于深度学习在现代机器学习方法中的主导地位,对深度迁移学习及其应用的研究就显得尤为重要。本调查文件的贡献如下:
-本文首次对深度迁移学习进行了定义,并将其分为四大类
-我们回顾了深度迁移学习的每一个范畴的研究现状,并给出了每一个范畴的标准化描述和示意图
类别。

Deep Transfer Learning

迁移学习是机器学习中解决训练数据不足这一基本问题的重要工具。它试图通过放宽训练的假设,将知识从源领域转移到目标领域,数据和测试数据必须是I.I.D。这将对许多由于训练数据不足而难以改进的领域产生很大的积极作用。图1中说明了迁移学习的学习过程。
在这里插入图片描述

调查[19]和[25]以源域和目标域的关系将迁移学习方法分为三大类,已被广泛接受。这些研究是对以往关于迁移学习的研究成果的很好总结,介绍了一些经典的迁移学习方法。此外,最近提出了许多更新和更好的方法。近年来,迁移学习的研究主要集中在以下两个方面:
领域适应(domain adaption)
多源领域迁移(multi-source domainstransfer)

近年来,深度学习在许多研究领域都取得了主导地位。如何利用深度神经网络进行有效的知识迁移是一个非常重要的问题,即深度迁移学习 - Deep Transfer Learning

Categories分类

深度迁移学习研究的是深度神经网络如何利用其他领域的知识。自从深度神经网络在各个领域开始流行以来,已经有相当数量的深度迁移学习方法被提出,对其进行分类和总结是非常重要的。根据深度迁移学习所使用的技术,本文将深度迁移学习分为四类:基于实例的深度迁移学习 (instances-based deep transfer learning),基于映射的深度迁移学习( mapping-based deep transfer learning), network-based deep transfer learning(基于网络的深度迁移学习), and adversarial-based deep transfer learning,(基于对抗性深度迁移学习)

在这里插入图片描述

Instances-based deep transfer learning

基于实例的深度迁移学习是指使用特定的权重调整策略,通过为这些选定实例分配适当的权重值,从源域中选取部分实例作为目标域训练集的补充。它是基于“虽然两个域之间存在不同,但源域中的部分实例可以被目标域以适当的权重所利用”的假设。基于实例的深度迁移学习示意图如图2所示:
在这里插入图片描述
基于实例的深度迁移学习示意图。从训练数据集中排除源域中与目标域含义不同的浅蓝色实例;源域含义中具有深蓝色的实例;

[4]提出的TrAdaBoost使用基于AdaBoost的技术来过滤源域中与目标域不相似的实例。重新加权源域中的实例,以组成类似于目标域的分布。最后,利用来自源域的重新加权实例和来自目标域的原始实例对模型进行训练。该算法在保持Adaboost算法特性的前提下,减小了不同分布域上的加权训练误差。
[27]提出的TaskTrAdaBoost算法是一种针对新目标进行快速再训练的快速算法。与TrAdaBoost是为分类问题而设计的不同,ExpBoost.r2和TrAdaBoost.r2是由[20]提出来覆盖回归问题的。[24]提出的双权重域自适应(BIW)方法可以将两个域的特征空间对齐到公共坐标系中,然后对来自源域的实例分配适当的权重。[10]提出了一种增强的TrAdaBoost来处理区域间砂岩显微图像分类问题。[26]提出了一种度量迁移学习框架,在并行框架中学习实例权重和两个不同领域的距离,使跨领域知识迁移更加有效。[11]向深度神经网络引入一种可以利用来自源域实例的集成迁移学习。

Mapping-based deep transfer learning

基于映射的深度迁移学习是指将源域和目标域的实例映射到一个新的数据空间中。在这个新的数据空间中,来自两个域的实例是类似的,并且适合于一个union深度神经网络。它基于这样一个假设:“尽管两个原始域之间存在不同,但在一个复杂的新数据空间中,它们可以更加相似。”基于实例的深度迁移学习示意图如图3所示:
在这里插入图片描述
基于映射的深度迁移学习示意图。同时,源域和目标域的实例映射到一个新的具有更多相似性的数据空间。考虑新数据空间中的所有实例作为神经网络的训练集。

Network-based deep transfer learning

基于网络的深度迁移学习(Network-based deep transfer learning,简称deep learning)是指将在源域预训练好的部分网络(包括网络结构和连接参数)重新利用,将其转化为用于目标域的深度神经网络的一部分。它基于这样一个假设:“神经网络类似于人脑的处理机制,它是一个迭代的,连续的抽象过程。网络的前层可以看作是一个特征提取器,提取的特征是多功能的。基于网络的深度迁移学习示意图如图所示。[9]将网络分为两部分,前一部分是与语言无关的特征变换,最后一层是与语言相关的分类器。这种语言无关的特征变换可以在多种语言之间传递。[17]重用由CNN在ImageNet数据集中训练的前层来计算其他数据集中的图像的中间图像表示,CNN被训练来学习图像表示,这些图像表示可以在有限的训练数据量下有效地转移到其他视觉识别任务中。[15]提出了一种从源域有标记数据和目标域无标记数据中联合学习自适应分类器和可传递特征的方法,该方法通过在深度网络中插入多个层,参照目标分类器显式学习残差函数。[30]在DNN中同时学习域自适应和深度哈希特征。[3]提出了一种新的多尺度卷积稀疏编码方法。该方法能够以联合的方式自动学习不同尺度上的滤波器组,并增强了学习模式的尺度特异性,为学习可迁移的基础知识和向目标任务进行微调提供了一种无监督的解决方案。.[6]应用深度迁移学习将来自现实世界物体识别任务的知识迁移到用于多个引力波信号的探测器的毛刺分类器中。结果表明,DNN可以作为一种优秀的特征提取器,用于基于形态学的无监督聚类方法来识别新类别,而不需要任何标注实例。
另一个非常值得注意的结果是,[28]指出了网络结构与可转移性之间的关系。结果表明,某些模块可能不会影响域内精度,但会影响可移植性。指出了在深度网络中哪些特征是可传输的,以及哪种类型的网络更适合传输。得出结论:LeNet,AlexNet,VGG,Inception,ResNet是基于网络的深度迁移学习的较好选择。

Adversarial-based deep transfer learning

基于对抗性的深度迁移学习(Adversarial-based deep transfer learning)是指在生成性对抗性网络(GAN)[7]的启发下引入对抗性技术,寻找既适用于源域又适用于目标域的可迁移表示。它基于这样一个假设:“为了有效的迁移,好的表征应该区分主要的学习任务,并且不区分源域和目标域。”基于对抗性的深度迁移学习的示意图如图5所示。

在这里插入图片描述
基于对抗性的深度迁移学习示意图。在源域大规模数据集的训练过程中,网络的前端层被看作是一个特征提取器。它从两个域中提取特征,并将其发送到对抗层。对抗层试图区分特征的来源。如果对抗性网络实现了较差的性能,则意味着两类特征之间的微小差异和较好的可传递性,反之亦然。在接下来的训练过程中,将考虑对抗层的性能,迫使传递网络发现更具有可传递性的一般特征。(有点像twin network ???)

基于对抗性的深度迁移学习以其良好的学习效果和较强的实用性,近年来得到了蓬勃的发展。[1]通过在损失函数中使用域自适应正则化项,将对抗性技术引入到域自适应的迁移学习中。[5]提出了一种对抗性训练方法,通过增加少量的标准层和一个简单的新梯度反转层来增强前馈神经网络模型,使之适用于大多数前馈神经网络模型。[21]提出了一种针对稀疏标记的目标领域数据跨领域,跨任务同时传递知识的方法。本文采用一种特殊的联合损失函数来迫使CNN对域间的距离进行优化,定义为L_D=L_c+L_adver,其中L_c为分类损失,L_adver为域对抗性损失。由于这两个损失是直接对立的,因此引入了一种迭代优化算法,在一个损失固定的情况下更新另一个损失。[22]提出了一种新的GAN损耗,并结合判别建模给出了一种新的域自适应方法。[13]提出了一种随机多线性对抗网络,利用多个特征层和基于随机多线性敌手的分类器层来实现深度敌手适应和区分敌手适应。[16]利用域对抗性损失,利用基于度量学习的方法将嵌入推广到新的任务中,以发现深度迁移学习中更易处理的特征。

CONCLUSION

本文对深度迁移学习的研究现状进行了回顾和分类。首次将深度迁移学习归为四大类:基于实例的深度迁移学习,基于映射的深度迁移学习,基于网络的深度迁移学习,基于对抗性的深度迁移学习。在大多数实际应用中,往往将上述多种技术组合使用,以达到更好的效果。目前的研究大多集中在监督学习方面,如何利用深度神经网络在无监督或半监督学习中进行知识传递可能会在未来引起越来越多的关注。负迁移和迁移性措施是传统迁移学习中的重要问题。这两个问题在深度迁移学习中的影响也需要我们进行进一步的研究。此外,一个非常吸引人的研究领域是在深度神经网络中寻找迁移知识的更强大的物理支持,这需要物理学家,神经科学家和计算机科学家的合作。可以预见,随着深度神经网络的发展,深度迁移学习将被广泛应用于解决许多具有挑战性的问题。

References

  1. Ajakan, H., Germain, P., Larochelle, H., Laviolette, F., Marchand, M.: Domain-adversarial neural networks. arXiv preprint arXiv:1412.4446 (2014)
  2. Arjovsky, M., Chintala, S., Bottou, L.: Wasserstein gan. arXiv preprint arXiv:1701.07875 (2017)
  3. Chang, H., Han, J., Zhong, C., Snijders, A., Mao, J.H.: Unsupervised transfer learning via multi-scale convolutional sparse coding for biomedical applications. IEEE transactions on pattern analysis and machine intelligence (2017)
  4. Dai, W., Yang, Q., Xue, G.R., Yu, Y.: Boosting for transfer learning. In: Proceedings of the 24th international conference on Machine learning. pp. 193–200. ACM(2007)
  5. Ganin, Y., Lempitsky, V.: Unsupervised domain adaptation by backpropagation. arXiv preprint arXiv:1409.7495 (2014)
  6. George, D., Shen, H., Huerta, E.: Deep transfer learning: A new deep learning glitch classification method for advanced ligo. arXiv preprint arXiv:1706.07446 (2017)
  7. Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., Bengio, Y.: Generative adversarial nets. In: Advances in neural information processing systems. pp. 2672–2680 (2014)
  8. Gretton, A., Sejdinovic, D., Strathmann, H., Balakrishnan, S., Pontil, M., Fuku-mizu, K., Sriperumbudur, B.K.: Optimal kernel choice for large-scale two-sample tests. In: Advances in neural information processing systems. pp. 1205–1213 (2012)
  9. Huang, J.T., Li, J., Yu, D., Deng, L., Gong, Y.: Cross-language knowledge transfer using multilingual deep neural network with shared hidden layers. In: Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on.
    pp. 7304–7308. IEEE (2013)
  10. Li, N., Hao, H., Gu, Q., Wang, D., Hu, X.: A transfer learning method for automatic identification of sandstone microscopic images. Computers & Geosciences 103, 111–121 (2017)
  11. Liu, X., Liu, Z., Wang, G., Cai, Z., Zhang, H.: Ensemble transfer learning algorithm. IEEE Access 6, 2389–2396 (2018)
  12. Long, M., Cao, Y., Wang, J., Jordan, M.: Learning transferable features with deep adaptation networks. In: International Conference on Machine Learning. pp. 97–105 (2015)10
    Chuanqi Tan et al.
  13. Long, M., Cao, Z., Wang, J., Jordan, M.I.: Domain adaptation with randomized multilinear adversarial networks. arXiv preprint arXiv:1705.10667 (2017)
  14. Long, M., Wang, J., Jordan, M.I.: Deep transfer learning with joint adaptation networks. arXiv preprint arXiv:1605.06636 (2016)
  15. Long, M., Zhu, H., Wang, J., Jordan, M.I.: Unsupervised domain adaptation with residual transfer networks. In: Advances in Neural Information Processing Systems. pp.36–144 (2016)
  16. Luo, Z., Zou, Y., Hoffman, J., Fei-Fei, L.F.: Label efficient learning of transferable representations acrosss domains and tasks. In: Advances in Neural Information Processing Systems. pp. 164–176 (2017)
  17. Oquab, M., Bottou, L., Laptev, I., Sivic, J.: Learning and transferring mid-level image representations using convolutional neural networks. In: Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on. pp. 1717–1724. IEEE
    (2014)
  18. Pan, S.J., Tsang, I.W., Kwok, J.T., Yang, Q.: Domain adaptation via transfer component analysis. IEEE Transactions on Neural Networks 22(2), 199–210 (2011)
  19. Pan, S.J., Yang, Q.: A survey on transfer learning. IEEE Transactions on knowledge and data engineering 22(10), 1345–1359 (2010)
  20. Pardoe, D., Stone, P.: Boosting for regression transfer. In: Proceedings of the 27th International Conference on International Conference on Machine Learning. pp.
    863–870. Omnipress (2010)
  21. Tzeng, E., Hoffman, J., Darrell, T., Saenko, K.: Simultaneous deep transfer across domains and tasks. In: Computer Vision (ICCV), 2015 IEEE International Conference on. pp. 4068–4076. IEEE (2015)
  22. Tzeng, E., Hoffman, J., Saenko, K., Darrell, T.: Adversarial discriminative domain adaptation. In: Computer Vision and Pattern Recognition (CVPR). vol. 1, p. 4 (2017)
  23. Tzeng, E., Hoffman, J., Zhang, N., Saenko, K., Darrell, T.: Deep domain confusion: Maximizing for domain invariance. arXiv preprint arXiv:1412.3474 (2014)
  24. Wan, C., Pan, R., Li, J.: Bi-weighting domain adaptation for cross-language text classification. In: IJCAI Proceedings-International Joint Conference on Artificial Intelligence. vol. 22, p. 1535 (2011)
  25. Weiss, K., Khoshgoftaar, T.M., Wang, D.: A survey of transfer learning. Journal of Big Data 3(1), 9 (2016)
  26. Xu, Y., Pan, S.J., Xiong, H., Wu, Q., Luo, R., Min, H., Song, H.: A unified frame- work for metric transfer learning. IEEE Transactions on Knowledge and Data Engineering 29(6), 1158–1171 (2017)
  27. Yao, Y., Doretto, G.: Boosting for transfer learning with multiple sources. In: Computer vision and pattern recognition (CVPR), 2010 IEEE conference on. pp. 1855–1862. IEEE (2010)
  28. Yosinski, J., Clune, J., Bengio, Y., Lipson, H.: How transferable are features in deep neural networks? In: Advances in neural information processing systems. pp. 3320–3328 (2014)
  29. Zhang, J., Li, W., Ogunbona, P.: Joint geometrical and statistical alignment for visual domain adaptation. In: CVPR (2017)
  30. Zhu, H., Long, M., Wang, J., Cao, Y.: Deep hashing network for efficient similarity retrieval. In: AAAI. pp. 2415–2421 (2016)
Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐