底层视觉是计算机视觉领域的一类场景,其算法能够在像素级别进行视觉信号处理,完成图像和视频的修复复原、质量提升、风格变换任务。底层视觉算法种类繁多,不同算法的技术原理、模型结构有较大差别,这增加了开发者的算法学习、开发和应用成本。华为诺亚方舟实验室基于昇思MindSpore AI框架打造了MindSpore Editing底层视觉套件,针对主流底层视觉任务SOTA算法及模型进行实现和统一设计,提供易用的训练、推理接口,并基于MindSpore+Ascend进行极致性能优化。作为一款高性能底层视觉开发和应用套件,MindSpore Editing已在昇思开源社区正式发布1.0版本,面向广大开发者开放使用。

MindSpore Editing底层视觉套件坚持极简易用的理念,采用分层架构设计,封装API供开发者一键调用,支持超分、去噪、去模糊、修复、视频插帧、去雨等典型底层视觉任务,并端到端支持每类任务的数据处理、训练、微调、部署、推理、评测功能。

接口/代码地址:

https://github.com/mindspore-lab/mindediting

image.png

图1 典型底层视觉任务

1、MindSpore Editing 架构

MindSpore Editing套件设计上以易集成、可扩展为目标,采用了分层式的结构设计,分为API层、功能层、资源层,整体结构如图2所示。API层供用户直接使用,可方便的完成数据准备、模型训练和部署等开发功能。功能层是MindSpore Editing的主体功能,包括了视觉Backbone模型、loss函数、优化器、数据增强等一系列关键组件。资源层包含了套件引用的数据集、内置的预训练模型CKPT文件等,按需下载使用。

image.png

图2 MindSpore Editing架构

套件内部结构上采用了解耦式的设计,用户可直接使用现有代码和预训练模型开发应用,也可根据需要进行二次开发。以训练/验证部分的代码为例,其代码结构如图3所示。套件使用上,提供训练和推理统一的入口,以配置文件为驱动,用户可以自由的对模型、数据集、Benchmark等模块进行组合使用。

image.png

图3 MindSpore Editing代码结构(训练部分)

2、MindSpore Editing 功能

MindSpore Editing支持超分、去噪、去模糊、修复、视频插帧、去雨等典型底层视觉任务,支持每类任务的数据处理、训练、微调、部署、推理、评测功能。

以下是具体核心功能介绍:

  • 数据处理:提供数据处理的统一入口,以pipeline的方式进行数据构建、数据增强、数据前后处理等操作。套件已集成缩放、旋转、遮掩、加噪、色彩转化等常见的图像/视频数据处理的算法,同时支持对多个开源数据集的使用,用户可以按照配置完成自定义数据集的集成与调用。套件默认支持的底层视觉任务相关经典数据集包括:视频超分数据集(Vimeo90K、REDS)、图像超分数据集(DIV2K、Flickr2K、91-image、Set5)、图像去噪数据集(CBSD68、mai21denoise)、视频去噪数据集(CRVD)、图像去模糊数据集(GOPRO_Large、GoPro)、图像修复数据集(CELEBA)、视频帧插数据集(Vimeo-triplet)等。

  • 模型训练:以任务为导向,可基于集成的底层视觉SOTA模型进行微调训练或重训练。支持的模型包括:多任务模型(IPT、VRT、RVRT)、视频超分辨率(BasicVSR、BasicVSR++ light、TTVSR)、图像去噪(NOAHTCV)、视频去噪(EMVD)、图像超分辨率(RRDB、FSRCNN、SRDiff)、图像去模糊(MIMO-Unet、NAFNet)、视频插帧(IFR+)、基于3D的多帧去噪(MPFER)等。每个模型可通过训练入口完成结果复现。每个模型的详细介绍、性能效果等,可以参见代码仓中各个模型README文件。

  • 模型推理:套件提供了离线推理和在线推理两种模式。在线推理主要用于模型效果验证,使用生成的ckpt文件,使用模型评估功能为入口基于昇思框架运行模型推理。离线推理用于生产环境部署,通过套件中的export功能,将训练得到的ckpt文件转化为om文件,使用部署功能进行推理。套件针对每个任务预设了默认的yaml格式推理配置文件,用户可在配置文件中自定义推理参数。

  • 模型部署:在离线推理的基础上,套件支持自动化的模型部署功能。基于责任链模式设计了推理Pipeline,用户可以通过配置文件进行不同任务不同模型的组合使用,如图像去噪+超分+风格转化等流水线式推理方案。用户也可采用轻量级、高性能的推理服务功能MindSpore Lite,在生产环境中高效部署推理服务。

  • 模型评测:支持多种底层视觉任务评测指标,如客观指标PSNR、SSIM,主观视觉评测指标LPIPS 等。

3、MindSpore Editing 底层视觉模型及效果

(1)超分辨率任务

超分辨率任务在数字成像、视频通信、深空卫星遥感、远程监控、目标识别分析和医学影像等领域都具有广泛应用。MindSpore Editing套件集成了多个当前先进的超分辨率模型,包括多任务IPT模型、视频超分模型(BasicVSR、BasicVSR++ light、TTVSR)、图像超分模型(RRDB、FSRCNN、SRDiff)。

image.png

图4 IPT模型结构

IPT [1]模型是华为诺亚方舟实验室、北京大学以及悉尼大学的研究者联合提出的一种底层视觉多任务预训练模型,基于Transformer骨干网络,相比于传统基于卷积神经网络的方案,在超分辨率、去噪、去雨等多项任务上有更优的效果,尤其在图像去噪任务上获得CVPR2023 NTIRE图像去噪赛道冠军。IPT模型可以直接用于去噪、去雨、超分等图片处理任务,经过进一步的微调训练可以支持更多任务。IPT模型结构如图4所示。IPT模型在Urban100数据集的双三次下采样(×4)的超分辨率结果如图5所示,相比其它模型恢复了更多的细节。

image.png

图5 IPT模型超分辨率效果对比

(2)图像去模糊任务

图像去模糊技术能够提高图像的清晰度和对比度,广泛应用在医疗影像处理、卫星图像提质、个人拍照还原等场景。MindSpore Editing套件集成了MIMO-Unet、NAFNet等典型图像去模糊模型。NAFNet [2]在GoPro数据集上,相较于其它模型恢复更佳,如图6所示。

image.png

图6 NAFNet模型去模糊效果对比

(3) 图像去噪任务

图像去噪是底层视觉任务中的一个经典问题,其目标是从受噪声干扰的退化图像中尽可能恢复原始的真实图像,是图像进行后续处理的关键一步。MindSpore Editing套件集成了图像去噪方向的经典模型,并支持移动端去噪模型NOAHTCV。

 NOAHTCV模型是诺亚方舟实验室的研究成果,应用神经结构搜索寻找到适合移动设备的图像去噪最佳模型,在Mobile AI 2021 challenge挑战赛[3]中获胜。该模型的架构如图7所示,其在数据集CBSD68 上噪声级别 σ = 50的去噪效果如图8所示。

image.png

图7 NOAHTCV模型结构

image.png

图8 NOAHTCV模型图像去噪效果

(4)图像修复任务

图像修复在现实生活中具有广泛的应用价值,例如在摄影和电影行业,深度学习模型能够担当电影修复师的角色,恢复电影画面的原貌,挽救受损的胶片。MindSpore Editing套件集成了 CTSDG[4]等经典图像修复模型。

CTSDG 遵循生成对抗网络(GAN)架构,分为生成器和判别器两个部分,CTSDG 模型结构如图9所示。

image.png

图9 CTSDG模型结构

CTSDG模型在数据集CELEBA上的修复效果如图10所示。

image.png

图10 CTSDG模型图像修复效果

(5)视频插帧任务

视频插帧技术能够提升视频流畅度、补全视频完整性,应用在显示画质提升、视频修复、虚拟现实视频处理以及电影制作等场景,在显示设备刷新率越来越高的趋势下日趋重要。

MindSpore Editing套件集成了IFRNet[5]视频插帧模型,模型结构如图11所示。

image.png

图11 IFRNet模型结构

IFRNet[5]在SNU-FILM (Hard)数据集上与不同VFI方法的定性比较中,可以合成边界清晰的快速运动目标,同时保持上下文细节的鲜明性,如图12所示。

image.png

图12  不同VFI方法在SNU-FILM(Hard)数据集上的定性比较

4、开源信息

MindSpore Editing 底层视觉套件以任务为导向,采用端到端的模式集成了业界SOTA模型,极致优化的预训练模型可以方便用户在昇腾AI基础软硬件平台上进行训练推理的快速验证及部署应用,分层式解耦设计使得开发者可以根据任务和场景需求进行二次开发。综上,MindSpore Editing套件能够为底层视觉研究、开发和使用人员带来极大便利,未来也将持续演进,增强社区合作,不断优化。

欢迎访问MindSpore-Lab社区获得相关信息。MindSpore Editing目前已经开源。

Github地址:

https://github.com/mindspore-lab/mindediting

诚邀各人工智能开发者测试使用,并在开源社区反馈、讨论需求、提出建议及使用上的问题。

参考文献

[1] Hanting Chen, Yunhe Wang, Tianyu Guo, Chang Xu, Yiping Deng, Zhenhua Liu, Siwei Ma, Chunjing Xu, Chao Xu, and Wen Gao. Pre-Trained Image Processing Transformer. arXiv:2012.00364v4 [cs.CV], 2021.

[2] Liangyu Chen, Xiaojie Chu, Xiangyu Zhang, and Jian Sun. Simple Baselines for Image Restoration. arXiv:2204.04676v4 [cs.CV] , 2022.

[3] Andrey Ignatov, Kim Byeoung-su, Radu Timofte, Angeline Pouget, Fenglong Song, Cheng Li, Shuai Xiao, Zhongqian Fu, Matteo Maggioni, Yibin Huang, Shen Cheng, Xin Lu, Yifeng Zhou, Liangyu Chen, Donghao Liu, Xiangyu Zhang, Haoqiang Fan, Jian Sun, Shuaicheng Liu, Minsu Kwon, Myungje Lee, Jaeyoon Yoo, Changbeom Kang, Shinjo Wang, Bin Huang, Tianbao Zhou, Shuai Liu, Lei Lei, Chaoyu Feng, Liguang Huang, Zhikun Lei, and Feifei Chen. Fast Camera Image Denoising on Mobile GPUs with Deep Learning, Mobile AI 2021 Challenge: Report. arXiv:2105.08629v1 [eess.IV], 2021.

[4] Xiefan Guo1, Hongyu Yang, and Di Huang. Image Inpainting via Conditional Texture and Structure Dual Generation. arXiv:2108.09760v1 [cs.CV], 2021.

[5] Lingtong Kong, Boyuan Jiang, Donghao Luo, Wenqing Chu, Xiaoming Huang, Ying Tai, Chengjie Wang, and Jie Yang. IFRNet: Intermediate Feature Refine Network for Efficient Frame Interpolation. arXiv:2205.14620v1 [cs.CV], 2022.

[6] Jingyun Liang, Jiezhang Cao, Yuchen Fan, Kai Zhang, Rakesh Ranjan, Yawei Li, Radu Timofte, and Luc Van Gool. VRT: A Video Restoration Transformer. arXiv:2201.12288v2 [cs.CV], 2022.

[7] Kelvin C.K. Chan, Shangchen Zhou, Xiangyu Xu, and Chen Change Loy. BasicVSR++: Improving Video Super-Resolution with Enhanced Propagation and Alignment. arXiv:2104.13371v1 [cs.CV], 2021.

[8] Haoying Li, Yifan Yang, Meng Chang, Huajun Feng, Zhihai Xu, Qi Li, and Yueting Chen. SRDiff: Single Image Super-Resolution with Diffusion Probabilistic Models. arXiv:2104.14951v2 [cs.CV], 2021.

[9] Sung-Jin Cho, Seo-Won Ji, Jun-Pyo Hong, Seung-Won Jung, and Sung-Jea Ko. Rethinking Coarse-to-Fine Approach in Single Image Deblurring. arXiv:2108.05054v2 [cs.CV], 2021.

[10] Matteo Maggioni, Yibin Huang, Cheng Li, Shuai Xiao, Zhongqian Fu, and Fenglong Song. Efficient Multi-Stage Video Denoising with Recurrent Spatio-Temporal Fusion. 2021.

[11] Nah, Seungjun and Kim, Tae Hyun and Lee, Kyoung Mu. Deep Multi-Scale Convolutional Neural Network for Dynamic Scene Deblurring. 2017.

[12] D. Martin and C. Fowlkes and D. Tal and J. Malik. A Database of Human Segmented Natural Images and its Application to Evaluating Segmentation Algorithms and Measuring Ecological Statistics. 2001.

[13] Son, Sanghyun and Lee, Suyoung and Nah, Seungjun and Timofte, Radu and Lee, Kyoung Mu. NTIRE 2021 Challenge on Video Super-Resolution. 2021.

[14] Nah, Seungjun and Timofte, Radu and Gu, Shuhang and Baik, Sungyong and Hong, Seokil and Moon, Gyeongsik and Son, Sanghyun and Lee, Kyoung Mu. NTIRE 2019 Challenge on Video Super-Resolution: Methods and Results.2019.

[15] Ziwei Liu, Ping Luo, Xiaogang Wang, Xiaoou Tang. Deep Learning Face Attributes in the Wild. 2015.

Logo

聚集科技力量,探索行业模型、AIGC应用潜力

更多推荐