
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
训练目标检测模型的一个难点是样本不均衡,特别是正负样本比例严重失衡。目前解决这类问题主要是两种方案(见综述Imbalance Problems in Object Detection: A Review):一是hard sampling方法,从所有样本中选择一定量的正样本和负样本,只有被选择的样本才计算loss,一般会倾向选择一些难负例样本,比如OHEM;另外一类方法是soft sampling方
语音合成(Text to Speech Synthesis)是一种将文本转化为自然语音输出的技术,在各行各业有着广泛用途。传统TTS是基于拼接和参数合成技术,效果上同真人语音的自然度尚有一定差距,效果已经达到上限,在实现上也依赖于复杂流水线,比如以文本分析为前端的语言模型、语音持续时间模型、声学特征预测模型、将频谱恢复成时域波形的声码器(vocoder)。这些组件都是基于大量领域专业知识,设计上很
章目录https://blog.csdn.net/qq_40168949/article/details/109577549一、VC1. 【小数据VC】Attention-Based Speaker Embeddings for One-Shot Voice Conversion [2020 interspeech]2. 【提升质量】ATTS2S-VC: SEQUENCE-TO-SEQUENCE
Speech-driven 3D facial animation is challenging due to the complex geometry of human faces and the limited availability of 3D audio-visual data. Prior works typically focus on learning phoneme-level

我一直都对语音克隆这个技术非常感兴趣,但是之前并没有找到好用的TTS(text-to-speech)程序,网上很多现成且易用的TTS要么是没法定制音色,要么是只能定制自己的音色不能定制名人的(可能要求你读出特定的一段文字),要么是定制音色需要收费,要么是生成的语音显得非常僵硬和粗糙,要么是学习音色需要非常长的音频、且学习过程也很慢……

Hiding Images in Plain Sight: Deep Steganography于众目睽睽之下隐藏图像:深度隐写术1.摘要隐写术是将秘密信息隐藏在另一条普通信息中的一种实践。通常,隐写术用于在较大图像的嘈杂区域中不显眼地隐藏小消息。在本研究中,作者尝试将一个全尺寸彩色图像放置在另一个相同尺寸的图像中。深层神经网络同时被训练来创建隐藏和揭示过程,并被设计成专门作为一对工作。...
train.pyimport argparseimport osfrom math import log10import pandas as pdimport torch.optim as optimimport torch.utils.dataimport torchvision.utils as utilsfrom torch.autograd import Variabl...
2023 - NAS-StegNet:通过神经架构搜索的轻量级图像隐写网络 - https://github.com/wang-MIG-CFM-UESTC/nas_stegan。2022 - E2Style:提高StyleGAN反演的效率和效果(利用GAN反演做信息隐藏) - https://github.com/wty-ustc/e2style。2022 - StegGAN:使用条件生成对抗网络
这里提供一种采用加权平均融合消除图像拼缝的算法,供大家使用。https://blog.csdn.net/xiaoxifei/article/details/103045958如下图所示,如果两张图像直接进行拼接,就会在拼接位置处产生一条拼接缝,拼接缝的产生来源于两张图像光场有差别所导致的两者虽然是连续的结构,但是在两张图中的具体数字存在一定的差异。对于具有重叠部分的两张图像,消除这种拼缝的方法主要
一、摘要可逆神经网络(INN)自被提出以来,就受到了广泛关注。由于其双射构造和高效可逆性,INN被用于各种推理任务,如图像隐藏、图像重缩放、图像着色、图像压缩和视频超分辨率等等。本文针对最新关于INN在图像方面应用的文献进行介绍,包括每篇文献的基本原理和个人理解。最后对所介绍的文献进行总结,指出各自的优缺点并对未来INN在图像方面应用展开思考。Invertible neural network (
