
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
文章目录讲的很好的博客segment_and_postag:词性预测讲的很好的博客深度解读 TTS 技术的原理及挑战segment_and_postag:词性预测首先准备数据,分析标准文本中得到训练数据(1)查表,得到每个汉字/标点符号的数字序列号;(2)将标注词性转成词性的数字序列号;模型loss选用的是CRF(Conditional Random Field),model/CRF.py 类似于
基础知识 TensorRT: nvidia 开发的,算子优化做的比较好的工具,跑在nvidia自家的卡上,切换不同的卡型,需要在对应的机器上把trt模型再重新转换一下;预设好min_shape, opt_shape, max_shape,最常用的size 设置为opt_shape;torch.inductor:对于2.0 以上的torch 代码使用,直接构建图&编译(也会有算子融合),适用
基础知识 TensorRT: nvidia 开发的,算子优化做的比较好的工具,跑在nvidia自家的卡上,切换不同的卡型,需要在对应的机器上把trt模型再重新转换一下;预设好min_shape, opt_shape, max_shape,最常用的size 设置为opt_shape;torch.inductor:对于2.0 以上的torch 代码使用,直接构建图&编译(也会有算子融合),适用
参考:https://blog.csdn.net/qq_39516859/article/details/87980189能量增强or衰减sox命令的-v选项可以用来(成倍地)改变音量的大小:sox -v 0.5 foo.wav bar.wav能量增强 or衰减,但不削波sox foo.wav -n stat -v 2> vcsox -v `cat vc` foo.wav foo-maxed

gan的原理及其变种
位置插值 (Position Interpolation, PI):当需要将上下文从 L 扩展到 L’ 时,不是让模型去“外推”到未见过的位置,而是通过“插值”将新的位置索引“压缩”到原始的 [0, L) 范围内。Llama 4 则将上下文长度的界限扩大到超过 1000 万个 token。Q:对于openAI, gemni 长序列工作的研究&推测。Q: qwen其他长序列的工作–Qwen3Long
提出一种高效有用的高质量语音生成系统:生成48KHz语音,本文使用声学模型生成16khz的,然后HiFiNet将16K的mel-spec再升采样为48k语音,在训练效率,模型稳定度、语音质量上求得折中。建模变量:输入的特征:(1)说话人id,语言id,pitch, duration,前两个都使用look up table;reference encoder编码;使用优化后的Conformer结构,

当前图像生成领域发生重大变革,趋势有两个:一是自回归transformer,二是DDPM。本文尝试将这两种方法的优点结合,将大规模预训练语言模型领域的经验引入合成,实现高表现力,多音色的语音合成,并将此工作命名为TorToiSe。本文使用UnivNet作为vocoder进行波形重建。本文通过:(1)使用通用的transformer结构;(2)使用超大的、高质量的数据集;(3)用非常大的batch_

文章目录abstractintroduction单位:华为诺亚俄罗斯莫斯科实验室作者:Vadim PopoIvan Vovk会议:2021 ICML备注:没看完,感觉距离实用比较远就没有仔细研究了abstractdenoising diffusion probabilistic (DPM)model:一种从噪音中剥离出图像/音频的模型introduction现有的tacotron类似的结构生成语音
深度学习与推荐系统一书的初次阅读与笔记