林林宋个人主页

@qq_40168949

林林宋

2022-09-07 20:24:33 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

TTS前端

文章目录讲的很好的博客segment_and_postag：词性预测讲的很好的博客深度解读 TTS 技术的原理及挑战segment_and_postag：词性预测首先准备数据，分析标准文本中得到训练数据（1）查表，得到每个汉字/标点符号的数字序列号；（2）将标注词性转成词性的数字序列号；模型loss选用的是CRF（Conditional Random Field），model/CRF.py 类似于

大模型工程问题

基础知识 TensorRT: nvidia 开发的，算子优化做的比较好的工具，跑在nvidia自家的卡上，切换不同的卡型，需要在对应的机器上把trt模型再重新转换一下；预设好min_shape, opt_shape, max_shape，最常用的size 设置为opt_shape；torch.inductor：对于2.0 以上的torch 代码使用，直接构建图&编译（也会有算子融合），适用

参考：https://blog.csdn.net/qq_39516859/article/details/87980189能量增强or衰减sox命令的-v选项可以用来（成倍地）改变音量的大小：sox -v 0.5 foo.wav bar.wav能量增强 or衰减，但不削波sox foo.wav -n stat -v 2> vcsox -v `cat vc` foo.wav foo-maxed

gan的原理及其变种

位置插值 (Position Interpolation, PI)：当需要将上下文从 L 扩展到 L’ 时，不是让模型去“外推”到未见过的位置，而是通过“插值”将新的位置索引“压缩”到原始的 [0, L) 范围内。Llama 4 则将上下文长度的界限扩大到超过 1000 万个 token。Q：对于openAI, gemni 长序列工作的研究&推测。Q： qwen其他长序列的工作–Qwen3Long

#人工智能 #算法

DelightfulTTS

提出一种高效有用的高质量语音生成系统：生成48KHz语音，本文使用声学模型生成16khz的，然后HiFiNet将16K的mel-spec再升采样为48k语音，在训练效率，模型稳定度、语音质量上求得折中。建模变量：输入的特征：（1）说话人id，语言id，pitch, duration，前两个都使用look up table；reference encoder编码；使用优化后的Conformer结构，

#人工智能

乌龟TTS--TorToiSe

当前图像生成领域发生重大变革，趋势有两个：一是自回归transformer，二是DDPM。本文尝试将这两种方法的优点结合，将大规模预训练语言模型领域的经验引入合成，实现高表现力，多音色的语音合成，并将此工作命名为TorToiSe。本文使用UnivNet作为vocoder进行波形重建。本文通过：（1）使用通用的transformer结构；（2）使用超大的、高质量的数据集；（3）用非常大的batch_

#人工智能 #深度学习

Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech

文章目录abstractintroduction单位：华为诺亚俄罗斯莫斯科实验室作者：Vadim PopoIvan Vovk会议：2021 ICML备注：没看完，感觉距离实用比较远就没有仔细研究了abstractdenoising diffusion probabilistic （DPM)model：一种从噪音中剥离出图像/音频的模型introduction现有的tacotron类似的结构生成语音

#深度学习

《深度学习推荐系统》读书笔记

深度学习与推荐系统一书的初次阅读与笔记

#深度学习 #知识图谱 #人工智能

共 31 条

请选择