logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

TTS前端

文章目录讲的很好的博客segment_and_postag:词性预测讲的很好的博客深度解读 TTS 技术的原理及挑战segment_and_postag:词性预测首先准备数据,分析标准文本中得到训练数据(1)查表,得到每个汉字/标点符号的数字序列号;(2)将标注词性转成词性的数字序列号;模型loss选用的是CRF(Conditional Random Field),model/CRF.py 类似于

大模型工程问题

基础知识 TensorRT: nvidia 开发的,算子优化做的比较好的工具,跑在nvidia自家的卡上,切换不同的卡型,需要在对应的机器上把trt模型再重新转换一下;预设好min_shape, opt_shape, max_shape,最常用的size 设置为opt_shape;torch.inductor:对于2.0 以上的torch 代码使用,直接构建图&编译(也会有算子融合),适用

#深度学习
大模型工程问题

基础知识 TensorRT: nvidia 开发的,算子优化做的比较好的工具,跑在nvidia自家的卡上,切换不同的卡型,需要在对应的机器上把trt模型再重新转换一下;预设好min_shape, opt_shape, max_shape,最常用的size 设置为opt_shape;torch.inductor:对于2.0 以上的torch 代码使用,直接构建图&编译(也会有算子融合),适用

#深度学习
语音处理工具 sox & librosa

参考:https://blog.csdn.net/qq_39516859/article/details/87980189能量增强or衰减sox命令的-v选项可以用来(成倍地)改变音量的大小:sox -v 0.5 foo.wav bar.wav能量增强 or衰减,但不削波sox foo.wav -n stat -v 2> vcsox -v `cat vc` foo.wav foo-maxed

文章图片
#语音识别#python
LLM 长上下文 & RAG

位置插值 (Position Interpolation, PI):当需要将上下文从 L 扩展到 L’ 时,不是让模型去“外推”到未见过的位置,而是通过“插值”将新的位置索引“压缩”到原始的 [0, L) 范围内。Llama 4 则将上下文长度的界限扩大到超过 1000 万个 token。Q:对于openAI, gemni 长序列工作的研究&推测。Q: qwen其他长序列的工作–Qwen3Long

#人工智能#算法
DelightfulTTS

提出一种高效有用的高质量语音生成系统:生成48KHz语音,本文使用声学模型生成16khz的,然后HiFiNet将16K的mel-spec再升采样为48k语音,在训练效率,模型稳定度、语音质量上求得折中。建模变量:输入的特征:(1)说话人id,语言id,pitch, duration,前两个都使用look up table;reference encoder编码;使用优化后的Conformer结构,

文章图片
#人工智能
乌龟TTS--TorToiSe

当前图像生成领域发生重大变革,趋势有两个:一是自回归transformer,二是DDPM。本文尝试将这两种方法的优点结合,将大规模预训练语言模型领域的经验引入合成,实现高表现力,多音色的语音合成,并将此工作命名为TorToiSe。本文使用UnivNet作为vocoder进行波形重建。本文通过:(1)使用通用的transformer结构;(2)使用超大的、高质量的数据集;(3)用非常大的batch_

文章图片
#人工智能#深度学习
Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech

文章目录abstractintroduction单位:华为诺亚俄罗斯莫斯科实验室作者:Vadim PopoIvan Vovk会议:2021 ICML备注:没看完,感觉距离实用比较远就没有仔细研究了abstractdenoising diffusion probabilistic (DPM)model:一种从噪音中剥离出图像/音频的模型introduction现有的tacotron类似的结构生成语音

#深度学习
《深度学习推荐系统》读书笔记

深度学习与推荐系统一书的初次阅读与笔记

#深度学习#知识图谱#人工智能
    共 31 条
  • 1
  • 2
  • 3
  • 4
  • 请选择