
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
onnx转换的时候不需要特殊指定,infer阶段指定CUDAExecutionProvider即可实现gpu 推理,如果没有送到gpu 上,需要修改路径。输出结果是:==============测试是否使用的gpu。

与 VALL-E 等模型(1个文本对应多个 Codec Codes)不同,TADA 的 Encoder 将每个单词/字压缩为一个单一的声学向量。将离散的 0 映射为 -1.0,1 映射为 +1.0。稀疏排版: 在时间轴上创建一个长度为 5 的全 0 片段,将预测的 Speech Embedding 填入该片段的对齐位置(Alignment Point)。填补细节: Decoder 的 Transf
阅读中科大雷鸣2012年博士毕业论文后整理个人读书笔记1. 绪论传统语音合成的方法基于HMM的统计参数语音合成(也是本文要讲的重点,参数统计的办法)基于大量语料的单元挑选与波形拼接一般的语音合成系统可以分成(1)前端文本–文本转成层次化的语音学表示;(2)后端语音合成–从层次化的语音学表示合成语音,其中韵律特征预测可以和语音合成作为一个整体,也可以单独拉出来作为一个模块。人类发生系...
深度学习与推荐系统一书的初次阅读与笔记
当前的生成式模型是静态的,无法更新知识。如果直接微调,会对原来的知识造成灾难性遗忘,这显然是不符合真实场景需求的。因此生成式模型需要有持续学习的能力。现有的持续学习综述大多关注传统的判别模型,或者只局限于某一种生成模型(如仅LLM)。本文目标是提供一个统一的视角,系统地分析和总结不同生成模型(LLM, MLLM, VLA, diffusion)在持续学习方面的研究现状、关键方法和未来方向,为该领域
Deep Think with Confidence》提出了一种简单、优雅且高效的方法,来优化大模型的推理过程。它抓住了“模型置信度”这一内在信号,巧妙地解决了“平行思考”策略中成本与性能的矛盾。在离线模式下,它像一个评审员,对已经完成的所有“答卷”进行打分和筛选,选出最好的答案。在在线模式下,它像一个监工,实时监控每一份“答卷”的写作过程,一旦发现写得“磕磕巴巴”、“信心不足”,就立刻让它停笔,
基于文本模型,加入音频模态,能够同时做speech2speech translation,asr,tts通过强化学习的方法,在翻得快(不用src 整句说完)和翻得准方面都取得提升可以在翻译的同时clone your voice,但是这部分没有介绍。
之前的s2s 模型,只是根据语义理解进行内容回复,但实际上内容的传达除了文字,还有说话人的语气,语气不同,对应的语义可能千差万别。建立一个评测的benchmark,利用预训练的作为打分模型训练一个可以情感一致回复的ParaS2S align(将AudioReasoner蒸馏一个快速的打分模型)
对于AR 模型,控制合成音频的token个数,实现对时长的控制;保证视频配音的音画同步;一个情感prompt,一个音色prompt,实现解耦;把GPT latent representations 引入,增强在情感控制下发音的清晰度,保证稳定性;1k条deepseek R1 生成的情感音频描述性文本,通过LoRA微调Qwen3-1.7BMaskGCT 的semantic tokens;







