
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
speech_encoder 提取音色信息,不需要prompt text(更加适用于跨语言任务,解耦了prompt 文本和prompt style/timbre)Flow-VAE 提升合成音质;
当前的生成式模型是静态的,无法更新知识。如果直接微调,会对原来的知识造成灾难性遗忘,这显然是不符合真实场景需求的。因此生成式模型需要有持续学习的能力。现有的持续学习综述大多关注传统的判别模型,或者只局限于某一种生成模型(如仅LLM)。本文目标是提供一个统一的视角,系统地分析和总结不同生成模型(LLM, MLLM, VLA, diffusion)在持续学习方面的研究现状、关键方法和未来方向,为该领域
Deep Think with Confidence》提出了一种简单、优雅且高效的方法,来优化大模型的推理过程。它抓住了“模型置信度”这一内在信号,巧妙地解决了“平行思考”策略中成本与性能的矛盾。在离线模式下,它像一个评审员,对已经完成的所有“答卷”进行打分和筛选,选出最好的答案。在在线模式下,它像一个监工,实时监控每一份“答卷”的写作过程,一旦发现写得“磕磕巴巴”、“信心不足”,就立刻让它停笔,
基于文本模型,加入音频模态,能够同时做speech2speech translation,asr,tts通过强化学习的方法,在翻得快(不用src 整句说完)和翻得准方面都取得提升可以在翻译的同时clone your voice,但是这部分没有介绍。
之前的s2s 模型,只是根据语义理解进行内容回复,但实际上内容的传达除了文字,还有说话人的语气,语气不同,对应的语义可能千差万别。建立一个评测的benchmark,利用预训练的作为打分模型训练一个可以情感一致回复的ParaS2S align(将AudioReasoner蒸馏一个快速的打分模型)
对于AR 模型,控制合成音频的token个数,实现对时长的控制;保证视频配音的音画同步;一个情感prompt,一个音色prompt,实现解耦;把GPT latent representations 引入,增强在情感控制下发音的清晰度,保证稳定性;1k条deepseek R1 生成的情感音频描述性文本,通过LoRA微调Qwen3-1.7BMaskGCT 的semantic tokens;
当前的生成式模型是静态的,无法更新知识。如果直接微调,会对原来的知识造成灾难性遗忘,这显然是不符合真实场景需求的。因此生成式模型需要有持续学习的能力。现有的持续学习综述大多关注传统的判别模型,或者只局限于某一种生成模型(如仅LLM)。本文目标是提供一个统一的视角,系统地分析和总结不同生成模型(LLM, MLLM, VLA, diffusion)在持续学习方面的研究现状、关键方法和未来方向,为该领域
当前的生成式模型是静态的,无法更新知识。如果直接微调,会对原来的知识造成灾难性遗忘,这显然是不符合真实场景需求的。因此生成式模型需要有持续学习的能力。现有的持续学习综述大多关注传统的判别模型,或者只局限于某一种生成模型(如仅LLM)。本文目标是提供一个统一的视角,系统地分析和总结不同生成模型(LLM, MLLM, VLA, diffusion)在持续学习方面的研究现状、关键方法和未来方向,为该领域
Deep Think with Confidence》提出了一种简单、优雅且高效的方法,来优化大模型的推理过程。它抓住了“模型置信度”这一内在信号,巧妙地解决了“平行思考”策略中成本与性能的矛盾。在离线模式下,它像一个评审员,对已经完成的所有“答卷”进行打分和筛选,选出最好的答案。在在线模式下,它像一个监工,实时监控每一份“答卷”的写作过程,一旦发现写得“磕磕巴巴”、“信心不足”,就立刻让它停笔,
阅读中科大雷鸣2012年博士毕业论文后整理个人读书笔记1. 绪论传统语音合成的方法基于HMM的统计参数语音合成(也是本文要讲的重点,参数统计的办法)基于大量语料的单元挑选与波形拼接一般的语音合成系统可以分成(1)前端文本–文本转成层次化的语音学表示;(2)后端语音合成–从层次化的语音学表示合成语音,其中韵律特征预测可以和语音合成作为一个整体,也可以单独拉出来作为一个模块。人类发生系...







