logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Minimax-speech-hd

speech_encoder 提取音色信息,不需要prompt text(更加适用于跨语言任务,解耦了prompt 文本和prompt style/timbre)Flow-VAE 提升合成音质;

#深度学习
大模型持续学习

当前的生成式模型是静态的,无法更新知识。如果直接微调,会对原来的知识造成灾难性遗忘,这显然是不符合真实场景需求的。因此生成式模型需要有持续学习的能力。现有的持续学习综述大多关注传统的判别模型,或者只局限于某一种生成模型(如仅LLM)。本文目标是提供一个统一的视角,系统地分析和总结不同生成模型(LLM, MLLM, VLA, diffusion)在持续学习方面的研究现状、关键方法和未来方向,为该领域

#学习#人工智能#深度学习
大模型的不确定性

Deep Think with Confidence》提出了一种简单、优雅且高效的方法,来优化大模型的推理过程。它抓住了“模型置信度”这一内在信号,巧妙地解决了“平行思考”策略中成本与性能的矛盾。在离线模式下,它像一个评审员,对已经完成的所有“答卷”进行打分和筛选,选出最好的答案。在在线模式下,它像一个监工,实时监控每一份“答卷”的写作过程,一旦发现写得“磕磕巴巴”、“信心不足”,就立刻让它停笔,

#人工智能
Seed LiveInterpret 2.0: End-to-end Simultaneous Speech-to-speech Translation with Your Voice

基于文本模型,加入音频模态,能够同时做speech2speech translation,asr,tts通过强化学习的方法,在翻得快(不用src 整句说完)和翻得准方面都取得提升可以在翻译的同时clone your voice,但是这部分没有介绍。

#人工智能
语音大模型评估工作bytedance2篇

之前的s2s 模型,只是根据语义理解进行内容回复,但实际上内容的传达除了文字,还有说话人的语气,语气不同,对应的语义可能千差万别。建立一个评测的benchmark,利用预训练的作为打分模型训练一个可以情感一致回复的ParaS2S align(将AudioReasoner蒸馏一个快速的打分模型)

#语言模型#人工智能#自然语言处理
index-tts2 【2025.6】

对于AR 模型,控制合成音频的token个数,实现对时长的控制;保证视频配音的音画同步;一个情感prompt,一个音色prompt,实现解耦;把GPT latent representations 引入,增强在情感控制下发音的清晰度,保证稳定性;1k条deepseek R1 生成的情感音频描述性文本,通过LoRA微调Qwen3-1.7BMaskGCT 的semantic tokens;

#深度学习
大模型持续学习

当前的生成式模型是静态的,无法更新知识。如果直接微调,会对原来的知识造成灾难性遗忘,这显然是不符合真实场景需求的。因此生成式模型需要有持续学习的能力。现有的持续学习综述大多关注传统的判别模型,或者只局限于某一种生成模型(如仅LLM)。本文目标是提供一个统一的视角,系统地分析和总结不同生成模型(LLM, MLLM, VLA, diffusion)在持续学习方面的研究现状、关键方法和未来方向,为该领域

#学习#人工智能#深度学习
大模型持续学习

当前的生成式模型是静态的,无法更新知识。如果直接微调,会对原来的知识造成灾难性遗忘,这显然是不符合真实场景需求的。因此生成式模型需要有持续学习的能力。现有的持续学习综述大多关注传统的判别模型,或者只局限于某一种生成模型(如仅LLM)。本文目标是提供一个统一的视角,系统地分析和总结不同生成模型(LLM, MLLM, VLA, diffusion)在持续学习方面的研究现状、关键方法和未来方向,为该领域

#学习#人工智能#深度学习
大模型的不确定性

Deep Think with Confidence》提出了一种简单、优雅且高效的方法,来优化大模型的推理过程。它抓住了“模型置信度”这一内在信号,巧妙地解决了“平行思考”策略中成本与性能的矛盾。在离线模式下,它像一个评审员,对已经完成的所有“答卷”进行打分和筛选,选出最好的答案。在在线模式下,它像一个监工,实时监控每一份“答卷”的写作过程,一旦发现写得“磕磕巴巴”、“信心不足”,就立刻让它停笔,

#人工智能
统计参数语音合成中的声学模型建模方法研究

阅读中科大雷鸣2012年博士毕业论文后整理个人读书笔记1. 绪论传统语音合成的方法基于HMM的统计参数语音合成(也是本文要讲的重点,参数统计的办法)基于大量语料的单元挑选与波形拼接一般的语音合成系统可以分成(1)前端文本–文本转成层次化的语音学表示;(2)后端语音合成–从层次化的语音学表示合成语音,其中韵律特征预测可以和语音合成作为一个整体,也可以单独拉出来作为一个模块。人类发生系...

    共 30 条
  • 1
  • 2
  • 3
  • 请选择