
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
它能够生成自然、富有情感且接近人类水平的语音,具备零样本语音克隆能力,无需预训练即可模仿特定语音。超低延迟:Orpheus TTS的默认延迟约为200毫秒,通过优化输入流与模型的KV缓存,可以将延迟降低至25-50毫秒,完全满足实时对话的需求。零样本语音克隆:Orpheus TTS基于Llama-3b架构,具备零样本复刻任何人声的能力,无需预训练即可模仿特定语音。情感表达:该模型能够生成

阿里巴巴近期发布了开源语音大模型项目FunAudioLLM,该项目包含了两个核心模型:SenseVoice和CosyVoice。可以精准多语言识别并且进行语音克隆

近日,阿里通义实验室发布开源语音大模型项目FunAudioLLM,而且一次包含两个模型:SenseVoice和CosyVoice。今天分享的这个是v3ucn大佬优化过的升级版,新增自定义音色保存,优化长文本生成以及修复上个版本错误提示的bug。

GLM-TTS 测试下来,相比同类文本转语音系统,除了克隆音色相似度更高外,在情感表达和自然度方便也更好,还有就是长文本生成更稳定,且速度快,生成的音频质量也更高。GLM-TTS 是智谱AI开源的一个新型的文本转语音(TTS)系统,它能在“零样本”条件下模仿声音,在极少的语音样本模仿声音,生成自然、有情绪的语音,并且让合成语音更有情感和表现力。右侧加载音色,选择音色,输入需要生成的文字内容,生成即

因视频转写效率不如直接音频转写,故新增视频转音频功能,如果是视频文件,建议先将视频转换为音频,再进行转写操作。GLM-ASR 是智谱AI开源的一个语音识别模型,虽然体积小,只有1.5B的参数量,但识别速度快、准确率高,在中文和方言识别上表现非常突出,尤其擅长处理低音量、嘈杂环境下的语音,比很多同类模型更稳健。GLM-ASR 支持 17 种语言,包括日、英、法、德、俄、西等主流语言,甚至连加泰罗尼亚

CosyVoice专注自然语音生成,支持多语言、音色和情感控制,支持中英日粤韩5种语言的生成,效果显著优于传统语音生成模型。

Easy Voice Toolkit 是一个基于开源语音项目实现的简易语音工具箱,提供了包括语音模型训练在内的多种自动化音频工具,集成了GUI,无需配置,解压即用。

阿拉伯语、缅甸语、中文、丹麦语、荷兰语、英语、芬兰语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、高棉语、韩语、老挝语、马来语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、斯瓦希里语、瑞典语、菲律宾语、泰语、土耳其语、越南语 中国方言:四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话。它支持多语言,能在实时场景下运行,并且只需一段短音频就能模仿说话者的声音。直接支

本次,我们对 Fun-ASR 的核心能力进行了全面升级,重点优化了嘈杂环境鲁棒性、多语言自由混说、中文方言与口音覆盖、歌词识别、定制化能力,并将流式识别模型的首字降低到 160ms。在中文方面,模型覆盖 7 大方言(粤语、吴语、闽南语、客家话、赣语、湘语、晋语)与 26 种地方口音,从东北话到港台腔,从四川话到河南腔,都能精准识别。Fun-ASR 是一个由通义实验室推出的开源语音识别大模型,能把语

CosyVoice 3 是阿里巴巴团队推出的一款新一代语音合成模型,它能在没有额外训练的情况下,用多种语言和方言生成自然、富有情感的语音,声音效果接近真人。CosyVoice 3 只需3秒录音,就能让你的声音无缝切换语种、方言与情绪——中、粤、日、英、开心、愤怒......9 种通用语言、18种方言,通通搞定!自然语言控制:上传参考音频,输入需要合成的文字内容,支持喜怒哀乐等多种情感控制,支持十几








