logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Orpheus-TTS - 像真人一样自然逼真的语音合成系统 文本转语音,TTS 本地一键整合包下载

它能够生成自然、富有情感且接近人类水平的语音,具备零样本语音克隆能力,无需预训练即可模仿特定语音。超低延迟‌:Orpheus TTS的默认延迟约为200毫秒,通过优化输入流与模型的KV缓存,可以将延迟降低至25-50毫秒,完全满足实时对话的需求‌。零样本语音克隆‌:Orpheus TTS基于Llama-3b架构,具备零样本复刻任何人声的能力,无需预训练即可模仿特定语音‌。情感表达‌:该模型能够生成

文章图片
#音视频#人工智能
SenseVoice - 阿里最新开源精准多语言语音识别与情感辨识模型 本地一键整合包下载

阿里巴巴近期发布了开源语音大模型项目FunAudioLLM,该项目包含了两个核心模型:SenseVoice和CosyVoice。可以精准多语言识别并且进行语音克隆

文章图片
#语音识别#人工智能
CosyVoice升级版 - 阿里最新开源语音克隆、文本转语音项目 支持音色保存 本地一键整合包下载

​近日,阿里通义实验室发布开源语音大模型项目FunAudioLLM,而且一次包含两个模型:SenseVoice和CosyVoice。今天分享的这个是v3ucn大佬优化过的升级版,新增自定义音色保存,优化长文本生成以及修复上个版本错误提示的bug。

文章图片
#人工智能#音视频#语音识别
GLM-TTS - 自然、富有情感和表现力的语音克隆/文本转语音系统 支持批量生成 支持50系显卡 一键整合包下载

GLM-TTS 测试下来,相比同类文本转语音系统,除了克隆音色相似度更高外,在情感表达和自然度方便也更好,还有就是长文本生成更稳定,且速度快,生成的音频质量也更高。GLM-TTS 是智谱AI开源的一个新型的文本转语音(TTS)系统,它能在“零样本”条件下模仿声音,在极少的语音样本模仿声音,生成自然、有情绪的语音,并且让合成语音更有情感和表现力。右侧加载音色,选择音色,输入需要生成的文字内容,生成即

文章图片
#语音识别#人工智能
GLM-ASR - 最强中文及方言语音识别利器 语音识别 语音转文字 支持50系显卡 一键整合包下载

因视频转写效率不如直接音频转写,故新增视频转音频功能,如果是视频文件,建议先将视频转换为音频,再进行转写操作。GLM-ASR 是智谱AI开源的一个语音识别模型,虽然体积小,只有1.5B的参数量,但识别速度快、准确率高,在中文和方言识别上表现非常突出,尤其擅长处理低音量、嘈杂环境下的语音,比很多同类模型更稳健。GLM-ASR 支持 17 种语言,包括日、英、法、德、俄、西等主流语言,甚至连加泰罗尼亚

文章图片
#语音识别#人工智能
CosyVoice - 阿里最新开源语音克隆、文本转语音项目 支持情感控制及粤语 本地一键整合包下载

CosyVoice专注自然语音生成,支持多语言、音色和情感控制,支持中英日粤韩5种语言的生成,效果显著优于传统语音生成模型。

文章图片
#人工智能#音视频
Easy Voice Toolkit - 简易语音工具箱,一款强大的语音识别、转录、转换工具 本地一键整合包下载

Easy Voice Toolkit 是一个基于开源语音项目实现的简易语音工具箱,提供了包括语音模型训练在内的多种自动化音频工具,集成了GUI,无需配置,解压即用。

文章图片
#人工智能#音视频
VoxCPM V3版 - 更新VoxCPM2,真人级多语言声音克隆 自然语言设计声音 一键整合包下载

阿拉伯语、缅甸语、中文、丹麦语、荷兰语、英语、芬兰语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、高棉语、韩语、老挝语、马来语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、斯瓦希里语、瑞典语、菲律宾语、泰语、土耳其语、越南语 中国方言:四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话。它支持多语言,能在实时场景下运行,并且只需一段短音频就能模仿说话者的声音。直接支

文章图片
#人工智能
Fun-ASR - 多语言多方言的高精度语音识别软件 支持50系显卡 一键整合包下载

本次,我们对 Fun-ASR 的核心能力进行了全面升级,重点优化了嘈杂环境鲁棒性、多语言自由混说、中文方言与口音覆盖、歌词识别、定制化能力,并将流式识别模型的首字降低到 160ms。在中文方面,模型覆盖 7 大方言(粤语、吴语、闽南语、客家话、赣语、湘语、晋语)与 26 种地方口音,从东北话到港台腔,从四川话到河南腔,都能精准识别。Fun-ASR 是一个由通义实验室推出的开源语音识别大模型,能把语

文章图片
#人工智能#音视频#语音识别
CosyVoice3 - 跨语言、会方言、懂情绪的智能配音工具 文本转语音 语音克隆 支持50系显卡 一键整合包下载

CosyVoice 3 是阿里巴巴团队推出的一款新一代语音合成模型,它能在没有额外训练的情况下,用多种语言和方言生成自然、富有情感的语音,声音效果接近真人。CosyVoice 3 只需3秒录音,就能让你的声音无缝切换语种、方言与情绪——中、粤、日、英、开心、愤怒......9 种通用语言、18种方言,通通搞定!自然语言控制:上传参考音频,输入需要合成的文字内容,支持喜怒哀乐等多种情感控制,支持十几

文章图片
#人工智能#语音识别
    共 115 条
  • 1
  • 2
  • 3
  • 12
  • 请选择