logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

3D Gaussian Splatting的使用

Gaussian splatting 快速生成自己屋子的模型

文章图片
#计算机视觉#github
语音识别神器 Whisper 的几个小技巧

综述所述,最后就固定一个prompt的写法,就能解决标点符号和繁体字问题。以下是普通话的句子,这是一段会议记录。如果想输出繁体字,上面内容就全用繁体字写。后半句写语音的内容概括,并且一定要加上句号。祝大家成功!

文章图片
#语音识别#人工智能
很厉害的语音克隆TTS:coqui-ai TTS的使用过程

我录了几句话,十几秒的音频,然后就能克隆输出了,我用GPU,速度很快,3秒内就输出了,当然这和传的音频还有合成文字的长度有关系。这一串tts_models--multilingual--multi-dataset--xtts_v2 是程序自动创建的目录,如果模型下载失败,这个目录会直接删掉的,注意。coqui-ai开源的TTS,它的特色我总结为:可以上传自己的一段人声音频(哪怕就几句),它就能给你

文章图片
#语音识别#人工智能
语音识别神器 Whisper 的几个小技巧

综述所述,最后就固定一个prompt的写法,就能解决标点符号和繁体字问题。以下是普通话的句子,这是一段会议记录。如果想输出繁体字,上面内容就全用繁体字写。后半句写语音的内容概括,并且一定要加上句号。祝大家成功!

文章图片
#语音识别#人工智能
很厉害的语音克隆TTS:coqui-ai TTS的使用过程

我录了几句话,十几秒的音频,然后就能克隆输出了,我用GPU,速度很快,3秒内就输出了,当然这和传的音频还有合成文字的长度有关系。这一串tts_models--multilingual--multi-dataset--xtts_v2 是程序自动创建的目录,如果模型下载失败,这个目录会直接删掉的,注意。coqui-ai开源的TTS,它的特色我总结为:可以上传自己的一段人声音频(哪怕就几句),它就能给你

文章图片
#语音识别#人工智能
很厉害的语音克隆TTS:coqui-ai TTS的使用过程

我录了几句话,十几秒的音频,然后就能克隆输出了,我用GPU,速度很快,3秒内就输出了,当然这和传的音频还有合成文字的长度有关系。这一串tts_models--multilingual--multi-dataset--xtts_v2 是程序自动创建的目录,如果模型下载失败,这个目录会直接删掉的,注意。coqui-ai开源的TTS,它的特色我总结为:可以上传自己的一段人声音频(哪怕就几句),它就能给你

文章图片
#语音识别#人工智能
到底了