logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

开源字幕生成工具SmartSub:视频语音识别及字幕生成

摘要:介绍开源字幕生成工具SmartSub,支持跨平台批量生成视频/音频字幕并进行翻译。文章详细说明安装步骤(需匹配CUDA版本)、使用流程(模型选择、API配置、CUDA加速建议)以及字幕合成方法(推荐剪映)。该工具支持多种翻译服务,最终输出.srt字幕文件。项目地址和软件包下载链接已提供。(149字)

文章图片
#音视频#语音识别#人工智能
开源文本转语音TTS方案Qwen3-TTS

(对于自定义语音模型 custom voice models(Qwen3-TTS-12Hz-1.7B/0.6B-CustomVoice),您只需调用generate_custom_voice,传入一个字符串或一个批量列表,以及语言、说话人和可选指令。您还可以调用model.get_supported_speakers()和model.get_supported_languages()来查看当前模型

文章图片
#开源
开源本地翻译项目ArgosTranslate

更多语言包请查询项目GitHub官网介绍,此外,Argos Translate还可以自动管理中间语言的转换,以便在未安装直接翻译的语言之间进行翻译。英语<-->西班牙语: argospm install translate-en_es。英语<-->俄语: argospm install translate-en_ru。英语<-->法语: argospm install translate-en_f

文章图片
#python#开发语言
开源字幕生成工具SmartSub:视频语音识别及字幕生成

摘要:介绍开源字幕生成工具SmartSub,支持跨平台批量生成视频/音频字幕并进行翻译。文章详细说明安装步骤(需匹配CUDA版本)、使用流程(模型选择、API配置、CUDA加速建议)以及字幕合成方法(推荐剪映)。该工具支持多种翻译服务,最终输出.srt字幕文件。项目地址和软件包下载链接已提供。(149字)

文章图片
#音视频#语音识别#人工智能
到底了