
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Easy Voice Toolkit 是一个基于开源语音项目实现的简易语音工具箱,提供了包括语音模型训练在内的多种自动化音频工具,集成了GUI,无需配置,解压即用。

进入工作流后,上传参考图,选择控制类型(AIO辅助预处理器下节点下的preprocessor选择,常用的边缘控制 CannyEdgePreprocessor,姿势控制 DWPreprocessor,深度控制 DepthAnythingV2Preprocessor 等),输入提示词,设置生成分辨率(AIO辅助预处理器节点下的resolution,比如512,1024等),Controlnet 强度(

进入工作流后,上传参考图,选择控制类型(AIO辅助预处理器下节点下的preprocessor选择,常用的边缘控制 CannyEdgePreprocessor,姿势控制 DWPreprocessor,深度控制 DepthAnythingV2Preprocessor 等),输入提示词,设置生成分辨率(AIO辅助预处理器节点下的resolution,比如512,1024等),Controlnet 强度(

TIGER 是一种轻量级语音分离模型,通过频段分割、多尺度及全频帧建模有效提取关键声学特征。TIGER 模型大小不到20M,即使CPU也可以流畅运行,且支持人声伴奏分离(音频文件中分离人声和伴奏)、音频说话人分离(从多个说话人音频中分离出每个说话人的声音)、视频降噪以及视频语音分离等功能。远程教育和会议:在远程教育和在线会议中,TIGER能够分离出各个参与者的声音,减少背景噪音和干扰,提高沟通效

它以515M的参数规模,展现出令人惊叹的音频生成能力,能够在短短3.7秒内生成高达30秒的高质量音频,展现出卓越的性能和效率。该模型不仅能够生成各种音效,如鸟鸣和口哨声,还引入了一种新的优化框架CLAP-Ranked Preference Optimization(CRPO),以提升生成音频的质量和对齐性能。1、影视与游戏音频制作:TangoFlux可依剧本或场景描述,快速生成逼真音效、配乐及配音

超低延迟与高效部署 推理延迟低于 200ms,支持实时应用(如语音助手、游戏对话),并提供轻量级 Python 库(chatterbox-tts)简化部署。情绪夸张控制 首个支持通过参数调节语音情感强度的开源 TTS 模型,可生成从平淡到戏剧化的多种表达,显著优于传统机械输出。零样本语音克隆 仅需数秒参考音频即可克隆目标声音,无需额外训练,适用于个性化语音助手和虚拟角色配音。TTS,和其他类

MOSS-TTSD(文本到语音对话)支持中英文的双语语音对话合成,能够将两个说话者之间的对话脚本转化为自然、富有表现力的会话式语音。通俗的讲,只需要上传两段参考音频,输入两个人的对话文字内容,即可一键生成两人的对话音频内容,生成对话语音自然、且富有表现力,几乎接近真人对话水平。MOSS-TTSD 是一种语音对话生成模型,能够支持中英文的富有表现力的对话语音合成,支持零样本多说话人语音克隆、语音事件

2. 抗漂移采样:告别“视频越生成越歪” 长视频生成最头疼的问题——生成到第10帧还正常,第50帧就“画风突变”,这是传统“单向依赖最后一帧”的缺陷。今天分享的 FramePack V2版,基于国外大佬 FurkanGozukara 的WebUI整合,新增了首尾帧生成功能(由大佬汤团猪提交)、新增LoRA支持、新增批量生成、新增gif等图像格式导出、新增生成分辨率和生成视频质量选择等。支持首位帧生

Moonshine 是由 Useful Sensors 公司推出的一系列「语音到文本(speech-to-text, STT)转换模型」,旨在为资源受限设备提供快速而准确的「自动语音识别(ASR)服务」。相比同类产品,如 OpenAI 的 Whisper,Moonshine 在处理速度上提高了五倍,并且在多个标准数据集上展示了更低的词错误率(WER)。据官方报告,Moonshine 的处理速度「比

Easy Voice Toolkit 是一个基于开源语音项目实现的简易语音工具箱,提供了包括语音模型训练在内的多种自动化音频工具,集成了GUI,无需配置,解压即用。








