
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Wan2.2AllInOne 由社区大佬基于Wan2.1和Wan2.2视频生成模型整合训练,将加速Lora、CLIP 和 VAE等各种加速技术融为一个模型,因此你无需建立各种复杂的节点,工作流大大简化,只需要一个模型即可搞定,真正的AllInOne。支持文生视频和图生视频,最快4步生成,实测5秒视频只要1分钟。Wan2.2AllInOne 是阿里万相团队开源的 WAN2.2 视频模型的“大一统”整

TIGER 是一种轻量级语音分离模型,通过频段分割、多尺度及全频帧建模有效提取关键声学特征。TIGER 模型大小不到20M,即使CPU也可以流畅运行,且支持人声伴奏分离(音频文件中分离人声和伴奏)、音频说话人分离(从多个说话人音频中分离出每个说话人的声音)、视频降噪以及视频语音分离等功能。远程教育和会议:在远程教育和在线会议中,TIGER能够分离出各个参与者的声音,减少背景噪音和干扰,提高沟通效

超低延迟与高效部署 推理延迟低于 200ms,支持实时应用(如语音助手、游戏对话),并提供轻量级 Python 库(chatterbox-tts)简化部署。情绪夸张控制 首个支持通过参数调节语音情感强度的开源 TTS 模型,可生成从平淡到戏剧化的多种表达,显著优于传统机械输出。零样本语音克隆 仅需数秒参考音频即可克隆目标声音,无需额外训练,适用于个性化语音助手和虚拟角色配音。TTS,和其他类

它以515M的参数规模,展现出令人惊叹的音频生成能力,能够在短短3.7秒内生成高达30秒的高质量音频,展现出卓越的性能和效率。该模型不仅能够生成各种音效,如鸟鸣和口哨声,还引入了一种新的优化框架CLAP-Ranked Preference Optimization(CRPO),以提升生成音频的质量和对齐性能。1、影视与游戏音频制作:TangoFlux可依剧本或场景描述,快速生成逼真音效、配乐及配音

MOSS-TTSD(文本到语音对话)支持中英文的双语语音对话合成,能够将两个说话者之间的对话脚本转化为自然、富有表现力的会话式语音。通俗的讲,只需要上传两段参考音频,输入两个人的对话文字内容,即可一键生成两人的对话音频内容,生成对话语音自然、且富有表现力,几乎接近真人对话水平。MOSS-TTSD 是一种语音对话生成模型,能够支持中英文的富有表现力的对话语音合成,支持零样本多说话人语音克隆、语音事件

SoloSpeech 的核心用途是目标语音提取(Target Speech Extraction, TSE),即从包含多个说话者声音的混合音频中,分离并提取出特定说话者的声音。优化语音训练数据:在语音识别或语音合成模型的训练过程中,可以使用SoloSpeech来处理嘈杂或混合的语音数据,提高模型的训练效率和性能。音频降噪教程:软件同样支持一键音频降噪,混合音频和说话人音频分别上传需要降噪的音

MOSS-TTSD(文本到语音对话)支持中英文的双语语音对话合成,能够将两个说话者之间的对话脚本转化为自然、富有表现力的会话式语音。通俗的讲,只需要上传两段参考音频,输入两个人的对话文字内容,即可一键生成两人的对话音频内容,生成对话语音自然、且富有表现力,几乎接近真人对话水平。MOSS-TTSD 是一种语音对话生成模型,能够支持中英文的富有表现力的对话语音合成,支持零样本多说话人语音克隆、语音事件

HivisionIDPhoto是一种实用的证件照智能制作算法。它利用一套完善的模型工作流程,实现对多种用户拍照场景的识别、抠图与证件照生成。

今天的V3版一键包在官方8月9日发布的最新版做了更新,新增精确的肖像编辑,人像重定向功能在原有的抬头低头等编辑的基础上,新增了X/Y/Z轴运动

LivePortrait,这个名字听起来就像是魔法,但它其实是现实世界中的黑科技。想象一下,你那尘封已久的相册里,那些定格在时间里的笑脸,突然间动了起来,眨眼、微笑、甚至说话,这不再是电影里的场景,LivePortrait让它变成了现实。
