logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Easy Voice Toolkit - 简易语音工具箱,一款强大的语音识别、转录、转换工具 本地一键整合包下载

Easy Voice Toolkit 是一个基于开源语音项目实现的简易语音工具箱,提供了包括语音模型训练在内的多种自动化音频工具,集成了GUI,无需配置,解压即用。

文章图片
#人工智能#音视频
Z-Image-Controlnet - 支持姿势、深度、边缘控制的文生图神器 支持50系显卡 ComfyUI工作流 一键整合包下载

进入工作流后,上传参考图,选择控制类型(AIO辅助预处理器下节点下的preprocessor选择,常用的边缘控制 CannyEdgePreprocessor,姿势控制 DWPreprocessor,深度控制 DepthAnythingV2Preprocessor 等),输入提示词,设置生成分辨率(AIO辅助预处理器节点下的resolution,比如512,1024等),Controlnet 强度(

文章图片
#人工智能
Z-Image-Controlnet - 支持姿势、深度、边缘控制的文生图神器 支持50系显卡 ComfyUI工作流 一键整合包下载

进入工作流后,上传参考图,选择控制类型(AIO辅助预处理器下节点下的preprocessor选择,常用的边缘控制 CannyEdgePreprocessor,姿势控制 DWPreprocessor,深度控制 DepthAnythingV2Preprocessor 等),输入提示词,设置生成分辨率(AIO辅助预处理器节点下的resolution,比如512,1024等),Controlnet 强度(

文章图片
#人工智能
TIGER - 一个轻量高效的语音分离模型,支持人声伴奏分离、音频说话人分离等 支持50系显卡 本地一键整合包下载

TIGER 是一种轻量级语音分离模型,通过频段分割、多尺度及全频帧建模有效提取关键声学特征。TIGER 模型大小不到20M,即使CPU也可以流畅运行,且支持人声伴奏分离(音频文件中分离人声和伴奏)、音频说话人分离(从多个说话人音频中分离出每个说话人的声音)、视频降噪以及视频语音分离等功能。远程教育和会议‌:在远程教育和在线会议中,TIGER能够分离出各个参与者的声音,减少背景噪音和干扰,提高沟通效

文章图片
#音视频#人工智能
TangoFlux - 3秒生成,比你还快!速度超快超逼真的文本生成语音模型 本地一键整合包下载

它以515M的参数规模,展现出令人惊叹的音频生成能力,能够在短短3.7秒内生成高达30秒的高质量音频,展现出卓越的性能和效率。该模型不仅能够生成各种音效,如鸟鸣和口哨声,还引入了一种新的优化框架CLAP-Ranked Preference Optimization(CRPO),以提升生成音频的质量和对齐性能。1、影视与游戏音频制作:TangoFlux可依剧本或场景描述,快速生成逼真音效、配乐及配音

文章图片
#音视频
ChatterBox - 轻巧快速的语音克隆与文本转语音模型,支持情感控制 支持50系显卡 一键整合包下载

超低延迟与高效部署‌ 推理延迟低于 200ms,支持实时应用(如语音助手、游戏对话),并提供轻量级 Python 库(chatterbox-tts)简化部署。情绪夸张控制‌ 首个支持通过参数调节语音情感强度的开源 TTS 模型,可生成从平淡到戏剧化的多种表达,显著优于传统机械输出。零样本语音克隆‌ 仅需数秒参考音频即可克隆目标声音,无需额外训练,适用于个性化语音助手和虚拟角色配音。TTS,和其他类

文章图片
#音视频#人工智能
MOSS-TTSD V3版 - 文本到语音对话生成 支持零样本多人语音克隆 支持50系显卡 一键整合包下载

MOSS-TTSD(文本到语音对话)支持中英文的双语语音对话合成,能够将两个说话者之间的对话脚本转化为自然、富有表现力的会话式语音。通俗的讲,只需要上传两段参考音频,输入两个人的对话文字内容,即可一键生成两人的对话音频内容,生成对话语音自然、且富有表现力,几乎接近真人对话水平。MOSS-TTSD 是一种语音对话生成模型,能够支持中英文的富有表现力的对话语音合成,支持零样本多说话人语音克隆、语音事件

文章图片
#语音识别#人工智能
FramePack V2版 - 支持首尾帧生成,支持LoRA,支持批量,支持50系显卡,一个强大的AI视频生成软件 本地一键整合包下载

2. 抗漂移采样:告别“视频越生成越歪” 长视频生成最头疼的问题——生成到第10帧还正常,第50帧就“画风突变”,这是传统“单向依赖最后一帧”的缺陷。今天分享的 FramePack V2版,基于国外大佬 FurkanGozukara 的WebUI整合,新增了首尾帧生成功能(由大佬汤团猪提交)、新增LoRA支持、新增批量生成、新增gif等图像格式导出、新增生成分辨率和生成视频质量选择等。支持首位帧生

文章图片
#人工智能#音视频
Moonshine - 新型开源ASR(语音识别)模型,体积小,速度快,比OpenAI Whisper快五倍 本地一键整合包下载

Moonshine 是由 Useful Sensors 公司推出的一系列「语音到文本(speech-to-text, STT)转换模型」,旨在为资源受限设备提供快速而准确的「自动语音识别(ASR)服务」。相比同类产品,如 OpenAI 的 Whisper,Moonshine 在处理速度上提高了五倍,并且在多个标准数据集上展示了更低的词错误率(WER)。据官方报告,Moonshine 的处理速度「比

文章图片
#语音识别#人工智能
Easy Voice Toolkit - 简易语音工具箱,一款强大的语音识别、转录、转换工具 本地一键整合包下载

Easy Voice Toolkit 是一个基于开源语音项目实现的简易语音工具箱,提供了包括语音模型训练在内的多种自动化音频工具,集成了GUI,无需配置,解压即用。

文章图片
#人工智能#音视频
    共 38 条
  • 1
  • 2
  • 3
  • 4
  • 请选择