
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Faster Qwen3-TTS 是一个专门为实时语音合成优化的开源工具,它能在普通显卡上实现比原版 Qwen3-TTS 快数倍的推理速度,并支持语音克隆、定制声音和流式生成。提示词可以借助大模型,写出你要表达的情感,比如下面的描述:“体现撒娇稚嫩的萝莉女声,音调偏高且起伏明显,营造出黏人、做作又刻意卖萌的听觉效果”1、语音设计:可以根据文字描述设计声音,比如“温柔女声”“年轻男声”,甚至能创造全

Easy Voice Toolkit 是一个基于开源语音项目实现的简易语音工具箱,提供了包括语音模型训练在内的多种自动化音频工具,集成了GUI,无需配置,解压即用。

这是 CapsWriter-Offline ,一个 PC 端的语音输入、字幕转录工具。可用实现简单一键将音频文件转换成文字的懒人工具。

Stable Audio Tools是Stability AI 推出的AI生成音乐平台,你只需要输入描述性文本提示以及所需的音频长度(最长支持512秒即8分钟)即可生成高质量的音乐和音效。

比如你给一段配音,它能自动调整视频人物的嘴型,按照配音里的声音说出来,就像真人说话一样自然。简单说就是个让"假人说话像真人"的黑科技,拍视频、做直播的小伙伴用起来特别方便,也可广泛应用于数字人生成领域,自媒体必备神器。解压说明:一键包和模型包分开打包上传,分别下载一键包和模型包,先解压一键包,再下载模型包并复制到一键包目录下,右键->解压到当前文件夹,目录结构参考一键包内文档说明。注意事项:上传参

Flux2-klein 细节增强版 基于社区LoRA微调模型 Flux2-Klein-9B-Enhanced-Details,它能让图像的细节更丰富、更真实,尤其是皮肤、材质、毛发、小物件这些容易看起来“塑料感”的地方。和其他增强LoRA不同,Flux2-Klein-9B-Enhanced-Details能最大化保持原图一致性,只增强图像细节,尤其是人物写真皮肤细节增强,能一键转换出“汗毛及毛细血

Memo 是由南洋理工大学和新加坡国立大学主导开发的一种最先进的开放式模型,用于音频驱动的通话视频生成。这是一种端到端的音频驱动肖像动画方法,旨在生成具有身份一致性和富有表现力的口型动画视频。Memo 在各类图像和音频类型上生成更为逼真的口型动画视频,并在总体质量、音频-口型同步、身份一致性和表情-情感对齐方面优于现有的最先进方法。Memo 可以用肖像、雕塑、数字艺术和动画等图像生成会说话的视频;

Z-Image (又名Z-Image Base、Z-Image基础版)是Z-Image(造相)团队正式开源Z-Image标准版高性能图像生成模型,作为Z-Image系列的基础模型,标准版是非蒸馏的完整模型,在生成质量、风格灵活性和二次开发支持上更具优势,具备画质高、风格多样、对提示词理解精准等特点,相比加速版 Z-Image-Turbo,更注重创意自由和可扩展性。同一个提示词,每次换个种子(see

FLUX.2 [klein] 是黑森林团队最新发布的FLUX.2 [klein]模型家族,是一款速度极快、体积紧凑的图像生成与编辑模型,它能在不到一秒的时间里完成高质量的图像生成或修改,为需要实时图像生成且不牺牲画质的应用打造。”模型,这个版本只支持文生图功能(图像编辑下个版本更新),支持高清放大,支持4B和9B模型切换,支持体积更小的GGUF版本模型切换,包含更适合新手操作的WebUI和专业选手

今天分享的 GLM-Image 基于十字鱼大佬开源的WebUI和量化模型打包制作,支持文生图和图生图(图像编辑)功能,测试了下,中文文字生成确实很棒,可以用来多个行业的海报/PPT以及科普图生成,当然说明书、菜单、流程图、带字插画等生成更是不在话下。GLM-Image 目前是“中文+文字+复杂知识内容”这条赛道上,开源模型里最能打的一个,特别适合需要“看得懂又写得对”的专业场景,而不是追求极致艺术








