logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Qwen3-TTS 今夕整合版 支持多人小说配音 多人交谈 多人播客 预设音色、语音克隆、音色设计、阅读APP接入、字幕配音、字幕整理、发音覆盖与音色库管理

Qwen3-TTS今夕整合版是基于官方Qwen3-TTS的二次开发版本,主要优化了便携性、中文界面和功能扩展。该版本支持多人配音、语音克隆、音色设计等功能,推荐使用N卡(8G显存)运行,也兼容A/I卡和CPU模式(需16G内存)。整合包采用单入口启动设计,新增阅读API接口、音色库管理、字幕配音等实用功能,并优化了低配设备的兼容性。主要改进包括:中文化界面、便携式文件管理、环境自动检测、CPU安全

文章图片
OmniVoice tts优化版一键包 低配置可用最低支持3G显卡 文本转语音 配音系统 语音克隆 音色设计 无需上传参考音频 可控制停顿 叹息 笑声 附带源码

OmniVoice TTS优化版是一款支持低配置的文本转语音系统(最低3G显卡),具备语音克隆和音色设计功能。主要特点包括:支持多语言文本输入;无需参考音频即可通过指令设计音色(控制性别/年龄/方言等);支持非语言标签(笑声/叹息);提供细粒度发音控制。系统包含命令行工具和Python API,支持单条/批量推理及二次开发。项目优势在于多语言覆盖广、克隆质量高、推理速度快,适合本地部署。提供包含源

文章图片
#音视频
OmniVoice今夕版文本转语音、语音克隆、音色设计、自动音色、字幕配音、多人小说剧本 漫画配音 生成、一键绑定音色 电影漫剧配音生成 多音字发音 音色库管理 阅读APP接入

OmniVoice今夕定制版升级为中文本地工作台,核心新增多角色字幕配音功能,支持识别角色名并分配不同音色,实现小说、剧本、漫画等多媒体内容的批量配音。提供两种模式:角色识别配音和纯字幕顺序配音,配套增强音色库管理、发音覆盖、API接口等功能。升级重点从单条文本转换转向完整配音工作流,提升多角色项目的制作效率,适合实际配音需求。

文章图片
multitts离线语音包更新2025-11-29

Multitts离线语音包2025-11-29更新版已发布,包含全新语音库与优化功能。用户可通过夸克网盘下载(链接:https://pan.quark.cn/s/372fe1a89a56),更新包提供图片预览功能便于查看内容。该版本提升了语音合成质量与运行效率,适合需要本地化语音服务的用户使用。文件大小及详细更新说明请参见下载页面。

文章图片
MSST-WebUI:免费开源 AI 人声分离神器,吊打 UVR

MSST-WebUI是一款开源的音乐源分离工具,提供网页界面进行模型推理和流程定制。支持MSST和VR模型处理,内置SOME、Ensemble等实用工具。系统要求Windows 10及以上,推荐NVIDIA显卡(4G显存起)。安装需注意路径无中文,首次启动需管理员权限。特色功能包括增量更新、多模型管理、API/CLI支持等。提供百度网盘和Quark云盘下载渠道,完全免费开源。使用时需关闭网页翻译功

文章图片
#人工智能
音谷 今夕自用版 智能配音全面升级:LLM 台词解析与角色匹配精度再突破 github 开源软件

本次升级聚焦三大核心目标:易用性、智能化和可控性,全面优化用户体验与系统稳定性。主要升级内容包括:1)增强播放与调试能力,新增后台听书保活策略和媒体调试日志;2)升级智能匹配功能,采用两阶段匹配算法并增加结果预览;3)优化台词拆分逻辑,重写LLM提示词提升准确性;4)改进音色管理,增强标签拆分与批量导入功能。特别推荐使用Electron桌面端以获得完整的本地文件操作能力,并建议在智能匹配前先执行音

文章图片
#人工智能#AI配音
indextts api启动接口 源码 IndexTTS API 是一套基于本地部署的语音合成接口,支持文本转语音、音色选择、语速调节等功能,启动后可通过 HTTP 请求调用

IndexTTSAPI是一款本地部署的语音合成接口,支持通过HTTP请求实现文本转语音功能。主要特性包括音色选择、语速调节(0.5-2.0)和多种输出格式(wav/mp3/base64)。服务可通过Windows整合包(运行API.bat)或手动命令(python api.py)启动,默认监听7860端口。调用时需POST请求/api/tts接口,包含文本内容和可选参数。Python示例代码展示了

文章图片
#http#网络协议#网络
VoxCPM2 免费可商用 可控声音克隆+多语言TTS 48kHz高保真语音合成神器 源码+一键包 解压即用

VoxCPM2是一款基于连续表征的多语言语音合成系统,采用20亿参数的扩散自回归架构,直接生成48kHz高质量音频。该系统支持30种语言和9种中文方言,具备音色设计、可控声音克隆和极致克隆功能,可通过自然语言描述创建全新音色或还原声音细节。VoxCPM2在NVIDIA RTX4090上实现实时流式合成(RTF~0.3),支持SFT和LoRA微调,并兼容Nano-vLLM加速。作为完全开源项目(Ap

文章图片
LM Studio切换模型目录 LM Studio自定义模型目录

LMStudio模型目录迁移指南 本文介绍了4种将LMStudio默认模型存储路径(系统盘)迁移到其他目录的方法:1)图形界面设置(新版);2)修改配置文件;3)创建符号链接(推荐);4)设置环境变量。详细说明了Windows/macOS/Linux各平台的操作步骤,包括配置文件路径、命令示例和常见问题解决方法。迁移后可释放系统盘空间,统一管理模型文件,提升使用体验。适用于所有平台用户,操作前需注

文章图片
qwen3.5关闭思考模式 千问3.5关闭思考模式 LM Studio 关闭 Qwen3.5 思考模式教程

本文介绍了在LM Studio中关闭模型思考模式的方法:进入模型列表后选择目标模型,点击右上角按钮,在提示词模板的第三行添加"{%-setenable_thinking=false%}"即可完成设置。操作步骤简洁明了,适用于需要禁用模型思考功能的用户。

文章图片
    共 64 条
  • 1
  • 2
  • 3
  • 7
  • 请选择