最新 IndexTTS2 本地部署和使用

IndexTTS2是哔哩哔哩推出的开源语音生成大模型，相比于早期版本的IndexTTS，IndexTTS2在情感表达的细腻度与时长控制的精准性方面有了很大的提升。

beilingcc

2429人浏览 · 2025-09-11 14:34:44

beilingcc · 2025-09-11 14:34:44 发布

IndexTTS2是哔哩哔哩推出的开源语音生成大模型，相比于早期版本的IndexTTS，IndexTTS2在情感表达的细腻度与时长控制的精准性方面有了很大的提升。下面教大家怎么在本地部署和使用IndexTTS2

一、下载源码

最低配置要求：6GB 显存 + 16GB 内存。低配置生成速度会较慢，推荐显存≥8GB

安装Git
访问下载地址：https://git-scm.com/downloads
运行下载的安装程序，全程点击 “Next” 使用默认配置即可

安装Git LFS ：Git LFS 是 Git 的一个扩展，用于高效地处理大文件（比如图片、视频、模型文件等）

git lfs install

下载源码

# 切换到你想存放源码的目录
cd E:\Python

# 拉取代码，并且重命名文件夹为 indextts2
git clone https://github.com/index-tts/index-tts.git indextts2 

# 切换到 indextts2 目录
cd indextts2

# 下载仓库里LFS管理的文件
git lfs pull

二、安装依赖

安装 uv 包管理器

# 安装 uv 包管理器
powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"

# 验证是否安装成功：重新打开一个powershell窗口执行
uv --version

Windows环境下建议注释掉 deepspeed，保证能顺利安装
deepspeed 依赖大量底层 CUDA / 编译工具链（如 ninja、gcc、PyTorch 扩展编译）
Windows 的编译环境不如 Linux 完善，容易出现路径、依赖、版本冲突等问题

修改indextts2/pyproject.toml，搜索deepspeed，将以下两处注释掉

安装依赖

uv python install 3.10      # 安装python解释器，指定版本，项目要求>=3.10
uv python pin 3.10          # 项目锁定版本
uv venv                     # 创建虚拟环境
uv sync --all-extras --default-index "https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple"        # 安装项目依赖，并指定使用清华的镜像

耐心等待，光torch就3.22G了

三、下载IndexTTS2模型

可以从用国内的 modelscope下载模型。也可以从国外的 huggingface下载模型（需要梯子）

国内modelscope

# 安装可执行的命令行工具 modelscope
uv tool install "modelscope"

# 执行命令前确保目录是在indextts的工程目录下，这样才会把模型下到工程目录里的checkpoints下面，比如我的：(base) PS E:\Python\indextts2>

# 下载IndexTTS2模型，并且指定下载到checkpoints目录
modelscope download --model IndexTeam/IndexTTS-2 --local_dir checkpoints

耐心等待，模型文件有好些个G

国外huggingface

# 安装可执行的命令行工具 huggingface_hub,并且同时安装其可选的、用于命令行功能的额外依赖（cli）
uv tool install "huggingface_hub[cli]"

hf download IndexTeam/IndexTTS-2 --local-dir=checkpoints

四、运行项目

# 检查本机环境的CUDA和GPU是否可用
uv run tools/gpu_check.py

# 运行WebUI
uv run webui.py

运行项目

五、使用IndexTTS2

打开浏览器访问http://127.0.0.1:7860

三步克隆声音
1、上传一段参考声音
2、输入要合成的文本，点击生成语音
3、下载声音

IndexTTS2这次新增了四种情感控制方式，可以实现音色与情感的独立控制。

与音色参考音频相同（默认）：默认的方式，直接使用你上传的音色参考音频中所包含的情感特征。
使用情感参考音频：上传一段包含目标情感的音频作为参考，模型会提取该音频的情感特征来生成语音。
使用情感向量控制：通过输入特定的情感参数来直接控制生成语音的情感倾向。
使用情感描述文本控制：直接输入文本描述（如“开心”、“悲伤”、“愤怒”等）来引导模型生成具有相应情感倾向的语音。

以上就是 IndexTTS2 主要功能的介绍，大家可以上手试试，祝大家玩得愉快！

👉 关注【北灵聊AI】，解锁AI前沿动态与技术干货，每天进步一点点！

北京朝阳AI社区

更多推荐

python从入门到精通书籍

Python语言的优势与适用场景Python作为一门高级编程语言，凭借其简洁明了的语法结构和强大的功能库，已成为初学者和专业开发者的首选工具。其设计哲学强调代码的可读性和简洁性，使得即便没有编程基础的人也能快速上手。Python支持多种编程范式，包括面向对象、函数式和过程式编程，这种灵活性让它能够适应不同的开发需求。在数据科学、人工智能、网络开发和自动化脚本等领域，Python都展现出了卓越的性能

北京朝阳AI社区

C++与人工智能框架

重新排列范围，使得指定位置的元素等于排序后的元素，并且左边的元素都不大于它，右边的元素都不小于它。算法的原理是 “覆盖” 要删除的元素，将保留的元素移到前面，返回新的逻辑尾迭代器，但。对范围内的每个元素应用一个函数，并将结果存储在另一个范围内。移除范围内连续的重复元素，返回新的逻辑结尾迭代器。旋转范围内的元素，使中间元素成为新的第一个元素。这些算法不会改变它们所操作的容器中的元素。这些算法会修改它

北京朝阳AI社区

机器学习与人工智能

python# 创建基类# 定义一对多关系# 定义多对一关系# 定义多对多关系（通过关联表）# 关联表（用于多对多关系）SQLAlchemy ORM提供了强大而灵活的数据库操作方式，通过本文的介绍，您应该能够：安装和配置SQLAlchemy定义数据模型和关系执行基本的CRUD操作构建复杂查询管理数据库事务遵循最佳实践SQLAlchemy还有更多高级特性，如混合属性、事件监听、自定义查询等，值得进一