Index-TTS2

Bilibili 开源了一款文本生成语音的大模型 Index-TTS2，效果能达到影视级，特性包含：

完全本地化，开放权重
零样本语音克隆。你只需提供一个音频文件（任何语言），它将极其准确地克隆语音风格和节奏。它听起来比 MaskGCT 和 F5-TTS 这两种其他最先进的本地模型更准确。
情感可控：通过提供一个包含要模仿的情绪状态的第二个音频文件（可选），这会影响低语、尖叫、恐惧、欲望、愤怒等。这是世界首创。
情感可控（文本控制），无需第二个音频文件。您只需写出应使用的情绪。
输出时长控制（开源版本不支持），使其非常适合电影配音。这是世界首创。或者您可以在标准“自由长度”模式下运行，它会自动让音频达到必要的长度。
支持输出的文本转语音语言：英语和中文。与大多数模型类似。

Mac OS M系列机器本地运行

用官方仓库 + uv 创建 Python 虚拟环境 → 本地跑 Index-TTS2。

1. 安装系统依赖

1
2
3
4
5


# 安装 Homebrew（若未安装）
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
# 基础工具
brew install git git-lfs ffmpeg
git lfs install

2. 克隆官方仓库 + 创建 Python 环境（用 uv）

1
2
3
4
5
6
7
8
9


git clone https://github.com/index-tts/index-tts.git
cd index-tts
git lfs pull

# 安装 uv（官方推荐；pip 安装也行）
pip3 install -U uv

# 同步项目依赖（会在 .venv 下创建虚拟环境）
uv sync --all-extras

这一步我遇到了报错：

1
2
3


× Failed to build deepspeed==0.17.1
├─▶ The build backend returned an error
╰─▶ Call to setuptools.build_meta:__legacy__.build_wheel failed (exit status: 1)

AI 给出的处理方案：

1
2
3


uv add py-cpuinfo
uv pip install py-cpuinfo
uv sync --all-extras

注意：官方 README 强烈建议用 uv，并提供 –all-extras、镜像及诊断脚本；非 uv 装法出现问题官方不受理。

3. 下载模型权重

1
2
3
4


uv tool install "huggingface_hub[cli]"
hf download IndexTeam/IndexTTS-2 --local-dir=checkpoints
# （网络慢可设置镜像）
export HF_ENDPOINT="https://hf-mirror.com"

4. 快速验证

1
2


uv run webui.py
# 打开 http://127.0.0.1:7860

运行效果

其他

社区反馈Mac上运行存在内存泄漏并给出了解决办法： https://github.com/index-tts/index-tts/issues/414 ，即在运行前执行以下命令，也可以直接加到 .bash_profile 或是 .zshrc 中

1
2
3


export PYTORCH_ENABLE_MPS_FALLBACK=1
export PYTORCH_MPS_LOW_WATERMARK_RATIO=0.6
export PYTORCH_MPS_HIGH_WATERMARK_RATIO=0.8