Index-TTS2
Bilibili 开源了一款文本生成语音的大模型 Index-TTS2,效果能达到影视级,特性包含:
- 完全本地化,开放权重
- 零样本语音克隆。你只需提供一个音频文件(任何语言),它将极其准确地克隆语音风格和节奏。它听起来比 MaskGCT 和 F5-TTS 这两种其他最先进的本地模型更准确。
- 情感可控:通过提供一个包含要模仿的情绪状态的第二个音频文件(可选),这会影响低语、尖叫、恐惧、欲望、愤怒等。这是世界首创。
- 情感可控(文本控制),无需第二个音频文件。您只需写出应使用的情绪。
- 输出时长控制(开源版本不支持),使其非常适合电影配音。这是世界首创。或者您可以在标准“自由长度”模式下运行,它会自动让音频达到必要的长度。
- 支持输出的文本转语音语言:英语和中文。与大多数模型类似。
Mac OS M系列机器本地运行
用官方仓库 + uv 创建 Python 虚拟环境 → 本地跑 Index-TTS2。
1. 安装系统依赖
1
2
3
4
5
|
# 安装 Homebrew(若未安装)
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
# 基础工具
brew install git git-lfs ffmpeg
git lfs install
|
2. 克隆官方仓库 + 创建 Python 环境(用 uv)
1
2
3
4
5
6
7
8
9
|
git clone https://github.com/index-tts/index-tts.git
cd index-tts
git lfs pull
# 安装 uv(官方推荐;pip 安装也行)
pip3 install -U uv
# 同步项目依赖(会在 .venv 下创建虚拟环境)
uv sync --all-extras
|
这一步我遇到了报错:
1
2
3
|
× Failed to build deepspeed==0.17.1
├─▶ The build backend returned an error
╰─▶ Call to setuptools.build_meta:__legacy__.build_wheel failed (exit status: 1)
|
AI 给出的处理方案:
1
2
3
|
uv add py-cpuinfo
uv pip install py-cpuinfo
uv sync --all-extras
|
注意:官方 README 强烈建议用 uv,并提供 –all-extras、镜像及诊断脚本;非 uv 装法出现问题官方不受理。
3. 下载模型权重
1
2
3
4
|
uv tool install "huggingface_hub[cli]"
hf download IndexTeam/IndexTTS-2 --local-dir=checkpoints
# (网络慢可设置镜像)
export HF_ENDPOINT="https://hf-mirror.com"
|
4. 快速验证
1
2
|
uv run webui.py
# 打开 http://127.0.0.1:7860
|

其他
社区反馈Mac上运行存在内存泄漏并给出了解决办法: https://github.com/index-tts/index-tts/issues/414 ,即在运行前执行以下命令,也可以直接加到 .bash_profile 或是 .zshrc 中
1
2
3
|
export PYTORCH_ENABLE_MPS_FALLBACK=1
export PYTORCH_MPS_LOW_WATERMARK_RATIO=0.6
export PYTORCH_MPS_HIGH_WATERMARK_RATIO=0.8
|