Tacotron 2是一款基于PyTorch框架的高质量文本转语音(TTS)系统,以其高效的超实时推理速度著称,能够快速、准确地将文字转换为自然流畅的语音。
Tacotron 2(无波网)的PyTorch实现。
此实现包括分布式处理和自动混合精度支持,并使用了NVIDIA的技术。
为了利用这些功能,请确保安装了必要的库,如NVIDIA的Apex等。
请访问我们的页面以获取我们已发布的模型生成的音频样本。
### 先决条件
- NVIDIA GPU + CUDA
- cuDNN
### 设置步骤
1. 下载并解压Tacotron 2仓库。
2. 克隆此仓库:
```
git clone https://github.com/NVIDIA/tacotron2.git
```
3. 进入该存储库目录:
```
cd tacotron2
```
4. 初始化子模块:
```
git submodule init; git submodule update
```
5. 更新.wav路径(使用sed命令)或在hp文件中进行相应的修改。例如,可以执行以下操作来更新路径:
```bash
sed -i -- s,DUMMY,ljs_dataset_folderwavs,g filelists/*.txt
```
或者直接编辑配置文件以适应实际的音频数据存储位置。