
TacotronV2_Wavernn_中文版: 使用TacotronV2和Wavernn实现中文语音合成(Tensorflow...)
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本文介绍了如何使用基于TensorFlow的TacotronV2和WaveRNN模型进行高质量的中文语音合成,包括代码实现及优化。
TacotronV2与WaveRNN在2020年10月3日进行了更新,增加了微调分支并开源了中文语音数据集(女声),用于训练中文到声学特征(Mel)转换的声学模型。通过GTA模式利用已训练好的TacotronV2合成标贝语音数据集中对应的Mel特征作为WaveRNN的训练数据,在合成阶段则使用TacotronV2和WaveRNN生成高质量、高自然度的中文语音。
选取任一说话人的语音数据集,微调TacotronV2的部分参数以实现说话人转换。采用TensorFlow Serving与Flask部署了TacotronV2的中文语音合成服务。由于采用了位置敏感注意力机制,在处理长句时表现不佳(漏读、重复),尝试了一些方法来解决这一问题并加快模型收敛速度。
测试所用的tensorflow-gpu版本为1.14.0,评估其在语音合成中的效果。
全部评论 (0)
还没有任何评论哟~


