
PyTorch中基于GAN的文本到语音合成与语音转换(VC)的源代码。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
甘孜州开发了一种基于生成对抗网络(GAN)的文本到语音(TTS)和语音转换(VC)系统,并使用PyTorch进行了实现。 提供的音频样本,可在Jupyter Notebook中的以下链接中查阅: 关于超级参数的详细说明,adversarial_streams参数对语音质量的敏感性较高,它代表用于计算对抗损失的流,包括mgc、lf0、vuv和bap。 利用mgc功能进行对抗性损失计算(除前几个维度外)通常表现良好。 如果mask_nth_mgc_for_adv_loss大于0,则在计算对抗损失时会忽略mgc的第一个mask_nth_mgc_for_adv_loss维度。 例如,我发现使用第0和第1个mgc来计算对抗性损失会对语音质量产生负面影响。 根据我的实践经验,设置mask_nth_mgc_for_adv_loss为25时,mask_nth_mgc_for_adv_loss = 1,对于mgc订单59,设置mask_nth_mgc_for_adv_loss为1也是一种有效的策略。
全部评论 (0)
还没有任何评论哟~


