
GAN-TTS-RepL2
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
GAN-TTS-RepL2是一种基于生成对抗网络(GAN)的技术,专注于文本到语音(TTS)转换领域,通过引入新的重复学习机制来改进模型性能和自然度。
基于生成对抗网络(GAN)的文本到语音(TTS)和语音转换(VC)在PyTorch中的实现已在甘孜进行。生成的音频样本可以在提供的Jupyter笔记本中找到。
需要注意的是,参数adversarial_streams表示了对语音质量敏感度的影响,它代表用于计算对抗损失的不同流(包括mgc、lf0、vuv、bap)。我发现只基于mgc功能来计算对抗性损失效果最佳,但要排除前几个维度。如果设定mask_nth_mgc_for_adv_loss大于零,则在计算对抗损失时会忽略mgc的第一个mask_nth_mgc_for_adv_loss个维度。例如,使用第0(和第1)个mgc进行对抗性损失的计算会影响语音质量。
基于我的经验,当设置为mask_nth_mgc_for_adv_loss = 1且对于mgc订单25来说效果良好;而对于mgc订单59则需调整参数以达到最佳结果。
全部评论 (0)
还没有任何评论哟~


