简介:CSTR VCTK语料库是国内语音技术研究者和开发者常用的开源音讯资料库,提供多样化的英語語音数据,适用于文本到语音(TTS)系统的训练与测试。本页面提供该语料库的国内下载链接,方便研究人员获取资源。
CSTR VCTK语音克隆英语多说话人语料库工具包概述
这个CSTR VCTK语料库包含了109位以不同口音为母语的英语使用者的语音数据。每位演讲者要朗读大约400句句子,其中大部分是从报纸上挑选出来的,并且包括彩虹段落和一段旨在识别演讲者口音的启事段落。
这些报纸文本是在先驱时报集团(Herald & Times Group)许可下从格拉斯哥《先驱报》(The Herald)摘取的。每位演讲者阅读一组不同的报纸句子,每组句子都是通过贪婪算法选择的,该算法旨在最大限度地扩大上下文和语音覆盖范围。
彩虹段落和启事段落对所有演讲者都是一样的。关于这些文本的具体信息可以在国际英语方言档案(http://web.ku.edu/~idea/readings/rainbow.htm)中找到。启事段落与用于语音重音存档的段落相同,而有关语音口音档案的细节可以查阅相关文献。
所有的语音数据都是使用相同的录音设置记录的:一个全向头戴式麦克风(DPA 4035),采样频率为96kHz, 24位,在爱丁堡大学半暗室中。所有录音均转换为16位,基于STPK下采样至48 kHz,并手动端点。
该语料库的录制是为了构建基于hmm的文本-语音合成系统,特别是用于使用多个发言者训练的平均语音模型和说话人自适应技术来创建基于说话人自适应的语音合成系统。
此数据集是在开放数据共享署名许可(ODC-By) v1.0下授权使用的。
该语料库由Christophe Veaux(爱丁堡大学)、Junichi Yamagishi(爱丁堡大学)和克里斯汀•麦克唐纳共同创建,部分研究得到了EPSRC EP/I031022/1 (NST) 和EP/J002526/1 (CAF) 的资助。此外,还获得了来自RSE-NSFC的资助(61111130120)和JST CREST (uDialogue)的支持。