
SageMaker_语音语言识别
5星
- 浏览量: 0
- 大小:None
- 文件类型:ZIP
简介:
Amazon SageMaker 语音语言识别服务助力开发者轻松构建、训练及部署高质量的语音转文本和自然语言处理模型,适用于多种应用场景。
本项目基于 Amazon Sagemaker 实现语音语言种类识别。
准备数据:
1. 每种语言的音频约需10个小时。
2. 音频应无噪音和背景音干扰。
3. 发音者性别多样,男女比例均衡为佳。
4. 单个音频文件时长应在10至20分钟之间。
5. 文件格式要求为mp3,单声道采样率设置为22050Hz。
6. 语言命名规范:使用语言代码_性别_音频名称的格式,例如 de_f_1233444422.mp3, 其中de表示德语,f代表女性发音者,m则代表男性发音者。
7. 不同的语言前缀如de、cn等分别对应不同的语种。
数据分为训练集和测试集,并可准备一定量的噪音数据作为辅助资料。
第一步:进行数据预处理
执行 1-processing 文件夹下的 processing.ipynb 脚本段落件
第二步:模型训练
进入2-training 进行操作。
全部评论 (0)
还没有任何评论哟~


