
中英对照语料库(含八万句子对)
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本资料集提供一个包含八万句对的中英对照语料库,适用于翻译研究与语言学习者。每条记录均精心校对,确保准确无误。
共包含8400多对中英句子,已进行预处理工作,中文部分使用jieba进行了分词处理,并且标点符号已经过校正。这些数据保存在en-zh.csv文件中,字段间以制表符\t作为分隔符(而非默认的逗号)。虽然语料库包括大量长句,但裁剪后仍有5万对句子足够使用。原始数据集中包含一个名为en-zh_News.tmx的部分存在一些问题的数据段落,在生成en-zh.csv文件时已将其过滤掉。此外还附赠了预处理该语料的程序(propressor.py)以及适用于PyTorch框架中的相关实现代码(LangData.py)。如果有任何可以改进的地方,欢迎提出建议。
全部评论 (0)
还没有任何评论哟~


