
中文文本匹配的数据集(LCQMC、BQ-Corpus、STS-B、ATEC)
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
该数据集包含四个广泛使用的中文自然语言处理任务的数据集,包括LCQMC、BQ-Corpus、STS-B和ATEC,主要用于评估模型在句子相似度及问答匹配上的性能。
LCQMC数据集是由哈工大发布的一个中文问答匹配的数据集合,包含总样本数260,068个,其中149,226个为匹配样本,110,842个为不匹配样本。
另一个相关的是中文SNLI数据集(全称:大规模中英文自然语言推理和语义相似度计算数据集),该数据集通过翻译及部分人工修正的方法从英文原版生成,旨在缓解中文自然语言推理和语义相似度计算的数据不足问题。2019年12月1日,此数据集CMNLI已被CLUE收录,并被纳入了“Chinese Multi-Genre NLI”任务中。
该数据集中训练样本格式如下:
```json
{
sentence1: 你敢不敢像拉斯柯尔尼科夫那样,勇于面对现实,拒绝那些管理小人物的琐碎规则?,
sentence2: 你会站起来揭发镇上所有的邪恶领主吗?,
gold_label: neutral
}
```
全部评论 (0)
还没有任何评论哟~


