TED平行语料库数据集

5星

浏览量: 0

大小:None

文件类型：None

简介：
TED平行语料库数据集是由来自世界各地TED演讲的双语或多语文本和音频组成的大规模语言资源数据库。 TED平行语料库是一个包含多语言并行语料库和单语语料库的资源集合。该语料库从109种世界语言中提取数据，并且包括超过1.2亿个句子对，这些句子已经过对齐处理。所有的预处理工作都是自动完成的。

全部评论 (0)

还没有任何评论哟~

客服

TED平行语料库数据集

优质

TED平行语料库数据集是由来自世界各地TED演讲的双语或多语文本和音频组成的大规模语言资源数据库。 TED平行语料库是一个包含多语言并行语料库和单语语料库的资源集合。该语料库从109种世界语言中提取数据，并且包括超过1.2亿个句子对，这些句子已经过对齐处理。所有的预处理工作都是自动完成的。

BFSU平行语料库

优质

BFSU平行语料库是由北京外国语大学建设的一个多语言对照的大型在线语料库平台，为学术研究和语言学习提供丰富的文本资源。该软件仅支持ANSI编码文本的处理，并不能兼容Unicode编码文本。对于汉语文本无需进行分词操作即可使用。在创建文件时，请根据语言类型分别采用*.ZH.txt（中文）及*.EN.txt（英文）的方式命名中英文文档，以确保识别准确无误。数据文件需严格行对齐，包括空行在内的所有内容都必须保持一致。软件不具备自动调整平行文本对应关系的功能。此外，该程序具备正则表达式检索功能，为用户提供了强大的搜索工具支持。默认情况下，系统会执行词形还原的英文查询（lemmatized search），即输入go时可以找到含有go, goes, went, going, 和gone等变体的所有平行语句。若取消选中“Lemmatized”选项，则仅搜索实际键入的内容，例如搜寻goes将只会显示包含goes的句子。此软件还支持在对应语言文本内查找含有或排除特定词项的结果，如查询 education 并且希望结果集包括（或者不包括）“教育”的句对。最后，检索得到的数据可以导出为以制表符分隔的文本段落件形式，方便进一步分析处理。

WikiQA语料库数据集

优质

WikiQA语料库数据集是由微软亚洲研究院创建的一个问题回答数据集，包含大量来自维基百科的文章片段和相关问题对，用于评估机器阅读理解和问答系统性能。 WikiQACorpus数据集是一个用于NLP项目的测试集，可用于训练与测试。

西班牙语语料库-数据集

优质

此数据集包含57个文本文件，每个文件均按XML格式组织，其中每个文件均包含多个按照XML格式组织的Wikipedia文章。在这些文件的开头部分，通常会包含与文章相关的元数据。此外，在这些文件的开头部分，通常会包含与文章相关的元数据。例如，每个条目都有一个唯一的标识符以及对应的标题信息。每个条目中的文本段落旁均有附加标记。在每篇Wikipedia文章的末尾处，都会出现特定的文字标志END_OFARTICLE，通常位于结束标记前。需要注意的是，在文件路径部分，应特别关注以下内容：120 Million Word Spanish Corpus_datasets.txt

布朗语料库（Brown Corpus）- 数据集

优质

布朗语料库是一份经典英语文本数据集，包含50万单词的美国英语样本，按主题和文体分类，为语言分析、模型训练等提供基础资源。布朗语料库是美国英语的首个文本语料库，它取自不同主题的报纸、书籍以及政府文件，包含1,014,312个单词。该语料库主要用于语言建模，并提供了cats.csv、brown-meta.json和brown.csv等数据文件。

语言可接受性语料库-数据集

优质

语言可接受性语料库-数据集包含大量经人工评判的语言结构实例，旨在研究人类语言使用的规范性和创造性，为自然语言处理和理论语言学提供宝贵资源。《语言可接受性语料库》由纽约大学提供。该数据集包含以下文件：CoLA_original.zip、CoLA_test.tsv、CoLA_dev.tsv 和 CoLA_train.tsv。

用于机器翻译的平行语料库预处理语料

优质

本研究聚焦于提升机器翻译质量的关键资源——平行语料库的预处理技术，旨在通过优化原始数据提高翻译模型的效果和效率。汉英双语语料和德英双语语料可以用来训练NMT模型，仅供学术实验使用。

斯坦福自然语言推理(SNLI)数据集语料库

优质

斯坦福自然语言推理(SNLI)数据集是一个大规模的人工标注文本对集合，用于评估机器理解人类语言的能力。 SNLI语料库（1.0版）包含570k个人工编写的英语句子对，并且这些句子对经过手动标注以实现平衡分类，带有“蕴涵”、“矛盾”和“中性”三种标签，用于支持自然语言推理任务，也称为识别文本蕴含。该数据集可以应用于知识图谱推理、长短期记忆神经网络的研究领域。此语料库由斯坦福大学自然语言处理小组创建。

人民日报语料库——数据集更新通知

优质

本数据集为人民日报语料库的定期更新版本，包含最新的新闻文章和评论，旨在支持自然语言处理研究与应用。这个语料库自带分词功能。

50部精选TED合集.docx

优质

这份文档汇集了50场精心挑选的TED演讲视频和相关资料，旨在为读者提供一个全面且多元的思想盛宴，涵盖科技、教育、设计等多个领域。我们可以应对气候变化。“倒计时”是一项全球性倡议，旨在加快解决气候危机的行动。目标是通过在2030年前将温室气体排放量减半来创造一个更美好的未来。这一切都始于2020年10月10日。#加入倒计时

是否确定退出登录?

TED平行语料库数据集

全部评论 (0)