Advertisement

西班牙语语料库-数据集

  • 5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:ZIP


简介:
此数据集包含57个文本文件,每个文件均按XML格式组织,其中每个文件均包含多个按照XML格式组织的Wikipedia文章。在这些文件的开头部分,通常会包含与文章相关的元数据。此外,在这些文件的开头部分,通常会包含与文章相关的元数据。例如,每个条目都有一个唯一的标识符以及对应的标题信息。每个条目中的文本段落旁均有附加标记。在每篇Wikipedia文章的末尾处,都会出现特定的文字标志END_OFARTICLE,通常位于结束标记前。需要注意的是,在文件路径部分,应特别关注以下内容:120 Million Word Spanish Corpus_datasets.txt

全部评论 (0)

还没有任何评论哟~
客服
客服
  • 西-
    优质
    此数据集包含57个文本文件,每个文件均按XML格式组织,其中每个文件均包含多个按照XML格式组织的Wikipedia文章。在这些文件的开头部分,通常会包含与文章相关的元数据。此外,在这些文件的开头部分,通常会包含与文章相关的元数据。例如,每个条目都有一个唯一的标识符以及对应的标题信息。每个条目中的文本段落旁均有附加标记。在每篇Wikipedia文章的末尾处,都会出现特定的文字标志END_OFARTICLE,通常位于结束标记前。需要注意的是,在文件路径部分,应特别关注以下内容:120 Million Word Spanish Corpus_datasets.txt
  • WikiQA
    优质
    WikiQA语料库数据集是由微软亚洲研究院创建的一个问题回答数据集,包含大量来自维基百科的文章片段和相关问题对,用于评估机器阅读理解和问答系统性能。 WikiQACorpus数据集是一个用于NLP项目的测试集,可用于训练与测试。
  • 言可接受性-
    优质
    语言可接受性语料库-数据集包含大量经人工评判的语言结构实例,旨在研究人类语言使用的规范性和创造性,为自然语言处理和理论语言学提供宝贵资源。 《语言可接受性语料库》由纽约大学提供。该数据集包含以下文件:CoLA_original.zip、CoLA_test.tsv、CoLA_dev.tsv 和 CoLA_train.tsv。
  • TED平行
    优质
    TED平行语料库数据集是由来自世界各地TED演讲的双语或多语文本和音频组成的大规模语言资源数据库。 TED平行语料库是一个包含多语言并行语料库和单语语料库的资源集合。该语料库从109种世界语言中提取数据,并且包括超过1.2亿个句子对,这些句子已经过对齐处理。所有的预处理工作都是自动完成的。
  • 西风力发电.rar
    优质
    该文件包含有关西班牙风力发电行业的详细数据和统计信息,包括但不限于装机容量、发电量、地理分布及发展趋势等。 西班牙某地的电厂数据包括平均温度、最高最低温度、湿度、气温、风力等级以及天气情况等因素,并记录了该电厂的发电量,总共有一万多条数据。
  • 布朗(Brown Corpus)-
    优质
    布朗语料库是一份经典英语文本数据集,包含50万单词的美国英语样本,按主题和文体分类,为语言分析、模型训练等提供基础资源。 布朗语料库是美国英语的首个文本语料库,它取自不同主题的报纸、书籍以及政府文件,包含1,014,312个单词。该语料库主要用于语言建模,并提供了cats.csv、brown-meta.json和brown.csv等数据文件。
  • 马来:马来西亚马来文本资,https://malaya.readthedocs.io/en/latest/Dataset.html...
    优质
    这是一个专为马来西亚设计的马来语文本数据集合,提供丰富的语言资源用于自然语言处理研究和应用开发。详情请参阅文档页面。 我们收集了马来西亚语料库,并将其存储在一个不断更新的存储库中。 对于新闻、文章及字幕的数据采集,我们会使用搜寻器工具来获取所需内容;而对于Bahasa语言数据,则主要依靠Google翻译进行处理。 在社交媒体方面,通过爬虫技术从Twitter、Facebook和Instagram等平台抓取实时信息,并利用Elasticsearch查询功能进行搜索整理。此外,在语音数据的收集上,我们采用2013年版Macbook Air配备的标准有线麦克风设备录制音频文件,内容主要基于Bahasa维基百科随机文本阅读。 整个过程中,语言学家团队会全程监督以确保高质量的数据采集效果,并采取词汇学习、不足补强及自信提升等方法进行迭代优化。最终的成果将依据知识共享署名4.0国际许可协议发布,允许研究者下载Malay-Dataset用于学术研究工作。
  • 斯坦福自然言推理(SNLI)
    优质
    斯坦福自然语言推理(SNLI)数据集是一个大规模的人工标注文本对集合,用于评估机器理解人类语言的能力。 SNLI语料库(1.0版)包含570k个人工编写的英语句子对,并且这些句子对经过手动标注以实现平衡分类,带有“蕴涵”、“矛盾”和“中性”三种标签,用于支持自然语言推理任务,也称为识别文本蕴含。该数据集可以应用于知识图谱推理、长短期记忆神经网络的研究领域。此语料库由斯坦福大学自然语言处理小组创建。
  • _手_字手
    优质
    这是一个专门收集和整理的手语数字表达的数据集合,旨在为研究者、开发者以及聋人社区提供一个标准化的资源库,促进手语识别技术的发展与应用。 手语数字数据集用于训练分类SVM模型。
  • 人民日报——更新通知
    优质
    本数据集为人民日报语料库的定期更新版本,包含最新的新闻文章和评论,旨在支持自然语言处理研究与应用。 这个语料库自带分词功能。