Advertisement

布朗语料库(Brown Corpus)- 数据集

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
布朗语料库是一份经典英语文本数据集,包含50万单词的美国英语样本,按主题和文体分类,为语言分析、模型训练等提供基础资源。 布朗语料库是美国英语的首个文本语料库,它取自不同主题的报纸、书籍以及政府文件,包含1,014,312个单词。该语料库主要用于语言建模,并提供了cats.csv、brown-meta.json和brown.csv等数据文件。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • Brown Corpus)-
    优质
    布朗语料库是一份经典英语文本数据集,包含50万单词的美国英语样本,按主题和文体分类,为语言分析、模型训练等提供基础资源。 布朗语料库是美国英语的首个文本语料库,它取自不同主题的报纸、书籍以及政府文件,包含1,014,312个单词。该语料库主要用于语言建模,并提供了cats.csv、brown-meta.json和brown.csv等数据文件。
  • 与LOB
    优质
    本简介探讨布朗语料库和LOB语料库,二者均为英语语言研究中的重要资源。尽管同为文本集合,但它们在构建目的、内容及应用范围上有所不同。 Brown语料库是世界上首个计算机可读的语料库,它收录了1961年美国英语出版物中的文本,共包含500篇文档,每篇文章约2000个单词,总共有大约100万单词。LOB语料库则是模仿Brown语料库的比例构建而成的一个英国英语语料库,其数据同样来源于1961年的英国英文出版物上的文本内容,也包括了500篇文档和总计约一百万个词的规模。值得注意的是,Brown语料库中的词汇带有词性标记信息;而LOB语料库则没有提供这样的标注信息。
  • 与LOB的更新
    优质
    本文探讨了布朗语料库和LOB语料库的最新发展与更新情况,分析其在语言学研究中的应用价值。 之前有网友反映积分过高,现上传更新版本的语料库文件。这次提供的格式比之前的更丰富,并且为了让更多人受益,积分设置得较低,请大家下载并反馈问题。 另外,如果有需要只包含15个文件而不是全部500个文件的Brown语料库版本的话,也欢迎提出需求。
  • DGK_Lost_Conv:中文对话 Chinese Conversation Corpus
    优质
    DGK_Lost_Conv是一款专注于中文对话的研究工具,提供丰富的语料资源,助力自然语言处理领域的学者和开发者深入研究中文对话系统。 dgk_lost_conv包含中文对话语料库,可用于训练聊天机器人。以下是相关文件及其大小: - dgk_shooter_z.conv:110MB(已分词) - dgk_shooter_min.conv:按字分词 - lost.conv:1.7MB - fanzxl.conv:2.3MB - fk24.conv:4.5MB - haosys.conv:1.3MB - juemds.conv:793KB - laoyj.conv:1.5MB - prisonb.conv:543KB 内部方法包括: - 使用asstosrt命令,参数为-s utf-8 - 执行ass和srt相关操作后运行cvgen.py生成.conv文件 特别的shooter73g需要进入shooterwp目录,在该目录下解压mirror.x到rawbase下面,并执行sel.sh脚本。之后在跟目录下进行fixco重写操作。
  • WikiQA
    优质
    WikiQA语料库数据集是由微软亚洲研究院创建的一个问题回答数据集,包含大量来自维基百科的文章片段和相关问题对,用于评估机器阅读理解和问答系统性能。 WikiQACorpus数据集是一个用于NLP项目的测试集,可用于训练与测试。
  • 中文聊天对话 Chinese Chatbot Corpus
    优质
    《中文聊天对话语料库》是一款专为语言研究者和开发者设计的数据集,收录了大量真实、自然的中文对话文本,旨在促进中文语境下的自然语言处理技术发展。 该项目是对市面上现有开源中文聊天语料进行搜集与系统化整理的工作成果。库内收录了包括chatterbot、豆瓣多轮对话、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料和小黄鸡语料在内的八种常用闲聊数据及短信等其他类型的聊天记录,并对其进行了统一化处理,使这些资料可以直接用于初步研究或开发工作。 使用此项目可以一次性完成所有聊天数据的下载与预处理,无需自行搜集并分别进行格式转换。环境要求为Python 3版本。 具体来说,各个来源的数据将按照原有格式提取出来,并将其繁体字转换成简体字形式后统一整理成为一轮轮对话的形式。使用方法是解压raw_chat_corpus文件夹至当前目录下(该文件夹包含语言处理管道、原始聊天语料集等),然后运行main.py脚本即可。 项目执行完毕之后,每个来源的语料将以独立*.tsv格式文件形式保存在clean_chat_corpus新生成的文件夹中。这些结果以每行一个样本的方式呈现,每条记录包括query和answer两个部分。 最后提到的是对于聊天机器人方向实践的一些参考意见,主要涵盖了人格设定、敏感词处理等实际产品化过程中可能遇到的问题及解决方案。该项目为非商业性质项目,若存在版权问题,请通过适当渠道反馈。
  • TED平行
    优质
    TED平行语料库数据集是由来自世界各地TED演讲的双语或多语文本和音频组成的大规模语言资源数据库。 TED平行语料库是一个包含多语言并行语料库和单语语料库的资源集合。该语料库从109种世界语言中提取数据,并且包括超过1.2亿个句子对,这些句子已经过对齐处理。所有的预处理工作都是自动完成的。
  • 言可接受性-
    优质
    语言可接受性语料库-数据集包含大量经人工评判的语言结构实例,旨在研究人类语言使用的规范性和创造性,为自然语言处理和理论语言学提供宝贵资源。 《语言可接受性语料库》由纽约大学提供。该数据集包含以下文件:CoLA_original.zip、CoLA_test.tsv、CoLA_dev.tsv 和 CoLA_train.tsv。
  • 康奈尔大学电影对话Cornell Movie-Dialogs Corpus
    优质
    康奈尔大学电影对话语料库(Cornell Movie-Dialogs Corpus)是一个包含丰富电影对话数据的数据集,为自然语言处理和机器学习研究提供重要资源。 康奈尔大学的电影对白语料库(Cornell Movie-Dialogs Corpus)是一个包含丰富对话数据的数据集。