Advertisement

布朗语料库与LOB语料库

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
本简介探讨布朗语料库和LOB语料库,二者均为英语语言研究中的重要资源。尽管同为文本集合,但它们在构建目的、内容及应用范围上有所不同。 Brown语料库是世界上首个计算机可读的语料库,它收录了1961年美国英语出版物中的文本,共包含500篇文档,每篇文章约2000个单词,总共有大约100万单词。LOB语料库则是模仿Brown语料库的比例构建而成的一个英国英语语料库,其数据同样来源于1961年的英国英文出版物上的文本内容,也包括了500篇文档和总计约一百万个词的规模。值得注意的是,Brown语料库中的词汇带有词性标记信息;而LOB语料库则没有提供这样的标注信息。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • LOB
    优质
    本简介探讨布朗语料库和LOB语料库,二者均为英语语言研究中的重要资源。尽管同为文本集合,但它们在构建目的、内容及应用范围上有所不同。 Brown语料库是世界上首个计算机可读的语料库,它收录了1961年美国英语出版物中的文本,共包含500篇文档,每篇文章约2000个单词,总共有大约100万单词。LOB语料库则是模仿Brown语料库的比例构建而成的一个英国英语语料库,其数据同样来源于1961年的英国英文出版物上的文本内容,也包括了500篇文档和总计约一百万个词的规模。值得注意的是,Brown语料库中的词汇带有词性标记信息;而LOB语料库则没有提供这样的标注信息。
  • LOB的更新
    优质
    本文探讨了布朗语料库和LOB语料库的最新发展与更新情况,分析其在语言学研究中的应用价值。 之前有网友反映积分过高,现上传更新版本的语料库文件。这次提供的格式比之前的更丰富,并且为了让更多人受益,积分设置得较低,请大家下载并反馈问题。 另外,如果有需要只包含15个文件而不是全部500个文件的Brown语料库版本的话,也欢迎提出需求。
  • 中的LOB
    优质
    LOB(London-Oslo/Bergen)语料库是英语语言研究的重要资源,汇集了20世纪70年代英国和挪威/ Bergen出版物的语言样本。 LOB语料库创建于20世纪70年代初,由英国兰卡斯特大学、挪威奥斯陆大学以及卑尔根大学的研究人员共同编纂而成。该语料库包含一百万词次的当代英国英语文本,并与美国英语进行对比研究,使用了TAGIT系统来统计建立换算几率矩阵以提高标注正确率。 LOB语料库中的文本来自1961年出版的作品,涵盖了十五种不同的文类。每篇文档约2000字(超过2000字的文档会在第一个句子边界处截断)。每个类别中包含的文档数量有所不同。关于这些文本的具体信息可以在LOB手册中找到。 该语料库是美国英语布朗语料库在英国英语方面的对应版本,两者都包含了同一年出版的文章,以便于对比分析两种语言变体之间的差异。
  • (Brown Corpus)- 数据集
    优质
    布朗语料库是一份经典英语文本数据集,包含50万单词的美国英语样本,按主题和文体分类,为语言分析、模型训练等提供基础资源。 布朗语料库是美国英语的首个文本语料库,它取自不同主题的报纸、书籍以及政府文件,包含1,014,312个单词。该语料库主要用于语言建模,并提供了cats.csv、brown-meta.json和brown.csv等数据文件。
  • 当代汉
    优质
    《当代汉语语料库》是一部全面收录现代汉语口语和书面语材料的大规模数据库,为语言学研究、自然语言处理等领域提供了宝贵资源。 语言研究所公开的现代汉语语料库包含了通过查询3500个常用汉字后清洗去重的数据集合。该数据集共有554,026行,解压后的大小约为93.8M,并且包含分词和词性标注信息。
  • 搜狗
    优质
    搜狗语料库是由搜狗公司构建的大型语言数据库,收录了海量文本、对话等数据资源,广泛应用于自然语言处理及机器学习等领域。 搜狗语料库经过验证非常好用,欢迎下载使用。
  • 义知识读书笔记一
    优质
    本读书笔记聚焦于《语法语料库与语义知识库》的学习心得,探讨了语言数据处理、语法分析及语义理解等关键议题。 本段落档简要介绍了自然语言处理中的语法语料库和语义知识库的相关内容,为后续学习NLP打下基础。
  • 的分词
    优质
    《汉语的分词语料库》是一部汇集大量经过人工标注的现代标准汉语语料文本的工具书,旨在为自然语言处理、机器翻译等领域提供支持。 CTB6汉语分词语料库可以用于进行分词任务。
  • NOIZEUS音增强
    优质
    NOIZEUS语音增强语料库是一个包含各种噪声环境下清晰录音的数据集,旨在提升语音识别与通信质量,在开发和测试语音增强算法中扮演关键角色。 NOIZEUS语音增强数据压缩包包括clean 语音数据以及各种加噪的数据。
  • CASIA汉情感
    优质
    CASIA汉语情感语料库是由中国科学院自动化研究所构建的一个大型汉语文本情感分析资源库,包含丰富的情感标注数据,旨在促进自然语言处理领域内的研究与应用。 可用于情绪语音识别的中文语料库。