Advertisement

英语词性标注语料库

  • 5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
英语词性标注语料库是一个包含大量已标注词性的英文文本集合,用于训练和评估自然语言处理系统中词性标注器的性能。 英文分词语料库包含198796行数据,每个单词都附有词性标注,并且每句话的结尾都有句号,便于处理。该语料覆盖了大多数主流行业的内容。例如:Newsweek/NNP, / trying/VBG to/TO keep/VB pace/NN with/IN rival/JJ Time/NNP magazine/NN, / announced/VBD new/JJ advertising/NN rates/NNS for/IN 1990/CD and/CC said/VBD it/PRP will/MD introduce/VB a/DT new/JJ incentive/NN plan/NN for/IN advertisers/NNS. /

全部评论 (0)

还没有任何评论哟~
客服
客服
  • 优质
    英语词性标注语料库是一个包含大量已标注词性的英文文本集合,用于训练和评估自然语言处理系统中词性标注器的性能。 英文分词语料库包含198796行数据,每个单词都附有词性标注,并且每句话的结尾都有句号,便于处理。该语料覆盖了大多数主流行业的内容。例如:Newsweek/NNP, / trying/VBG to/TO keep/VB pace/NN with/IN rival/JJ Time/NNP magazine/NN, / announced/VBD new/JJ advertising/NN rates/NNS for/IN 1990/CD and/CC said/VBD it/PRP will/MD introduce/VB a/DT new/JJ incentive/NN plan/NN for/IN advertisers/NNS. /
  • TreeTagger:工具
    优质
    TreeTagger是一款高效精准的英文语料库处理软件,专门用于词性标注和分词等任务,广泛应用于自然语言处理领域。 TreeTagger 是一个用于英文语料库词汇标注的软件工具。
  • 与分-中文典及.zip
    优质
    本资料包包含中文词典和大规模语料库,适用于进行词性标注、分词等自然语言处理任务,是研究与开发相关应用的重要资源。 这段文字描述了使用各种词库进行分词、词性标注等自然语言处理(NLP)任务的工作内容,涉及12大类共5485个文本,总共有1127万条数据。相关工作是基于搜狗在2015年10月22日的数据和资源完成的。
  • (包含分,涵盖多个领域)
    优质
    本汉语语料库收录了广泛领域的高质量文本资料,并提供了详尽的分词与词性标注信息,便于深入研究及应用开发。 该汉语语料库包含9000多个文本,涵盖了新闻、论文、散文、小说等多种类型的内容,并且已经进行了分词和词性标注的精加工处理。
  • 中文分割与数据资
    优质
    本资料集涵盖了丰富的中文词语分割及词性标注信息,旨在为自然语言处理研究提供高质量的数据支持。 中文分词及词性标注语料库包括微软亚研院、搜狗和北京大学等多个机构的资料。
  • 美国现代六万
    优质
    《美国现代英语语料库六万词》是一部收录了当代美国英语中高频使用的约六万个词汇及其用法的工具书,为学习者和研究者提供详实的语言数据支持。 美国当代英语语料库(COCA)的频率为60000,适用于欧路、mdict等第三方词典。
  • 优质
    《英语词汇词库》是一款全面、系统化的学习工具,收录了各类场景下的常用及专业词汇,帮助用户高效扩充词汇量,提升语言运用能力。 这是一份英汉词典的词库,可以在我博客里查看源代码。
  • (8000
    优质
    《英语词汇库(8000词)》是一部全面收录基础至高级常用英语词汇的学习工具书,涵盖广泛主题和场景,适合不同水平读者扩充词汇量。 英语单词词库按照英文字母顺序排列,并且单词与词义之间用水平制表符(Tab)隔开,方便编程使用。
  • 中的LOB
    优质
    LOB(London-Oslo/Bergen)语料库是英语语言研究的重要资源,汇集了20世纪70年代英国和挪威/ Bergen出版物的语言样本。 LOB语料库创建于20世纪70年代初,由英国兰卡斯特大学、挪威奥斯陆大学以及卑尔根大学的研究人员共同编纂而成。该语料库包含一百万词次的当代英国英语文本,并与美国英语进行对比研究,使用了TAGIT系统来统计建立换算几率矩阵以提高标注正确率。 LOB语料库中的文本来自1961年出版的作品,涵盖了十五种不同的文类。每篇文档约2000字(超过2000字的文档会在第一个句子边界处截断)。每个类别中包含的文档数量有所不同。关于这些文本的具体信息可以在LOB手册中找到。 该语料库是美国英语布朗语料库在英国英语方面的对应版本,两者都包含了同一年出版的文章,以便于对比分析两种语言变体之间的差异。
  • 带音.xlsx
    优质
    《带音标的英语单词库.xlsx》是一款全面收录了大量英文单词并附有国际音标标注的电子词典资源,适用于英语学习者和教师。 英语单词库(带音标版本)包含12932条英语单词及其美英音标与中文意思,适用于个人学习使用。