Advertisement

当代汉语语料库

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
《当代汉语语料库》是一部全面收录现代汉语口语和书面语材料的大规模数据库,为语言学研究、自然语言处理等领域提供了宝贵资源。 语言研究所公开的现代汉语语料库包含了通过查询3500个常用汉字后清洗去重的数据集合。该数据集共有554,026行,解压后的大小约为93.8M,并且包含分词和词性标注信息。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • 优质
    《当代汉语语料库》是一部全面收录现代汉语口语和书面语材料的大规模数据库,为语言学研究、自然语言处理等领域提供了宝贵资源。 语言研究所公开的现代汉语语料库包含了通过查询3500个常用汉字后清洗去重的数据集合。该数据集共有554,026行,解压后的大小约为93.8M,并且包含分词和词性标注信息。
  • 美国(COCA)
    优质
    美国当代语料库(COCA)是涵盖口语、小说、新闻等领域的大型英语语言数据库,包含超过4.5亿单词的文本数据,为语言研究和教学提供强有力的支持。 COCA(美国当代语料库)是从美国人日常生活中接触到的所有文字信息中处理并提取出来的最高使用频率的单词表。
  • 的分词
    优质
    《汉语的分词语料库》是一部汇集大量经过人工标注的现代标准汉语语料文本的工具书,旨在为自然语言处理、机器翻译等领域提供支持。 CTB6汉语分词语料库可以用于进行分词任务。
  • CASIA情感
    优质
    CASIA汉语情感语料库是由中国科学院自动化研究所构建的一个大型汉语文本情感分析资源库,包含丰富的情感标注数据,旨在促进自然语言处理领域内的研究与应用。 可用于情绪语音识别的中文语料库。
  • 美国COCA20000词频表
    优质
    本资源提供美国COCA当代英语语料库中前20000高频词汇列表,涵盖口语、新闻等多领域用语,适合语言学习者掌握实用表达。 文件夹包括:COCA20000.pdf(PDF格式词频表);美国当代英语语料库20000词频表.xlsx(EXCEL格式,支持导入到单词软件)。
  • CASIA情感.zip
    优质
    《CASIA汉语情感语料库》是由中国科学院自动化研究所构建的一个大规模汉语文本情感分析资源,包含丰富的情感标注数据,适用于研究与开发自然语言处理中的情感计算技术。 该数据库由中国科学院自动化研究所录制。录音由4位演员(2男2女)在纯净的录音环境中完成,信噪比约为35dB。每位演员分别以高兴、悲哀、生气、惊吓和中性五种情感演绎了500句文本,采样率为16kHz,量化为16bit。经过听辨筛选后,最终保留9,600句话。
  • 兰卡斯特(LCMC)
    优质
    简介:兰卡斯特汉语语料库(LCMC)是由英国兰卡斯特大学开发维护的一个全面、详实的现代汉语语料数据库,旨在为语言学者及学习者提供宝贵的汉语研究资源。 LCMC语料库是一个包含100万词次(按每1.6个汉字对应一个英文单词折算)的现代汉语书面语通用型平衡语料库。最初建立时,它是英国经社研究委员会资助项目“Contrasting Tense and Aspect in English and Chinese”的一部分成果。肖忠华最初的设想是将其建成与FLOB和FROWN相对应的现代汉语语料库。另一个推动创建这个语料库的原因在于:尽管已经存在许多汉语语料库,但没有一个完全免费且对公众开放的平衡型汉语语料库。
  • 音情感(CASIA)9600条.rar
    优质
    该资源为“汉语语音情感语料库(CASIA)”,包含9600条语音样本,每条样本均标注有相应的情感标签,适用于语音情感识别研究。 该数据集用于语音情感分析的训练数据库,并可应用于机器学习和深度学习领域。此数据集来源于CASIA语料库,仅限于学术研究使用。
  • 美国完整版20000词频表.xlsx
    优质
    本文件为《美国当代英语语料库完整版20000词频表》,详列了2万条最常用的美式英语词汇及其频率,是语言学习与研究的宝贵资源。 美国当代英语语料库20000词频表完整版包含词性信息。建议优先背诵口语常用词汇,适合希望通过提高英语口语水平和实际交流能力的学习者使用。
  • 美国COCA词频前20000(含常用格式)
    优质
    本资源提供美国当代英语语料库(COCA)中词频最高的前20,000词汇及其常见用法,涵盖各类文本格式,是学习和研究英语语言的理想工具。 美国当代英语语料库COCA词频20000高频词汇的格式包括pdf、word文档、txt和excel文档。