Advertisement

清华大学发布中文词库-中文分词.zip

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:ZIP


简介:
中文词库-中文分词.zip是由清华大学开发的一款包含丰富词汇资源及分词工具的数据包,旨在为语言研究和自然语言处理提供支持。 IT 类别有 16000 条记录 财经类别有 3830 条记录 成语类别有 8519 条记录 地名类别有 44805 条记录 历史名人类别有 13658 条记录 诗词 类别有 13703 条记录 医学类别有 18749 条记录 饮食类别有 8974 条记录 法律类别有 9896 条记录 汽车类别有 1752 条记录 动物类别有 17287 条记录

全部评论 (0)

还没有任何评论哟~
客服
客服
  • -.zip
    优质
    中文词库-中文分词.zip是由清华大学开发的一款包含丰富词汇资源及分词工具的数据包,旨在为语言研究和自然语言处理提供支持。 IT 类别有 16000 条记录 财经类别有 3830 条记录 成语类别有 8519 条记录 地名类别有 44805 条记录 历史名人类别有 13658 条记录 诗词 类别有 13703 条记录 医学类别有 18749 条记录 饮食类别有 8974 条记录 法律类别有 9896 条记录 汽车类别有 1752 条记录 动物类别有 17287 条记录
  • 优质
    清华大学近期发布了全新的中文词库,旨在为自然语言处理和人工智能研究提供更丰富、准确的语言资源。 THUOCL是由清华大学自然语言处理与社会人文计算实验室开发的一套高质量的中文词库。该词库的数据来源包括主流网站的社会标签、搜索热词以及输入法词库等。 THUOCL具有以下特点: 1. 包含了文档频率(Document Frequency)统计信息,帮助用户根据个人需求选择合适的词汇。 2. 经过多轮人工筛选和校验,确保收录的准确性。 3. 保持开放更新机制,并不断推出新的类别词表。 欢迎相关领域的专业人士加入合作建设这个开放式的中文词库。该词库可以用于提高中文自动分词的效果,在特定领域使用时建议搭配THULAC工具包以获得更好的效果。
  • 优质
    简介:清华大学的中文词汇库是一个全面且系统的汉语语言资源集合,为学术研究、自然语言处理及教育提供了宝贵的数据支持。 THUOCL是由清华大学自然语言处理与社会人文计算实验室推出的一套高质量的中文词库,其词汇来源于主流网站的社会标签、搜索热词以及输入法词库等。
  • 优质
    本词库汇集了广泛的中文词汇资源,旨在为自然语言处理和机器学习提供强大的基础支持。适合开发者、研究者使用。 最近我在研究中文分词的过程中,在网上找到了一个TXT格式的词典,并决定分享出来。这个词典对我在进行相关课题的研究时非常有帮助,因此我觉得它也可能对其他人有用。希望这份资源能够为同样关注或从事这方面工作的朋友们提供一些参考和便利。
  • 李军褒贬义典.zip
    优质
    《清华大学李军中文褒贬义词典》是由清华大学学者精心编纂的一部全面解析中文词汇褒贬色彩的语言工具书,适合语言学习者及研究者使用。 内含两个TXT文件,分别为褒义词和贬义词列表。例如乱离、下流、挑刺儿、憾事、日暮途穷、散漫、谗言、迂执、肠肥脑满、出卖、孱头、匪首、毒刑惨死、偏激、荒凉、东山再起、责备无赖、虚矫遂意得救稳帖谦诚赞成,这些词汇中也包括了诸如谦虚谨慎等正面描述以及患得患失不惑宰相肚里好撑船查实忠实名手这样的表达。
  • THUOCL:开放式
    优质
    THUOCL是由清华大学开发的大型开放式中文词库,提供丰富的语料资源和词汇信息,涵盖多个领域,适用于自然语言处理研究与应用。 THUOCL(清华大学开放中文词库)是由清华大学自然语言处理与社会人文计算实验室开发的一套高质量的中文词库。该词库包含了来自主流网站的社会标签、搜索热词及输入法词库等资源。 THUOCL具有以下特点: - 包含了文档频率统计信息DF值,方便用户根据需要个性化选择使用。 - 通过多轮人工筛选确保收录词汇的准确性。 - 持续开放更新,并不断推出更多类别词表以满足不同需求。 欢迎各界专业人士加入合作建设该开放式中文词库。 THUOCL适用于提升中文自动分词的效果。建议与本实验室开发的THULAC工具包结合使用,以进一步优化特定领域内的中文分词性能。
  • THULAC:由析工具包
    优质
    THULAC是由清华大学开发的一款高效的中文词法分析工具包,支持精准的分词和词性标注功能,广泛应用于自然语言处理领域。 THULAC(THU Lexical Analyzer for Chinese)是由清华大学自然语言处理与社会人文计算实验室开发的一套中文词法分析工具包,具备中文分词和词性标注的功能。它具有以下几个特点: 1. **能力强**:基于世界上规模最大的人工分词和词性标注的语料库(约5800万字)训练而成,模型性能卓越。 2. **准确率高**:在标准数据集Chinese Treebank (CTB5) 上进行测试时,THULAC的中文分词F1值可达97.3%,词性标注F1值可达到92.9%,与该数据集中最好的方法效果相当。 3. **速度快**:同时执行分词和词性标注的速度为每秒处理约15万字(即300KB/s),仅进行分词时速度可达每秒处理超过1MB的数据。
  • 集合,涵盖与360,内含性和频信息
    优质
    本资源为中文分词词库合集,整合了清华大学和360公司的词库精华,包含详尽的词性标注及词频数据,适用于自然语言处理研究。 中文分词词库包括清华词库、360万词库以及词库大全,这些资源以txt格式提供,并包含词性和词频信息。
  • 整理.zip
    优质
    本资源包包含了精心整理和优化的中文分词词库,适用于自然语言处理、搜索引擎及文本分析等领域。下载后解压即可使用。 提供一个包含30万个词条的中文分词词库、42537条伪原创词库以及多个其他相关文件(包括dict.txt、fingerDic.txt、httpcws_dict.txt等)。这些资源可以帮助提高文本处理效率和质量,适用于多种应用场景。如果需要获取更多详细的汉语大词库或者搜狗可用的txt格式词库,请访问特定网站下载。五笔词库解压密码为:www.5eyi.com。
  • 李军褒贬义典(来自).zip
    优质
    《李军中文褒贬义词典》由清华大学学者精心编纂,提供详尽的词汇褒贬色彩标注与释义,旨在帮助学习者深入理解汉语中的情感倾向。 清华大学情感词典与李军中文褒贬义词典可用于情感正负面的训练和标注。