Advertisement

THULAC:由清华大学研发的中文词法分析工具包

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:ZIP


简介:
THULAC是由清华大学开发的一款高效的中文词法分析工具包,支持精准的分词和词性标注功能,广泛应用于自然语言处理领域。 THULAC(THU Lexical Analyzer for Chinese)是由清华大学自然语言处理与社会人文计算实验室开发的一套中文词法分析工具包,具备中文分词和词性标注的功能。它具有以下几个特点: 1. **能力强**:基于世界上规模最大的人工分词和词性标注的语料库(约5800万字)训练而成,模型性能卓越。 2. **准确率高**:在标准数据集Chinese Treebank (CTB5) 上进行测试时,THULAC的中文分词F1值可达97.3%,词性标注F1值可达到92.9%,与该数据集中最好的方法效果相当。 3. **速度快**:同时执行分词和词性标注的速度为每秒处理约15万字(即300KB/s),仅进行分词时速度可达每秒处理超过1MB的数据。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • THULAC
    优质
    THULAC是由清华大学开发的一款高效的中文词法分析工具包,支持精准的分词和词性标注功能,广泛应用于自然语言处理领域。 THULAC(THU Lexical Analyzer for Chinese)是由清华大学自然语言处理与社会人文计算实验室开发的一套中文词法分析工具包,具备中文分词和词性标注的功能。它具有以下几个特点: 1. **能力强**:基于世界上规模最大的人工分词和词性标注的语料库(约5800万字)训练而成,模型性能卓越。 2. **准确率高**:在标准数据集Chinese Treebank (CTB5) 上进行测试时,THULAC的中文分词F1值可达97.3%,词性标注F1值可达到92.9%,与该数据集中最好的方法效果相当。 3. **速度快**:同时执行分词和词性标注的速度为每秒处理约15万字(即300KB/s),仅进行分词时速度可达每秒处理超过1MB的数据。
  • 库-.zip
    优质
    中文词库-中文分词.zip是由清华大学开发的一款包含丰富词汇资源及分词工具的数据包,旨在为语言研究和自然语言处理提供支持。 IT 类别有 16000 条记录 财经类别有 3830 条记录 成语类别有 8519 条记录 地名类别有 44805 条记录 历史名人类别有 13658 条记录 诗词 类别有 13703 条记录 医学类别有 18749 条记录 饮食类别有 8974 条记录 法律类别有 9896 条记录 汽车类别有 1752 条记录 动物类别有 17287 条记录
  • 优质
    清华大学近期发布了全新的中文词库,旨在为自然语言处理和人工智能研究提供更丰富、准确的语言资源。 THUOCL是由清华大学自然语言处理与社会人文计算实验室开发的一套高质量的中文词库。该词库的数据来源包括主流网站的社会标签、搜索热词以及输入法词库等。 THUOCL具有以下特点: 1. 包含了文档频率(Document Frequency)统计信息,帮助用户根据个人需求选择合适的词汇。 2. 经过多轮人工筛选和校验,确保收录的准确性。 3. 保持开放更新机制,并不断推出新的类别词表。 欢迎相关领域的专业人士加入合作建设这个开放式的中文词库。该词库可以用于提高中文自动分词的效果,在特定领域使用时建议搭配THULAC工具包以获得更好的效果。
  • thulac.models 下载
    优质
    简介:清华分词工具包(thulac)提供高效的中文文本分词功能,模型文件位于thulac.models目录下,包含预训练的语言模型和参数设置。 thulac.models 清华分词工具包 THULAC 测试可用。
  • 汇库
    优质
    简介:清华大学的中文词汇库是一个全面且系统的汉语语言资源集合,为学术研究、自然语言处理及教育提供了宝贵的数据支持。 THUOCL是由清华大学自然语言处理与社会人文计算实验室推出的一套高质量的中文词库,其词汇来源于主流网站的社会标签、搜索热词以及输入法词库等。
  • 李军褒贬义
    优质
    《清华大学李军的中文褒贬义词典》是由清华大学学者李军编著的一部全面系统地解析现代汉语词汇中褒贬色彩的专业工具书。该词典收录了大量常用及特殊词语,并详细标注每个词条在不同语境下的情感倾向,为语言学习者、研究者提供了宝贵的参考资源,对于提高中文理解和表达能力具有重要意义。 清华大学李军中文褒贬义词典包含两个文件:一个为褒义词列表,另一个为贬义词列表。该词典共收录了5568个褒义词和4470个贬义词。
  • 李军褒贬义典.zip
    优质
    《清华大学李军中文褒贬义词典》是由清华大学学者精心编纂的一部全面解析中文词汇褒贬色彩的语言工具书,适合语言学习者及研究者使用。 内含两个TXT文件,分别为褒义词和贬义词列表。例如乱离、下流、挑刺儿、憾事、日暮途穷、散漫、谗言、迂执、肠肥脑满、出卖、孱头、匪首、毒刑惨死、偏激、荒凉、东山再起、责备无赖、虚矫遂意得救稳帖谦诚赞成,这些词汇中也包括了诸如谦虚谨慎等正面描述以及患得患失不惑宰相肚里好撑船查实忠实名手这样的表达。
  • 台湾NTUSD知网情感汇集(李军褒贬义典)
    优质
    本词汇集由台湾大学NTUSD与清华大学合作整理,基于李军教授的褒贬义词典,汇集了大量用于情感分析的中文词汇及其情感倾向标注。 台湾大学的NTUSD以及知网情感分析用词语集、清华大学李军编写的褒贬义词典都是进行文本情感分析的重要资源。
  • 日照软件
    优质
    清华大学日照分析软件是由该校科研团队自主研发的一款专业软件,用于精确计算和模拟建筑日照情况,广泛应用于建筑设计、规划等领域。 安装建筑日照分析系统V3.0需要遵循以下步骤: 1. 请确保您已登录为本地机的管理员用户。 2. 在开始之前,请勿将USB锁插入计算机。 3. 关闭所有杀毒软件,然后运行相应的安装程序: - 对于简体中文版:g:\sunM4Simple\disk1\setup.exe - 对于繁体中文版:g:\sunM4Taiwan\disk1\setup.exe - 英文版则为:g:\sunM4English\disk1\setup.exe 接下来,您需要回答安装过程中出现的问题: - 输入软件系列号(请参考用户信息表)。 - 选择要将该软件安装到哪个版本的AutoCAD上(可选2000、2002、2004、2005、2006或2007版)。 - 设置安装模式,推荐使用Custom自定义模式,并配置相应的选项。 - 安装软件及其配套驱动。 完成上述步骤后,请重启计算机。然后,在USB接口上插入软件锁并确认其已正确安装: 对于Windows 98用户:在“设备管理器”的“通用串行总线控制器”部分找到SenselockSENSE4v2.0,检查该设备是否正常运行。 而对于使用Windows 2000或XP的用户,则需到“智能卡阅读器”中查找并确认Senselock SENSE4 v2.0的状态为良好。若发现任何问题,请联系计算机管理员寻求帮助解决。 最后,在桌面找到名为清华建筑日照的应用程序,点击其图标即可启动软件运行。 注意:在使用同一台电脑时,尽量不要更换USB锁的插入位置,因为Windows XP系统会记住插口上的设备历史信息;更改接口可能会导致USB锁无法正常工作。如果发现智能卡阅读器中找不到Senselock SenseIV v2.x或该设备出现问题,则表明软件锁可能没有正确安装并影响日照分析程序的功能运行。
  • 李军褒贬义典(来自).zip
    优质
    《李军中文褒贬义词典》由清华大学学者精心编纂,提供详尽的词汇褒贬色彩标注与释义,旨在帮助学习者深入理解汉语中的情感倾向。 清华大学情感词典与李军中文褒贬义词典可用于情感正负面的训练和标注。