Advertisement

中科院开发的ICTCLAS2015中文分词系统。

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
该院的中文分词系统ICTCLAS,是致力于文本挖掘研究的学界人士们普遍采用的软件工具。为了方便各位研究者,我们在此提供该软件的2015版本,并诚挚邀请大家进行下载和应用。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • ICTCLAS2015
    优质
    中科院的中文分词系统ICTCLAS2015是一款高效准确处理自然语言的核心工具,广泛应用于信息检索、文本挖掘等领域。 中科院开发的中文分词系统ICTCLAS在文本挖掘研究领域被广泛使用。这是该软件2015年的版本,欢迎各位学者下载使用。
  • LUCC
    优质
    中科院LUCC分类系统是由中国科学院主导开发的土地利用与土地覆盖变化研究框架,旨在全面分析和评估人类活动对自然环境的影响。 中科院LUCC分类体系主要用于土地利用类型的划分。
  • 工具网页版本
    优质
    中科院分词工具的网页版本是基于中文自然语言处理技术开发的一款在线分词服务应用,它支持快速、准确地对文本进行词汇划分。 中科院分词工具的网页版本是在原有工具的基础上开发出来的,可以直接使用。
  • NLPIR 2018年10月新版添加用户典及移除停用完整代码
    优质
    本段代码适用于在最新版的中科院NLPIR分词系统中,指导用户如何导入自定义词汇表并剔除不必要出现的高频无意义词汇(即停用词),以提升文本处理精度与效率。 在最新版的中科分词系统基础上进行了改进,加入了用户词典和停用词,并实现了文件无乱码读写的功能,输出了高质量的分词结果,为情感分析提供了坚实的基础。这部分内容将作为我硕士论文中数据处理基础的部分进行撰写。在此与大家分享,欢迎各位批评指正。
  • 用C语言程序
    优质
    这是一款使用C语言编写的高效中文分词工具,专门针对中文文本处理需求设计,适用于需要进行自然语言处理的各种应用场景。 包内包含中文分词作业描述、C语言源程序、可执行文件和说明文档。
  • ICTCLASC++代码
    优质
    ICTCLAS中文分词系统C++代码是基于C++编写的高效准确的中文语言处理工具包,专门用于实现中文文本的自动分词、词性标注等功能。 ICTCLAS中文分词系统采用C++编写,功能强大且表现优秀。它是目前世界上最好的分词系统之一。
  • 清华大学库-.zip
    优质
    中文词库-中文分词.zip是由清华大学开发的一款包含丰富词汇资源及分词工具的数据包,旨在为语言研究和自然语言处理提供支持。 IT 类别有 16000 条记录 财经类别有 3830 条记录 成语类别有 8519 条记录 地名类别有 44805 条记录 历史名人类别有 13658 条记录 诗词 类别有 13703 条记录 医学类别有 18749 条记录 饮食类别有 8974 条记录 法律类别有 9896 条记录 汽车类别有 1752 条记录 动物类别有 17287 条记录
  • 维基百语料库
    优质
    维基百科中文分词语料库是由社区协作维护的一个大规模语料库,包含丰富的中文文本数据,用于支持自然语言处理任务中的词法分析研究。 我使用自己提取的文本训练word2vec模型,并已完成分词处理及大部分特殊字符过滤工作。该语料库包含3273626个段落(每个段落由多个句子组成),总大小为1.1G,由于文件较大,可通过百度网盘下载。
  • 维基百语料库
    优质
    维基百科中文分词语料库是由社区维护的大规模高质量汉语文本数据集,用于训练和评估自然语言处理任务中的中文分词技术。 我使用自己整理的文本数据来训练word2vec模型。这些文本已经进行了分词处理,并且过滤了大部分特殊字符。总共包含3273626个段落,每个段落包括多个句子。经过处理后的语料库大小为1.1G。由于文件较大,可以通过百度网盘下载地址获取数据(此处省略具体链接)。