Advertisement

366万常用中文词汇汇总

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
本资源汇集了超过366万个常用中文词汇,旨在为使用者提供全面、详尽的语言学习和查阅工具,适用于各类语言研究及应用需求。 作者:刘邵博 此词典为个人综合多本词典整合而成的大词典,包含3669216个词汇。词典结构如下:词语\t词性\t词频。其中的词频是通过ansj分词对270G新闻语料进行分词统计得到的。对于部分无法确定具体词性的词汇,在标注时使用了特殊符号“nw”和“comb”。 1. “nw”表示该词条的具体词性未知。 2. “comb”表示经过ansj的自然语言处理后,被拆分为两个独立词语的情况。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • 366
    优质
    本资源汇集了超过366万个常用中文词汇,旨在为使用者提供全面、详尽的语言学习和查阅工具,适用于各类语言研究及应用需求。 作者:刘邵博 此词典为个人综合多本词典整合而成的大词典,包含3669216个词汇。词典结构如下:词语\t词性\t词频。其中的词频是通过ansj分词对270G新闻语料进行分词统计得到的。对于部分无法确定具体词性的词汇,在标注时使用了特殊符号“nw”和“comb”。 1. “nw”表示该词条的具体词性未知。 2. “comb”表示经过ansj的自然语言处理后,被拆分为两个独立词语的情况。
  • 优质
    百万词汇库汇总是一份庞大的语言资源集合,包含丰富的词汇条目、例句和词源信息,适用于学习、研究及专业写作等多领域需求。 因工作需要,我最近在进行自然语言处理的研究,并且第一步是实现中文分词功能。市面上有许多开源的分词组件可供选择,我使用的是某款名为“word”的分词工具,但这些开源组件中的词库都比较小。因此,在这段时间里,我在网上爬取了大量的词库资料,并通过某个特定的XX词典进行校验和筛选,选择了在该词典中收录的内容(这耗费了相当多的时间和精力)。现在我整理了一份汇总后的词库。
  • Java英语
    优质
    本资料汇集了Java编程中常用的英语词汇,旨在帮助程序员提高英文文档阅读能力及代码注释水平。 以下是关于 Java 常用英语词汇的部分内容: algorithm:算法 [.lg.riem] annotation:代码注释 [.n.utei..n] anonymous:匿名的 [.n.nim.s](反义词为 directly,意为直接地、立即[direktli, dairektli]) apply:应用、适用 [.plai] application:应用、应用程序[,.plikei..n](例如 application crash 表示程序崩溃) arbitrary:任意的 [ɑ:bitr.ri] argument:参数;争论,论据 [ɑ:gjum.nt](缩写为 args) assert:断言 [.s.:t] (Java 1.4 后成为关键字)
  • 典-54
    优质
    《中文词汇词典》收录了超过54万个词条,全面覆盖现代汉语常用及非常用词语。它不仅包含了基本的语文知识,还融入了大量的百科信息,是一部适合学习和日常查阅的语言工具书。 中文分词词典适用于最大正向匹配算法使用,包含548389条词语。
  • Linux云计算与句子
    优质
    《Linux云计算常用词汇与句子汇总》是一份全面总结了在Linux系统进行云服务操作时所需掌握的关键术语和常用语句的学习资料。 本段落总结了在Linux云计算领域常用的单词和语句,并按类别进行了分类汇总,以帮助解决工作中遇到的英语问题。
  • 400见密码
    优质
    本资料汇集了超过400万个常见的用户密码,旨在帮助安全专家识别和防范易被破解的密码模式,增强网络安全防护。 400万弱口令密码合集包括了生日、电话号码以及由字母a到z组成的简单密码,还有各种数字与字母的组合。
  • 之分
    优质
    本资源汇集了多种语言的常用与特定领域的停用词库,专为自然语言处理中的分词技术优化设计,旨在提升文本分析效率和质量。 这段文字汇总了来自《中文停用词表》、《哈工大停用词表》、《百度停用词表》、《四川大学机器智能实验室停用词表》以及《中文停用词词库》的词汇,并经过整理去重后形成一个可供分享和学习使用的停用词库。
  • 优质
    常用词汇词库是一部精心编纂的语言工具书,收录了日常生活中使用频率最高的词汇和短语,旨在帮助学习者提高语言运用能力和沟通效率。 这段文字包含了日常用词,并收录了大多数的常用词汇及其拼音,且已经按照顺序排列好,可供开发基础数据使用。
  • 360频.rar
    优质
    本资源包含超过360万个中文词汇,详细标注了每个词条的词性和出现频率,适用于自然语言处理、语料库建设及语言学研究。 此词典是将多本词典的内容整合而成的一个大型词典,包含3669216个词汇。该词典的结构为:词语\t词性\t词频。