Advertisement

Company-Names-Corpus:公司名与机构名语料库。包含公司简称、缩写、品牌词及企业名,适用于中文分词和机构名实体识别等应用场景。

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
Company-Names-Corpus是一个全面收录了各种类型的企业名称及相关简称的中文语料库,特别适合用于提升文本处理技术中的分词与命名实体识别精度。 公司名语料库(Company-Names-Corpus)是业余项目“萌名NameMoe”——一个基于语料库技术的取名工具的副产品。萌名手机网页测试版已上线,欢迎体验并提供反馈意见。此版本不定期更新,并承诺只删词不加词。 该语料库可用于中文分词和机构名称识别。以下是具体信息: - 公司名语料库(Company-Names-Corpus)包含480万条数据,来源于多个词典汇总。 - 机构名语料库(Organization-Names-Corpus)有110万条记录,同样来自多来源汇总。 - 公司简称、品牌词等(Company-Shorter-Form)则包括28万项。 以上所有语料均已清洗过,但仍可能存在一些错误案例。文件以压缩包形式提供是因为未压缩的原始数据大小约为200M,而经过压缩后只有约30M左右,便于传输和使用。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • Company-Names-Corpus
    优质
    Company-Names-Corpus是一个全面收录了各种类型的企业名称及相关简称的中文语料库,特别适合用于提升文本处理技术中的分词与命名实体识别精度。 公司名语料库(Company-Names-Corpus)是业余项目“萌名NameMoe”——一个基于语料库技术的取名工具的副产品。萌名手机网页测试版已上线,欢迎体验并提供反馈意见。此版本不定期更新,并承诺只删词不加词。 该语料库可用于中文分词和机构名称识别。以下是具体信息: - 公司名语料库(Company-Names-Corpus)包含480万条数据,来源于多个词典汇总。 - 机构名语料库(Organization-Names-Corpus)有110万条记录,同样来自多来源汇总。 - 公司简称、品牌词等(Company-Shorter-Form)则包括28万项。 以上所有语料均已清洗过,但仍可能存在一些错误案例。文件以压缩包形式提供是因为未压缩的原始数据大小约为200M,而经过压缩后只有约30M左右,便于传输和使用。
  • Python开发的工具,涵盖地、行后缀功能
    优质
    这是一款专为中文设计的公司名称分词工具,基于Python语言开发,具备高效准确的地名、品牌名、行业术语和公司常用后缀等多维度词汇识别能力。 运行评估脚本evaluate_file.py后,采用预测结果与GroundTruth完全一致的保守方法进行评估,得到以下结果: - 准确率:97.0% - 召回率:96.7%
  • 大全,非常全面
    优质
    这本《公司名称词汇库大全》提供了丰富的命名建议和灵感来源,旨在帮助创业者轻松找到独具特色的公司名字。涵盖多个行业领域,内容详尽、实用性强。 公司名称词库大全提供了非常全面的资料。
  • 26.9万条统一处理
    优质
    本数据库包含26.9万条企业名称缩写记录,旨在帮助企业进行高效准确的文本分词及实体识别工作,促进数据处理与分析效率。 26.9万条公司名字简称,可用于分词或实体归一处理。
  • Chinese-Names-Corpus生成工具。涵盖姓氏、字、呼,括日本人英译人。...
    优质
    Chinese-Names-Corpus是一个全面的中文人名资源库与生成器,包含丰富的中国姓氏、名字以及不同语言环境下的人名表达方式,如日语姓名及其英语翻译版本。 中文人名语料库(Chinese-Names-Corpus)业余项目“萌名NameMoe”是一个基于语料库技术的取名工具的副产品。其手机网页测试版不定期更新,只删词不加词,并可用于中文分词和人名识别。 该语料库包含两个主要部分:中文常见人名字典数据量为120万条记录,来源于亿级的人名数据库;而古代人名词典则有25万条目。两者都经过了初步的数据清洗工作,但可能仍存在少量错误案例。 此外还新增了一个基于该语料库生成新名称的功能模块,并且提供了一份包含大约一千个中文姓氏的字典文件,这些数据同样是从大型的人名数据库中提取出来的并已进行过清理处理。另一份关于称呼关系的数据集则包含了约五干条记录,主要用于表示人与人间的关系。 请勿将本库打包上传到其他网站以赚取积分,并且如果已经存在此类情况,请配合删除相关文件或数据。感谢您的理解和支持!
  • 提取工具:此代码从地址字符串提取。利JIEBA功能列表现精准提取...
    优质
    这是一款专为识别和抽取地址字符串中的中文公司名称而设计的工具,采用Jieba分词技术结合自定义的功能词列表,确保了高精度和高效性。适用于各类需要自动处理企业信息的应用场景。 公司名称提取代码旨在从地址字符串中提取中文公司名称。通过使用JIEBA和功能词列表,该代码能够识别出地址字符串中的确切公司名称。需要注意的是,此代码只能解析中文数据挖掘的内容。
  • 5万个国内
    优质
    本书收录了超过五万个国内公司的名称,涵盖各个行业和规模,为创业者、市场分析师及企业研究者提供了丰富的参考资源。 需要5万个国内公司的名称样本,用于后台模拟批量生成公司名称的测试。
  • 各大磁共振序列对照表 MRI
    优质
    本文提供了主要磁共振设备制造商常用序列名称的对照表,帮助读者理解不同品牌MRI术语之间的对应关系,便于跨平台操作和交流。 各大磁共振公司的序列名词对比表MRI Acronyms包括西门子(Siemens)、通用电气(GE)、飞利浦(Philips)、日立(Hitachi)和东芝(Toshiba)。
  • 优质
    中文实体名称识别是自然语言处理领域中的关键技术之一,专注于自动从文本中抽取人名、地名、组织机构名等特定类型的命名实体。这项技术对于信息检索、问答系统以及机器翻译等领域具有重要意义。 命名实体识别(Named Entity Recognition, NER)是自然语言处理领域中的一个重要任务,其目标是从文本中提取具有特定意义的实体,如人名、地名或组织机构名称等信息。在中文环境中,由于汉字本身的复杂性和语义多样性,进行中文NER更具挑战性。 本主题主要讨论使用TensorFlow框架实现中文NER的方法和技术细节。通常情况下,在TensorFlow中的NER任务会采用深度学习模型来完成,比如条件随机场(CRF)、循环神经网络(RNN)、长短时记忆网络(LSTM)和Transformer架构等。这些模型通过词嵌入技术理解词语含义,并利用上下文信息判断特定词汇是否为命名实体。 1. **词嵌入**:在训练开始前,汉字需要转换成向量表示形式以供机器学习算法处理。这可以通过预训练的Word2Vec、GloVe或FastText模型完成;对于中文环境,则可以采用Stanford大学提供的CTB-CGN或其他基于大规模语料库自定义生成的词嵌入。 2. **模型架构**:CRF-LSTM组合是常见的选择之一,它结合了LSTM网络对序列数据建模的能力与条件随机场全局最优解码的优势。在TensorFlow中可以使用`tensorflow_addons`库中的相关功能来实现这一结构;另外,基于Transformer的BERT等预训练模型也可以用来增强NER任务的表现力。 3. **数据处理**:中文命名实体识别的数据集往往来自于带有标注信息的真实文本材料,如人民日报语料或SIGHAN Bakeoff。在实际操作中需要进行分词、去除停用词及标记命名实体等一系列步骤;TensorFlow提供的`tf.data` API可以用来高效地处理这些任务。 4. **模型训练**:定义合适的损失函数(例如交叉熵)并利用Adam优化器调整模型参数是关键环节之一。同时,为防止过拟合现象,在训练期间应定期使用验证集来选择最佳的模型版本。 5. **评估标准**:精确率、召回率和F1分数是最常用的评价指标;其中F1分数综合考虑了准确性和覆盖率两个方面,能全面反映NER系统的性能水平。 6. **应用与扩展**:中文命名实体识别技术在信息抽取、问答系统及机器翻译等多个领域内都有广泛的应用前景。此外,还可以与其他NLP任务相结合(例如依存句法分析或情感倾向性评估),进一步提升自然语言处理的整体效果和效率。 综上所述,在TensorFlow框架下完成一个完整的中文NER项目包括数据集准备、预处理脚本编写、模型设计与训练等多个环节;通过学习并实践这些步骤,可以深入了解如何在实际应用中使用TensorFlow解决复杂的命名实体识别问题。
  • 性标注在自然言处理——代码
    优质
    本文探讨了中英文自然语言处理技术,包括分词、词性标注及命名实体识别的应用,并提供了相关示例文本和编程代码。 今天我们将使用Jieba、SnowNlp、nltk、thunlp、NLPIR以及Stanford这六种工具来对给定的中英文文本进行分词、词性标注与命名实体识别。