Advertisement

中文简历NER数据集

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
本中文简历命名实体识别数据集包含大量真实中文简历样本,涵盖多种职业和行业。旨在支持自然语言处理技术在招聘、人才分析等场景的应用研究。 自然语言处理的子任务命名实体识别在中文数据集方面非常全面。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • NER
    优质
    本中文简历命名实体识别数据集包含大量真实中文简历样本,涵盖多种职业和行业。旨在支持自然语言处理技术在招聘、人才分析等场景的应用研究。 自然语言处理的子任务命名实体识别在中文数据集方面非常全面。
  • NER.zip
    优质
    NER数据集.zip包含了用于训练和测试命名实体识别模型的各种标注文本文件。这些文件涵盖了人物、地点、组织等不同类型的实体标签,适用于自然语言处理研究与开发。 整合现有的NER语料集,并将其格式统一化以便直接用于训练模型。
  • NER命名实体识别
    优质
    中文NER(Named Entity Recognition)数据集是一套专门用于识别中文文本中人名、地名和组织机构等命名实体的语料库,旨在促进自然语言处理技术的发展。 中文命名实体识别数据集非常实用。它涵盖了组织、机构和个人三个方面的实体。
  • 学领域的教育NER
    优质
    本数据集专注于中学数学教育领域,旨在通过收集和标注与教学、学习相关的命名实体信息,推动自然语言处理技术在教育资源分析中的应用。 教育领域中学数学NER数据集可用于中学数学命名实体识别任务。
  • NER标注_Resume_BIO格式
    优质
    本项目涉及使用BIO(Begin, Inside, Outside)标签体系对中文命名实体进行标注的数据集构建工作,主要用于训练和测试自然语言处理中的命名实体识别模型。 中文命名实体识别(NER)数据已清理干净,可以直接下载并用于各种NER模型的训练。数据采用resume_bio格式。
  • 在校实习经
    优质
    此数据集简历记录了一位学生在其学业期间的各种实习经历,详尽地展示了他在不同项目中的职责、成就及技能提升过程。 简历中的在校实习经历数据集部分如下所述: 在大学期间我参与了一个关于数据分析的项目,并在此过程中积累了丰富的实习经验。这段经历使我对如何从大量数据中提取有价值的信息有了更深入的理解,同时也提高了我的团队合作能力和解决问题的能力。 (注:原文提到的内容已经根据要求进行了修改处理)
  • ,包含项目经验的,大
    优质
    这份简历专注于展示个人在大数据领域内的丰富经验和专业技能,特别强调了与数据处理、分析相关的项目经历。适合寻求大数据相关职位的专业人士使用。 大数据详细项目简历: 离线项目:用户行为标签的智能气象服务系统 个人职责: 1. 运用Flume采集源数据,并将其存放于Kafka消息队列中。 2. 采用Kstream框架对数据进行初步清洗与变换,使用Java API将数据导入HBase。 3. 使用Hive集成Hbase,执行ETL操作以进一步处理和清理数据。 4. 协助团队成员利用Hive提取特征值,并运用Spark ML构建预测模型。 5. 参与模型检验及随机森林算法的调优工作。 6. 编写脚本段落件将数据导出至MySQL数据库中,使用Tableau工具进行可视化分析。同时参与编写Oozie任务调度脚本,实现自动化的工作流调控。 实时项目:实时气象数据展示大屏搭建 个人职责: 1. 与客户沟通确定需要在显示屏上展示的指标、计算逻辑及对应的数据源情况,并明确更新频率要求。 2. 根据客户需求使用Flume进行日志信息的实时采集,将收集到的信息存储于Kafka消息队列中。 3. 利用Spark Streaming对数据执行清洗、加工和处理操作,形成最终展示指标并将其存入MySQL数据库供前端开发团队使用。 4. 分析数据结果以提取有效信息,并提出书面或口头形式的指导性意见与结论。此外还参与小型气象站及自动化监测系统的安装工作,在现场负责布置传感器和其他设备布点任务。
  • MSRA(NER)命名实体识别
    优质
    MSRA NER是微软亚洲研究院开发的一个汉语命名实体识别数据集,包含大量标注的人名、地名和组织机构名称,广泛应用于自然语言处理研究。 我们收藏的二十余册出版物来自晋察冀抗日根据地(1937年—1945年)。
  • big-data-ocr-ner:大上的OCR、NER、物体检测与字幕生成
    优质
    Big-data-OCR-NER项目聚焦于利用大规模数据集进行光学字符识别(OCR)、命名实体识别(NER)、物体检测及自动字幕生成,推动智能图像处理技术的边界。 项目目标:在大数据集上应用光学字符识别(OCR)、命名实体检测(NER)以及对象检测技术。 该项目分为三个部分: 1. 使用OCR技术从扫描的PDF文件中提取数据。 2. 爬取并抓取ufostalker.com网站以获取图像和相关数据。 3. 将对象检测与字幕生成技术应用于这些图像,并将命名实体识别(NER)技术应用到数据/观察描述中,以便从中抽取不同的命名实体。 注意:本项目构建了两个阶段的数据集。第一个项目的输出称为v1 UFO 数据集;而从该项目衍生出的第二个版本则被称为v2 UFO 数据集。 使用的工具包括: - ImageMagick 和 Ghostscript(用于将扫描的PDF文件转换为TIFF格式) - Poppler(用于分离多页PDF文档成单页PDF) - Tesseract OCR - Selenium(网页抓取和自动化测试框架) - OpenNLP 和 NLTK
  • CCKS 2019 电子病(RAR版)
    优质
    本资源提供CCKS 2019中文电子病历数据集的RAR版本下载。该数据集包含大量结构化与非结构化的医学文本,旨在促进医疗信息抽取技术的研究与发展。 实验数据来源于CCKS 2019发布的中文电子病历命名实体识别评测数据集,包含1379例病历样本,每份病历包括原始文本和实体标注两个部分。 实体类型涵盖:手术、解剖部位、药物、疾病与诊断、影像检查以及实验室检验。 该数据集的结构如下: originalText: 患者于三个月前因直肠癌在我院接受全麻下的DIXON术,即直肠癌根治术,术后恢复良好,并未出现并发症。手术后病理结果显示为中低度分化的浸润溃疡型直肠腺癌,面积约为3.5*2CM且已穿透至外膜层;双端切缘及环周底部切除面均无癌症迹象。淋巴结检查显示10个肠壁一站和8个中间组的淋巴结也未发现异常。免疫组化染色结果显示ERCC1弥漫性阳性,TS部分弱阳性,SYN与CGA均为阴性。术后经评估确认没有化疗禁忌症后给予患者3周期化疗治疗方案为:D1使用奥沙利铂150MG;从D2至D6期间每日给药亚叶酸钙0.3G和替加氟1.0G,并辅以升白细胞、护肝以及止吐等支持性护理措施,减轻患者副反应。出院后的一段时间内患者一般情况良好,无恶心或腹痛等症状出现,近期体重没有明显变化。 entities: label_type: 疾病和诊断 overlap: 0 start_pos: 8