Advertisement

2020 CCF NER:大数据与计算智能大赛非结构化商业文本隐私信息识别第七名方案

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
本作品参加了2020年CCF举办的NER竞赛,在非结构化商业文本隐私信息识别赛道中取得了优异成绩,位列第七。我们团队创新性地结合了深度学习技术与自然语言处理方法,有效提升了敏感信息的精准定位和分类能力,为数据安全领域贡献了一套高效、可靠的解决方案。 2020 CCF-NER 大赛中的非结构化商业文本信息中隐私信息识别任务获得了第7名的成绩。该方案采用 BERT base 模型结合 flat 结构以及 CRF 层,并应用了 FGM、SWA 和 PU learning 策略,同时使用 CLUE 数据集进行训练和测试。在 test1 单模条件下达到了 0.906 的表现。 词向量采用了 SGNS(Mixed-large 综合) 方案,损失函数及掩码处理的相关代码实现了 PU learning 策略的主要模块版本。所用的软件环境为:Python 3.6.9、torch 1.1.0、transformers 3.0.2、pytorchcrf 1.2.0 和 torchcontrib 0.0.2。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • 2020 CCF NER
    优质
    本作品参加了2020年CCF举办的NER竞赛,在非结构化商业文本隐私信息识别赛道中取得了优异成绩,位列第七。我们团队创新性地结合了深度学习技术与自然语言处理方法,有效提升了敏感信息的精准定位和分类能力,为数据安全领域贡献了一套高效、可靠的解决方案。 2020 CCF-NER 大赛中的非结构化商业文本信息中隐私信息识别任务获得了第7名的成绩。该方案采用 BERT base 模型结合 flat 结构以及 CRF 层,并应用了 FGM、SWA 和 PU learning 策略,同时使用 CLUE 数据集进行训练和测试。在 test1 单模条件下达到了 0.906 的表现。 词向量采用了 SGNS(Mixed-large 综合) 方案,损失函数及掩码处理的相关代码实现了 PU learning 策略的主要模块版本。所用的软件环境为:Python 3.6.9、torch 1.1.0、transformers 3.0.2、pytorchcrf 1.2.0 和 torchcontrib 0.0.2。
  • Ant_Tianchi_CCF_Positioning: 2017 CCF - 蚂蚁金服 铺定位题 (荣获全国)
    优质
    在2017年CCF大数据与计算智能大赛中,参与蚂蚁金服举办的商铺定位挑战并取得了全国第五的好成绩。此赛事为提升数据分析和智能算法应用提供了广阔的平台。 2017 CCF 大数据与计算智能大赛 - 蚂蚁金服 - 商铺定位赛题(第5名) 文件说明: getFeatures.sql 是用于二分类部分的预处理及生成特征中间文件,之后在PAI平台上搭建组件将每个特征文件和构建的样本进行join操作。多分类部分由队友负责。 wifiFingerprint.ipynb 是初赛阶段使用Python版本来构建指纹库并计算指纹得分,在复赛中通过Java实现在udtf(用户定义函数)中实现。 udtf 包含了getFeatures所使用的几个方法。 xgb_train.sql 在PAI平台上执行XGBoost命令,因为平台没有提供XGBoost的拖拽组件,只能使用PAI命令来运行。 submission.sql 用于提交结果部分,包括最佳成绩加权平均。 训练说明: 7月1日至8月17日的数据用于统计8月18日至31日期间的样本。7月15日至8月31日的数据用于构建9月1日至9月14日测试集的统计数据。 复赛阶段有大约38%的数据缺失。
  • Python在2018 CCF 中的应用:针对电存量用户套餐个性匹配的模型(联通道复
    优质
    本项目参与了2018年大数据与计算智能大赛,采用Python实现电信行业存量用户的智能套餐个性化推荐模型,在联通赛道复赛中获得第二名。 2018年CCF大数据与计算智能大赛面向电信行业存量用户的智能套餐个性化匹配模型联通赛复赛第二名解决方案。
  • CCF-BDCI-互联网金融新实体-九届.zip
    优质
    本资料包包含第九届CCF-BDCI大赛中“互联网金融新实体识别”挑战任务的相关数据和文档。参赛者需利用自然语言处理技术,从文本中精准定位并分类出新的金融相关实体。 CCF-BDCI大数据与计算智能大赛-互联网金融新实体发现-9th.zip
  • CCF-个贷违约预测.zip
    优质
    本资料包包含CCF大数据与计算智能竞赛中关于个贷违约预测的相关数据和文档。参赛者将运用机器学习算法分析海量信贷信息,构建模型以预测个人贷款的违约风险。 CCF大数据与计算智能比赛中的个贷违约预测项目正在进行中。参赛者需要利用提供的数据集来建立模型,以准确预测个人贷款的违约情况。这是一个很好的机会,让参与者展示他们在数据分析、机器学习以及风险评估方面的技能。
  • 平台】型集团企平台建设.doc
    优质
    本文档提供了一套全面的解决方案,旨在帮助大型集团企业构建高效的非结构化数据管理平台,助力企业有效利用各类复杂数据资源。 ### 非结构化数据平台建设方案解析 #### 一、非结构化数据平台建设目标 在当前数字化转型的大背景下,非结构化数据已经成为大型集团企业管理的重要组成部分。本方案旨在建立一个全面覆盖集团内部非结构化数据的统一管理平台,以实现对电子单据、财务凭证、原始凭证等非结构化数据的全生命周期管理。具体目标如下: 1. **统一存储与管理**:通过构建统一的数据存储中心,实现对各种非结构化数据的有效管理。 2. **全生命周期管理**:确保从数据创建到归档或销毁整个过程中的安全性与合规性。 3. **集团知识统一管理**:整合分散在各业务部门的知识资源,形成统一的知识库,提升整体业务效率。 4. **支撑财务集中管控平台**:为集团的财务集中管控平台提供坚实的数据基础,增强财务管理的透明度和可控性。 #### 二、非结构化数据平台架构设计 为了达成上述建设目标,本方案提出了一套完整的非结构化数据平台架构设计,主要包括以下几个方面: ##### 2.1 内容采集 - **多样化采集方式**:支持多种数据源的接入,包括但不限于企业内部系统、外部合作伙伴以及互联网公开数据等。 - **自动化处理流程**:通过自动化工具和技术减少人工干预,提高数据采集效率和准确性。 - **数据清洗与预处理**:对采集到的数据进行必要的清洗和预处理,确保数据质量。 ##### 2.2 内容管理 - **文档管理**:支持对各类电子文档、电子凭证、电子报表等非结构化数据的管理。 - **多媒体管理**:涵盖音频、视频、图像等多种格式的多媒体信息管理。 - **权限控制**:实现基于角色的访问控制,确保数据的安全性和隐私保护。 ##### 2.3 知识管理 - **知识图谱构建**:利用自然语言处理技术自动构建知识图谱,帮助用户快速定位所需信息。 - **智能搜索与推荐**:提供智能化的搜索和推荐功能,提升用户体验。 - **版本控制**:支持文档版本的历史追踪,便于跟踪修改记录。 ##### 2.4 内容安全 - **数据加密**:采用先进的加密技术确保数据传输和存储的安全性。 - **访问控制**:实施严格的访问控制策略,防止未授权访问。 - **灾难恢复**:建立健全的备份与恢复机制,保障数据的完整性和可用性。 #### 七、非结构化数据平台方案设计 ##### 3.1 建设方式分析及建议 - **私有云部署**:考虑到数据敏感性和安全性要求,推荐采用私有云方式进行部署。 - **模块化设计**:根据实际需求灵活选择功能模块,降低建设成本并提高扩展性。 - **分阶段实施**:建议采取分阶段的方式推进项目建设,逐步完善功能和服务能力。 ##### 3.2 部署方案 - **硬件选型**:根据业务量和数据量的预测选择合适的服务器、存储设备等硬件设施。 - **软件配置**:合理规划操作系统、数据库管理系统等相关软件的配置。 - **网络规划**:设计高效稳定的网络架构,保障系统的稳定运行。 ##### 3.3 业务应用及BPM调用方案 - **集成现有系统**:通过API接口等方式将非结构化数据平台与现有的业务系统进行集成,实现数据共享。 - **工作流集成**:与企业的工作流管理系统(BPM)对接,优化业务流程,提高工作效率。 ##### 3.4 内容采集方案 - **多渠道采集**:结合爬虫技术、API接口等多种方式实现高效的数据采集。 - **智能识别**:运用OCR等技术实现对纸质文档的自动识别和转换。 ##### 3.5 数据存储方案 - **分布式存储**:采用分布式存储技术,提高数据处理能力和系统可靠性。 - **数据分级存储**:根据不同类型数据的特点和访问频率,采取不同的存储策略。 通过构建统一的非结构化数据平台,不仅能够实现对海量非结构化数据的有效管理和利用,还能够进一步提升企业的信息化水平和竞争力。本方案通过对内容采集、内容管理、知识管理等多个方面的深入探讨,旨在为企业提供一套科学合理的建设方案。
  • 全国工技术技-工资料
    优质
    本资料集涵盖全国工业和信息化技术技能大赛中工业大数据算法赛的相关信息与数据资源,旨在提升参赛者在数据分析、模型构建及应用实践等方面的综合能力。 全国工业和信息化技术技能大赛-工业大数据算法赛项资料包括神经网络transformer下的Python图像检查模型算法(不完全注释版)以及误差补偿模型算法。
  • 百度地图毕源码-贝壳找房问答匹配:2020 CCF 房地产应用挑战
    优质
    本项目为2020年CCF大数据与计算智能大赛中关于房地产应用挑战的设计,旨在利用百度地图API和贝壳找房的数据源代码,实现用户提问与房源信息的精准匹配。 百度地图毕业设计源码比赛贝壳找房-房行业聊天问答匹配 这是我第一次正式参加一个大型的NLP比赛,全程独自完成。经过一个多月的努力,最终结果是A榜70+,B榜60+。虽然成绩不够理想,但在整个过程中学习到了很多知识,并且遇到了不少挑战,在赛后也认识到了自己的不足之处。因此决定在这里总结回顾一下自己的一些思路和方法,并分享相应的代码。 本项目都是基于pytorch实现的。数据首先来说说数据,此次赛题是以房产中介为背景,客户与中介之间的问答文本作为基础数据集,每个问题对应多个候选回答(0到n个),其中包含这些候选中的正确答案。在处理这部分数据时,由于BERT模型使用的是字符级别的token化方法,因此我没有进行分词、停用词和标点符号的预处理工作。我认为,在某些场景下部分停用词及标点可以提供特定的信息价值。最终我将问题(question)与回答(reply)组合成了pair对。 在模型选择方面,本项目主要使用了BERT,并且后期融合时还采用了RoBERTa。
  • 的整体解决
    优质
    本方案聚焦于将非结构化数据转化为有价值的信息资源,提供全面的大数据处理策略与技术路线,助力企业实现数据驱动决策。 Oracle专家对当前非结构化数据存储及大数据应用进行了深入分析与讲解,有助于快速拓宽您的知识视野,并分享给有需要的朋友。
  • 型集团企平台建设.pptx
    优质
    本PPT详细介绍了为大型集团企业设计的非结构化数据平台建设方案,涵盖需求分析、架构设计及实施策略等关键环节。 ### 大型集团企业非结构化数据平台建设方案 #### 一、项目背景与目标 在当前数字化转型的大背景下,大型集团企业面临着诸多挑战。这些挑战主要包括但不限于:业务板块多样化带来的数据复杂性增加、海量数据的快速增长导致存储与管理压力剧增、数据孤岛现象严重阻碍信息流通以及数据质量低下影响分析准确性等问题。为了应对这些挑战,本方案旨在构建一个全面、高效的非结构化数据平台,具体目标如下: 1. **整合各业务板块和部门的非结构化数据**:实现数据的集中存储与管理。 2. **构建统一平台**:引入先进大数据技术和算法,提高非结构化数据处理效率。 3. **打破数据孤岛**:实现跨部门、跨业务板块的数据共享与协作。 4. **促进数据流通**:建立完善的数据安全体系,确保数据的保密性、完整性和可用性。 预期成果与价值: - **提供决策支持**:通过对非结构化数据的深度挖掘和分析,为集团高层提供全面、准确的决策依据。 - **推动业务创新**:挖掘非结构化数据中的潜在价值,促进各业务板块的业务创新和优化。 - **降低成本支出**:通过数据整合和共享,避免重复投资和建设,降低集团整体运营成本。 - **提升品牌影响力**:借助非结构化数据平台,提升集团在行业内的竞争力。 #### 二、需求分析与规划 1. **明确业务需求**:与各业务部门沟通,了解其在非结构化数据处理、存储、分析等方面的具体需求。 2. **业务流程分析**:梳理各业务部门涉及非结构化数据的业务流程,如文档管理、图像处理、音视频分析等。 3. **业务场景划分**:根据业务流程,划分不同的业务场景,如智能客服、智能审批、智能风控等。 4. **数据资源调研**: - **数据来源分析**:梳理企业内部及外部的非结构化数据来源,包括社交媒体、企业官网、内部系统等。 - **数据类型识别**:识别各种非结构化数据类型,如文本、图像、音视频等。 - **数据质量评估**:评估非结构化数据的质量,包括完整性、准确性、一致性等。 - **数据量预测**:预测未来一段时间内非结构化数据的增长趋势及数据量大小。 #### 三、平台架构设计与技术选型 1. **整体架构设计思路**:以业务需求为导向,设计可扩展、可灵活调整的平台架构。 2. **关键技术组件介绍**: - **数据接入组件**:支持多种数据源和数据格式的接入,包括文件、数据库、API等。 - **数据处理组件**:提供数据清洗、转换及聚合等功能,满足非结构化数据处理需求。 - **数据存储组件**:采用分布式存储系统,支持海量非结构化数据的高效访问与储存。 - **数据分析组件**:集成机器学习算法和可视化工具,支持对非结构化数据进行深度分析挖掘。 3. **平台安全性保障措施** - **数据加密**: 对敏感信息实施加密传输及保存以确保安全。 - **访问控制**: 实现精细化权限管理, 仅授权人员可获取相关资料。 - **审计追踪**:记录用户操作日志和安全事件,便于事后审核与追溯。 - **漏洞修复**:定期扫描并修补平台的安全漏洞,保障系统稳定可靠。 #### 四、数据采集、处理与存储策略 1. **数据来源及采集方式** - 内部资料: 包括企业各业务系统的数据库日志文件等, 通过ETL工具进行收集。 - 外部信息源:包括社交媒体新闻网站行业报告,利用网络爬虫或第三方接口获取。 - 实时资料采集:针对物联网传感器数据在线交易记录等实时性需求高的场景采用流处理技术。 2. **数据处理与存储策略** - 数据清洗: 去除重复、无效和错误的数据以确保质量 - 转换格式: 将原始信息转换成适合储存分析的模式。 - 汇总统计:对资料进行汇总统计,为后续分析做准备。 - 存储选择:依据数据特点选取合适的存储技术如分布式文件系统或对象存储。 通过上述规划与实施可以有效应对大型集团企业在非结构化数据分析管理方面的挑战,并实现信息的有效利用助力企业的数字化转型。