Advertisement

前海征信举办的“海信杯”大数据算法大赛,涉及数据分析。

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
作为平安集团旗下的专业第三方商业征信机构,前海征信积累了大量的数据库资源。在本次赛事中,主办方前海征信慷慨地提供了业务数据,并推出了国内首个基于迁移学习的竞赛项目:参赛选手需要根据提供的4万条业务A数据以及4千条业务B数据,构建业务B的信用评分模型。具体而言,业务A指的是信用贷款,其关键在于借款人无需提供任何担保,而是完全依靠自身的信用记录来获得贷款,并将借款人的信用等级作为还款保障;而业务B则为现金贷,即发薪日贷款(payday loan),相较于传统的消费金融产品,现金贷主要呈现出以下五个显著特征:额度较低、周期较短、无抵押要求、流程快速且审批效率高,同时具备较高的利率——这与其低门槛的借贷特性密不可分。鉴于业务A和业务B之间存在着内在联系,选手们需要探索如何将业务A中的知识有效地迁移到业务B上,从而显著提升业务B的信用评分模型能力,这也是本次比赛的核心考察点。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • 相关)
    优质
    海信杯前海征信大数据算法竞赛是一项专注于利用大数据技术解决征信问题的比赛,吸引了众多数据科学爱好者参与。比赛由海信集团主办,旨在推动金融行业信用评估模型的发展和创新。参赛者通过分析海量的用户行为数据,设计出最优的信用评分模型,以提升金融机构的风险控制能力及服务效率。 作为平安集团旗下的一家专业第三方商业征信机构,前海征信拥有丰富的数据资源。在本次赛事中,主办方前海征信提供了业务数据,并设计了国内首个迁移学习赛题:参赛选手需利用给定的4万条业务A的数据和4千条业务B的数据来建立业务B的信用评分模型。 其中,业务A为信用贷款,其特点是债务人无需提供抵押品,仅凭自己的信誉取得贷款。而业务B则是现金贷(发薪日贷款),这种产品与一般的消费金融产品相比具有五个特点:额度小、周期短、无抵押、流程快和利率高。这五大特性与其较低的借贷门槛相适应。 由于业务A和业务B之间存在一定的关联性,如何将从业务A中获得的知识迁移到业务B,并以此来增强其信用评分模型是本次比赛考察的重点内容。
  • 2020字中国创新:智慧洋建设复训练集-
    优质
    本数据集专为2020数字中国创新大赛算法赛设计,旨在推动智慧海洋建设。该数据集包含丰富的训练集信息,助力参赛者优化模型、提升算法效能,共同探索海洋科技的无限可能。 2020数字中国创新大赛—算法赛:智慧海洋建设复赛训练集数据由于平台不支持zip文件上传,所以后缀改为.csv,请在解压时将文件名改回.zip格式。
  • 众点评
    优质
    简介:上海大众点评数据涵盖了上海市内各类商家、餐厅及服务场所的用户评价和评分信息,是消费者进行本地生活消费决策的重要参考依据。 大众点评网上的上海美食数据可以用于各种分析。
  • 泰迪第一届职业技能代码.zip
    优质
    本资源包包含泰迪杯第一届数据分析职业技能大赛的相关数据集和参考代码,适用于学习与实践数据分析技能。 泰迪杯数据分析技能赛是一场专注于提升参赛者数据分析能力的比赛。比赛旨在通过实际问题的挑战来促进学习与实践相结合,帮助参与者提高数据处理、分析及解决问题的能力。此外,该赛事还为参赛选手提供了一个交流经验和技术的良好平台。
  • 2021.zip
    优质
    微信大数据竞赛2021汇集了国内顶尖的数据科学与人工智能专家及团队,运用先进的数据分析技术,深入探索和挖掘微信平台上的海量数据价值。参赛者通过解决实际业务问题,展示了其卓越的技术实力和创新能力。 2021年微信大数据挑战赛总结 比赛任务是进行多目标预测,给定用户与内容(feed),要求预测该用户是否会读评论、点赞、点击头像、收藏、转发、发表评论或关注等行为。这些行为的发生被标记为1,未发生则标记为0。这是一个典型的点击率预测问题。 训练数据包括了第1至第14天的用户行为记录,而测试集则是基于第15天的数据来评估模型性能,并要求对7种不同的行为进行预测。 比赛成绩如下: - 初赛A榜:评分0.675,排名约第70名 - 初赛B榜:评分0.671,排名约第64名 - 复赛A榜:评分0.701,排名约第55名 - 复赛B榜:评分0.700,排名约第40名 队伍名称为“夏天的第一顿小火锅”。 在比赛中我们遇到的一个重要问题是内容(feed)的冷启动问题。初赛阶段发现测试集中有大约17%的内容是训练数据中未曾出现过的;而在复赛时这一比例降到了14%左右。因此,使用word2vec进行预训练对于这些新出现的数据点非常有效。 另一个关键策略在于利用了用户之间的共同行为特征(如好友点赞),这有助于提升模型的预测准确度。
  • 科技
    优质
    上海科技大学数据集是由上海科技大学管理的一个多样化的数据集合,涵盖了科研、教育等多领域,旨在促进学术研究和技术创新。 基于多列卷积神经网络的单图像人群计数方法在ShanghaiTech数据集上进行了研究与应用。
  • 钉钉-card-transdata
    优质
    钉钉杯大数据竞赛-card-transdata数据集是由钉钉主办的一次面向全国高校学生的大数据分析比赛,参赛者需利用card-transdata数据集进行深入分析与建模。此赛事旨在提升参与者在大数据领域的实战能力及团队协作精神。 这段文字描述了八个属性:交易地点与家的距离(distance_from_home)、当前交易地点与上一次交易地点之间的距离(distance_from_last_transaction)、最近一笔交易金额相对于历史所有交易价格中位数的比率(ratio_to_median_purchase_price)、是否在同一个商户进行重复性购买行为(repeat_retailer)、是通过银行卡芯片完成的支付方式(used_chip)以及是否输入了个人识别码以验证身份(used_pin_number)。此外,还记录了一笔交易是否为在线订单形式(online_order),最后是一个分类标签,用来标记该交易是否存在欺诈风险(fraud)。
  • 库原理综合实验(第六部
    优质
    《海大海关数据库原理综合实验》是针对海关业务设计的一系列数据库应用实践课程。本部分重点探讨高级查询技术与数据安全机制,旨在提升学生解决实际问题的能力。 实验六 数据库原理综合实验 **一、 实验目的** 1. 运用所学的数据库设计技术,在一个具体的系统应用基础上完成该系统的概念模型、逻辑模型及物理模型的设计,以巩固理论知识并掌握实际操作技能。 2. 综合运用前面章节学习的知识。 **二、 实验内容** 选择以下任一应用场景(如学生选课系统、超市管理系统、某企业库存管理系统等)或选取一个自己熟悉的应用环境进行如下工作: 1. **数据库概念模型设计** - 进行需求分析,描述系统的功能和所需数据及其关系。 - 识别并确定实体及其实体属性,并研究它们之间的联系。 - 设计出数据库的概念模型,绘制E-R图。 2. **数据库逻辑模型设计** - 将E-R模型转化为逻辑模型。 - 根据应用需求以及规范化理论优化逻辑模型。 3. **物理模型设计** - 针对特定的DBMS(如MySQL、Oracle等),进行表空间、表和索引的设计,以满足存储要求。 - 优化数据库的物理结构,并生成相应的SQL语句创建数据库及表格。 4. **数据装载** - 收集真实的数据或生成模拟数据。 - 将这些数据批量加载到设计好的数据库中。 - 设计一系列如连接查询、嵌套查询等性能测试用的SQL语句。 **三、 实验要求** 1. 可以使用POWERDESIGNER等工具辅助完成数据库设计,也可以直接通过Word文档生成各种所需的设计文件。 2. 选择的应用系统规模适中,既不能过大过复杂以至于无法完成实验任务,也不能太小简单到仅包含一两个表的层级。 3. 设计良好的完整性约束以保证数据的一致性和正确性。 **四、 实验步骤** 1. **概念模型设计** - 进行需求分析并绘制E-R图 2. **逻辑模型设计** - 根据之前的概念模型进行逻辑模型的设计,并对其进行优化。 3. **物理模型设计** - 针对特定的DBMS,完成数据库的物理结构设计,包括表空间、索引等存储细节。 - 生成SQL语句创建数据库及表格。 4. **数据装载** - 收集或生成测试数据,并批量导入到数据库中进行验证。 **五、 总结与体会** 1. 实验过程中遇到的问题及其解决办法 2. 对整个实验过程的总结,包括学到的知识点和实践技巧。 3. 个人对于此次实验的心得及未来在实际工作中的应用展望。