CSV格式的金融欺诈检测数据集含104万+条记录-ITADN社区

优质

本数据集包含超过104万条记录，采用CSV格式存储，专为金融欺诈检测设计，涵盖多种交易类型与特征信息，助力模型训练及算法优化。该数据集展示了移动货币交易的全面表示，并经过精心设计以反映现实世界金融活动中的复杂性以及欺诈行为的研究目的。此数据来源于名为PaySim的模拟器，利用了非洲某国实际财务日志中汇总的数据来填补公开可用金融数据集中用于检测欺诈研究方面的空白。它涵盖了多种类型的交易，包括现金存入、兑现输出、借记、支付和转账等，并为评估各种欺诈检测方法提供了一个全面的环境。 **数据集结构** - **step：** 表示现实世界中的时间单位，1 步等于 1 小时；整个模拟历时744步，相当于30天。 - **type：** 包括CASH-IN、CASH-OUT、BIT-OUT、PAYMENT 和 TRANSFER等交易类型。 - **amount：** 表示以当地货币单位表示的每笔交易金额。 - **nameOrig：** 发起该笔交易的客户名称。 - **oldbalanceOrg：** 代表发起方在进行特定操作前账户中的余额。 - **newbalanceOrig：** 指的是执行完相关操作后，发起方账户的新余额。 - **nameDest：** 接收这笔交易的客户的标识符（或称目的地）。 - **oldbalanceDest：** 表示接收方在收到资金前的账户余额。对于以M表示商家身份的客户而言，此字段不适用。 - **newbalanceDest：** 收到转账后的新收款人账户余额；同样地，如果交易涉及的是一个标识为“M”的实体，则该信息不被提供。 - **isFraud：** 标识由欺诈代理执行的那些企图通过诸如提现或转移等操作来耗尽客户资金的行为。 - **isFlaggedFraud：** 用于标记账户间未经授权的大额转账行为，任何单笔金额超过20万单位货币的交易都被视为非法。

DGraphFin-金融欺诈检测数据集

优质

DGraphFin是一个专为金融领域设计的数据集，用于检测和预防欺诈行为。它包含了丰富的交易信息与复杂的网络结构，旨在帮助研究人员开发更高效的机器学习模型以应对日益复杂的金融诈骗手段。 DGraphFin是一个金融欺诈数据集。该数据集旨在帮助研究人员识别和预防金融领域的欺诈行为。通过提供丰富的交易记录和其他相关信息，它为开发有效的反欺诈模型提供了宝贵的资源。

飞猪景点数据集（CSV格式，含5万多条记录）

优质

该数据集包含超过5万条飞猪平台上的景点信息，以CSV格式存储，便于数据分析与挖掘。内容详尽丰富，涵盖众多旅游目的地详情。使用Python爬取飞猪网站以获取全国景点的数据。包含的字段有：序号、景点标题、封面图、销量、价格以及对应飞猪网站的地址和景点城市。

艾滋病病毒感染预测数据集 CSV格式含7.2万+条记录

优质

本数据集为CSV格式，包含超过72,000条记录，旨在用于研究和预测艾滋病病毒（HIV）感染情况，支持相关疾病的预防与控制工作。数据集包含已诊断为艾滋病患者的医疗保健统计数据及分类信息。字段包括： - 时间：失败或审查的时间。 - trt：治疗指示（0=仅 ZDV；1 = ZDV + ddI，2 = ZDV + Zal，3 = 仅 ddI）。 - 年龄：基线时的年龄（岁）。 - WTKG：基线时体重（千克）。 - 血友病：是否患有血友病（0=否；1=是）。 - 同性恋活动：是否有同性恋活动（0=否，1=是）。 - 药物滥用历史：有无静脉注射毒品史（0=否，1=是）。 - Karnofsky 评分：基线时的Karnofsky评分（范围从0到100分）。 - oprior：在前175年中是否接受过非 ZDV 的抗逆转录病毒治疗（0 = 否；1 = 是）。 - z30：前175天内是否使用过ZDV ( 0=否， 1=是 )。 - Preanti: 前175年的抗逆转录病毒疗法情况 - 种族：种族分类（0=白人，1=非白人）。 - 性别：性别（0=F；1=M）。 - STR2：患者之前是否接受过任何类型的抗逆转录治疗 ( 0 = 初次使用, 1 = 经验丰富 )。 - strat：根据既往的抗逆转录病毒疗法进行分类，分为三种情况( 1=初次使用者，2=>1但<=52周的既往治疗者，3=>52周)。 - 症状指示器：患者是否出现症状 (0 = 渐进性；1 = 出现症状 )。 - 治疗方式：当前使用的具体治疗方案（0=仅 ZDV, 1=其他）。 - offtrt: 在96+-5周前是否有停药情况 ( 0=否， 1=是)。 - CD4细胞计数：基线时的CD4细胞数量以及20+-5周后的值；另外还有相应的基线和后续时间点上的CD8 细胞计数。 - 感染者状态：是否感染艾滋病（0 = 否，1 = 是）。

近十年飞机航班数据集（CSV格式，含1.5万条记录）

优质

本数据集包含近十年全球航班运营信息，共计1.5万余条记录，以CSV格式呈现，涵盖航班日期、起飞降落时间、延误情况等关键指标。标题中的“近10年飞机航班数据集 CSV 1.5W+记录”指的是一个包含大量航班信息的数据集合，以CSV格式存储，大约有15,000条记录。CSV（Comma Separated Values）是一种常见的数据交换格式，便于在不同应用程序之间交换数据。这种数据集通常用于数据分析、挖掘或机器学习任务。该数据集中包括以下关键字段： - **航班号**：每个航班都有一个唯一的识别号，用于区分不同的飞行。 - **机型**：飞机的型号，如波音737、空客A320等，这会影响飞机的载客量、飞行距离和燃油效率。 - **出发及到达时间**：航班预计起飞和到达的具体时间，用于规划行程和计算飞行时长。 - **出发及到达省份/城市/机场**：航班的起止地点，包括省、市和具体机场，有助于了解航线网络和地理分布。 - **飞行里程**：航班的总距离，可以衡量飞行时间和消耗的燃料。 - **经纬度**：提供航班起点和终点的精确地理位置坐标，可用于地图可视化或地理分析。 - **准时率**：航班按照预定时间起飞和到达的概率，反映了航空公司的运营效率和服务质量。 - **航司**：运营该航班的航空公司，可能涉及其服务、价格策略和市场份额。 - **航班计划**：可能指的是航班的日常或季节性安排，包括频率和时刻表。这样的数据集对于多种用途非常有用： - **市场分析**：通过分析不同航空公司的航班数量、航线分布及准时率来评估各公司在市场上的表现与竞争力。 - **乘客行为研究**：结合出发和到达城市的数据可以理解乘客流动模式，并预测热门航线及出行高峰。 - **航班优化**：通过对飞行里程和经纬度的分析，可能有助于航空公司优化飞行路线以节省燃油成本。 - **预测模型**：利用历史准时率数据构建预测模型来预估未来航班是否可能发生延误。 - **政策制定**：政府与监管机构可以使用这些信息调整航线分配或提升服务质量标准。由于提供的文件名为“机票航班数据.xlsx”，这表明数据集可能还包含Excel版本，该格式提供了丰富的数据处理和可视化功能，如筛选、排序及图表制作等。对于初学者或需要快速分析的用户而言，这种格式更为直观。这个数据集为研究人员、数据分析专家以及对航空业感兴趣的用户提供了一个全面且宝贵的资源，通过清洗与整理这些信息可以获取有关航空市场的深度见解，并推动决策制定和业务优化。

海上风电发电量预测数据集（CSV格式，含4万余条记录）

优质

本数据集包含超过四万条详细的海上风力发电记录，以CSV格式提供，旨在为研究者与开发者提供精确的海上风电发电量预测所需的数据支持。海上风电出力预测的数据分为训练组和测试组两大类，主要包括风电场基本信息、气象变量数据和实际功率数据三个部分。风电场基本信息涵盖各风电场的装机容量等信息；气象变量数据包含从2022年1月到2024年1月份期间，每间隔15分钟记录的各风电场的气象情况；实际功率数据则是各风电场每间隔15分钟的发电出力详情。这些数据集文件采用csv格式存储。A榜提供两个训练集和两个测试集的数据。

金融欺诈行为检测的Python数据分析方法

优质

本文章介绍如何利用Python进行金融欺诈行为的数据分析和检测，涵盖数据预处理、特征工程及模型构建等内容。 Python 数据分析在金融欺诈行为检测中的应用，通过实例学习如何识别金融欺诈行为。

美国主要城市果蔬价格数据集（CSV格式，含1.5万条记录）

优质

本数据集提供了美国各大城市的果蔬价格信息，包含1.5万余条记录，以CSV格式存储，便于数据分析和研究。该数据集全面分析了不同城市各种新鲜农产品的零售价与农场价格。时间跨度从1999年至2019年，涵盖了亚特兰大、芝加哥、洛杉矶以及纽约等主要城市的商品名称、日期、农场价格及零售价格信息。此数据集中包含了一系列流行的农产品种类，例如草莓、莴苣（包括红叶莴苣）、土豆、橙子、卷心菜（如卷心莴苣和绿叶莴苣）、芹菜、花椰菜、胡萝卜、哈密瓜以及西兰花的不同品种（如西兰花冠与西兰花串）等。

全球城市人口数据集（1950-2050），CSV格式（含3万多条记录）

优质

本数据集提供了全球主要城市的详细人口统计数据，时间跨度从1950年至预测至2050年，包含超过3万条记录，以CSV文件形式存储。该数据集提供了有关全球人口动态的基本统计数据。它包括年份、经济指标、经济标签、以千为单位的人口绝对值以及城市人口百分比等内容，并涵盖了从1950年至2050年的时期，帮助分析不同经济体中的人口趋势和城市化模式。

利用Apache Spark进行金融欺诈检测

优质

本项目运用Apache Spark大数据处理技术，构建高效模型以识别和预防金融交易中的欺诈行为，保障用户资产安全。在构建整体系统架构和软件栈的过程中，我们探讨了如何利用并改进Spark来形成最终方案。我们的目标是搭建一个快速且强大的特征衍生、选择与转换流程（Pipeline）。我们将详细展示真实数据带来的挑战，并介绍我们在采样、填充、缩放以及特定领域内开发的其他特征转换模块。许多这些内容已经被贡献给Spark社区。我们还将深入分析所使用的算法如何解决数据不平衡问题，同时对比它们与其他算法的效果。此外，在实现过程中积累了许多宝贵的开发经验。

是否确定退出登录?

CSV格式的金融欺诈检测数据集含104万+条记录

全部评论 (0)