全球城市人口数据集（1950-2050），CSV格式（含3万多条记录）-ITADN社区

全球城市人口数据集（1950-2050），CSV格式（含3万多条记录）

优质

本数据集提供了全球主要城市的详细人口统计数据，时间跨度从1950年至预测至2050年，包含超过3万条记录，以CSV文件形式存储。该数据集提供了有关全球人口动态的基本统计数据。它包括年份、经济指标、经济标签、以千为单位的人口绝对值以及城市人口百分比等内容，并涵盖了从1950年至2050年的时期，帮助分析不同经济体中的人口趋势和城市化模式。

美国主要城市果蔬价格数据集（CSV格式，含1.5万条记录）

优质

本数据集提供了美国各大城市的果蔬价格信息，包含1.5万余条记录，以CSV格式存储，便于数据分析和研究。该数据集全面分析了不同城市各种新鲜农产品的零售价与农场价格。时间跨度从1999年至2019年，涵盖了亚特兰大、芝加哥、洛杉矶以及纽约等主要城市的商品名称、日期、农场价格及零售价格信息。此数据集中包含了一系列流行的农产品种类，例如草莓、莴苣（包括红叶莴苣）、土豆、橙子、卷心菜（如卷心莴苣和绿叶莴苣）、芹菜、花椰菜、胡萝卜、哈密瓜以及西兰花的不同品种（如西兰花冠与西兰花串）等。

飞猪景点数据集（CSV格式，含5万多条记录）

优质

该数据集包含超过5万条飞猪平台上的景点信息，以CSV格式存储，便于数据分析与挖掘。内容详尽丰富，涵盖众多旅游目的地详情。使用Python爬取飞猪网站以获取全国景点的数据。包含的字段有：序号、景点标题、封面图、销量、价格以及对应飞猪网站的地址和景点城市。

MySQL测试库（含100万条记录及全球人口数据）.rar

优质

本资源包提供一个包含100万条记录的MySQL测试数据库，内嵌全球人口统计数据，适用于性能测试与数据分析实践。 MySQL 是世界上最流行的关系型数据库管理系统之一，用于存储和管理各种类型的数据。在提供的 MySQL 测试库（包含100万条记录的数据库和世界人口数据库）中，有两个重要的文件：`world.sql` 和 `t100w.sql` ，它们为学习和测试 MySQL 功能提供了丰富的数据集。 `world.sql` 文件通常包含一个名为 world 的数据库的结构和数据。这个数据库是 MySQL 官方提供的示例数据库，用于教学和演示用途。它包含了关于世界各国的信息，例如国家名称、首都、面积、人口等信息。例如，可能有 `Country` 表来存储各国信息，`City` 表来存储城市信息以及 `Language` 表记录各国的主要语言及其使用比例。这些表之间的关系可以通过外键建立起来，便于查询和分析全球数据。 `t100w.sql` 文件则提供了一个包含 1 百万条数据的数据库，通常用于性能测试和基准比较。这个数据库可能设计为单一的大表，每行代表一条数据，用于测试在大量数据下的 SQL 查询性能、索引效率以及数据库的扩展性。这种大规模的数据集有助于模拟实际生产环境中的高并发访问和大数据处理场景，并且对于理解和优化 MySQL 的性能至关重要。学习者可以通过以下步骤进行操作： 1. **安装与导入**：首先确保已经安装了 MySQL 服务器，然后可以使用 `mysql` 命令行客户端或者图形化工具（如 MySQL Workbench）来导入 `world.sql` 和 `t100w.sql`。执行 `source pathtofile.sql` 命令即可导入 SQL 脚本。 2. **查询操作**：学习如何编写 SELECT 语句，例如找出人口最多的国家或者按人口降序排列所有国家。 3. **聚合函数**：利用 SUM, AVG, COUNT, MAX, MIN 等聚合函数计算世界总人口、平均人口或找到最大最小值。 4. **连接查询**：通过 JOIN 操作将 `Country` 和 `City` 表关联起来，获取每个国家的首都信息。 5. **索引优化**：在频繁查询的字段上创建索引，并观察对查询速度的影响。对比不同类型的索引（如 B-TREE, hash, full-text）的效果。 6. **性能测试**：使用 `t100w.sql` 进行性能测试，执行大量读写操作并评估 MySQL 在大数据量下的表现，包括插入、更新和删除的速度等。 7. **备份与恢复**：学习如何备份数据库（如使用 mysqldump 工具）并在需要时进行数据恢复。这些操作不仅能帮助你深入理解 MySQL 的基本语法和功能，还能让你掌握数据库性能调优和管理的实践技能。对于初学者及有经验的数据管理员来说，这两个测试库都是非常宝贵的资源。

近十年飞机航班数据集（CSV格式，含1.5万条记录）

优质

本数据集包含近十年全球航班运营信息，共计1.5万余条记录，以CSV格式呈现，涵盖航班日期、起飞降落时间、延误情况等关键指标。标题中的“近10年飞机航班数据集 CSV 1.5W+记录”指的是一个包含大量航班信息的数据集合，以CSV格式存储，大约有15,000条记录。CSV（Comma Separated Values）是一种常见的数据交换格式，便于在不同应用程序之间交换数据。这种数据集通常用于数据分析、挖掘或机器学习任务。该数据集中包括以下关键字段： - **航班号**：每个航班都有一个唯一的识别号，用于区分不同的飞行。 - **机型**：飞机的型号，如波音737、空客A320等，这会影响飞机的载客量、飞行距离和燃油效率。 - **出发及到达时间**：航班预计起飞和到达的具体时间，用于规划行程和计算飞行时长。 - **出发及到达省份/城市/机场**：航班的起止地点，包括省、市和具体机场，有助于了解航线网络和地理分布。 - **飞行里程**：航班的总距离，可以衡量飞行时间和消耗的燃料。 - **经纬度**：提供航班起点和终点的精确地理位置坐标，可用于地图可视化或地理分析。 - **准时率**：航班按照预定时间起飞和到达的概率，反映了航空公司的运营效率和服务质量。 - **航司**：运营该航班的航空公司，可能涉及其服务、价格策略和市场份额。 - **航班计划**：可能指的是航班的日常或季节性安排，包括频率和时刻表。这样的数据集对于多种用途非常有用： - **市场分析**：通过分析不同航空公司的航班数量、航线分布及准时率来评估各公司在市场上的表现与竞争力。 - **乘客行为研究**：结合出发和到达城市的数据可以理解乘客流动模式，并预测热门航线及出行高峰。 - **航班优化**：通过对飞行里程和经纬度的分析，可能有助于航空公司优化飞行路线以节省燃油成本。 - **预测模型**：利用历史准时率数据构建预测模型来预估未来航班是否可能发生延误。 - **政策制定**：政府与监管机构可以使用这些信息调整航线分配或提升服务质量标准。由于提供的文件名为“机票航班数据.xlsx”，这表明数据集可能还包含Excel版本，该格式提供了丰富的数据处理和可视化功能，如筛选、排序及图表制作等。对于初学者或需要快速分析的用户而言，这种格式更为直观。这个数据集为研究人员、数据分析专家以及对航空业感兴趣的用户提供了一个全面且宝贵的资源，通过清洗与整理这些信息可以获取有关航空市场的深度见解，并推动决策制定和业务优化。

CSV格式的金融欺诈检测数据集含104万+条记录

优质

本数据集包含超过104万条记录，采用CSV格式存储，专为金融欺诈检测设计，涵盖多种交易类型与特征信息，助力模型训练及算法优化。该数据集展示了移动货币交易的全面表示，并经过精心设计以反映现实世界金融活动中的复杂性以及欺诈行为的研究目的。此数据来源于名为PaySim的模拟器，利用了非洲某国实际财务日志中汇总的数据来填补公开可用金融数据集中用于检测欺诈研究方面的空白。它涵盖了多种类型的交易，包括现金存入、兑现输出、借记、支付和转账等，并为评估各种欺诈检测方法提供了一个全面的环境。 **数据集结构** - **step：** 表示现实世界中的时间单位，1 步等于 1 小时；整个模拟历时744步，相当于30天。 - **type：** 包括CASH-IN、CASH-OUT、BIT-OUT、PAYMENT 和 TRANSFER等交易类型。 - **amount：** 表示以当地货币单位表示的每笔交易金额。 - **nameOrig：** 发起该笔交易的客户名称。 - **oldbalanceOrg：** 代表发起方在进行特定操作前账户中的余额。 - **newbalanceOrig：** 指的是执行完相关操作后，发起方账户的新余额。 - **nameDest：** 接收这笔交易的客户的标识符（或称目的地）。 - **oldbalanceDest：** 表示接收方在收到资金前的账户余额。对于以M表示商家身份的客户而言，此字段不适用。 - **newbalanceDest：** 收到转账后的新收款人账户余额；同样地，如果交易涉及的是一个标识为“M”的实体，则该信息不被提供。 - **isFraud：** 标识由欺诈代理执行的那些企图通过诸如提现或转移等操作来耗尽客户资金的行为。 - **isFlaggedFraud：** 用于标记账户间未经授权的大额转账行为，任何单笔金额超过20万单位货币的交易都被视为非法。

艾滋病病毒感染预测数据集 CSV格式含7.2万+条记录

优质

本数据集为CSV格式，包含超过72,000条记录，旨在用于研究和预测艾滋病病毒（HIV）感染情况，支持相关疾病的预防与控制工作。数据集包含已诊断为艾滋病患者的医疗保健统计数据及分类信息。字段包括： - 时间：失败或审查的时间。 - trt：治疗指示（0=仅 ZDV；1 = ZDV + ddI，2 = ZDV + Zal，3 = 仅 ddI）。 - 年龄：基线时的年龄（岁）。 - WTKG：基线时体重（千克）。 - 血友病：是否患有血友病（0=否；1=是）。 - 同性恋活动：是否有同性恋活动（0=否，1=是）。 - 药物滥用历史：有无静脉注射毒品史（0=否，1=是）。 - Karnofsky 评分：基线时的Karnofsky评分（范围从0到100分）。 - oprior：在前175年中是否接受过非 ZDV 的抗逆转录病毒治疗（0 = 否；1 = 是）。 - z30：前175天内是否使用过ZDV ( 0=否， 1=是 )。 - Preanti: 前175年的抗逆转录病毒疗法情况 - 种族：种族分类（0=白人，1=非白人）。 - 性别：性别（0=F；1=M）。 - STR2：患者之前是否接受过任何类型的抗逆转录治疗 ( 0 = 初次使用, 1 = 经验丰富 )。 - strat：根据既往的抗逆转录病毒疗法进行分类，分为三种情况( 1=初次使用者，2=>1但<=52周的既往治疗者，3=>52周)。 - 症状指示器：患者是否出现症状 (0 = 渐进性；1 = 出现症状 )。 - 治疗方式：当前使用的具体治疗方案（0=仅 ZDV, 1=其他）。 - offtrt: 在96+-5周前是否有停药情况 ( 0=否， 1=是)。 - CD4细胞计数：基线时的CD4细胞数量以及20+-5周后的值；另外还有相应的基线和后续时间点上的CD8 细胞计数。 - 感染者状态：是否感染艾滋病（0 = 否，1 = 是）。

糖尿病数据集CSV格式含770条记录（Diabetes Dataset）

优质

本数据集为糖尿病相关研究设计，包含770条详细记录，以CSV格式存储。每一记录均提供多项关键指标，便于分析与建模。糖尿病是一种全球性的慢性疾病，严重影响着人们的健康状况。科研人员与医疗工作者常利用数据集来研究如何更好地理解和预防这种病症。本篇文章将详细介绍一个名为“糖尿病数据集 CSV”的资源，其中包括770条记录，涵盖其来源、内容以及潜在的应用价值。该数据集由美国国家糖尿病、消化和肾脏疾病研究所提供，是科研领域的重要资料之一。它的主要目标在于通过一系列的诊断测量来预测患者是否患有糖尿病。每个记录代表一个个体，并包含多个特征变量，这些变量反映了患者的生理指标，有助于评估患糖尿病的风险。 CSV文件格式是一种通用的数据交换格式，特别适合于存储结构化的表格数据。“糖尿病数据集 CSV”中的每行表示一位患者的信息，而各个列则包含了各种特征和结果变量。例如，该数据集中可能包括年龄、性别、体重、身高及血压等基本信息，以及空腹血糖水平与胰岛素水平等直接关联到糖尿病的生物指标。在770条记录中，每个个体的特征通常可以分为以下几类： 1. 基本人口统计信息：如年龄和性别。这些因素可能影响着患糖尿病的风险。 2. 生理测量值：例如体重、身体质量指数（BMI）及血压等。这些都是与糖尿病发生和发展密切相关的指标。 3. 生化标志物：包括空腹血糖水平以及糖化血红蛋白浓度，它们是诊断糖尿病的关键依据。 4. 长期并发症的迹象：如视网膜病变和肾功能情况，这些信息可以反映疾病的严重程度。通过分析此数据集，研究者们能够探究不同特征与糖尿病患病率之间的关系，并揭示风险因素、建立预测模型或评估现有干预措施的效果。此外，该数据集规模适中，非常适合初学者进行数据分析实践，例如使用Python的Pandas库执行数据清洗和探索性数据分析（EDA），并应用机器学习算法如逻辑回归、决策树和支持向量机来构建预测模型。总的来说，“糖尿病数据集 CSV”为研究提供了丰富的实证材料。无论是在学术领域还是临床实践中，该资源都能帮助我们更深入地了解糖尿病的成因，预测疾病的发展趋势，并可能推动新的预防和治疗策略的研发。通过CSV格式存储的数据易于处理与共享，从而促进了全球范围内的科研合作。

心脏疾病数据集（含30万条记录，表格格式）

优质

这是一个包含30万条记录的心脏疾病数据集，以表格形式呈现。数据集中包含了诊断、患者特征等多方面信息，适合用于心脏病研究和模型训练。心脏病数据集包含30万条记录，并已完成数据清洗工作。该数据以Excel表格形式呈现，包括以下属性：HeartDisease（心脏病）、BMI（身体质量指数）、Smoking（吸烟情况）、AlcoholDrinking（饮酒习惯）、Stroke（中风历史）、PhysicalHealth（身体健康状况）、MentalHealth（心理健康状态）、DiffWalking（行走困难程度）、Sex（性别）和AgeCategory（年龄分类）。

海上风电发电量预测数据集（CSV格式，含4万余条记录）

优质

本数据集包含超过四万条详细的海上风力发电记录，以CSV格式提供，旨在为研究者与开发者提供精确的海上风电发电量预测所需的数据支持。海上风电出力预测的数据分为训练组和测试组两大类，主要包括风电场基本信息、气象变量数据和实际功率数据三个部分。风电场基本信息涵盖各风电场的装机容量等信息；气象变量数据包含从2022年1月到2024年1月份期间，每间隔15分钟记录的各风电场的气象情况；实际功率数据则是各风电场每间隔15分钟的发电出力详情。这些数据集文件采用csv格式存储。A榜提供两个训练集和两个测试集的数据。

是否确定退出登录?

全球城市人口数据集（1950-2050），CSV格式（含3万多条记录）

全部评论 (0)