
2019年疫情数据预处理与数据挖掘可视化的Jupyter源码
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本项目使用Python和Jupyter Notebook进行2019年新冠疫情相关数据的预处理、分析及可视化展示,旨在通过数据挖掘揭示疫情发展规律。
一、数据预处理与导入
1. 对于2019_nCoV_data.csv文件(包含2020年1月至3月的全球新冠疫情数据),需要执行以下步骤进行数据清洗:
(1)删除无用列:Sno编号列为冗余信息,应予以移除。
(2)处理缺失值:对于部分国家和地区对应的地区字段为NAN的情况,将其填充为空白字符串()以保持一致性。
(3)过滤无效记录:如果某些国家或地区的感染人数为零,则这些行需要从数据集中删除。
(4)统一命名规范:统计受疫情影响的各个国家和地区的数量,并对“Country”列中的特定条目进行标准化,例如将Mainland China, Hong Kong 和 Macau等地区统称为China;同时把Korea, South 改为South Korea以符合国际通用标准。
2. 对于DXYArea.csv文件同样需要执行以下数据清洗操作:
(1)统一命名规范:对countryEnglishName列中出现的HongKong和Macao等地名进行修正,统称为China,以便与全球疫情报告保持一致。
(2)日期格式转换:将updateTime字段中的时间信息转化为仅包含日期的新列(命名为updateTime1),以简化数据分析过程并便于进一步处理。
(3)城市名称规范化:鉴于多数城市的地名中未添加“市”字,因此需要删除直辖市下属区域的“区”后缀;对于那些没有固定规律变化的城市名字,则需逐一进行修正。
全部评论 (0)
还没有任何评论哟~


