
nyc-taxi-data-insights:解析200GB纽约市出租车数据集
5星
- 浏览量: 0
- 大小:None
- 文件类型:ZIP
简介:
nyc-taxi-data-insights项目专注于深入分析200GB规模的纽约市出租车出行大数据集,揭示城市交通模式和趋势。
如何使用AWS EC2 Hadoop集群处理200GB数据
存储200 GB的NYC出租车数据集,并部署Cloudera Hadoop集群以对其进行可视化。
利用Python中的Datashader绘制并可视化Hadoop大型数据集,同时展示没有使用Datashader进行可视化的效果对比。
工作流程概述:
1. 首先在AWS EC2上建立一个Hadoop集群。
2. 将NYC出租车的大量数据上传至该集群,并存储于分布式文件系统中(如HDFS)。
3. 使用Cloudera提供的工具和服务来管理Hadoop生态系统,包括但不限于YARN和Spark等组件。
使用数据着色器:
1. 安装Python库Datashader,它能够处理大规模的数据集并生成图像表示。
2. 编写脚本从存储在HDFS上的出租车数据集中提取所需信息,并利用这些信息通过Datasheder进行可视化操作。
3. 调整参数和配置选项以优化最终的视觉效果。
最终可视化:
展示使用了Datashader技术处理后的NYC出租车数据库,这将能够更高效地揭示隐藏于庞大数量级下的模式与趋势。
全部评论 (0)
还没有任何评论哟~


