
Udacity的数据工程课程,专注于使用AWS Redshift构建数据仓库。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
该存储库旨在支持Udacity的第三个数据工程纳米学位项目,其中核心内容是构建基于AWS Redshift的数据仓库。该项目着重于探索和实践数据仓库模型的构建,具体包括:分析要解决的问题以确定数据库和管道模型;设计数据库架构;利用Python开发ETL流程;理解分析重点并采用星型模式定义事实和维度表;最后,编写ETL管道,该管道通过Python和SQL将数据从两个本地目录中的文件传输到Postgres数据库中的相应表。 任务的核心在于创建完善的数据库架构,并将数据成功加载到PostgreSQL数据库中,同时实现高效的ETL管道以支持后续分析。此外,该项目还利用“”,一个免费提供的音频功能和元数据的集合,包含一百万首当代流行音乐曲目(总容量为300 GB)。 此数据集公开可供探索和研究使用,并且在本项目中仅会选取歌曲数据库中的样本以及JSON格式的艺术家信息。 歌曲数据集的具体位置是位于/data/song_data目录下,以JSON文件形式存在。
全部评论 (0)
还没有任何评论哟~


