Advertisement

该仓库包含Udacity在数据工程纳米学位项目中所使用的材料。

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
数据工程项目!此存储库囊括了Udacity数据工程纳米学位课程中所有实践项目的成果。该项目模拟了一个名为Sparkify的初创音乐流媒体业务,通过使用Postgres(一种关系型数据库管理系统)进行数据建模,将关系数据库技术与数据建模的知识相结合,并利用Python开发了一个ETL(提取、转换、加载)管道。该项目的核心目标是构建一个Postgres数据库,其中包含针对优化歌曲播放分析查询的精心设计的表。为了实现高效的ETL流程,项目充分应用了OLAP(联机分析处理)、Fact and Dimension Tables以及Star Schema等相关概念,确保仅需少量指令即可执行必要的查询,从而从JSON文件生成数据库。在项目最终阶段,将生成一个包含用于多维度分析任务所需数据的数据库,该数据库可供任何需要的人员进行利用。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • Projects for Udacity Data Engineering Nanodegree: 本Udacity期间作。
    优质
    此GitHub仓库收录了在Udacity数据工程纳米学位课程中完成的所有项目与作业,涵盖数据处理、数据库设计及大规模数据管理等多个方面。 该存储库包含了在Udacity数据工程纳米学位课程期间开发的所有项目。其中一个项目使用Postgres(SQL)进行数据建模,模拟了一个名为Sparkify的初创音乐流服务,并结合关系数据库和数据模型知识来创建一个ETL管道。 该项目的目标是构建一个包含优化后的表结构的Postgres数据库,这些表格旨在提高歌曲播放分析查询的效率。在此过程中运用了OLAP、事实表与维度表以及星型模式等概念,以便开发出高效的ETL流程。此流程能够快速从JSON文件生成所需的数据,并通过少量命令来运行必要的查询。 项目完成后,将创建一个数据库,其中包含可用于执行多种数据分析任务的数据集,供任何有兴趣使用这些数据的人参考。另一部分项目则涉及使用Apache Cassandra(NoSQL)进行数据建模,在这个模拟的音乐流场景中探索非关系型数据库的应用。
  • Udacity DSND Arvato: 最终
    优质
    本简介介绍的是Udacity数据科学纳米学位课程中的一个实际项目——DSND Arvato。该项目由学员运用机器学习技术来解决Arvato公司提出的营销挑战,旨在提升学生的实战能力和解决行业问题的能力。 毕业项目:为Arvato Financial Services金融服务公司实现一个顾客分类报告。这是优达学城数据科学家纳米学位的毕业项目。 开发环境: - Python 3.7.4 - conda 4.8.3 - numpy 1.18.1 - pandas 1.0.2 - scikit-learn 0.22.1 - scikitplot 0.3.7 文件说明: - imgs:博文使用的图片。 - kaggle_result.csv:提交kaggle的结果文件。 - rfc_result.csv:通过随机森林的预计结果,也已提交过kaggle。 - Arvato_Project_workbook_zh.ipynb:工程记录实现代码 - DIAS属性-值2017.xlsx:Arvato提供的数据说明文件。
  • Udacity分析师完结:我最终作品...
    优质
    在这篇文章中,我分享了我在Udacity数据分析师纳米学位项目的最后成果和学习经历,涵盖了数据分析的关键技能、工具和技术。 Udacity Data Analyst纳米学位最终项目集合:这是我完成的Udacity数据分析师纳米学位项目的汇总。
  • Udacity使AWS Redshift
    优质
    本课程由Udacity提供,专注于利用Amazon Web Services (AWS) 的Redshift服务进行高效数据仓储。学习者将掌握设计、构建及优化大规模数据存储与分析系统的技能。适合希望深入理解云端数据工程的开发者和数据科学家。 该项目使用AWS Redshift数据仓库来处理Udacity的第三个数据工程纳米学位项目。在这个项目中,你需要通过Amazon Redshift实现一个数据仓库模型: - 明确要解决的问题。 - 对数据库和管道模型进行建模。 - 创建数据库架构。 - 使用Python开发ETL(抽取、转换、加载)流程。 具体任务包括理解为特定分析重点的星型模式定义事实表和维度表,并编写ETL管道,该管道使用Python和SQL将数据从两个本地目录中的文件传输到Postgres中。项目使用的数据集是免费提供的音频功能和元数据集合,包含一百万条当代流行音乐曲目(300 GB)。对于该项目来说,仅会用到歌曲数据库的样本以及json格式的艺术家信息。 具体而言: - 歌曲数据集:Json文件位于“/data/song_data”目录下。
  • Bikeshare:Udacity Bikeshare 分析
    优质
    本项目为Udacity推出的Bikeshare数据分析纳米学位课程,专注于通过Python等工具进行数据清洗、分析和可视化,旨在提高学生在共享单车行业中的数据处理能力。 在过去十年间,自行车共享系统在全球各大城市中的数量与受欢迎程度都在持续上升。用户可以通过短期租用的方式使用这些系统内的自行车,在任意一个站点借车并在另一个站点还车;当然如果只是为了骑行享受也可以在原地归还。无论哪种方式,每辆自行车每天都能为多个用户提供服务。随着信息技术的发展,现在用户可以轻松通过技术手段解锁或返回车辆,并且这种便利性也带来了大量数据资源,可用于深入研究如何更有效地使用这些系统。 在这个项目里,你将利用美国主要城市中由Motivate公司提供的自行车共享系统的实际运营数据进行分析。你的任务是对比芝加哥、纽约市和华盛顿特区这三个大城市的自行车共享系统的使用情况,并通过计算各种描述性统计信息来了解它们各自的特征与差异。
  • IBM_DSND_建议:IBM推荐
    优质
    本简介推荐IBM的数据科学纳米学位项目,强调其在培养数据分析、机器学习及Python编程技能方面的卓越表现,适合初学者与专业人士。 IBM Project的建议:IBM数据科学纳米学位项目目录 1. 安装 为了能够运行和查看该项目,请安装最新版本的Jupyter Notebook。 2. 项目动机 在这个项目中,我分析了用户与IBM Watson Studio平台上的文章之间的交互,并向他们提出了有关新文章推荐的意见。 3. 文件说明 该项目包含一个data文件夹,其中包含数据集csv文件: - user-item-interactions.csv:该文件包含了关于用户和文章之间互动的数据。 - articles_community.csv:该文件包含了社区内关于文章的信息。
  • P2_连续控制:Udacity深度强化2-机械臂控制
    优质
    本项目为Udacity深度强化学习纳米学位课程第二部分,专注于通过连续控制算法优化机械臂运动路径,实现高效精准操作。 项目2:连续控制介绍 在这个项目中,您将使用一个特定的环境。在此环境中,双臂可以移动到目标位置。每当代理人的手靠近目标位置一步时,都会获得+0.1的奖励分数。因此,代理人需要尽可能长时间地保持其手在目标位置上。 观察空间由33个变量组成,分别对应于手臂的位置、旋转、速度和角速度等信息。每个动作是一个包含四个数字的向量,代表施加到两个关节上的扭矩值。该向量中的每一个数值应在-1至1之间。 分布式训练 对于此项目,您将获得两种不同的Unity环境版本:第一个版本仅包括一个代理;第二个版本则含有20个相同的代理副本,在各自的独立环境中运行。第二种版本非常适合那些采用多份(非交互且并行的)代理人副本来分散经验收集任务的方法和算法。 解决环境 请注意,您的项目提交只需满足上述两个版本中的任意一个即可。选择一:解决第一个版本
  • Udacity 自动驾驶汽车计划地图 1.7z
    优质
    本资源为Udacity自动驾驶汽车纳米学位课程中的地图文件(版本1.7),用于辅助学习者进行相关编程和算法实践。 我的实现代码是关于Udacity 自动驾驶汽车纳米学位项目的部分成果。