本PDF文件为《初识大数据》系列教程的第五部分,主要介绍大数据平台的基本架构及其组成部分。适合数据科学入门者学习参考。
初识大数据(五:大数据平台基本架构)
大数据开发不仅仅是几个组件的简单堆砌,而是需要根据实际的数据量、数据种类以及业务需求进行大量的调优和二次开发,形成一个有机的整体,这样才能保证大数据平台能够高效运行。
一. 大数据平台的基本组成如下:
1. 硬件环境:
1) X86架构廉价服务器集群:Hadoop技术栈构建在这种服务器上,价格低廉且易于横向扩展。
2) GPU服务器集群:如果需要使用机器学习算法,则可能需要用到GPU服务器。
2. ETL(数据抽取、转换和加载): 对各种类型的数据进行采集与清洗,并根据不同的数据选择合适的组件或方法。例如可以编写Python脚本来完成这一任务。
3. 数据存储:将经过处理后的数据存入大数据存储系统中。
4. 数据计算:
1) 实时计算:对流式数据实时分析,如日志管理和消息队列等。
2) 离线计算:针对海量数据进行批量运算,特点是数据量庞大且维度复杂多样。
5. 数据分析: 对已处理的数据执行交互式的查询和挖掘工作, 主要通过SQL语言实现数据分析任务。
6. 资源管理: 对平台中的内存、CPU及存储资源等进行调度与分配以达到最优性能表现。
7. 数据治理:确保数据的安全性,质量和权限控制。同时也要负责流程管理和元数据的维护工作。
8. 运维监控: 用于对Hadoop集群及其生态系统组件实施运维操作, 并对其运行状态进行全面监测和管理。
二. 大数据开发所需的基本技能包括:
1. 精通Java、Python、Scala等编程语言
2. 掌握Linux操作系统使用技巧
3. 能够熟练运用SQL进行数据库查询与分析
4. 具备阅读开源代码的能力
5. 了解并熟悉各种大数据组件的用法