
大数据发展历程.pdf
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本PDF文档全面梳理了大数据技术的发展历程,从概念萌芽到技术革新,详述关键时期与里程碑事件,展望未来趋势。
大数据的发展历程已有近30年的历史,并经历了多个阶段。
1. 启蒙阶段:数据仓库的出现
20世纪90年代,商业智能(BI系统)诞生,它能够将企业已有的业务数据转化为知识,帮助管理层进行经营决策。例如,在零售场景中需要分析商品销售和库存信息以制定合理的采购计划。显然,这种需求离不开数据分析,并且需要整合多个业务系统的大量数据来进行查询。传统的数据库主要面向单一业务的增删改查操作无法满足这些要求,因此推动了数据仓库概念的发展。
传统意义上的数据仓库第一次明确了数据分析的应用场景并采用独立的技术方案实现它而不依赖于任何特定的业务系统或数据库类型。
2. 技术变革:Hadoop诞生
进入21世纪初随着PC互联网时代的到来产生了海量的信息。这一时期的特点包括:
- 数据量激增,如Google和雅虎等网络巨头每天可以生成上亿条用户行为记录。
- 除了结构化业务数据之外还存在大量非结构化的多媒体信息(例如图像、视频)。
显然传统数据库难以应对如此规模的数据挑战。2003年谷歌发布了三篇开创性论文:“谷歌手车”,其中包括MapReduce分布式处理技术,BigTable列式存储系统以及GFS分布式文件系统等关键技术架构的描述,奠定了现代大数据理论的基础框架。由于Google并未公开这三项核心技术源代码仅提供设计文档,在Yahoo的支持下2005年Hadoop项目根据上述论文完成了开源实现标志着大数据时代的正式开启。
与传统数据仓库相比Hadoop具有以下优势:
- 完全分布式体系结构可以使用低成本硬件搭建集群以满足大规模存储需求。
- 数据格式灵活支持异构类型的数据分析任务。
随着技术的成熟2010年Hadoop世界大会上首次提出了“数据湖”的概念。所谓“数据湖”就是指一个能够原样保存各种原始格式文件而不进行预处理或清洗的系统,企业可基于此构建自己的核心资产数据库从而推动了Hadoop商业化的进程。
3. 数据工厂时代:大数据平台兴起
商用版Hadoop包含多种技术使得整个开发流程变得非常复杂。为了满足特定的数据需求往往需要完成数据抽取、存储、加工等一系列操作环节。这导致了较高的技术门槛限制了大数据解决方案的广泛采用。
针对上述问题,面向研发场景提供一站式服务的大数据平台应运而生。这种“平台即服务”的理念能够显著提高开发效率使得原始数据可以在流水线上快速转换为指标并呈现在各种报表或产品中供进一步使用分析。
4. 数据价值时代:阿里巴巴提出数据中台
2016年左右正值移动互联网普及之际大数据技术已经较为成熟并且催生了许多应用场景。但随之而来的问题是由于各业务线独立开发导致大量重复工作和资源浪费使得整体成本上升效率低下。
马云在此时提出了“数据中台”的概念强调通过避免重复计算实现数据服务化从而提高共享能力并赋能各个部门。“One Data,One Service”成为当时的口号核心思想在于减少冗余提升协作效能。
全部评论 (0)


