
关于Hadoop数据仓库Hive的基础知识
5星
- 浏览量: 0
- 大小:None
- 文件类型:PDF
简介:
本简介旨在介绍Apache Hadoop生态系统中的重要组件之一——Hive。它主要用于查询和管理大规模分布式数据库系统中的结构化数据,提供了一种类似SQL的语言(HiveQL),使数据分析人员能够轻松操作存储在HDFS上的大量数据集,并支持多种存储类型和计算框架的灵活集成。
Hive 是一种基于 Hadoop 的数据仓库工具,能够对存储在 HDFS 上的文件中的数据集进行整理、查询及分析处理,并提供了一种类似 SQL 语言的查询方式——HiveQL。通过使用 HQL 命令,可以实现简单的 MapReduce 统计任务;Hive 将这些命令转化为 MR(MapReduce)作业来执行。
数据仓库是一个面向主题的、集成化且相对稳定的用于支持管理决策的数据集合,并能够反映历史变化的情况。一般而言,一个典型的数据仓库体系结构包括四个层级:首先是数据源层,即为数据仓库提供原始信息来源的部分,其中包括外部导入的数据和现有的业务系统等;其次是数据存储与管理层,负责对收集到的各类数据进行整合、清洗及维护等工作;再往上则是数据服务层,在这一层次中会将底层处理好的高质量数据分析结果通过各种接口形式对外输出给用户或其它应用使用;最顶层是具体的应用程序,利用前面各层级提供的功能和服务来满足特定业务需求。
全部评论 (0)
还没有任何评论哟~


