Advertisement

Hive用户手册(Hive_User_Guide)_中文版.pdf

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:PDF


简介:
《Hive用户手册》是一份详尽介绍Apache Hive系统的文档,提供了关于如何安装、配置和使用Hive进行大数据处理与查询操作的相关指导。本手册以中文呈现,便于国内开发者学习使用。 ### HIVE结构 Hive 是建立在 Hadoop 上的数据仓库基础架构。它提供了一系列的工具,可以用来进行数据提取、转换、加载(ETL),这是一种存储、查询和分析存储在Hadoop中的大规模数据的方法。 Hive定义了简单的类SQL查询语言,称为QL,允许熟悉SQL的用户查询数据,并且也支持开发自定义mapper和reducer来处理内建的mapper和reducer无法完成的复杂任务。 #### 1.2 HIVE架构 Hive 的结构可以分为以下几个部分: - **用户接口**:包括CLI、Client 和 WUI。其中最常用的是 CLI,启动时会同时启动一个 Hive 副本; Client 是连接到Hive Server的客户端,在启动时需要指定Hive Server所在的节点并在此节点上启动Server;WUI是通过浏览器访问Hive的方式。 - **元数据存储**:通常存放在关系数据库中(如mysql、derby)。 - **解释器、编译器、优化器和执行器**:完成 HQL 查询语句的词法分析、语法解析,以及查询计划生成。这些计划会被保存在HDFS上,并随后由MapReduce调用执行。 - **存储与计算**:数据存放在HDFS中;大部分查询通过MapReduce来处理(例如不包含*号的选择操作不会产生MapReduce任务)。 #### 1.3 Hive 和 Hadoop的关系 Hive 构建在 Hadoop之上,所有对查询语句的解释、优化和生成查询计划由Hive完成。数据存储于HDFS中,并且所有的数据都保存在Hadoop中;查询被转化为MapReduce任务,在Hadoop环境中执行(有些操作无需MR任务)。两者均采用UTF-8编码。 #### 1.4 Hive 和普通关系数据库的异同 | 特性 | Hive | 关系型数据库 | |----------|-----------------------|---------------------------| | 查询语言 | HQL | SQL | | 数据存储位置 | HDFS | 块设备或本地文件系统 | | 索引 | 无 | 存在 | | 执行方式 | MapReduce Executor | 自己的执行引擎 | | 查询延迟 | 高(大数据量) | 低 | | 数据规模处理能力| 大数据量 | 小数据量 | 1. **查询语言**:由于SQL在数据分析领域广泛使用,Hive设计了类SQL的语言——HQL。 2. **存储位置**:所有Hive的数据都存放在分布式文件系统(如 HDFS)中;关系型数据库通常将数据保存于本地或块设备上。 3. **索引与执行效率**:对于特定条件下的数据访问,由于没有建立索引和暴力扫描整个数据集的原因,Hive的查询延迟较高。然而,通过MapReduce并行处理大数据量的优势依然存在;关系型数据库通常会为一些列定义索引来提高少量特定条件下数据的访问速度。 4. **执行**:大多数情况下Hive使用MapReduce来完成查询任务(例如select * from tbl不需要生成MR作业);而关系型数据库有自己独立的执行引擎。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • HiveHive_User_Guide)_.pdf
    优质
    《Hive用户手册》是一份详尽介绍Apache Hive系统的文档,提供了关于如何安装、配置和使用Hive进行大数据处理与查询操作的相关指导。本手册以中文呈现,便于国内开发者学习使用。 ### HIVE结构 Hive 是建立在 Hadoop 上的数据仓库基础架构。它提供了一系列的工具,可以用来进行数据提取、转换、加载(ETL),这是一种存储、查询和分析存储在Hadoop中的大规模数据的方法。 Hive定义了简单的类SQL查询语言,称为QL,允许熟悉SQL的用户查询数据,并且也支持开发自定义mapper和reducer来处理内建的mapper和reducer无法完成的复杂任务。 #### 1.2 HIVE架构 Hive 的结构可以分为以下几个部分: - **用户接口**:包括CLI、Client 和 WUI。其中最常用的是 CLI,启动时会同时启动一个 Hive 副本; Client 是连接到Hive Server的客户端,在启动时需要指定Hive Server所在的节点并在此节点上启动Server;WUI是通过浏览器访问Hive的方式。 - **元数据存储**:通常存放在关系数据库中(如mysql、derby)。 - **解释器、编译器、优化器和执行器**:完成 HQL 查询语句的词法分析、语法解析,以及查询计划生成。这些计划会被保存在HDFS上,并随后由MapReduce调用执行。 - **存储与计算**:数据存放在HDFS中;大部分查询通过MapReduce来处理(例如不包含*号的选择操作不会产生MapReduce任务)。 #### 1.3 Hive 和 Hadoop的关系 Hive 构建在 Hadoop之上,所有对查询语句的解释、优化和生成查询计划由Hive完成。数据存储于HDFS中,并且所有的数据都保存在Hadoop中;查询被转化为MapReduce任务,在Hadoop环境中执行(有些操作无需MR任务)。两者均采用UTF-8编码。 #### 1.4 Hive 和普通关系数据库的异同 | 特性 | Hive | 关系型数据库 | |----------|-----------------------|---------------------------| | 查询语言 | HQL | SQL | | 数据存储位置 | HDFS | 块设备或本地文件系统 | | 索引 | 无 | 存在 | | 执行方式 | MapReduce Executor | 自己的执行引擎 | | 查询延迟 | 高(大数据量) | 低 | | 数据规模处理能力| 大数据量 | 小数据量 | 1. **查询语言**:由于SQL在数据分析领域广泛使用,Hive设计了类SQL的语言——HQL。 2. **存储位置**:所有Hive的数据都存放在分布式文件系统(如 HDFS)中;关系型数据库通常将数据保存于本地或块设备上。 3. **索引与执行效率**:对于特定条件下的数据访问,由于没有建立索引和暴力扫描整个数据集的原因,Hive的查询延迟较高。然而,通过MapReduce并行处理大数据量的优势依然存在;关系型数据库通常会为一些列定义索引来提高少量特定条件下数据的访问速度。 4. **执行**:大多数情况下Hive使用MapReduce来完成查询任务(例如select * from tbl不需要生成MR作业);而关系型数据库有自己独立的执行引擎。
  • Hive指南.pdf
    优质
    《Hive用户指南中文版》为Apache Hive用户提供了一套详尽的操作和配置手册,帮助数据分析师及工程师轻松掌握SQL语言在大数据处理中的应用。 《Hive用户手册中文版.pdf》,这本手册能帮助你快速掌握Hive数据库的操作技巧,是一本实用的指南书籍。
  • GD32E23x ).pdf
    优质
    本手册为GD32E23x系列微控制器提供详尽的操作指南与技术参考,涵盖硬件特性、寄存器配置及应用实例等内容,适用于嵌入式系统开发人员。 最近非常受欢迎的芯片是GD32E230,这款产品去年才推出市场,价格十分亲民,大约只需7元人民币,并且具备72MHz 32位处理器性能。强烈推荐大家使用这款国产芯片,支持国内科技产业的发展是我们每个人的责任。它完全可以作为STM32的理想替代品。
  • OptiSystem ).pdf
    优质
    《OptiSystem用户手册(中文版)》为用户提供详尽的操作指南和实例教程,帮助用户快速掌握光通信系统仿真软件OptiSystem的各项功能。 OptiSystem操作手册(中文版)介绍了一种创新的光通信系统仿真软件。该软件能够帮助用户设计、测试及模拟从视频广播系统到洲际骨干网等宽频谱光网络中的物理层。
  • SIM800C ).pdf
    优质
    《SIM800C用户手册》提供全面详细的指南,帮助读者掌握SIM800C模块的各项功能与应用。此手册涵盖硬件介绍、通信协议及实用案例等,适用于开发者和工程师深入学习和实践。 世联芯科技长期供应SIM800C模块。这款四频GSM/GPRS模块采用城堡孔封装设计,具有性能稳定、外观小巧且性价比高的特点,能够满足客户的多种需求。SIM800C的工作频率为GSM/GPRS 850/900/1800/1900MHz,能够在低功耗条件下实现语音传输和SMS及数据信息的发送功能。其尺寸仅为17.6*15.7*2.3mm,适用于各种紧凑型产品设计需求。
  • E5071C ).pdf
    优质
    《E5071C用户手册(中文版)》为安捷伦科技有限公司出品的网络分析仪提供了详尽的操作指南和技术参数说明,帮助用户掌握设备使用方法和技巧。 E5071C 中文版说明书.pdf E5071C 中文版说明书.pdf E5071C 中文版说明书.pdf
  • VIM).pdf
    优质
    《VIM用户手册(中文版)》是一本详尽介绍VIM文本编辑器使用方法与技巧的手册,适合编程人员和系统管理员学习参考。 作者: Bram Moolenaar 翻译: ZhaoRuFei 版本: 603.0 这是一本非常简单实用的vim使用手册,特别适合查阅。
  • ProFace).pdf
    优质
    《ProFace用户手册(中文版)》是一份详尽指导文档,涵盖ProFace系列产品的操作、设置及维护方法,旨在帮助用户轻松掌握屏幕的各项功能。 proface中文说明书pdf, proface中文说明书
  • CloudCompare.pdf
    优质
    《CloudCompare用户手册中文版》为用户提供了一份详细的指导文件,涵盖了点云数据处理、3D模型对比等众多功能的操作说明和技巧,帮助用户轻松掌握软件使用方法。 《CloudCompare用户手册》提供了详细的指导和支持,帮助用户了解如何使用CloudCompare软件的各项功能。无论是初学者还是有经验的使用者都能从中受益,手册涵盖了从基本操作到高级应用的所有内容。通过阅读这份文档,您可以更好地掌握三维数据处理和分析的方法和技术。
  • Elastix ).pdf
    优质
    《Elastix用户手册(中文版)》为用户提供详尽的操作指南和配置说明,帮助读者轻松掌握开源IPPBX系统Elastix的各项功能。 Elastix系统集成了最优秀的工具,使Asterisk PBX拥有一个简单且易于操作的界面,并增加了自己的设备功能,允许外界创新,使其成为开源通信领域最好的软件包之一。Elastix的目标是成为一个稳定、可调节和易操作的软件系统。这些特点使得Elastix成为了运行Asterisk PBX的最佳选择。 Elastix包含多种多样的功能,集成了许多优质的软件包,并在此基础上添加了全新的控制界面和报告界面,使其成为一个完美的整体解决方案。