HIVE 入门基础（hive基础操作）

“大数据”一词用于大型数据集的收集，这些数据集包括庞大的数据量，高速的数据以及各种日趋增加的数据。使用传统的数据管理系统，很难处理大数据。因此，Apache Software Foundation引入了一个名为Hadoop的框架来解决大数据管理和处理难题。

Hadoop

Hadoop是一个开放源代码框架，用于在分布式环境中存储和处理大数据。它包含两个模块，一个是MapReduce，另一个是Hadoop分布式文件系统（HDFS）。

MapReduce：这是一个并行编程模型，用于在大型商品硬件集群上处理大量结构化，半结构化和非结构化数据。
HDFS： Hadoop分布式文件系统是Hadoop框架的一部分，用于存储和处理数据集。它提供了可在商用硬件上运行的容错文件系统。

Hadoop生态系统包含用于帮助Hadoop模块的不同子项目（工具），例如Sqoop，Pig和Hive。

Sqoop：用于在HDFS和RDBMS之间导入和导出数据。
Pig：它是一种过程语言平台，用于为MapReduce操作开发脚本。
hive：这是一个平台，用于开发SQL类型脚本以执行MapReduce操作。

注意：有多种执行MapReduce操作的方法：

使用Java MapReduce程序的传统方法用于结构化，半结构化和非结构化数据。
MapReduce的脚本方法可使用Pig来处理结构化和半结构化数据。
MapReduce的Hive查询语言（HiveQL或HQL），以使用Hive处理结构化数据。

什么是hive

Hive是一个数据仓库基础架构工具，用于处理Hadoop中的结构化数据。它驻留在Hadoop之上以汇总大数据，并使查询和分析变得容易。

Hive最初是由Facebook开发的，后来Apache软件基金会开始使用它，并以Apache Hive的名义将其作为开源进一步开发。它由不同的公司使用。例如，Amazon在Amazon Elastic MapReduce中使用它。

Hive不是

关系数据库
在线事务处理（OLTP）的设计
实时查询和行级更新的语言

Hive的特征

它将模式存储在数据库中，并将处理后的数据存储到HDFS中。
它是为OLAP设计的。
它提供了用于查询的SQL类型语言，称为HiveQL或HQL。
它是熟悉的，快速的，可伸缩的和可扩展的。

Hive的体系结构

以下组件图描述了Hive的体系结构：

该组件图包含不同的单元。下表描述了每个单元：

单位名称运作方式用户界面Hive是一种数据仓库基础结构软件，可以在用户和HDFS之间创建交互。Hive支持的用户界面是Hive Web UI，Hive命令行和Hive HD Insight（在Windows服务器中）。元商店Hive选择各自的数据库服务器来存储表，数据库，表中的列，其数据类型和HDFS映射的架构或元数据。HiveQL流程引擎HiveQL与SQL相似，用于查询Metastore上的架构信息。它是MapReduce程序的传统方法的替代之一。不用用Java编写MapReduce程序，我们可以为MapReduce作业编写查询并进行处理。执行引擎HiveQL流程引擎和MapReduce的结合部分是Hive执行引擎。执行引擎处理查询并生成与MapReduce结果相同的结果。它使用了MapReduce的风格。HDFS或HBASEHadoop分布式文件系统或HBASE是将数据存储到文件系统中的数据存储技术。

Hive的工作

下图描述了Hive和Hadoop之间的工作流程。

下表定义了Hive如何与Hadoop框架进行交互：

步骤

1、执行查询

Hive接口（例如命令行或Web UI）将查询发送到驱动程序（任何数据库驱动程序，例如JDBC，ODBC等）以执行。

2、获取计划

驱动程序借助查询编译器来分析查询，以检查语法和查询计划或查询要求。

3、获取元数据

编译器将元数据请求发送到Metastore（任何数据库）。

4、发送元数据

Metastore将元数据作为对编译器的响应发送。

5、发送计划

编译器检查需求，然后将计划重新发送给驱动程序。至此，查询的解析和编译已完成。

6、执行计划

驱动程序将执行计划发送到执行引擎。

7、执行工作

在内部，执行作业的过程是MapReduce作业。执行引擎将作业发送到“名称”节点中的JobTracker，并将该作业分配给“数据”节点中的TaskTracker。在这里，查询执行MapReduce作业。

7.1、元数据操作

同时，在执行中，执行引擎可以使用Metastore执行元数据操作。

8、取得结果

执行引擎从数据节点接收结果。

9、发送结果

执行引擎将这些结果值发送给驱动程序。

10、发送结果

驱动程序将结果发送到Hive接口。

Hadoop

什么是hive

Hive不是

Hive的特征

Hive的体系结构

Hive的工作

相关推荐

取消回复欢迎你发表评论:

Google 黑客常用搜索语句一览原力计划

npx简介（npxvip是哪国的）

在 Android 模拟器上运行 ARM 应用（android模拟器原理）

GB28181,B接口协议之SIPRTSPRTPRTMP协议从入门到精通

手机实时提取SIM卡打电话的信令和声音-辅助外设与商用通话方案

安装使用Hoppscotch构建API请求访问与测试

轻松转换!AppleNumbers到Excel的快捷教程

Python自动化办公——后台截图（python 自动截图）

电脑端腾讯文档如何导出excel

网络流媒体经典开源软件宝典webRTC, FFMpeg, SIP_流媒体开发教程

HIVE 入门基础（hive基础操作）

Hadoop

什么是hive

Hive不是

Hive的特征

Hive的体系结构

Hive的工作

相关推荐

取消回复欢迎 你 发表评论:

Google 黑客常用搜索语句一览 原力计划

npx简介（npxvip是哪国的）

在 Android 模拟器上运行 ARM 应用（android模拟器原理）

GB28181,B接口协议之SIPRTSPRTPRTMP协议从入门到精通

手机实时提取SIM卡打电话的信令和声音-辅助外设与商用通话方案

安装使用Hoppscotch构建API请求访问与测试

轻松转换!AppleNumbers到Excel的快捷教程

Python自动化办公——后台截图（python 自动截图）

电脑端腾讯文档如何导出excel

网络流媒体经典开源软件宝典webRTC, FFMpeg, SIP_流媒体开发教程

取消回复欢迎你发表评论:

Google 黑客常用搜索语句一览原力计划