“大数据”一词用于大型数据集的收集,这些数据集包括庞大的数据量,高速的数据以及各种日趋增加的数据。使用传统的数据管理系统,很难处理大数据。因此,Apache Software Foundation引入了一个名为Hadoop的框架来解决大数据管理和处理难题。
Hadoop
Hadoop是一个开放源代码框架,用于在分布式环境中存储和处理大数据。它包含两个模块,一个是MapReduce,另一个是Hadoop分布式文件系统(HDFS)。
- MapReduce:这是一个并行编程模型,用于在大型商品硬件集群上处理大量结构化,半结构化和非结构化数据。
- HDFS: Hadoop分布式文件系统是Hadoop框架的一部分,用于存储和处理数据集。它提供了可在商用硬件上运行的容错文件系统。
Hadoop生态系统包含用于帮助Hadoop模块的不同子项目(工具),例如Sqoop,Pig和Hive。
- Sqoop:用于在HDFS和RDBMS之间导入和导出数据。
- Pig:它是一种过程语言平台,用于为MapReduce操作开发脚本。
- hive:这是一个平台,用于开发SQL类型脚本以执行MapReduce操作。
注意:有多种执行MapReduce操作的方法:
- 使用Java MapReduce程序的传统方法用于结构化,半结构化和非结构化数据。
- MapReduce的脚本方法可使用Pig来处理结构化和半结构化数据。
- MapReduce的Hive查询语言(HiveQL或HQL),以使用Hive处理结构化数据。
什么是hive
Hive是一个数据仓库基础架构工具,用于处理Hadoop中的结构化数据。它驻留在Hadoop之上以汇总大数据,并使查询和分析变得容易。
Hive最初是由Facebook开发的,后来Apache软件基金会开始使用它,并以Apache Hive的名义将其作为开源进一步开发。它由不同的公司使用。例如,Amazon在Amazon Elastic MapReduce中使用它。
Hive不是
- 关系数据库
- 在线事务处理(OLTP)的设计
- 实时查询和行级更新的语言
Hive的特征
- 它将模式存储在数据库中,并将处理后的数据存储到HDFS中。
- 它是为OLAP设计的。
- 它提供了用于查询的SQL类型语言,称为HiveQL或HQL。
- 它是熟悉的,快速的,可伸缩的和可扩展的。
Hive的体系结构
以下组件图描述了Hive的体系结构:
该组件图包含不同的单元。下表描述了每个单元:
单位名称运作方式用户界面Hive是一种数据仓库基础结构软件,可以在用户和HDFS之间创建交互。Hive支持的用户界面是Hive Web UI,Hive命令行和Hive HD Insight(在Windows服务器中)。元商店Hive选择各自的数据库服务器来存储表,数据库,表中的列,其数据类型和HDFS映射的架构或元数据。HiveQL流程引擎HiveQL与SQL相似,用于查询Metastore上的架构信息。它是MapReduce程序的传统方法的替代之一。不用用Java编写MapReduce程序,我们可以为MapReduce作业编写查询并进行处理。执行引擎HiveQL流程引擎和MapReduce的结合部分是Hive执行引擎。执行引擎处理查询并生成与MapReduce结果相同的结果。它使用了MapReduce的风格。HDFS或HBASEHadoop分布式文件系统或HBASE是将数据存储到文件系统中的数据存储技术。
Hive的工作
下图描述了Hive和Hadoop之间的工作流程。
下表定义了Hive如何与Hadoop框架进行交互:
步骤
1、执行查询
Hive接口(例如命令行或Web UI)将查询发送到驱动程序(任何数据库驱动程序,例如JDBC,ODBC等)以执行。
2、获取计划
驱动程序借助查询编译器来分析查询,以检查语法和查询计划或查询要求。
3、获取元数据
编译器将元数据请求发送到Metastore(任何数据库)。
4、发送元数据
Metastore将元数据作为对编译器的响应发送。
5、发送计划
编译器检查需求,然后将计划重新发送给驱动程序。至此,查询的解析和编译已完成。
6、执行计划
驱动程序将执行计划发送到执行引擎。
7、执行工作
在内部,执行作业的过程是MapReduce作业。执行引擎将作业发送到“名称”节点中的JobTracker,并将该作业分配给“数据”节点中的TaskTracker。在这里,查询执行MapReduce作业。
7.1、元数据操作
同时,在执行中,执行引擎可以使用Metastore执行元数据操作。
8、取得结果
执行引擎从数据节点接收结果。
9、发送结果
执行引擎将这些结果值发送给驱动程序。
10、发送结果
驱动程序将结果发送到Hive接口。