sqoop是一款用于hadoop和关系型数据库之间数据导入导出的工具。你可以通过sqoop把数据从数据库（比如mysql,oracle）导入到hdfs中；也可以把数据从hdfs中导出到关系型数据库中。sqoop通过Hadoop的MapReduce导入导出，因此提供了很高的并行性能以及良好的容错性。

当然阿里开源的datax也是不错的产品，会在未来介绍。

1.hdfs与关系型数据库交换数据

文本转换方案

自写Java程序从数据库中读出数据，再写到hadoop

Sqoop

厂商提供的解决方案

2.Sqoop

Sqoop中一大亮点就是可以通过hadoop的mapreduce把数据从关系型数据库中导入数据到HDFS。

sqoop架构非常简单，其整合了Hive、Hbase和Oozie，通过map-reduce任务来传输数据，从而提供并发特性和容错。

sqoop主要通过JDBC和关系数据库进行交互。理论上支持JDBC的database都可以使用sqoop和hdfs进行数据交互。

但是，只有一小部分经过sqoop官方测试，如下：

Database version --direct support connect string matches

HSQLDB 1.8.0+ No jdbc:hsqldb:*//

MySQL 5.0+ Yes jdbc:mysql://

Oracle 10.2.0+ No jdbc:oracle:*//

PostgreSQL 8.3+ Yes (import only) jdbc:postgresql://

3.sqoop大概流程

1.读取要导入数据的表结构，生成运行类，默认是QueryResult，打成jar包，然后提交给Hadoop

2.设置好job，主要也就是设置好的各个参数

3.这里就由Hadoop来执行MapReduce来执行Import命令了，

1）首先要对数据进行切分，也就是DataSplit

DataDrivenDBInputFormat.getSplits(JobContext job)

2）切分好范围后，写入范围，以便读取

DataDrivenDBInputFormat.write(DataOutput output) 这里是lowerBoundQuery and upperBoundQuery

3）读取以上2）写入的范围

DataDrivenDBInputFormat.readFields(DataInput input)

4）然后创建RecordReader从数据库中读取数据
DataDrivenDBInputFormat.createRecordReader(InputSplit split,TaskAttemptContext context)
5）创建Map
TextImportMapper.setup(Context context)
6）RecordReader一行一行从关系型数据库中读取数据，设置好Map的Key和Value，交给Map
DBRecordReader.nextKeyValue()
7）运行map
TextImportMapper.map(LongWritable key, SqoopRecord val, Context context)最后生成的Key是行数据，由QueryResult生成，Value是NullWritable.get()。

sqoop1入门介绍（sqoop底层原理）

1.hdfs与关系型数据库交换数据

2.Sqoop

3.sqoop大概流程

相关推荐

取消回复欢迎你发表评论:

Google 黑客常用搜索语句一览原力计划

npx简介（npxvip是哪国的）

在 Android 模拟器上运行 ARM 应用（android模拟器原理）

GB28181,B接口协议之SIPRTSPRTPRTMP协议从入门到精通

安装使用Hoppscotch构建API请求访问与测试

手机实时提取SIM卡打电话的信令和声音-辅助外设与商用通话方案

Python自动化办公——后台截图（python 自动截图）

轻松转换!AppleNumbers到Excel的快捷教程

电脑端腾讯文档如何导出excel

用OpenCV测量图像中物体的大小（基于opencv的物体尺寸检测算法实现）

sqoop1入门介绍（sqoop底层原理）

1.hdfs与关系型数据库交换数据

2.Sqoop

3.sqoop大概流程

相关推荐

取消回复欢迎 你 发表评论:

Google 黑客常用搜索语句一览 原力计划

npx简介（npxvip是哪国的）

在 Android 模拟器上运行 ARM 应用（android模拟器原理）

GB28181,B接口协议之SIPRTSPRTPRTMP协议从入门到精通

安装使用Hoppscotch构建API请求访问与测试

手机实时提取SIM卡打电话的信令和声音-辅助外设与商用通话方案

Python自动化办公——后台截图（python 自动截图）

轻松转换!AppleNumbers到Excel的快捷教程

电脑端腾讯文档如何导出excel

用OpenCV测量图像中物体的大小（基于opencv的物体尺寸检测算法实现）

取消回复欢迎你发表评论:

Google 黑客常用搜索语句一览原力计划