linux中sqoop实现hive数据导入到mysql

上一篇文章我们简单的介绍《http://blog.csdn.net/a123demi/article/details/72742553》，本文将简单介绍如何通过sqoop把hive数据导入到mysql。一. 前期准备实践本文内容，默认您已经安装和部署了hadoop,mysql,hive,sqoop等环境。如相关安装和部署有问题，可以参考《http://blog.csdn.net/a123demi/

IT狗探求

10272人浏览 · 2017-06-01 08:48:21

IT狗探求 · 2017-06-01 08:48:21 发布

 
 上一篇文章我们简单的介绍《 linux中sqoop实现hive数据导入到mysql》，本文将简单介绍如何通过sqoop把hive数据导入到mysql。 

一. 前期准备

 
 实践本文内容，默认您已经安装和部署了hadoop,mysql,hive,sqoop等环境。如相关安装和部署有问题，可以参考《 linux中sqoop实现hive数据导入到mysql》。 

二. sqoop实现hdfs文件导出

2.1 hive中插入数据

insert into hivetest.t_user values(7,'dlm666','dlm6'),(8,'dlm777','dlm7');
select * from hivetest.t_user;

2.2 全表导出

sqoop export --connect jdbc:mysql://192.168.32.128:3306/hive  --username root --password root --table  t_user --export-dir /usr/hive/warehouse/hivetest.t_user --input-fields-terminated-by '\001'

2.3 表部分字段导出

 
 如果只需要导出id和name，可以设置参数--colums "id,name" 

sqoop export --connect jdbc:mysql://192.168.32.128:3306/hive  --username root --password root --table  t_user --columns "id,name" --export-dir /usr/hive/warehouse/hivetest.t_user --input-fields-terminated-by '\001'

三. 异常坑处理

3.1 解析分隔符异常

Error: java.io.IOException: Can't export data, please check failed map task logs
        at org.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:112)
        at org.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:39)
        at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:145)
        at org.apache.sqoop.mapreduce.AutoProgressMapper.run(AutoProgressMapper.java:64)
        at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:784)
        at org.apache.hadoop.mapred.MapTask.run(MapTask.java:341)
        at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:163)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:415)
        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1692)
        at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)
Caused by: java.lang.RuntimeException: Can't parse input data: '4dlm222dlm222'
        at t_user.__loadFromFields(t_user.java:292)
        at t_user.parse(t_user.java:230)
        at org.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:83)
        ... 10 more
Caused by: java.lang.NumberFormatException: For input string: "4dlm222dlm222"
        at java.lang.NumberFormatException.forInputString(NumberFormatException.java:65)
        at java.lang.Integer.parseInt(Integer.java:492)
        at java.lang.Integer.valueOf(Integer.java:582)
        at t_user.__loadFromFields(t_user.java:279)
        ... 12 more

 
 原因：sqoop导出是根据分隔符去分隔字段值。hive默认的分隔符是‘\001’,sqoop默认的分隔符是','。 

 
 解决：在脚本中需要加入 --input-fields-terminated-by '\001' 参数。 

3.2 --input-fields-terminated-by和-fields-teminated-by区别

 
 官网： 

 
 解析： 

 
 --input-fields-terminated-by：表示用于hive或hdfs数据导出到外部存储分隔参数； 

 
 --fields-terminated-by：表示用于外面存储导入到hive或hdfs中需要实现字段分隔的参数； 

3.3 mapreduce.job超时异常

 
 原因：本次hive是基于hadoop mapreduce去处理计算的。其中mapreduce读取数据是通过job任务去完成，如果在该时间范围内，没有读到任何的数据，那么就抛出这个异常。 

 
 本异常不影响结果。 

一门面向 Data 和 AI 的低代码、云原生的开源编程语言

无需安装部署，在线快速体验 Byzer

更多推荐

编译时权限控制

前言权限控制，对于 MLSQL 而言的重要程度可以说是生命线。 MLSQL 需要面对各式各样的资源访问，比如 MySQL, Oracle,HDFS，Hive，Kafka，Sorl，ElasticSearch，Redis，API，Web等等，不同用户对这些数据源（以及表，列）的权限是不一样的。传统模式是，每个用户都需要有个 proxy user，然后到每个数据源里面给这个 proxy user

Byzer 白泽

Byzer 支持 JDBC 聚合下推

聚合下推PR链接聚合下推我们知道 Byzer 支持多数据源和联邦查询，可以方便分析师在一个平台上快速的分析来自多种数据源的数据，从而进行灵活的探索式分析。使用场景和优势当前 Byzer 中加载数据的方式会拉取明细数据到 spark 中进行聚合计算，对于小数据量或者在分布式文件系统上的数据源来说是常规操作。但是对于 JDBC 数据源或者有分析能力的 OLAP 系统来说拉取明细数据可能就不是最

Byzer 白泽

Byzer 术语表

Byzer-lang Byzer ，又称为 Byzer-lang，一门面向 Data 和 AI 的低代码、云原生的开源编程语言。 Byzer 是一门结合了声明式编程和命令式编程的混合编程语言，其低代码且类 SQL 的编程逻辑配合内置算法及插件的加持，能帮助数据工作者们高效打通数据链路，完成数据的清洗转换，并快速地进行机器学习相关的训练及预测。 Byzer 希望能够提供一套语言、一个引擎，就能覆盖整