Sqoop连接以及测试数据抽取

一.连接1）在自己的虚拟机上安装并配置好好 sqoop2）启动zookeeperbin/zkServer.sh start3）测试sqoop连接本机（虚拟机）上的mysql是否连接有效sqoop list-databases --connect jdbc:mysql://localhost:3306/ --username root --password Abc1234!4). 测试sqoop

盈欢

991人浏览 · 2020-06-30 14:40:16

盈欢 · 2020-06-30 14:40:16 发布

一. 连接

1）在自己的虚拟机上安装并配置好好 sqoop
2）启动zookeeper bin/zkServer.sh start
3）测试sqoop连接本机（虚拟机）上的mysql是否连接有效

sqoop list-databases --connect jdbc:mysql://localhost:3306/ --username root --password Abc1234!

在这里插入图片描述

4). 测试sqoop连接本地机器发现报错连接不上：

sqoop list-databases --connect jdbc:mysql://192.168.50.xx:3306/ --username root --password 123456

在这里插入图片描述
4.1）

检查虚拟机和本机是否通信有问题，互相 ping ip

如果通信没问题，那就检查是否mysql权限有问题，为了方便
我直接将该本地库设置为均可访问，使用root 用户登录mysql 修改权限

GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY '123456' WITH GRANT OPTION;

退出尝试重新连接本地库：

执行：sqoop list-databases --connect jdbc:mysql://192.168.50.xx:3306/ --username root --password 123456

成功连接！

二. 数据抽取：

写一个简单的数据抽取

sqoop import \
--connect jdbc:mysql://192.168.50.xx:3306/wanwangtest \
--username root \
--password 123456 \
--target-dir /user/hive/warehouse/hive_test.db/sqoop_course \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t" \
--query 'select cno,cname,tno from course where $CONDITIONS' \

运行没有问题！

需要注意的是 --delete-target-dir 参数加入，就会删除该数据信息（内部表），当加入数据之后，直接查表名是查不到的，但是在hdfs上是可以看到目录的，因此需要执行一次创建ddl语句才能使用select查看表信息。

解释参数：

import ： sqoop的导入命令，是指从外部进入到大数据集群
export ：大数据集群导出
–connect ：连接关系型数据库的url地址
–username ：数据库用户名
–password ：数据库密码
–driver : jdbc 的 driver class
–table：指定关系型数据库的表名
–num-mappers ：启动N个map来并行导入数据，默认是4个
–target-dir ：指定hdfs的路径
10.–compress：指定压缩参数：压缩参数，默认情况下数据是没被压缩的，通过该参数可以使用gzip压缩算法对数据进行压缩，适用于SequenceFile, text文本文件, 和Avro文件

一门面向 Data 和 AI 的低代码、云原生的开源编程语言

无需安装部署，在线快速体验 Byzer

更多推荐

编译时权限控制

前言权限控制，对于 MLSQL 而言的重要程度可以说是生命线。 MLSQL 需要面对各式各样的资源访问，比如 MySQL, Oracle,HDFS，Hive，Kafka，Sorl，ElasticSearch，Redis，API，Web等等，不同用户对这些数据源（以及表，列）的权限是不一样的。传统模式是，每个用户都需要有个 proxy user，然后到每个数据源里面给这个 proxy user

Byzer 白泽

Byzer 支持 JDBC 聚合下推

聚合下推PR链接聚合下推我们知道 Byzer 支持多数据源和联邦查询，可以方便分析师在一个平台上快速的分析来自多种数据源的数据，从而进行灵活的探索式分析。使用场景和优势当前 Byzer 中加载数据的方式会拉取明细数据到 spark 中进行聚合计算，对于小数据量或者在分布式文件系统上的数据源来说是常规操作。但是对于 JDBC 数据源或者有分析能力的 OLAP 系统来说拉取明细数据可能就不是最

Byzer 白泽

Byzer 术语表

Byzer-lang Byzer ，又称为 Byzer-lang，一门面向 Data 和 AI 的低代码、云原生的开源编程语言。 Byzer 是一门结合了声明式编程和命令式编程的混合编程语言，其低代码且类 SQL 的编程逻辑配合内置算法及插件的加持，能帮助数据工作者们高效打通数据链路，完成数据的清洗转换，并快速地进行机器学习相关的训练及预测。 Byzer 希望能够提供一套语言、一个引擎，就能覆盖整