Byzer 支持 JDBC 聚合下推

csdndevpressbyzer

123人浏览 · 2023-12-11 14:24:10

csdndevpressbyzer · 2023-12-11 14:24:10 发布

聚合下推PR链接聚合下推

我们知道 Byzer 支持多数据源和联邦查询，可以方便分析师在一个平台上快速的分析来自多种数据源的数据，从而进行灵活的探索式分析。

使用场景和优势

当前 Byzer 中加载数据的方式会拉取明细数据到 spark 中进行聚合计算，对于小数据量或者在分布式文件系统上的数据源来说是常规操作。但是对于 JDBC 数据源或者有分析能力的 OLAP 系统来说拉取明细数据可能就不是最优选择了，对于这类数据源如果能够把聚合查询下压到数据源中去处理，则既可以利用数据源的聚合查询能力又可以减少 JDBC 拉取数据量，从而进一步提高分析效率。Byzer 在拥有聚合下推能力之后，可以给分析师带来更高效的分析体验。

我们以 Byzer 举例子，假设有两张表 kylin_sales_my1 和 kylin_sales_my2，做 join 和聚合查询：

connect jdbc where 
url="jdbc:mysql://localhost:3306/learn_kylin?characterEncoding=utf8"
and driver="com.mysql.jdbc.Driver"
and user="root"
and password="yourpassword"
as db_1;

load jdbc.`db_1.kylin_sales_my1` as kylin_sales_my1;
load jdbc.`db_1.kylin_sales_my2` as kylin_sales_my2;

select t1.BUYER_ID, t1.ss, t2.ss as s2 from 
(select BUYER_ID,sum(price) as ss from kylin_sales_my1 where OPS_REGION="Shanghai" group by BUYER_ID) t1 
join 
(select BUYER_ID,sum(price) as ss from kylin_sales_my2 group by BUYER_ID) t2 
on t1.BUYER_ID=t2.BUYER_ID 
as output;

生成的查询计划如下，会直接从 Byzer 数据源中拉取明细数据：

SubqueryAlias `output`
+- Project [BUYER_ID#32L, ss#61, ss#62 AS s2#63]
   +- Join Inner, (BUYER_ID#32L = BUYER_ID#52L)
      :- SubqueryAlias `t1`
      :  +- Aggregate [BUYER_ID#32L], [BUYER_ID#32L, sum(price#34) AS ss#61]
      :     +- Filter (OPS_REGION#33 = Shanghai)
      :        +- SubqueryAlias `kylin_sales_my1`
      :           +- Project [BUYER_ID#26L AS BUYER_ID#32L, OPS_REGION#27 AS OPS_REGION#33, price#28 AS price#34]
      :              +- Relation[BUYER_ID#26L,OPS_REGION#27,price#28] JDBCRelation(kylin_sales_my1) [numPartitions=1]
      +- SubqueryAlias `t2`
         +- Aggregate [BUYER_ID#52L], [BUYER_ID#52L, sum(price#54) AS ss#62]
            +- SubqueryAlias `kylin_sales_my2`
               +- Project [BUYER_ID#46L AS BUYER_ID#52L, OPS_REGION#47 AS OPS_REGION#53, price#48 AS price#54]
                  +- Relation[BUYER_ID#46L,OPS_REGION#47,price#48] JDBCRelation(kylin_sales_my2) [numPartitions=1]

在没有下推功能时，如果想要直接从数据源查询聚合数据，则需要使用 directQuery 功能，如下操作：

connect jdbc where 
url="jdbc:mysql://localhost:3306/learn_kylin?characterEncoding=utf8"
and driver="com.mysql.jdbc.Driver"
and user="root"
and password="yourpassword"
as db_1;

load jdbc.`db_1.kylin_sales_my1` 
where directQuery='''select BUYER_ID,sum(price) as ss from kylin_sales_my1 where OPS_REGION="Shanghai" group by BUYER_ID''' 
as kylin_sales_my11;

load jdbc.`db_1.kylin_sales_my2` 
where directQuery='''select BUYER_ID,sum(price) as ss from kylin_sales_my2 group by BUYER_ID''' 
as kylin_sales_my22;

select t1.BUYER_ID, t1.ss, t2.ss as s2 from 
t1 join t2 
on t1.BUYER_ID=t2.BUYER_ID 
as output;

这种方式虽然能够解决问题，但是在探索式查询时一般查询模式不固定，会对一张表有多次和不同模式的聚合查询，对于每个有聚合操作的查询如果都这么做的话会影响分析师的体验和操作效率。所以如果能够对于指定的数据源开启下推功能的话则可以自动把聚合查询下推到数据源，从而让分析师免去繁复的加载操作。

技术实现

实现聚合下推功能主要思路就是从查询计划中找到可以下推的子树，然后把下推子树转换成对应数据源的 sql 查询语句然后生成新的关系，并替换老的查询子树。(主要思路参考 MoonBox 项目)

主要的处理流程如下：

首先需要使用递归的方式，从叶子结点开始遍历逻辑计划树，给所有的节点打标签，重新构建一颗标签树，内容包括：数据源类型，数据库，能否下压
1. 判断是否为叶子结点，如果是叶子结点则生成对应的标签，并判断能否下压，
2. 不是叶子结点的，需要先判断孩子结点是否可以下压，如果可以则判断本结点是否可以下压
3. 重复以上步骤直到标记整棵树
遍历标签树，挑出所有能够下压的最上层结点。
进行逻辑替换。

对上面的 sql 开启下压功能：

set enableQueryWithIndexer="true";

connect jdbc where
url="jdbc:mysql://localhost:3306/learn_kylin?characterEncoding=utf8"
and driver="com.mysql.jdbc.Driver"
and user="root"
and password="Hadoop-123"
and ispushdown="true"
as db_1;

load jdbc.`db_1.kylin_sales_my1` as kylin_sales_my1;
load jdbc.`db_1.kylin_sales_my2` as kylin_sales_my2;

select t1.BUYER_ID, t1.ss, t2.ss as s2 from 
(select BUYER_ID,sum(price) as ss from kylin_sales_my1 where OPS_REGION="Shanghai" group by BUYER_ID) t1 
join 
(select BUYER_ID,sum(price) as ss from kylin_sales_my2 group by BUYER_ID) t2 
on t1.BUYER_ID=t2.BUYER_ID 
as output;

可以自动生成如下的查询计划：

SubqueryAlias `output`
+- Relation[BUYER_ID#97L,ss#126,s2#128] JDBCRelation((SELECT t1.`BUYER_ID`,t1.`ss`,t2.`ss` AS `s2` FROM (SELECT `BUYER_ID`, sum(`price`) AS `ss` FROM kylin_sales_my1 WHERE `OPS_REGION` = 'Shanghai' GROUP BY `BUYER_ID`) t1 INNER JOIN (SELECT `BUYER_ID`, sum(`price`) AS `ss` FROM kylin_sales_my2 GROUP BY `BUYER_ID`) t2 ON t1.`BUYER_ID` = t2.`BUYER_ID`) __SPARK_GEN_JDBC_SUBQUERY_NAME_1) [numPartitions=1]

假如只有其中一个表 kylin_sales_my1 开启下推功能，kylin_sales_my2 表不做处理：

set enableQueryWithIndexer="true";

connect jdbc where
url="jdbc:mysql://localhost:3306/learn_kylin?characterEncoding=utf8"
and driver="com.mysql.jdbc.Driver"
and user="root"
and password="Hadoop-123"
and ispushdown="true"
as db_1;

load jdbc.`db_1.kylin_sales_my1` as kylin_sales_my1;
load jdbc.`db_1.kylin_sales_my2` where ispushdown="false" as kylin_sales_my2;

select t1.BUYER_ID, t1.ss, t2.ss as s2 from 
(select BUYER_ID,sum(price) as ss from kylin_sales_my1 where OPS_REGION="Shanghai" group by BUYER_ID) t1 
join 
(select BUYER_ID,sum(price) as ss from kylin_sales_my2 group by BUYER_ID) t2 
on t1.BUYER_ID=t2.BUYER_ID 
as output;

查询计划如下只有 SubqueryAlias t1 进行了下压，SubqueryAlias t2 保持不变：

SubqueryAlias `output`
+- Project [BUYER_ID#193L, ss#222, ss#223 AS s2#224]
   +- Join Inner, (BUYER_ID#193L = BUYER_ID#213L)
      :- SubqueryAlias `t1`
      :  +- Relation[BUYER_ID#193L,ss#222] JDBCRelation((SELECT `BUYER_ID`, sum(`price`) AS `ss` FROM kylin_sales_my1 WHERE `OPS_REGION` = 'Shanghai' GROUP BY `BUYER_ID`) __SPARK_GEN_JDBC_SUBQUERY_NAME_2) [numPartitions=1]
      +- SubqueryAlias `t2`
         +- Aggregate [BUYER_ID#213L], [BUYER_ID#213L, sum(price#215) AS ss#223]
            +- SubqueryAlias `kylin_sales_my2`
               +- Project [BUYER_ID#207L AS BUYER_ID#213L, OPS_REGION#208 AS OPS_REGION#214, price#209 AS price#215]
                  +- Relation[BUYER_ID#207L,OPS_REGION#208,price#209] JDBCRelation(kylin_sales_my2) [numPartitions=1]

未来的优化

目前只是实现了子查询聚合下推功能，也仅仅只是实现了Byzer 和 Kylin 的下推功能。在性能上并没有做性能测试，只是做了一些简单的功能性的测试。所以下推功能依然有很大的优化空间，也有很多功能需要补齐。

具体的方向如下：

增加查询计划的可解释性，比如查询计划是否改写，改写的部分，改写耗时，下推信息等。
增加测试用例，完善测试流程。
对于不同的数据源，测试和统计下推操作对于查询效率的提升
对于复杂的查询可以处理成子查询模式再进行下压（目前只支持直接子查询下压）

一门面向 Data 和 AI 的低代码、云原生的开源编程语言

无需安装部署，在线快速体验 Byzer

更多推荐

编译时权限控制

前言权限控制，对于 MLSQL 而言的重要程度可以说是生命线。 MLSQL 需要面对各式各样的资源访问，比如 MySQL, Oracle,HDFS，Hive，Kafka，Sorl，ElasticSearch，Redis，API，Web等等，不同用户对这些数据源（以及表，列）的权限是不一样的。传统模式是，每个用户都需要有个 proxy user，然后到每个数据源里面给这个 proxy user

Byzer 白泽

Byzer 术语表

Byzer-lang Byzer ，又称为 Byzer-lang，一门面向 Data 和 AI 的低代码、云原生的开源编程语言。 Byzer 是一门结合了声明式编程和命令式编程的混合编程语言，其低代码且类 SQL 的编程逻辑配合内置算法及插件的加持，能帮助数据工作者们高效打通数据链路，完成数据的清洗转换，并快速地进行机器学习相关的训练及预测。 Byzer 希望能够提供一套语言、一个引擎，就能覆盖整

Byzer 白泽

性能调优实例

问题场景在我们通过 Rest 或 UDF 发起较多请求时，执行脚本的时间会显著的增加从图中可以看到我们执行完这个 cell 需要约 34 秒，但是他的数据量仅仅只有 36 条，可以说是非常的少，那么这是为什么呢？解决方案我们先说解决方案：在之前的 Rest 和 UDF 发起请求后，使用 save 语法将获取的数据保存下来这两行代码看似非常多余，但是再次执行试试呢？脚本的运行时间只要