写入数据仓库 / 数据湖

csdndevpressbyzer

36人浏览 · 2023-12-08 18:13:53

csdndevpressbyzer · 2023-12-08 18:13:53 发布

Byzer 支持将表写入至数据仓库比如 Hive，或 Hive 兼容的 Data Catalog 中，比如 AWS Glue；同时 Byzer 也内置了 Delta Lake 的支持，可以在 Byzer SQL 中直接对 Delta Lake 中的表进行读写。

写入 Hive

关于如何配置 Hive 以及如何加载 Hive 中的表，请参考 Hive 数据源

当在 Byzer 中对表进行处理后，我们可以通过 SAVE 语句来将临时虚拟表存入至 Hive 当中

将表写入至 Hive

SAVE 语句支持 overwrite 和 append 两种方式来将表存储至 Hive 中

overwrite 会覆盖表的 Schema 和内容进行覆写
append 是追加表至 Hive 中的表，需要要求 Schema 保持一致

将表保存至 Hive：

save overwrite table1 as hive.`db.table1`;

如果需要分区，则使用

save overwrite table1 as hive.`db.table1` partitionBy col1;

使用数据湖代理 Hive

我们也可以使用数据湖替换实际的 Hive 存储：

在 $BYZER_HOME/conf/byzer.properties.override 配置文件中配置如下参数

启动时配置 -streaming.datalake.path 参数,启用数据湖。
配置 -spark.mlsql.datalake.overwrite.hive Hive 采用数据湖存储。

使用时如下：

set rawText='''
{"id":9,"content":"Spark好的语言1","label":0.0}
{"id":10,"content":"MLSQL 是一个好的语言6","label":0.0}
{"id":12,"content":"MLSQL 是一个好的语言7","label":0.0}
''';

load jsonStr.`rawText` as orginal_text_corpus;

select cast(id as String)  as rowkey,content,label from orginal_text_corpus as orginal_text_corpus1;
save overwrite orginal_text_corpus1 as hive.`public.orginal_text_corpus1`;

load hive.`public.orginal_text_corpus1` as output ;

这样当对 Hive 实现存储时，会有一些优缺点，在你访问 Hive 时，如果数据湖里没有，则会穿透数据湖，返回 Hive 结果。

如果你希望在写入的时候一定要写入到 Hive 的存储当中而不是写入至数据湖里，可以通过在 where 语句中强行指定 storage 为 hive

> save overwrite orginal_text_corpus1 as hive.`public.orginal_text_corpus1` where storage="hive";

一门面向 Data 和 AI 的低代码、云原生的开源编程语言

无需安装部署，在线快速体验 Byzer

更多推荐

编译时权限控制

前言权限控制，对于 MLSQL 而言的重要程度可以说是生命线。 MLSQL 需要面对各式各样的资源访问，比如 MySQL, Oracle,HDFS，Hive，Kafka，Sorl，ElasticSearch，Redis，API，Web等等，不同用户对这些数据源（以及表，列）的权限是不一样的。传统模式是，每个用户都需要有个 proxy user，然后到每个数据源里面给这个 proxy user

Byzer 白泽

Byzer 支持 JDBC 聚合下推

聚合下推PR链接聚合下推我们知道 Byzer 支持多数据源和联邦查询，可以方便分析师在一个平台上快速的分析来自多种数据源的数据，从而进行灵活的探索式分析。使用场景和优势当前 Byzer 中加载数据的方式会拉取明细数据到 spark 中进行聚合计算，对于小数据量或者在分布式文件系统上的数据源来说是常规操作。但是对于 JDBC 数据源或者有分析能力的 OLAP 系统来说拉取明细数据可能就不是最

Byzer 白泽

Byzer 术语表

Byzer-lang Byzer ，又称为 Byzer-lang，一门面向 Data 和 AI 的低代码、云原生的开源编程语言。 Byzer 是一门结合了声明式编程和命令式编程的混合编程语言，其低代码且类 SQL 的编程逻辑配合内置算法及插件的加持，能帮助数据工作者们高效打通数据链路，完成数据的清洗转换，并快速地进行机器学习相关的训练及预测。 Byzer 希望能够提供一套语言、一个引擎，就能覆盖整