登录社区云,与社区用户共同成长
邀请您加入社区
除了前文章节介绍的数据源外,Byzer 由于其数据源的扩展特性,我们也可以支持其他数据源,需要注意的是,下述数据源是社区贡献,未经官方验证实测,如果您需要使用,可能需要相关的开发和测试。 如果你希望使用的数据源 Byzer 暂时没有适配,如果它符合 Spark datasource API 标准,也可以进行集成。 具体做法如下: > LOAD unknow.`` WHERE implClass="
Byzer 内置了加载流式数据的能力,本章节我们会介绍如何通过 Byzer 加载流式数据源如 Kafka 中的数据。 加载 Kafka 流式数据源 Byzer 显示的支持 Kafka 作为流式数据源,也支持将其作为普通数据源进行 AdHoc 加载,性能同样可观。 本章只介绍数据加载,想了解更多流式编程细节,请查看使用 Byzer
REST API 获取数据代码示例 下面是一个基于 Github 的 open api 来获取 Github Organization 信息的简单例子: -- Get Github Organization Info -- set API URL and params SET org_name="byzer-org"; SET GITHUB_ORGANIZATION_URL="https://ap
大数据处理,离不开数仓或者数据湖。Byzer 引擎能够支持 Hadoop 中Hive数据目录的读写,也能够支持内置的 Delta Lake 的读写。 数仓中有三件事比较棘手,第一件是数据同步,第二件是流式支持,第三个是小文件问题。 本章节将会详细阐述 Byzer 是如何解决他们的。 Hive 数据源 Byzer 引擎默认提供了 Hive 读写的支持,可以和 Hive Metastore 进行交互,
本章节主要来讲如何基于存储系统来进行文件/文本类数据源的加载。除了支持的文件格式外,也会介绍本地磁盘,HDFS 或对象存储直接的 LOAD 的区别和方式 加载文件/文本 如何将数据存储为文本类数据源请参考存储为文件/文本一节 Byzer 引擎本身是基于一个存储系统上的,根据不同的部署方式的区别,存储为本地磁盘存储,HDFS 或
阅读本章节前,请阅读Byzer-Lang 语言向导以及数据加载/Load。确保熟悉 Byzer 中数据加载相关的基本概念。 Byzer 的特性是Everything is a table, 它具备加载和存储多种数据源的能力,数据源在 Byzer 的体系中,我们可以将其定义为输入,这些数据源在 Byzer 中都可以抽象成一张带有 Schema 的二维表,供后续进行数据转换或模型训练使用。 JDBC
DeltaLake 作为 Byzer 的内置数据源,使用非常简单,只需在启动添加启动参数(${BYZER_HOME}/conf/byzer.properties.overwrite): streaming.datalake.path=对象存储某个目录 此时,你就获得一个名字叫delta的数据源。通过该数据源,你可以管理和使用数据湖。 执行如下语句: select 1 as col1 as tabl