Byzer-Python专栏_Byzer 白泽

Byzer-Python

Byzer-python

12篇内容

Byzer-python 并行度

你可以直接使用 Byzer-python 对表进行处理，但当数据量比较大时，我们经常会在处理前使用!tableRepartition对数据进行重新切分。比如： !tableRepartition _ -i simpleDataTemp -num 3 -o simpleData; !python env "PYTHON_ENV=source activate dev"; !python conf

11 

csdndevpressbyzer · 2023-12-11 13:44:38

dataMode 详解

在运行 Byzer-python 时，dataMode是必须设置的。dataMode可选值为data/model： data 如果你在代码中使用了RayContext.foreach或RayContext.map_iter，那么需要设置dataMode为data。在这种模式下，数据会经过 Ray 集群分布式处理并且不通过 Ray Client (Python Worker) 端回流到 Byzer

8 

csdndevpressbyzer · 2023-12-11 13:43:48

K8S 下的 Byzer-python 资源限制

Byzer-python 会单独在 Driver 或者 Executor 节点上启动一个 Python 进程（Python Worker）运行，默认总数量不超过节点的核数。不过遗憾的是，如果不注意控制 Python 进程的资源占用，而 Byzer-engine 又跑在 K8S（Yarn 上也是类似情况）上，很可能导致容器进程被终止，如果是 Driver 节点被 Kill，那么会导致整个 Byzer

9 

csdndevpressbyzer · 2023-12-11 13:43:29

PyJava API简介

前面的示例中，可以看到类似RayContext、PythonContext这些对象。这些对象帮助用户进行输入和输出的控制。 Byzer-python 代码编写三步走： 1. 初始化 RayContext ray_context = RayContext.connect(globals(), "192.168.1.7:10001") 其中第二个参数是可选的，用来设置 Ray 集群 Master 节点

13 

csdndevpressbyzer · 2023-12-11 13:42:53

模型部署

在 Byzer 中，我们可以使用和内置算法一样的方式将一个基于 Byzer-python 训练出的 AI 模型注册成一个 UDF 函数，这样可以将模型应用于批、流，以及 Web 服务中。接下来我们将展示 Byzer-python 基于 Ray 从模型训练再到模型部署的全流程 demo。 1. 数据准备首先，安装tensorflow和keras: pip install keras tensorf

25 

csdndevpressbyzer · 2023-12-11 13:41:13

模型训练

1. 单机训练这里用到tensorflow，运行前需要在 Driver 端安装 !python env "PYTHON_ENV=source activate dev"; !python conf "schema=st(field(epoch,string),field(k,string), field(b,string))"; !p

16 

csdndevpressbyzer · 2023-12-11 13:40:18

SQL表转化为分布式Pandas

运行本示例之前，需要安装dask: pip install dask==2022.10.1 我们先通过 Byzer 语句加载一个数据集： load csv.`/tmp/upload/iris-test.csv` where header="true" and inferSchema="true" as iris; 接着我们在 Byzer-python中将该表转化为分布式 Pandas API：

20 

csdndevpressbyzer · 2023-12-11 13:39:27

数据处理

在上一篇环境设置的里，我们提供了一个分布式做ETL处理的例子。等价于实现了一个 Python UDF。在这一篇中，我们会详细介绍使用 Byzer-pyhton 演示数据准备 set jsonStr=''' {"features":[5.1,3.5,1.4,0.2],"label":0.0}, {"features":[5.1,3.5,1.4,0.2],"label":1.0}, {"featur

20 

csdndevpressbyzer · 2023-12-11 13:38:58

Byzer-python参数详解

在前面的示例中，你会看到类似这样的配置： !python conf "pythonExec=/home/winubuntu/miniconda3/envs/byzerllm-desktop/bin/python"; !python conf "schema=st(field(ProductName,string),field(SubProduct,string))"; !python conf "

14 

csdndevpressbyzer · 2023-12-11 13:35:50

环境依赖

在使用 Byzer-python 前，需要 Driver 的节点上配置好 Python 环境 ( Executor 节点可选) 。如果您使用 yarn 做集群管理，推荐使用 Conda 管理 Python 环境（参考Conda 环境安装）。而如果您使用 K8s，则可直接使用镜像管理。接下来，我们以 Conda 为

28 

csdndevpressbyzer · 2023-12-11 12:25:37