简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
前言 权限控制,对于 MLSQL 而言的重要程度可以说是生命线。 MLSQL 需要面对各式各样的资源访问,比如 MySQL, Oracle,HDFS,Hive,Kafka,Sorl,ElasticSearch,Redis,API,Web等等,不同用户对这些数据源(以及表,列)的权限是不一样的。 传统模式是,每个用户都需要有个 proxy user,然后到每个数据源里面给这个 proxy user
聚合下推PR链接聚合下推 我们知道 Byzer 支持多数据源和联邦查询,可以方便分析师在一个平台上快速的分析来自多种数据源的数据,从而进行灵活的探索式分析。 使用场景和优势 当前 Byzer 中加载数据的方式会拉取明细数据到 spark 中进行聚合计算,对于小数据量或者在分布式文件系统上的数据源来说是常规操作。但是对于 JDBC 数据源或者有分析能力的 OLAP 系统来说拉取明细数据可能就不是最
Byzer-lang Byzer ,又称为 Byzer-lang,一门面向 Data 和 AI 的低代码、云原生的开源编程语言。 Byzer 是一门结合了声明式编程和命令式编程的混合编程语言,其低代码且类 SQL 的编程逻辑配合内置算法及插件的加持,能帮助数据工作者们高效打通数据链路,完成数据的清洗转换,并快速地进行机器学习相关的训练及预测。 Byzer 希望能够提供一套语言、一个引擎,就能覆盖整
问题场景 在我们通过 Rest 或 UDF 发起较多请求时,执行脚本的时间会显著的增加 从图中可以看到我们执行完这个 cell 需要约 34 秒,但是他的数据量仅仅只有 36 条,可以说是非常的少,那么这是为什么呢? 解决方案 我们先说解决方案: 在之前的 Rest 和 UDF 发起请求后,使用 save 语法将获取的数据保存下来 这两行代码看似非常多余,但是再次执行试试呢? 脚本的运行时间只要
目标 给定一组 Byzer-lang 脚本,测试其行为的正确性能够轻易的添加 TestCase能够指定测试所需的数据 实体设计 LocalBaseTestSuite BeforeAll 设置 Working Directory设置启动参数和环境参数 (允许子类修改)拷贝测试数据至用户目录加载测试用例创建 Platform Manager创建 Spark Runtime加载 mlsql assert
Byzer-lang 2.1.0-SNAPSHOT及以上可用 Byzer-lang 支持 K8s 的 Readiness 探针。对应接口为 http://<ip>:<port>/health/readiness port 默认为 9003 . 如果已经初始化完成,处于可用状态,返回200,结果如下: { "status": "IN_SERVICE", "components": { "readi
Byzer-lang 2.1.0-SNAPSHOT及以上可用 Byzer-lang 支持 K8s 的 liveness 探针。对应接口为 http://<ip>:9003/health/liveness 如果处于可用状态,返回200,结果如下: { "status": "UP", "components": { "livenessProbe": { "status": "UP" } } } 如果
支持插件后,Byzer 需要存储插件的信息。同时一些内置的插件也需要有一些状态存储,比如 scheduler service。 目前 Byzer 提供了两种持久化存储的支持: Delta LakeMySQL 默认是delta lake. 开启方式为: -streaming.datalake.path [HDFS路径] 在 yarn 下部署,暂时推荐 yarn-client 模式,需要保证提交 By
该接口主要用来执行低延迟的预测任务,比如大模型推理等。 详细使用文档:https://byzer.csdn.net/6571626776f0791b6eca871e.html
该接口用来执行 Byzer-lang 语句。 Method: POST GET Content-Type: application/x-www-form-urlencoded 参数列表 参数说明示例值sql需要执行的 Byzer-lang 内容owner当前发起请求的租户jobType任务类型 script/stream/sql 默认scriptexecuteMode如果是执行 Byzer-lan