
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
记录使用flink-streaming-platform-web平台化提交Flink任务。主要是记录通过这个工具提交flink任务的原理。相关参考:gitee地址:flink-streaming-platform-web: 基于flink-sql的实时流计算web平台github地址:https://github.com/zhp8341/flink-streaming-platform-web1、
1.数据中台的由来数据库阶段 ---> 传统数仓 ---> 大数据平台 ----> 大数据中台1.1.数据存储起源:数据库1979年:Oracle1.0商用数据库发布1996年:MySQL1.0发布,到2000年以后开始火起来。特点:数据库主要面向事务的增删改场景,一个数据库支撑多个简单单体应用,少量分析需求,借助数据库直接完成。但当数据增长较快,复杂的大量的分析需求,借助数据库
1、Stream LoadStarRocks支持从本地直接导入数据,支持CSV格式。数据量在10G以下,可以使用Stream Load导入,这种导入方式是通过用户发送HTTP请求将本地文件或数据流导入到StarRocks中。Stream Load同步执行导入并返回结果。用户可以直接通过返回结果判断是否导入成功。基本原理:Steam Load中,用户通过HTTP协议提交导入命令,提交到FE节点,FE
1.什么是数据仓库: 是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。 是一个将源系统抽取、清洗、规格化、提交到维度数据存储的系统,为决策的制定提供查询和分析功能的支撑与实现。2.相关数据管理技术和概念:数据仓库、数据建模、数据质量、数据规范、数据安全和元数据管理。3.数据仓库分层: ODS原始数据层(Operational Data Source):...
1、数据质量1.1、概述在大数据早期,做数据治理最主要的目的,就是为了提升数据质量,让报表、分析、应用更加准确。到今天,虽然数据治理的范畴扩大了很多,我们开始讲数据资产管理、知识图谱、自动化的数据治理等等概念,但是提升数据的质量,依然是数据治理最重要的目标之一。因为数据要能发挥其价值,关键在于其数据的质量的高低,高质量的数据是一切数据应用的基础。在数据质量不高的环境下,做数据分析可谓问题重重,数据
1、基本概念1.1、什么是数据治理由于切入视角和侧重点不同,业界给出的数据治理定义已经不下几十种,到目前为止还未形成一个统一标准的定义。数据治理(Data Governance)指的是数据从零散没有规律变为统一规划的数据、从具有很少甚至于没有组织和流程的治理到企业范围内的综合数据治理、从处理数据时的混乱状态到数据井井有条的一个过程。数据治理是一种数据管理的概念,能够确保数据的全生命周期存在高数据质
在前面已经了解了FlinkSQL的转换流程,即如何从excuteSql(sql)如何转换为transformation,到任务的提交。整体流程大致为:sqlNode --> Operation --> RelNode --> 优化 --> execNode --> Transformation现在想更深入的了解,我们书写的sql语句是如何通过connecter属性连接
当前表,即读取最新的全量快照数据并一次性返回。通过参数 read.streaming.enabled 参数开启流读模式,通过 read.start-commit 参数指定起始消费位置,支持指定 earliest 从最早消费。
1、介绍Apache Iceberg 是一种用于大型分析数据集的开放表格,Iceberge 向 Trino 和 Spark 添加了使用高性能格式的表,就像 Sql 表一样。Iceberg 为了避免出现不变要的一些意外,表结构和组织并不会实际删除,用户也不需要特意了解分区便可进行快速查询。Iceberg 的表支持快速添加、删除、更新或重命名操作。支持overwrite,但不支持行级的更新将分区列进行







