logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

FlinkSQL源码解析(二)Java SPI机制

在前面已经了解了FlinkSQL的转换流程,即如何从excuteSql(sql)如何转换为transformation,到任务的提交。整体流程大致为:sqlNode --> Operation --> RelNode --> 优化 --> execNode --> Transformation现在想更深入的了解,我们书写的sql语句是如何通过connecter属性连接

#大数据#flink
Kylin多维分析引擎(一):Kylin概述

1.定义:Apache Kylin(Extreme OLAP Engine for BigData)是一个开源的分布式分析引擎,为Hadoop等大型分布式数据平台之上的超大规模数据集提供标准SQL查询及多维分析(OLAP)能力,并提供亚秒级的交互式分析功能。它最初由eBay开发并贡献给开源社区。核心特性:为Hadoop提供标准SQL支持(大部分)支持超大数据集(预计算)亚秒级交互式查询(预计算)可

FlinkSQL源码解析(一)转换流程

1、前言1.1、JavaCCJavaCC(Java Compiler Compiler)是一个开源的语法分析器生成器和词法分析器生成器。JavaCC通过词法和语法描述文件来生成分析器。flink通过java CC生成分析器用于sql解析和校验。如下图:在flink-table下的flink-sql-parser项目中,org.apache.flink.sql.parser.impl下的类,就是使用

#大数据#flink
Hudi(四)集成Flink(2)

当前表,即读取最新的全量快照数据并一次性返回。通过参数 read.streaming.enabled 参数开启流读模式,通过 read.start-commit 参数指定起始消费位置,支持指定 earliest 从最早消费。

#flink#java#大数据
Flink的Checkpoint与Kafka的偏移量

1、Kafka的offsetKafka0.8版本以前,offset默认存储在zookeeper中(基于Zookeeper)Kafka0.9版本以后,offset默认存储在内部的topic中,基于__consumer_offsets 的Topic中。二:kafka消费offset提交配置:1. checkpoint禁用:flink kafka消费依赖于内部kafka客户端自动定期的offset提交配

#flink#kafka
Iceberg(一)介绍及环境搭建

1、介绍Apache Iceberg 是一种用于大型分析数据集的开放表格,Iceberge 向 Trino 和 Spark 添加了使用高性能格式的表,就像 Sql 表一样。Iceberg 为了避免出现不变要的一些意外,表结构和组织并不会实际删除,用户也不需要特意了解分区便可进行快速查询。Iceberg 的表支持快速添加、删除、更新或重命名操作。支持overwrite,但不支持行级的更新将分区列进行

#数据库#sql#java
数据中台(一)数据中台详解

1.数据中台的由来数据库阶段 ---> 传统数仓 ---> 大数据平台 ----> 大数据中台1.1.数据存储起源:数据库1979年:Oracle1.0商用数据库发布1996年:MySQL1.0发布,到2000年以后开始火起来。特点:数据库主要面向事务的增删改场景,一个数据库支撑多个简单单体应用,少量分析需求,借助数据库直接完成。但当数据增长较快,复杂的大量的分析需求,借助数据库

#数据仓库#数据库#big data
到底了