logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

数据湖和传统数仓区别及湖仓一体

早期系统采用关系型数据库来存放管理数据,但是随着大数据技术的兴起,人们对于多方面数据进行分析的需求愈加强烈,这就要求建立一个能够面向分析、集成保存大量历史数据的新型管理机制,这一机制就是数据仓库。数据仓库通常存储来自不同源的数据,集成源数据以提供统一的视图。这些资源可以包括事务系统、应用程序日志文件、关系数据库等等。

文章图片
#大数据#spark#分布式
Flink SQL之常用函数(一)

可根据使用的版本查找,该链接为1.12版本。

文章图片
#sql#flink#数据库
Ubuntu安装界面下方无法显示问题,导致无法操作解决办法

1.新建虚拟机后开启虚拟机,当界面显示小图标时,按Esc键;2.此时出现界面如下所示,选择中文;3.进入系统后界面如图所示;4.桌面右击,选择“更改桌面背景”,并点击,出现如下图所示;5.点击左上角“全部设置”,显示界面如图所示:6.硬件中选择“显示”,并点击,显示如下图所示;7.此时可选择更改分辨率,使用Tab键到确定,更改分辨率后

#ubuntu
openstack(一)之虚拟化简介

写在前面:云计算在服务器端提供集中的物理计算资源,然后将这些物理资源进行虚拟化,为用户提供一个隔离、安全、可信的虚拟工作环境。因此在学习云计算和openstack之前应先了解下虚拟化技术。1.what is 虚拟化本质上,虚拟化就是由位于下层的软件模块,根据上一层软件模块的期待,抽象出一个虚拟的软件或硬件接口,使上一层软件可以直接运行在与自己所期待的运行环境完全一致的虚拟环境上。在云计

#云计算#openstack
Flink SQL之Interval Joins

区间是双流join的优化,基于处理时间或事件时间,在一定时间区间内数据,相同的key进行join(支持 Batch\Streaming)。Interval Join 可以让一条流去 Join 另一条流中前后一段时间内的数据。对于stream查询,时间区间oin只支持有时间属性的 append-only表。由于时间属性是准单调递增的,Flink可以从其状态中删除旧值,而不会影响结果的正确性。优点:由

文章图片
#flink#大数据
Flink SQL之Regular Joins

双流join是最通用的联接类型(支持 Batch\Streaming),其中任何新记录或联接两侧的更改都是可见的,并影响整体的Join结果。适用场景:因为资源问题 Regular Join 通常是不可持续的,一般只用做有界数据流的 Join。

文章图片
#flink#大数据#sql
到底了