logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据实时计算中的watermark你理解了吗?

Event time 叫事件时间,Process time叫数据的处理时间。为了保证数据处理的及时性同时兼顾数据价值的有效性,业务一般会要求对在一定时间范围内迟到的数据给予一定的宽容度,允许数据从生成到进入计算引擎这个过程中可以有5分钟的迟到时间,超出该时间晚到的数据计算引擎会将其抛弃,这种根据数据的event time和数据的process time时间差来判断当前数据是否被纳入计算的方案就叫w

文章图片
#大数据
大数据的实时计算和离线计算你理解吗?

那么实时计算就是用一根水管接在水龙头的出水处另一端连接的就是生产纯净水的机器,特点是可以源源不断的生产纯净水速度很快但是每次只能生产一瓶。而离线计算就是在水龙头下方,先用个水桶来接水,只有当水桶接满了水之后才对其进行纯净水的生产,特点是隔一段时间才能生产一次,每次生产的时间比较长但是每次能生产一桶水。而离线计算的计算逻辑则相对复杂,虽然每次产生的业务价值较大但是效率低不够及时。不管是实时计算还是离

#hadoop#flink#spark +1
大数据分布式系统中的脑裂,你懂吗?

具体的技术实现是两个预备领导都会向zookeeper的同一个地方写数据,但是因为ZAB算法的策略,限制了zookeeper在同一时间只能接受一个写请求,zookeeper的写请求处理方式是单线程的,这一点和redis很像,有一个先写进那就是领导,另一个就是秘书;脑裂就是由原来只有一个做决策的大脑突然间变成了由多个同时做决策,而这多个大脑在做决策时,因为互相之间的信息并不同步而导致的决策之间发生冲突

文章图片
#大数据
到底了