logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

flink DataStream API(六)算子-joining

joining窗口连接将共享一个公共键并位于同一窗口中的两个流的元素连接起来。这些窗口可以通过使用窗口分配器来定义,并在来自两个流的元素上进行计算。然后将两侧的元素传递给用户定义的 JoinFunction 或 FlatJoinFunction,用户可以在其中输出满足连接条件的结果。一般用法可以总结如下:stream.join(otherStream).where(<KeySelector&

#flink#大数据#flink
flink(八)两阶段提交(备份别人的)

两阶段提交在Flink的两阶段提交中,JobManager充当协调者,TaskManager中的Source、Operator、Sink充当参与者,他们之间的通信有Checkpoint触发,其中barrier是核心中的核心。两阶段提交是实现精确一次性语义的核心原理。其核心原理就是在Barrier对齐的情况下所有的算子都成功的完成了Checkpoint,就完成了真正的两阶段提交。JobManager

#flink#big data#大数据
flink DataStream API(四)状态和容错-使用状态

文章目录使用State`Keyed` DataStream使用`keyed state`State 生存时间 (TTL)清除过期状态完整快照清理增量清理RocksDB 压缩期间的清理算子 StateBroadcast State使用算子 State有状态的源函数使用State在本节中,您将了解 Flink 提供的用于编写有状态程序的 API。请查看 Stateful Stream Processi

#flink
数仓(一)数据分层

文章目录数仓(一)数据分层数据运营层数据仓库层数据应用层事实表`(Fact Table)`维表层(`Dimension`)数仓(一)数据分层数据分层在建设数据仓库中是一个十分重要的环节,良好的数据分层能够使得数据仓库更容易理解和使用,提升数据处理速度,并且能够降低存储压力和企业成本。在数据仓库建设中,数据分层主要分为数据运营层、数据仓库层、数据应用层。数据运营层数据运营层ODS(Operation

#数据仓库#数据挖掘#big data
搭建Spark集群(独立模式)

搭建Spark集群(独立模式)准备工作①三台虚拟机 Master:192.168.101.140(spark01),Slaves:192.168.101.141(spark02),Slaves:192.168.101.142(spark03),必须装有Java8②spark-2.2.0-bin-hadoop2.7.tgz 下载地址spark下载地址配置虚拟机①设置主机名,运行一下命令vi

#spark
Ambari(二)扩充Ambari节点

安装一台新的虚拟机关闭虚拟机的防护墙systemctl stop firewalld.servicesystemctl disable firewalld.service配置主机名,并运行hostname生效vi /etc/hostname修改主机名与IP的映射,所有节点都必须加进来vi /etc/hosts配置免密码登录,略安装JDK,略开启...

Linux下Brit 导出pdf,word等文件的时候echarts的X轴或者Title乱码问题

Linux下Brit 导出pdf,word等文件的时候echarts的X轴或者Title出现中文乱码问题问题:当我们在Windows开发项目中使用eclipse的birt插件时,其中birt的echarts没有出现乱现象,但是当我们部署到linux下birt导出的文件中echarts中就会出现中文乱码。原因:是因为linux下没有支持报表的字体库,其验证方式就是在命令行执行:fc -list

Kafka Connector的Consumer配置SSL认证

开发SinkConnector和开发SinkeConnectorTask略配置connect-standalone-consumer.properties# Licensed to the Apache Software Foundation (ASF) under one or more# contributor license agreements.See the NOTICE fi...

Spark Streaming(二十六)DStream基本数据源、高级数据源

输入DStream和Receiver输入DStream其实就是从数据源接收到的输入数据流的DStream。每个DStream都与一个Receiver对象一一对应。SparkStreaming提供了两种内置数据源支持。基本的数据源:Streaming API中直接提供的数据源。例如文件系统和套接字连接。高级数据源:Kafka、Flume、Kinesis等数据源,这种高级数据源需要提供额外Ma...

    共 13 条
  • 1
  • 2
  • 请选择