一、flink架构

这里写图片描述

1.flink是一个主从结构的分布式程序,它由client和cluster两部分组成。

2.cluster由主节点JobManager(JM)和从节点TaskManager组成(TM)。
    a.JM负责协调分布式执行:调度Task、协调检查点、协调失效恢复等工作。
      JM至少要有一个,也可有多个。多个JM可基于zookeeper做HA,一个active,其余standby。
    b.TM负责执行一个具体的Dataflow的Task,缓存并交换streams等工作。
      TM至少要有一个,也可有多个,多个TM组成worker集群,并发执行任务。
    c.JM和TM有多种部署方式,可以选择使用裸机部署,使用container部署,使用yarn部署。
      只要JM和TM能通信即可,这样JM就能下发任务到TM,TM也能执行任务并上报TM.

3.client属于flink架构的一部分,但不属于flink集群。它的工作是连接user和cluster.
    a.client能够将user提交的application分析成Dataflow提交给JM.JM会分配给TM做具体的执行工作。
      在提交完Dataflow可以关闭,也可以不关闭.
    b.client不关闭的话还可以接受cluster处理进度报告,以便user能跟着任务的运行情况。

二、程序(Progrram)和数据流(Dataflows)

1.程序(Progrram)

这里写图片描述

1.Progrram是user通过java,scala,python等编程语言调用flink相应的api编写而成。
2.Program中用户将data从source通过一系列的Transformation处理成期望的结果,然后sink到外部系统。
3.一般来说Transformation中都有一个Operator,但有时一个Transformation也可包括了多个Operator

2.数据流(Dataflows)

这里写图片描述

1.program经过client解析形成Dataflow
2.在Dataflow中主要包括Streams和Transformations两个概念。
  a.Transformations是指对数据的转化操作。
  a.Stream是指数据转化过程中的中间结果。
3.将Transformation做点,Stream做边可把Dataflow映射成一个有向无环图(DAG)。
  在执行程序的过程中可以根据程序的DAG做计算优化,可以合并或省略一些中间步骤。
Logo

权威|前沿|技术|干货|国内首个API全生命周期开发者社区

更多推荐