【云星数据---Apache Flink实战系列(精品版)】:Apache Flink高级特性与高级应用006-Slot和Parallelism的深入分析001
一、flink架构1.flink是一个主从结构的分布式程序,它由client和cluster两部分组成。2.cluster由主节点JobManager(JM)和从节点TaskManager组成(TM)。a.JM负责协调分布式执行:调度Task、协调检查点、协调失效恢复等工作。JM至少要有一个,也可有多个。多个JM可基于zookeeper做HA,一个active,其余stand
·
一、flink架构
1.flink是一个主从结构的分布式程序,它由client和cluster两部分组成。
2.cluster由主节点JobManager(JM)和从节点TaskManager组成(TM)。
a.JM负责协调分布式执行:调度Task、协调检查点、协调失效恢复等工作。
JM至少要有一个,也可有多个。多个JM可基于zookeeper做HA,一个active,其余standby。
b.TM负责执行一个具体的Dataflow的Task,缓存并交换streams等工作。
TM至少要有一个,也可有多个,多个TM组成worker集群,并发执行任务。
c.JM和TM有多种部署方式,可以选择使用裸机部署,使用container部署,使用yarn部署。
只要JM和TM能通信即可,这样JM就能下发任务到TM,TM也能执行任务并上报TM.
3.client属于flink架构的一部分,但不属于flink集群。它的工作是连接user和cluster.
a.client能够将user提交的application分析成Dataflow提交给JM.JM会分配给TM做具体的执行工作。
在提交完Dataflow可以关闭,也可以不关闭.
b.client不关闭的话还可以接受cluster处理进度报告,以便user能跟着任务的运行情况。
二、程序(Progrram)和数据流(Dataflows)
1.程序(Progrram)
1.Progrram是user通过java,scala,python等编程语言调用flink相应的api编写而成。
2.在Program中用户将data从source通过一系列的Transformation处理成期望的结果,然后sink到外部系统。
3.一般来说Transformation中都有一个Operator,但有时一个Transformation也可包括了多个Operator。
2.数据流(Dataflows)
1.program经过client解析形成Dataflow
2.在Dataflow中主要包括Streams和Transformations两个概念。
a.Transformations是指对数据的转化操作。
a.Stream是指数据转化过程中的中间结果。
3.将Transformation做点,Stream做边可把Dataflow映射成一个有向无环图(DAG)。
在执行程序的过程中可以根据程序的DAG做计算优化,可以合并或省略一些中间步骤。
更多推荐
已为社区贡献5条内容
所有评论(0)