
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
什么是大数据
集群中的数据节点一般是一个节点运行一个数据节点进程,负责处理文件系统客户端的读/写请求,在名称节点的统一调度下进行数据块的创建、删除和复制等操作。每个数据节点的数据实际上是保存在本地Linux文件系统中的。(1)数据节点是分布式文件系统HDFS的工作节点,负责数据的存储和读取,会根据客户端或者是名称节点的调度来进行数据的存储和检索,并且向名称节点定期发送自己所存储的块的列表。命名空间的限制:名称节
hadoop中了解yarm
YARN提供了多种调度器,如FIFO Scheduler(先进先出,适合低负载集群)、Capacity Scheduler(将资源分为多个队列,允许共享集群,保证每个队列最小资源使用)和Fair Scheduler(公平地将资源分给应用,使所有应用平均得到相同资源份额)。以内存为单位表示资源更合理;- ApplicationMaster(AM):每个应用程序包含一个AM,主要功能是与RM调度器协商
hadoop中spark基本介绍
RDD:是Spark的核心数据结构,代表一个不可变的、可分区的、分布式的数据集。- SparkContext:是Spark应用程序的入口点,负责与集群管理器(如Hadoop YARN)进行通信,管理集群资源,创建RDD、累加器和广播变量等。- YARN:与Hadoop的YARN集成,由YARN负责资源管理和调度,Spark应用程序作为YARN的一个应用运行在集群上。- 通用:不仅可以进行批处理,还
到底了







