logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

什么是大数据

集群中的数据节点一般是一个节点运行一个数据节点进程,负责处理文件系统客户端的读/写请求,在名称节点的统一调度下进行数据块的创建、删除和复制等操作。每个数据节点的数据实际上是保存在本地Linux文件系统中的。(1)数据节点是分布式文件系统HDFS的工作节点,负责数据的存储和读取,会根据客户端或者是名称节点的调度来进行数据的存储和检索,并且向名称节点定期发送自己所存储的块的列表。命名空间的限制:名称节

#大数据
hadoop中了解yarm

YARN提供了多种调度器,如FIFO Scheduler(先进先出,适合低负载集群)、Capacity Scheduler(将资源分为多个队列,允许共享集群,保证每个队列最小资源使用)和Fair Scheduler(公平地将资源分给应用,使所有应用平均得到相同资源份额)。以内存为单位表示资源更合理;- ApplicationMaster(AM):每个应用程序包含一个AM,主要功能是与RM调度器协商

#hadoop
hadoop中spark基本介绍

RDD:是Spark的核心数据结构,代表一个不可变的、可分区的、分布式的数据集。- SparkContext:是Spark应用程序的入口点,负责与集群管理器(如Hadoop YARN)进行通信,管理集群资源,创建RDD、累加器和广播变量等。- YARN:与Hadoop的YARN集成,由YARN负责资源管理和调度,Spark应用程序作为YARN的一个应用运行在集群上。- 通用:不仅可以进行批处理,还

#hadoop
spark基本介绍

易用性:支持多种编程语言,如Java、Scala、Python和R等,提供丰富的API,方便开发人员进行数据处理和分析。- MLlib:机器学习库,提供了一系列的机器学习算法和工具,如分类、回归、聚类等,方便用户进行数据挖掘和分析。- GraphX:用于图计算的组件,提供了图数据的表示和操作方法,能处理复杂的图结构数据。- 实时流计算:处理实时产生的流数据,如网站日志、传感器数据等,实现实时监控和

#hadoop
到底了