薇晶晶个人主页

@2401_87138834

薇晶晶

2025-03-30 17:42:50 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

什么是大数据

集群中的数据节点一般是一个节点运行一个数据节点进程，负责处理文件系统客户端的读/写请求，在名称节点的统一调度下进行数据块的创建、删除和复制等操作。每个数据节点的数据实际上是保存在本地Linux文件系统中的。（1）数据节点是分布式文件系统HDFS的工作节点，负责数据的存储和读取，会根据客户端或者是名称节点的调度来进行数据的存储和检索，并且向名称节点定期发送自己所存储的块的列表。命名空间的限制：名称节

#大数据

hadoop中了解yarm

YARN提供了多种调度器，如FIFO Scheduler（先进先出，适合低负载集群）、Capacity Scheduler（将资源分为多个队列，允许共享集群，保证每个队列最小资源使用）和Fair Scheduler（公平地将资源分给应用，使所有应用平均得到相同资源份额）。以内存为单位表示资源更合理；- ApplicationMaster（AM）：每个应用程序包含一个AM，主要功能是与RM调度器协商

#hadoop

hadoop中spark基本介绍

RDD：是Spark的核心数据结构，代表一个不可变的、可分区的、分布式的数据集。- SparkContext：是Spark应用程序的入口点，负责与集群管理器（如Hadoop YARN）进行通信，管理集群资源，创建RDD、累加器和广播变量等。- YARN：与Hadoop的YARN集成，由YARN负责资源管理和调度，Spark应用程序作为YARN的一个应用运行在集群上。- 通用：不仅可以进行批处理，还

#hadoop

spark基本介绍

易用性：支持多种编程语言，如Java、Scala、Python和R等，提供丰富的API，方便开发人员进行数据处理和分析。- MLlib：机器学习库，提供了一系列的机器学习算法和工具，如分类、回归、聚类等，方便用户进行数据挖掘和分析。- GraphX：用于图计算的组件，提供了图数据的表示和操作方法，能处理复杂的图结构数据。- 实时流计算：处理实时产生的流数据，如网站日志、传感器数据等，实现实时监控和

#hadoop

到底了