logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据开发之Spark(spark streaming)

需要继承receiver,并实现onstart、onstop方法来自定义数据源采集。

文章图片
#大数据#spark#分布式
大数据开发之电商数仓(hadoop、flume、hive、hdfs、zookeeper、kafka)

1、数据需求:用户分析日志log、业务数据db2、采集需求:日志采集系统(flume)、业务数据同步系统(Maxwell,datax)3、数据仓库建模:维度建模4、数据分析:对设备、会员、商品、地区、活动等电商核心主题进行统计,统计的报表指标接近100个。5、即席查询:用户在使用系统时,根据自己当时的需求定义的查询,通常使用即席查询工具。6、集群监控:对集群性能进行监控,发生异常及时报警。7、元数

文章图片
#大数据#hadoop#flume +3
大数据开发之Hadoop(Yarn)

思考:1、如何管理集群资源?2、如何给任务合理分配资源?Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。

文章图片
#大数据#hadoop#分布式
大数据开发之Spark(RDD弹性分布式数据集)

1、hashpartitioner源码解读case _ =>false2、自定义分区器要实现自定义分区器,需要继承org.apache.spark.partitioner类,并实现下面三个方法。1)numpartitions:int:返回创建出来的分区数2)getpartition(key:any):int:返回给定键的分区编号(0到numpartitions-1)3)equals():java判

文章图片
#大数据#分布式#spark
大数据开发(Spark面试真题-卷六)

Spark客户端将应用程序提交给集群的Spark主节点(Master)。Spark主节点接收到应用程序后,会将应用程序的信息存储在调度器中,并将应用程序的任务分配给可用的工作节点(Worker)。工作节点根据分配的任务,在本地启动Spark执行器(Executor)进程。每个Executor进程会启动一个或多个执行线程,用于执行应用程序的任务。Executor进程会从Spark主节点获取应用程序的

#大数据#spark#面试
大数据开发(Hadoop面试真题-卷八)

YARN是Apache Hadoop生态系统中的一个集群资源管理器。它的主要目的是管理和分配集群中的资源,并为运行在Hadoop集群上的应用程序提供资源。YARN的架构基于两个主要组件:ResourceManager(资源管理器)和NodeManager(节点管理器)。负责整个集群的资源管理和调度。它接收来自客户端的应用程序提交请求,并根据可用资源进行分配。ResourceManager也负责监控

文章图片
#大数据#hadoop#面试
大数据开发之Hive(基本概念、安装、数据类型、DDL数据定义、DML数据操作)

Hive是基于hadoop的一个数据仓库工具,将结构化的数据文件映射成一张表,并提供类SQL(HQL)查询功能。1)用户结构:ClientCLI(command-line interface)、JDBC/ODBC(jdbc访问hive)2)元数据:Metastore元数据包括:表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等;默认

文章图片
#大数据#hive#hadoop
大数据面试(Kafka面试真题-卷二)

OSR:是指Out-of-Sync Replicas,是指与leader副本失去同步的副本集合。当ISR中的副本失去与leader副本的同步,它们将被移动到OSR中,直到重新与leader副本同步。ACK:是指Ackowledgement,用于控制生产者发送消息时的可靠性和性能。ACK=0生产者不等待任何确认,将消息发送到Kafka后即认为发送成功,适用于对可靠性要求不高的场景。ACK=1生产者等

#大数据#面试#kafka
精选数据库“索引“常见30道面试题!面试前冲刺

数据库索引在数据库管理系统中起着至关重要的作用,它可以大大提高数据检索操作的性能。面试中,对于数据库索引的深入理解是一个重要的考察点。本文摘要涵盖了关于数据库索引的一系列面试题,涵盖了索引的基本概念、类型、优化和应用等方面的内容。

#面试#数据库#mysql
大数据开发(Hadoop面试真题-卷三)

网络带宽:大数据集群中的节点通常通过网络进行数据通信和传输。如果网络带宽不足,会导致数据传输速度慢,从而影响整个集群的计算性能。存储性能:Hadoop集群通常使用分布式存储系统,如HDFS来存储大量的数据。如果存储系统的读写性能较低,会影响数据的读取和写入速度,从而降低整个集群的计算效率。处理能力:集群中的计算节点数量和每个节点的计算能力都会影响集群的整体处理能力。如果集群规模较小或者每个节点的计

文章图片
#大数据#hadoop#面试
    共 54 条
  • 1
  • 2
  • 3
  • 6
  • 请选择