logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

计算机网络必背45道面试题

文章列举了45个在计算机网络面试中常见的问题,涵盖了网络体系结构、传输层协议、网络安全等方面。这些问题涵盖了从基础到高级的各种主题,有助于面试者深入了解网络工作原理。无论是关于OSI模型的理解,还是TCP/IP协议栈的应用,都在文章中得到了详细解释。此外,文章还提供了问题的详细答案,为读者提供了备战面试的有力工具。无论是准备计算机网络面试,还是希望巩固网络知识,这篇文章都是一个不可多得的资源。

#面试#计算机网络
大数据开发之离线数仓项目(用户行为采集平台)(可面试使用)

按照规划,需要采集的用户行为日志文件分布在102,103两台日志服务器,故需要在102,103两台节点配置日志采集flume。日志采集flume需要采集日志文件内容,并对日志格式(JSON)进行校验,然后将校验通过的日志发送到kafka。此处可选择taildirsource和kafkachannel,并配置日志校验拦截器。选择taildirsource和kafkachannel的原因如下:tail

文章图片
#大数据#面试#职场和发展 +3
大数据开发之Flume

1、Ganglia由gmond、gmetad和gwed三部分组成。是一种轻量级服务,安装在每台需要收集指标数据的节点主机上。使用gmond,你可以很容易收集到很多系统指标数据,如CPU、内存、磁盘、网络和活跃进程的数据等。整合所有信息,并将其以RRD格式存储到磁盘的服务。3)gweb(Ganglia Web)Ganglia可视化工具gweb是一种利用浏览器显示gmetad所存储数据的PHP前端。在

文章图片
#大数据#flume
大数据开发之kafka(完整版)

第 1 章:Kafka概述1.1 定义Kafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。发布/订阅:消息的发布者不会将消息直接发送给特定的订阅者,而是将发布的消息分为不同的类别,订阅者只接收感兴趣的消息。1.2 消息队列目前企业中比较常见的消息队列产品主要有Kafka、ActiveMQ、RabbitMQ、RocketMQ等。在大多数场景主要采用Kafka作为消息队

文章图片
#大数据#kafka#分布式
大数据开发之Spark(RDD弹性分布式数据集)

1、hashpartitioner源码解读case _ =>false2、自定义分区器要实现自定义分区器,需要继承org.apache.spark.partitioner类,并实现下面三个方法。1)numpartitions:int:返回创建出来的分区数2)getpartition(key:any):int:返回给定键的分区编号(0到numpartitions-1)3)equals():java判

文章图片
#大数据#分布式#spark
大数据开发之Hive(详细版,最后有实战训练)

第 1 章:Hive基本概念1.1 Hive1.1.1 Hive产生背景HDFS来存储海量的数据、MapReduce来对海量数据进行分布式并行计算、Yarn来实现资源管理和作业调度。但是面对海量的数据和负责的业务逻辑,开发人员要编写MR对数据进行统计分析难度极大,所以就产生了Hive这个数仓工具。Hive可以帮助开发人员将SQL语句转化为MapReduce在yarn上跑。1.1.2 hive简介H

文章图片
#hive#hadoop#大数据
大数据开发之Spark(入门)

1、spark查看当前spark-shell运行任务情况端口号:40402、spark master内部通信服务端口号:7077(类似于yarn的8032(rm和nm的内部通信)端口)3、spark standalone模式master web端口号:8080(类似于hadoop yarn任务运行情况查看端口号:8088)(yarn模式)89894、spark历史服务器端口号:18080(类似于h

文章图片
#大数据#spark#分布式
大数据开发(Hive面试真题)

Hive的三种自定义函数包括UDF(User-Defined Function(用户定义函数))、UDAF(User-Defined Aggregate Function(用户定义聚合函数))和UDTF(User-Defined Table-Generating Function(用户定义表生成函数))。UDF是最常见的自定义函数类型,用于对单个输入值进行处理并返回一个输出值。

#大数据#hive#面试
大数据开发之离线数仓项目(4-1电商数据仓库系统)(可面试使用)

事实表作为数据仓库维度建模的核心,紧紧围绕着业务过程来设计。其包含与该业务过程有关的维度引用(维度表外键)以及该业务过程的度量(通常是可累加的数据类型字段)事务事实表用来记录各业务过程,它保存的是各业务过程的原子操作事件,即最细粒度的操作事件。粒度是指事实表中一行数据所表达的业务细节程度。周期快照事实表以其规律性的、可预见性的时间间隔来记录事实,主要用于分析一些存量型(例如商品库存,账户余额)或者

文章图片
#大数据#数据仓库#面试 +3
大数据开发(Spark面试真题)

Spark Streaming是Spark提供用于实时流式数据处理和分析的库。它基于离散时间间隔将原始流式数据划分为小的批处理,然后将这些批次数据提供给Spark引擎进行处理。Spark内存管理机制通过动态划分内存空间为执行引擎和缓存两个部分来优化计算和访问速度。Executor Memory(执行内存):执行内存用于保存RDD转换操作生成的执行结果及相关遍历。它直接影响了并行处理任务时可利用的资

文章图片
#大数据#spark#面试
    共 19 条
  • 1
  • 2
  • 请选择