logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据——Hadoop 知识点整理

1. 大数据的特点(4V特征)Volume(大数据量):90% 的数据是过去两年产生Velocity(速度快):数据增长速度快,时效性高Variety(多样化):数据种类和来源多样化 结构化数据、半结构化数据、非结构化数据Value(价值密度低):需挖掘获取数据价值2. 谈谈 Hadoop 的优缺点优点:高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点高可靠性:Hadoop底层维护多个数

#hadoop#big data#面试
大数据—— Flink 状态后端(State Backends)

由于有效的状态访问对于处理数据的低延迟只管重要,因此每个并行任务都会在本地维护其状态,以确保快速的状态访问。状态的存储、访问以及维护,有一个可插入的组件决定,这个组件就叫做状态后端(State Backends)状态后端主要负责两件事:本地的状态管理将检查点(checkpoint)状态写入远程存储Flink 提供的状态后端:MemoryStateBackend:内存级的状态后端,会将键控状态作为内

#flink#big data#大数据
大数据——SparkSQL练习题

现有学生成绩表、学生信息表、老师信息表和课程信息表,根据要求得到相应的结果import java.io.{FileWriter, PrintWriter}import org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, Dataset, Row, Spark

#spark#大数据
大数据——WebSocket埋点实现离线+实时数据处理

一、WebSocket概述WebSocket是HTML5开始提供的一种在单个TCP连接上进行全双工通讯的协议。能更好的节省服务器资源和带宽,并且能够更实时地进行通讯。WebSocket使得客户端和服务器之间的数据缓缓变得更加简单,允许服务端主动向客户端推送数据。在WebSocketAPI中,浏览器和服务器只需要完成一次握手,两者之间就直接可以创建持久性的连接,并进行双向数据传输。浏览器通过Java

#大数据#websocket#kafka +1
大数据——访问docker没有映射的端口号

方案1:将需要访问的端口号修改为已映射的端口号方案2:SSH隧道Mobxtermxshell

#大数据#docker
大数据——Flink Maven工程依赖

<inceptionYear>2008</inceptionYear><properties><scala.version>2.7.0</scala.version><scala.version>2.12.10</scala.version><scala.binary.version>2.12</

#flink#大数据#maven
大数据——Flink 时间语义

目录一、时间语义1.1 三种时间概念1.1.1 ProcessTime 在代码中的使用1.1.2 EventTime 在代码中的使用1.1.3 关于窗口起始时间的计算值二、对事件的处理2.1 有序事件2.2 乱序事件2.3 指定 Timestamps 与生成 Watermarks2.4 使用WatermarkStrategy 工具类指定时间戳和Watermark2.5 自定义指定 Timestam

#flink#big data#大数据 +1
大数据——Flink Broadcast State 广播状态

一、BroadcastState 的介绍广播状态(Broadcast State)是 Operator State 的一种特殊类型。如果我们需要将配置 、规则等低吞吐事件流广播到下游所有 Task 时,就可以使用 BroadcastState。下游的 Task 接收这些配置、规则并保存为 BroadcastState,所有Task 中的状态保持一致,作用于另一个数据流的计算中。简单理解:一个低吞吐

#flink#big data#大数据
大数据——Spark GraphX中算法介绍

一、ConnectedComponents算法ConnectedComponents即连通体算法用id标注图中每个连通体,将连通体中序号最小的顶点的id作为连通体的id。图关系如下时://创建点val vertexRDD: RDD[(VertexId, (String,Int))] = SC.makeRDD(Array((1L, ("Alice", 28)),(2L, ("Bob", 27)),(

#大数据#spark
大数据——Spark GraphX介绍

一、GraphX介绍Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。众所周知,社交网络中人与人之间有很多关系链,例如Twitter、Facebook、微博和微信等,这些都是大数据产生的地方都需要图计算,现在的图处理基本都是分布式的图处理,而并非单机处理。Spark GraphX由于底层是基于Spar

#大数据#spark
    共 43 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择