logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Spark-Streaming 和Kafka连接的两种方式

本篇文章转载自https://my.oschina.net/u/1250040/blog/908571。 作者对于spark-streaming和Kafka的连接做了比较详细的介绍。对于理解Spark-Streaming和Kafka有很大帮助。概述Spark Streaming 支持多种实时输入源数据的读取,其中包括Kafka、flume、socket流等等。除了Kafka以外的实时输入源,由于我

#spark#kafka
Spark MLlib源代码解读之朴素贝叶斯分类器,NaiveBayes

Spark MLlib 朴素贝叶斯NaiveBayes 源代码分析基本原理介绍首先是基本的条件概率求解的公式。P(A|B)=P(AB)P(B)P\left ( A|B \right )=\frac{P(AB)}{P(B)}在现实生活中,我们经常会碰到已知一个条件概率,求得两个时间交换后的概率的问题。也就是在已知P(A|B)的情况下,如何求得P(B|A). 其中P(A|B)表示在事件B发生的前提下,

#spark
Spark MLlib源代码解读之KMeans(下)

Spark MLlib源代码解读之KMeans(下)之前看过Kmeans的源代码,但是对于Spark KMeans生成初始中心点的方法没有理解到位,最近又看了一下,再次补充一下。Spark生成初始中心点有一个方法叫做initKMeansParallel。整个代码包含有 Kmeans类和localKmeans类,localkmeans类主要用于实现KMeans++方法来实现得到中心点。init

#spark#mllib
到底了