stevekangpei 个人主页

@stevekangpei

stevekangpei

2023-07-19 18:34:02 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Spark-Streaming 和Kafka连接的两种方式

本篇文章转载自https://my.oschina.net/u/1250040/blog/908571。作者对于spark-streaming和Kafka的连接做了比较详细的介绍。对于理解Spark-Streaming和Kafka有很大帮助。概述Spark Streaming 支持多种实时输入源数据的读取，其中包括Kafka、flume、socket流等等。除了Kafka以外的实时输入源，由于我

#spark #kafka

Spark MLlib源代码解读之朴素贝叶斯分类器，NaiveBayes

Spark MLlib 朴素贝叶斯NaiveBayes 源代码分析基本原理介绍首先是基本的条件概率求解的公式。P(A|B)=P(AB)P(B)P\left ( A|B \right )=\frac{P(AB)}{P(B)}在现实生活中，我们经常会碰到已知一个条件概率，求得两个时间交换后的概率的问题。也就是在已知P(A|B)的情况下，如何求得P(B|A). 其中P(A|B)表示在事件B发生的前提下，

#spark

Spark MLlib源代码解读之KMeans(下)

Spark MLlib源代码解读之KMeans(下)之前看过Kmeans的源代码，但是对于Spark KMeans生成初始中心点的方法没有理解到位，最近又看了一下，再次补充一下。Spark生成初始中心点有一个方法叫做initKMeansParallel。整个代码包含有 Kmeans类和localKmeans类，localkmeans类主要用于实现KMeans++方法来实现得到中心点。init

#spark #mllib

到底了