chenbengang 个人主页

@chenbengang

chenbengang

2023-02-03 17:02:26 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Spark大数据-特征抽取Word2Vec(Scala版)

特征抽取Word2Vecimport org.apache.spark.sql.SparkSessionval spark=SparkSession.builder().master("local").appName("word2vec").getOrCreate()import spark.implicits._import org.apache.spark.ml.feature.W...

#spark #大数据 #机器学习

大数据-MapReduce

大数据-MapReduce分布式并行编程传统的并行计算，共享型方案刀片服务器，适用于实时的细粒度计算，尤其是计算密集的应用。MapReduce扩展性好，节点普通pc也可，每个节点拥有自己的内存和空间，适用于非实时的批处理，以及数据密集型的应用。MapReduce模型复杂的计算过程高度抽象成两个函数，map和reduce。将庞大数据切片，对每个小片并行的单独使用map处理，计算向数...

#mapreduce

Spark大数据-Dstream概述

Dstream概述工作机制输入数据流的input Dstream和receiver挂接起来。1.创建输入Dstream定义输入源，文件流，kafka，rdd队列流。2.转换和输出操作定义流计算过程。3.StreamingContext.start()、awaitTermination()等待处理结束(发生错误结束)、stop()手动结束。// 创建StreamingContext...

#spark #大数据

Spark大数据-spark streaming输出操作

spark streaming输出操作其他部分与转换操作一样，只需要添加输出保存部分，保存为文件使用saveAsTextFiles，输出到mysql数据库。object NetworkWordCountStateful {def main(args: Array[String]) {//定义状态更新函数val updateFunc = (values: Seq[Int...

Spark大数据-输入源之RDD队列流

Spark大数据-输入源之RDD队列流RDD队列流每隔一秒创建一个RDD扔到队列中，spark streaming每隔两秒从队列流中处理一次，对队列RDD中的每个数做余数词频统计。// 每隔1秒创建一个RDD，Streaming每隔2秒就对数据进行处理import org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimpo...

Spark大数据-Spark MLib机器学习流水线Pipeline

Spark MLib机器学习流水线PipelineDataFrame作为基本的数据抽象。Transform：转化器，传入DataFrame转换成新的DataFrame。Estimator：评估器，fit训练得到模型。Pipeline：流水线，多步骤组合。构建Pipeline：// 构建一个机器学习工作流// 在原始DataFrame上调用Pipeline.fit（）方法，它具有原始...

#大数据 #机器学习 #spark

Spark大数据-输入源之套接字流

Spark大数据-输入源之套接字流套接字流使用套接字流作为spark streaming数据源1.创建客户端文件目录cd /usr/local/spark/mycodemkdir streamingcd streamingmkdir -p src/main/scala //如果已经存在该目录，则不用创建cd src/main/scalavim NetworkWordCoun...

#spark #大数据

Spark大数据-structured streaming

structured streaming概述structured streaming引入持续流处理模式，真正支持毫秒级别响应。spark streaming无法满足毫秒级响应。2.2正式发布。重新抽象流式计算，基于DataFrame数据抽象。易于exactly-once（所有数据只被处理一次），以前的spark为at-least once(所有数据至少处理一次)。1.structur...

#spark #大数据

Spark大数据-输入源之kafka的spark streaming流处理

Spark大数据-输入源之kafkakafka相关基础高吞吐量的分布式发布订阅消息系统，能订阅和发布消息。broker：kafka集群中每个节点服务器叫broker。topic：消息扔给某个topic，订阅相关topic即可。partition：每个topic消息非常多，所以需要分区放在多台服务器上。生产者：把消息发给kafka broker。消费者：向kafka broker读...

#kafka #spark

大数据-ambari安装过程中的问题

1.解决安装ambari需要大于等于python2.6：centos7，安装配置好java环境。2.解决没有权限登录问题：先按照那两个博客配置好ssh localhost免密登录，再按照cnblogs的配置思路，有分布式的话，配置好分布式的免密登录问题。3.解决连接超时问题。...

#hadoop

共 14 条

请选择