logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Spark Streaming详解----概述、基本概念、性能调优

本文章主要讲述SparkStreaming概念原理、基本概念、以及调优等一些知识点。1      概述1.1  SparkStreaming是什么Spark Streaming 是个批处理的流式(实时)计算框架。其基本原理是把输入数据以某一时间间隔批量的处理,当批处理间隔缩短到秒级时,便可以用于处理实时数据流。   支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、

Hadoop使用MapReduce处理百万行Json格式数据

需求:每行数据格式"{\"movie\":\"2599\",\"rate\":\"5\",\"timeStamp\":\"957716949\",\"uid\":\"6040\"}"从其中计算出每个用户评分最高的十步电影movie值和rate值输出为uid:...movie...rate...思路:map端先将读取的json数据转成pojo对象,所以要创建一个bean用

#hadoop#json#mapreduce
记spark与kafka连接的报错:org.apache.spark.SparkException: Couldn't find leaders for Set([bat_model_task,0])

程序一直运行正常,服务器异常kafka断开了一个broker,重新启动后抛出下面异常:18/10/22 23:24:41 INFO YarnClientSchedulerBackend: Application application_1536983779148_0365 has started running.18/10/22 23:24:41 INFO Utils: Successfu...

#kafka
SparkStreaming程序优化小记

最近公司部署了一个sparkstreaming程序,主要逻辑是处理flume采集到kafka的数据,集群环境3个nodemanager,5核20G内存,刚开始测试阶段并没设置资源配置,直接丢在yarn上运行,每天的数据量大概2500万records。测试几天后发现数据处理时间延迟稍微长了一点,怀疑是程序处理数据的数据低于数据产生的数据,随着时间和数据的增加,这个时间延迟越来越大,遂决定对程序进行相

#spark#scala
Logstash连接kafka输出报错:Error registering plugin

Error registering plugin {:pipeline_id=>"main", :plugin=>"#<LogStash::OutputDelegator:0x761d397b@namespaced_metric=#<LogStash::Instrument::NamespacedMetric:0

到底了