稻草一根个人主页

@zhou_shaowei

稻草一根

2023-04-10 14:01:09 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Spark Streaming详解----概述、基本概念、性能调优

本文章主要讲述SparkStreaming概念原理、基本概念、以及调优等一些知识点。1 概述1.1 SparkStreaming是什么Spark Streaming 是个批处理的流式（实时）计算框架。其基本原理是把输入数据以某一时间间隔批量的处理，当批处理间隔缩短到秒级时，便可以用于处理实时数据流。　支持从多种数据源获取数据，包括Kafk、Flume、Twitter、ZeroMQ、

Hadoop使用MapReduce处理百万行Json格式数据

需求：每行数据格式"{\"movie\":\"2599\",\"rate\":\"5\",\"timeStamp\":\"957716949\",\"uid\":\"6040\"}"从其中计算出每个用户评分最高的十步电影movie值和rate值输出为uid：...movie...rate...思路：map端先将读取的json数据转成pojo对象，所以要创建一个bean用

#hadoop #json #mapreduce

记spark与kafka连接的报错：org.apache.spark.SparkException: Couldn't find leaders for Set([bat_model_task,0])

程序一直运行正常，服务器异常kafka断开了一个broker，重新启动后抛出下面异常：18/10/22 23:24:41 INFO YarnClientSchedulerBackend: Application application_1536983779148_0365 has started running.18/10/22 23:24:41 INFO Utils: Successfu...

#kafka

SparkStreaming程序优化小记

最近公司部署了一个sparkstreaming程序，主要逻辑是处理flume采集到kafka的数据，集群环境3个nodemanager，5核20G内存，刚开始测试阶段并没设置资源配置，直接丢在yarn上运行，每天的数据量大概2500万records。测试几天后发现数据处理时间延迟稍微长了一点，怀疑是程序处理数据的数据低于数据产生的数据，随着时间和数据的增加，这个时间延迟越来越大，遂决定对程序进行相

#spark #scala

Logstash连接kafka输出报错：Error registering plugin

Error registering plugin {:pipeline_id=>"main", :plugin=>"#<LogStash::OutputDelegator:0x761d397b@namespaced_metric=#<LogStash::Instrument::NamespacedMetric:0

到底了