breeze_lsw 个人主页

@lsshlsw

breeze_lsw

2024-01-19 17:06:59 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

大数据平台资源治理经验总结

文章目录背景组件HDFS为什么需要治理为什么难以推动需要做什么部分效果图SPARK & YARN为什么需要治理需要做什么部分效果图计费后记背景大数据平台早期是野蛮生长的，任务直接在终端提交运行，处于一种完全无管理的自由状态。在17年上线了内部的大数据平台后，用户开始逐渐在平台上进行数据管理，代码编写，作业管理等工作，但是资源治理依旧缺失。随着业务及数据量的不断增加，集群扩容，存储和计...

#大数据 #hdfs #spark +1

Spark Shuffle FetchFailedException解决方案

在大规模数据处理中，这是个比较常见的错误。报错提示org.apache.spark.shuffle.MetadataFetchFailedException:Missing an output location for shuffle 0org.apache.spark.shuffle.FetchFailedException:Failed to connect to hostname/192

#spark

Spark Shuffle FetchFailedException解决方案

#spark

scala中使用smart-json将json与map相互转换

json解析工具使用的smart-json,曾经对比过java的Fastjson,gson。scala的json4s,lift-json。其中smart-json解析速度是最快的。编写环境scala 2.10.4smart-json 1.3.1直接上代码：import java.utilimport net.minidev.json.{JSONObject}import net.min

#scala

kafka0.8.2以下版本删除topic

一些说明kafka0.8.2及以上版本已经支持delete命令删除topic，可是之前的版本要是想删除topic还是要费一番手脚，绝对是个体力活。。。该方法只能在线下开发环境试试，因为要重启zookeeper和broker步骤1.在zk中删除topic信息(test)$KAFKA_HOME/bin/kafka-run-class.sh kafka.admin.DeleteTopicCommand

#kafka

kafka 0.8.x producer Example(scala)

Producer最简配置metadata.broker.list参数指定broker地址，这里不需要填上所有的broker地址，但是如果只写一个，这个broker挂掉后就无法往topic中写入信息，一般写入2-3个broker地址。serializer.class指定序列化的方式props.put("metadata.broker.list","broker1:9092,broker2:90

#kafka

Druid 消费一个 kafka topic 发送到不同数据源

文章目录背景解决办法一. 过滤标识在消息体中二. 过滤标识在 header 中源码修改逻辑背景数据采集时，为了避免在 kafka 中创建大量的 Topic ，采集时会将小的数据源写入一个共享 Topic 中，以某个字段作为标识。这里有两种方式：直接将标识写入消息体中将标识写入 record header 中（kafka 0.11版本后支持）Druid 使用 druid-kafka-...

#kafka

使用streaming window函数统计用户不同时间段平均消费金额等指标

场景现在餐厅老板已经不满足仅仅统计历史用户消费金额总数了，他想知道每个用户半年，每个月，每天，或者一小时消费的总额，来店消费的次数以及平均金额。给出的例子计算的是每5秒,每30秒,每1分钟的用户消费金额，消费次数，平均消费。数据格式{"user":"zhangsan","payment":8}{"user":"wangwu","payment":7}....制作kafka输入数据与我上篇文章相同

#spark

Kafka集群模式部署

环境：kafka 0.8.1.1基本概念Kafka维护按类区分的消息，称为主题（topic）生产者（producer）向kafka的主题发布消息消费者（consumer）向主题注册，并且接收发布到这些主题的消息kafka以一个拥有一台或多台服务器的集群运行着，每一台服务器称为brokerzookeeper配置修改zk的配置文件conf/zoo.cfgserver.1=zk1:2888:38

#kafka #zookeeper

spark streaming - kafka updateStateByKey 统计用户消费金额

场景餐厅老板想要统计每个用户来他的店里总共消费了多少金额，我们可以使用updateStateByKey来实现从kafka接收用户消费json数据，统计每分钟用户的消费情况，并且统计所有时间所有用户的消费情况(使用updateStateByKey来实现)数据格式{"user":"zhangsan","payment":8}{"user":"wangwu","payment":7}....往kafk

#spark #kafka

共 16 条

请选择