logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

主数据及编码

之前做数据梳理的时候对主数据进行了一个总结,虽然项目没有很好的开展,不过对我来说也是有很多收获的,这里把之前用到的一些文档总结如下。术语和定义主数据早期以 ERP 为代表的制造业集成应用系统的发展过程中,产生了信息孤岛和数据处理危机问题。为了解决这些问题,主数据这个概念随之诞生。目前,对主数据的定义没有统一,一些 MDM 产品提供商和学者提出了各自对主数据的定义,如下:Da...

小波调研(三):小波阈值去噪分析

小波阈值去噪分析数据挖掘流程传统的去噪方法根据噪声能量一般集中于高频,而信号频谱分布于一个有限区间的特点,用傅里叶变换将含噪信号变换到频域,然后采用低通滤波器进行滤波。但基于傅里叶变换的去噪方法不能将有用信号的高频部分和由噪声引起的高频干扰加以有效地区分,存在着保护信号局部性和抑制噪声之间的矛盾。而小波变换可以很好的保存信号的尖峰和局部突出部分。小波去噪的发展可以归纳为三种方法:(1)...

kafka指定偏移量拉取与偏移量半自动提交

离去年写了有关偏移量有关文章快一年了,但最近在偏移量方面遇到了些小问题,在这里记录下。还有关于偏移量半自动提交,是个很经典的问题,顺便也记录下。

#java#kafka
Kafka消费者的偏移量和高级/简单消费者

Kafka消费者的偏移量和高级/简单消费者提交和偏移量提交:更新分区的当前位置称为提交,当前版本(0.10.1.1)用topic ___consumer_offsets 保存提交的偏移量偏移量:消费者在Kafka追踪到消息在分区里的位置消费者在崩溃或者有新的消费者加入群组,就会触发再均衡。这是需要读取最后一次偏移量,然后从偏移量指定的地方继续处理。提交的偏移量小于真实的偏移量,消息...

#kafka
使KafKa每次读取消息到最新发送消息的解决方案

 使KafKa每次读取消息到最新发送消息的解决方案(使用版本0.10.1.1)情景是使KafKa每次读取消息到最新发送消息,查了很多资料,对kafka的消费组和偏移量也有些研究,但本地与集群,不同版本都有不少不同之处。即使目前解决了该问题,仍有不少坑待填(之前想在这边放下关于消费组和偏移量的东西,但比较多比较杂,就开了一个新坑:https://blog.csdn.net/jyj1100/a...

#kafka#java
Flink框架关于Kafka生产消费的实现demo

flink作为一个大数据框架,已经由阿里充分的证实了其性能和前景。但对国内仍然是一个比较陌生的状态,无论是开源的文档和实例都比较缺乏。之前找到的demo很多都是旧版本;同时flink本身面临版本演进,blink开源等一些影响,也会在之后出现一些比较大的变化。我根据目前的资料,编写了基于flink的Kafka生产消费demo,便于初步的了解flink的特性,也希望能对他人了解flink提供一些小小的

#flink#kafka
GeoSpark调研(一):简介

GeoSpark简介GeoSpark是一个用于处理大规模空间数据的开源内存集群计算系统。是传统GIS与Spark的结合。GeoSpark扩展RDD以形成空间RDD(SRDD),并跨机器高效地对SRDD数据元素进行分区,并引入新颖的并行化空间(几何操作,遵循Open Geosptial Consortium(OGC)标准)转换和操作(用于SRDD),提供更直观的界面供用户编写空间数据分析程序。G..

#spark
关于Kafka的LEADER_NOT_AVAILABLE问题(kafka版本 0.10.1)

 主要报错信息WARN Error while fetching metadata with correlation id 0 : {test_topic=LEADER_NOT_AVAILABLE} (org.apache.kafka.clients.NetworkClient) 猜测原因在集群中直接删除运行的Topic,补充:应该是该Topic在使用中(待验证)被直接删除...

#kafka
java原生程序redis连接(连接池/长连接和短连接)选择问题

最近遇到的连接问题我准备从重构的几个程序(redis和mysql)长连接和短连接,以及连接池和单连接等问题用几篇博客来总结下。这个问题的具体发生在java原生程序和redis的交互中。这个问题对我最深刻的教训就是说明获取连接不能迷信连接池和原封不动的搬运以前代码的utils。在连接的建立的一开始就应该思考连接的稳定性和是否应该关闭连接。否则这些问题在线上运行十几个小时可能才会暴露。

#java#redis
到底了