简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
使用 Apache Flink 开发实时 ETL
Apache Flink 是大数据领域又一新兴框架。它与 Spark 的不同之处在于,它是使用流式处理来模拟批量处理的,因此能够提供亚秒级的、符合 Exactly-once 语义的实时处理能力。Flink 的使用场景之一是构建实时的数据通道,在不同的存储之间搬运和转换数据。本文将介绍如何使用 Flink 开发实时 ETL 程序,并介绍 Flink 是如何保证其 Exactly-once 语义的。
Kafka集群详解(一)
kafka特性:1、kafka的数据只会顺序append,不支持随机写,顺序读写的性能非常高效2、数据的删除策略是累积到一定程度或者超过一定时间再删除 (默认是7天)3、Kafka另一个独特的地方是将消费者信息保存在客户端而不是MQ服务器 (zookeeper)4、消息的投递过程也是采用客户端主动pull的模型5、客户端在pull数据的时候,尽量以zero-copy(nio)的方式传输, 利用se
HBase 参数说明
hbase.hregion.memstore.flush.size(HBase Memstore 刷新大小)如Region中任意 memstore 大小超过此值(字节数),Memstore 将刷写到磁盘。通过运行由 hbase.server.thread.wakefrequency 指定的频率的线程检查此值。hbase.regionserver.global.memstore.lowerLimit
到底了