
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文作者:李栋,来自Kyligence公司,也是Apache Kylin Committer & PMC member,在加入Kyligence之前曾就职于eBay、微软。1.Apache Kylin是什么? 在现在的大数据时代,越来越多的企业开始使用Hadoop管理数据,但是现有的业务分析工具(如Tableau,Microstrategy等)往往存在很大的局限,如难以水平
安装centos7并配置上网和安装ftp1、下载VMware Workstation虚拟机下载地址:https://my.vmware.com/web/vmware/downloads下载完成后自行安装,如果解压不成功,可以用管理员身份运行,安装完成后可以到网上找序列号进行激活2、下载centos7自行下载一个iso镜像文件,下载完成后用VMware Workstati
关键字:kylin、streaming tableKylin从1.5版本开始,引入了Streaming Table,目的是为了减低OLAP分析的延时(比如Druid、ElasticSearch都支持实时数据流)。Streaming Table周期性的从Kafka中读取数据,根据Model和Cube的定义,将计算好的数据写入HBase,以供查询。从1.5.2版本开始,官网上给
kafka的PageCache读写不同于Redis和MemcacheQ等内存消息队列,Kafka的设计是把所有的Message都要写入速度低容量大的硬盘,以此来换取更强的存储能力。实际上,Kafka使用硬盘并没有带来过多的性能损失(这一点是有条件限制的,这个条件是,消费者的消费速度要高于或等于生产者的速度)。kafka重度依赖底层操作系统提供的PageCache功能。(文件缓存,速
场景 mysql的数据-->通过canal-->发送到kafka-->mysql、hive在做canal集成kafka的时候,发现一个问题,多分区的情况下,跨分区的数据消费是无序的。这时候就会出现问题,如果消费端消费的更新日志在插入日志之前,就会因为数据缺失导致异常(这样的情况随着并发出现的概率会增大),所以,需要保证新增的日志和更新的日志是有序的被消费。kafka发送数据是支持指定分







