
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
实时计算Flink三种实时计算框架storm、spark streaming和flink的对比storm延迟低但吞吐量小spark streaming吞吐量大,但延迟高flink是一种兼具低延迟和高吞吐量特点的流计算技术,还是一套框架中能同时支持批处理和流处理的一个计算平台Flink流处理特性高吞吐、低延迟、高性能支持带有事件时间的窗口(Window)操作支持有状态计算的Exactly-once语
1. Hue简介HUE=Hadoop User Experience(Hadoop用户体验),直白来说就一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。通过使用HUE我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析
GBDT (Gradient Boosting Decision Tree)是机器学习中一个长盛不衰的模型,其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型,该模型具有训练效果好、不易过拟合等优点。GBDT在工业界应用广泛,通常被用于点击率预测,搜索排序等任务。GBDT也是各种数据挖掘竞赛的致命武器,据统计Kaggle上的比赛有一半以上的冠军方案都是基于GBDT。LightGBM (Li.
1. Hue简介HUE=Hadoop User Experience(Hadoop用户体验),直白来说就一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。通过使用HUE我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析
1.准备好需要安装的软件虚拟机VMware12.pro操作系统CentOS 6.5远程控制虚拟机的终端SecureCRT8.12.在虚拟机中安装CentOS操作系统安装好虚拟机,图形界面如下图创建新的虚拟机,选择自定义(高级),点击下一步虚拟机硬件兼容性默认,浏览需要安装的CentOS6.5镜像文件自定义用户名和密码(用于登录)设置虚...
1. Spark Streaming基础知识Spark Streaming是spark核心API的一个扩展,可以实现高吞吐量、有容错机制的实时流数据处理。支持多种数据源获取数据:Spark Streaming接收Kafka、Flume、HDFS等各种来源的实时输入数据,进行处理后保存在HDFS、DataBase等。Spark Streaming将接收的实时流数据,按照一定时间间隔,对数据进...
canal INVALID_TOPIC_EXCEPTION问题