
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Spark中的Spark Streaming可以用于实时流项目的开发,实时流项目的数据源除了可以来源于日志、文件、网络端口等,常常也有这种需求,那就是实时分析处理MySQL中的增量数据。面对这种需求当然我们可以通过JDBC的方式定时查询Mysql,然后再对查询到的数据进行处理也能得到预期的结果,但是Mysql往往还有其他业务也在使用,这些业务往往比较重要,通过JDBC方式频繁查询会对My...
一、开发环境中需要安装和配置如下安装JDK,配置JDK环境变量(jdk1.8)安装Scala,配置JDK环境变量(scala2.11.8)最好安装一个Maven,虽然Idea已经集成自带的有Maven测试环境中已经安装有Zookeeper集群,Kafka需要用到(3.4.5)测试环境中已经安装有Kafka集群(1.1.0)测试环境中已经安装有Spark集群(2.1.2...
前言安装 Apachegriffin 最新版时,GitHub的 release 是一个源码包,需要下载下来后编译进行安装和配置,问题是编译的时候有些依赖在仓库中根本下载不到,导致编译失败,可以按照如下方法进行编译。1. 编译前准备环境中安装好如下插件GitMaven2. 下载源码访问GitHub,搜索 griffin ,第一个 apache/griffin 就是这个项目,可以...
本文主要根据多次的CDH安装和使用经验,总结了CDH 6.x(主要以CDH 6.2.0和CDH 6.3.0)版本为主。包括预期相关的各种环境的安装和应注意的事项,以及出现的问题的解决方法,比如NTP的安装、MySQL的安装、Host设置应注意的问题、分配给自己的机器root的密码在不允许更改的条件下如何安装、Open JDK版本问题、时区问题、旧环境清理问题(也适用于重装CDH),元数据库密码问题
Hive的数据迁移其实就是对Hive的数据进行导入导出的操作。如果数据表不是很多,我们可以直接使用Hive SQL来处理,一张一张表的导出,然后在进行导入。 对Hive的数据进行操作,常用的是登陆Hive客户端命令,常用的方式一般有两种,①hive,直接进入;②通过Beeline,在shell中输入beeline,然后连接我们的Hive,输入beeline> !connection
本文介绍了一个可以统一导出大数据环境中的多种数据库的表,详细介绍了打包和使用,包括导出 Phoenix、HBase、Hive、Impala、Kudu、ClickHouse、MySQL 的 DDL 的使用示例。
本文着重讲解了ClickHouse关于UPDATE数据时的一些问题,由一个需求引出,通过TPC-DS的数据集演示这种场景,接着通过 UPDATE、INSERT、VIEW方式尝试实现,期间会和MySQL对比,最终通过 INSERT实现这个需求。最后对比了和MySQL实现上的区别,并做了一个小节。
本文主要针对 Apache Doris 的编译进行了详细介绍,包括了通过 Docker 开发环境和直接编译两种方式,其中直接编译部分包括编译前对环境的要求,及重要编译环境的安装设置,以及编译过程中出现的问题给出了解决方法供参考,最后为了方便大家编译,又提供了下载连接
Apache DolphinScheduler(目前处在孵化阶段,原名为EasyScheduler)是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统,其致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。本文对DolphinScheduler做了简要的概述,并详细讲解了其安装,通过简单的例子快速开始并使用。最重要的是Worker分组和数据源的添加,以及与A
本文树妖介绍了 HDP 之上的 Timeline Service 2.0。包含体系结构、安装、System Service模式、ats-hbase 的生命周期管理、ats-hbase清除、发布 Application-Specific 数据、Timeline Service 2.0 的 REST API 等内容







