Yore Yuen 个人主页

@github_39577257

Yore Yuen

2022-06-10 16:01:13 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

基于Spark Streaming + Canal + Kafka对Mysql增量数据实时进行监测分析

Spark中的Spark Streaming可以用于实时流项目的开发，实时流项目的数据源除了可以来源于日志、文件、网络端口等，常常也有这种需求，那就是实时分析处理MySQL中的增量数据。面对这种需求当然我们可以通过JDBC的方式定时查询Mysql，然后再对查询到的数据进行处理也能得到预期的结果，但是Mysql往往还有其他业务也在使用，这些业务往往比较重要，通过JDBC方式频繁查询会对My...

#spark #kafka

Spark 2.1.2 Streaming + Kafka 1.1.0 -- 在IDEA中通过Maven创建Spark项目

一、开发环境中需要安装和配置如下安装JDK，配置JDK环境变量(jdk1.8)安装Scala，配置JDK环境变量(scala2.11.8)最好安装一个Maven,虽然Idea已经集成自带的有Maven测试环境中已经安装有Zookeeper集群，Kafka需要用到（3.4.5）测试环境中已经安装有Kafka集群（1.1.0）测试环境中已经安装有Spark集群（2.1.2...

Apache Griffin 5.0 编译安装和使用(包含依赖无法下载的问题解决)

前言安装 Apachegriffin 最新版时，GitHub的 release 是一个源码包，需要下载下来后编译进行安装和配置，问题是编译的时候有些依赖在仓库中根本下载不到，导致编译失败，可以按照如下方法进行编译。1. 编译前准备环境中安装好如下插件GitMaven2. 下载源码访问GitHub，搜索 griffin ，第一个 apache/griffin 就是这个项目，可以...

CDH 6.2.0 或 6.3.0 安装实战及官方文档资料链接

本文主要根据多次的CDH安装和使用经验，总结了CDH 6.x（主要以CDH 6.2.0和CDH 6.3.0）版本为主。包括预期相关的各种环境的安装和应注意的事项，以及出现的问题的解决方法，比如NTP的安装、MySQL的安装、Host设置应注意的问题、分配给自己的机器root的密码在不允许更改的条件下如何安装、Open JDK版本问题、时区问题、旧环境清理问题（也适用于重装CDH），元数据库密码问题

Hive中的数据迁移--迁移多库数据以及实际遇到的问题解决

Hive的数据迁移其实就是对Hive的数据进行导入导出的操作。如果数据表不是很多，我们可以直接使用Hive SQL来处理，一张一张表的导出，然后在进行导入。对Hive的数据进行操作，常用的是登陆Hive客户端命令，常用的方式一般有两种，①hive，直接进入；②通过Beeline，在shell中输入beeline，然后连接我们的Hive，输入beeline> !connection

#大数据

一个大数据环境下表结构统一导出的工具

本文介绍了一个可以统一导出大数据环境中的多种数据库的表，详细介绍了打包和使用，包括导出 Phoenix、HBase、Hive、Impala、Kudu、ClickHouse、MySQL 的 DDL 的使用示例。

#大数据

ClickHouse 数据的更新（Mutation）

本文着重讲解了ClickHouse关于UPDATE数据时的一些问题，由一个需求引出，通过TPC-DS的数据集演示这种场景，接着通过 UPDATE、INSERT、VIEW方式尝试实现，期间会和MySQL对比，最终通过 INSERT实现这个需求。最后对比了和MySQL实现上的区别，并做了一个小节。

Apache Doris 的一场编译之旅

本文主要针对 Apache Doris 的编译进行了详细介绍，包括了通过 Docker 开发环境和直接编译两种方式，其中直接编译部分包括编译前对环境的要求，及重要编译环境的安装设置，以及编译过程中出现的问题给出了解决方法供参考，最后为了方便大家编译，又提供了下载连接

工作流任务调度系统：Apache DolphinScheduler

Apache DolphinScheduler（目前处在孵化阶段，原名为EasyScheduler）是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统，其致力于解决数据处理流程中错综复杂的依赖关系，使调度系统在数据处理流程中开箱即用。本文对DolphinScheduler做了简要的概述，并详细讲解了其安装，通过简单的例子快速开始并使用。最重要的是Worker分组和数据源的添加，以及与A

#分布式 #大数据

HDP 之 Timeline Service 2.0

本文树妖介绍了 HDP 之上的 Timeline Service 2.0。包含体系结构、安装、System Service模式、ats-hbase 的生命周期管理、ats-hbase清除、发布 Application-Specific 数据、Timeline Service 2.0 的 REST API 等内容

到底了