logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Spark 中数据转换及DataFrame数据的行转列

本文主要讲述了如何使用Spark将行数据转换为列数据。Spark中DataFrame的数据可能是一个行形式的数据,我们可以通过 pivot 算子将其转换为列形式的数据,处理后的数据类型依然为DataFrame,后续我们可以将其注册为临时视图对其做下一步的处理,最终将满足需求的数据按照给定的格式输出。

Windows/Mac系统Docker方式安装Mysql(包含对中文字符集 utf8 的支持)

主要介绍了Docker在常用的桌面操作系统下的安装,主要是Mac系统和Window10系统,并且介绍了安装中的注意事项,以及出现的问题的解决方法。Docker安装完毕后,为了加速镜像的下载,又介绍了Docker如何配置阿里云镜像。最后我们又在安装好的Docker快速启动MySQL,并针对使用存在的 编码乱码问题进行解决,重新编写 Dockerfile,生成支持 utf8 的 mysql 镜像,并成

#docker#mysql#阿里云
基于Spark Streaming + Canal + Kafka对Mysql增量数据实时进行监测分析

Spark中的Spark Streaming可以用于实时流项目的开发,实时流项目的数据源除了可以来源于日志、文件、网络端口等,常常也有这种需求,那就是实时分析处理MySQL中的增量数据。面对这种需求当然我们可以通过JDBC的方式定时查询Mysql,然后再对查询到的数据进行处理也能得到预期的结果,但是Mysql往往还有其他业务也在使用,这些业务往往比较重要,通过JDBC方式频繁查询会对My...

#spark#kafka
基于 Docker 的几种常用 CentOS7 镜像

本文介绍了 Docker 的安装及使用,利用 Docker 构建几个开发测试中常用的 CentOS 镜像环境:基础纯净版、大数据开发环境版、 带数据库 (目前是MySQL) 版。中间又介绍了镜像的制作及如何上传到案例云镜像仓库,方便大家和自己在使用环境时快速拉取和下载

#阿里云
Spark 2.1.2 Streaming + Kafka 1.1.0 -- 在IDEA中通过Maven创建Spark项目

一、开发环境中需要安装和配置如下安装JDK,配置JDK环境变量(jdk1.8)安装Scala,配置JDK环境变量(scala2.11.8)最好安装一个Maven,虽然Idea已经集成自带的有Maven测试环境中已经安装有Zookeeper集群,Kafka需要用到(3.4.5)测试环境中已经安装有Kafka集群(1.1.0)测试环境中已经安装有Spark集群(2.1.2...

Apache Griffin 5.0 编译安装和使用(包含依赖无法下载的问题解决)

前言安装 Apachegriffin 最新版时,GitHub的 release 是一个源码包,需要下载下来后编译进行安装和配置,问题是编译的时候有些依赖在仓库中根本下载不到,导致编译失败,可以按照如下方法进行编译。1. 编译前准备环境中安装好如下插件GitMaven2. 下载源码访问GitHub,搜索 griffin ,第一个 apache/griffin 就是这个项目,可以...

CarbonData部署和使用

本文主要介绍了华为开源的一个新型的大数据列式存储格式CarbonData。简要描述了CarbonData的特性。有介绍了CarbonData的安装以及和Spark的集成,最后在spark-shell中通过编程执行SQL,测试了CREATE、LOAD、SELECT、INSERT、UPDATE、DELETE

ClickHouse 数据的更新(Mutation)

本文着重讲解了ClickHouse关于UPDATE数据时的一些问题,由一个需求引出,通过TPC-DS的数据集演示这种场景,接着通过 UPDATE、INSERT、VIEW方式尝试实现,期间会和MySQL对比,最终通过 INSERT实现这个需求。最后对比了和MySQL实现上的区别,并做了一个小节。

基于 Docker 的几种常用 CentOS7 镜像

本文介绍了 Docker 的安装及使用,利用 Docker 构建几个开发测试中常用的 CentOS 镜像环境:基础纯净版、大数据开发环境版、 带数据库 (目前是MySQL) 版。中间又介绍了镜像的制作及如何上传到案例云镜像仓库,方便大家和自己在使用环境时快速拉取和下载

#阿里云
    共 17 条
  • 1
  • 2
  • 请选择