logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据—数据采集DataX

DataX 是阿里云DataWorks数据集成的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据

文章图片
#hdfs#数据库#数据仓库 +2
大数据工具——Presto

Presto是一款分布式SQL查询引擎, Presto可以独立提供计算分析操作, 不需要依赖于其他的计算引擎。

文章图片
#大数据#数据库开发#数据仓库 +1
最简单方法解决启动hive时报错:Exception in thread “main“ java.lang.RuntimeException: org.apache.hadoop.hdfs.serve

相信很多人和我一样在启动完集群之后,通过“lsof -i:10000”检测是否启动成功时会遇到如下图这种情况:等待许久依旧无法启动成功,从而DataGrip无法连接数据库。经过回头检验发现在启动metastore后,hive检验时报错如下图:很容易我们可以关注到:这是因为我们在某次关闭虚拟机时,hadoop没正常关闭,系统自动启动了保护模式!

文章图片
#hadoop#hive#java
数仓分层——ODS、DW、ADS

ODS(Operational Data Store,运营数据存储)是数据仓库体系结构中的一个重要组成部分,通常作为数据仓库架构中的第一个层次或者与原始数据层紧密相关。ODS 层主要用于存储和处理来自业务应用系统的实时、操作性数据,提供给业务用户和决策者进行日常的操作性查询和分析。数据来源: ODS 层的数据主要来自于组织内部的业务应用系统,如企业资源计划(ERP)、客户关系管理(CRM)、销售、

文章图片
#大数据#数据库开发#数据仓库 +1
Zookeeper服务

Zookeeper 是一个分布式应用程序的协调服务,它提供了一个高性能的分布式配置管理、分布式锁服务和分布式协调服务。它是 Apache 软件基金会的一个项目,被设计用来处理大规模的分布式系统中的一些关键问题。

文章图片
#zookeeper#分布式#数据库 +2
到底了