logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Clickhouse数据库一:简介

ClickHouse数据库简介ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库(DBMS),使用C++语言编写,主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告。OLAP场景的关键特征大多数是读请求数据总是以相当大的批(> 1000 rows)进行写入不修改已添加的数据每次查询都从数据库中读取大量的行,但是同时又仅需要少量的列宽表,即每

#数据库
Hadoop之Lzo压缩配置

Hadoop之Lzo压缩配置一、hadoop-lzo编译hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译,编译步骤如下。环境准备maven(下载安装,配置环境变量,修改sitting.xml加阿里云镜像)gcc-c++zlib-develautoconfautomakelibtool通过yum安装

#hadoop#大数据
IEDA编写Scala代码

一、IDEA环境创建Scala环境准备详见:https://blog.csdn.net/weixin_42796403/article/details/1111225781)步骤1:file->new project -> 选择Maven2)步骤2:添加包名和项目名称3)步骤3:指定项目工作目录空间4)步骤4:默认下,maven不支持Scala的开发,需要引入Scala框架。右键项目点

#scala#大数据
最小二乘法求解线性回归模型及求解

机器学习线性回归模型线性回归(linear regression)是一种线性模型,它假设输入变量 x 和单个输出变量 y 之间存在线性关系具体来说,利用线性回归模型,可以从一组输入变量 x 的线性组合中,计算输出变量 y给定有d个属性(特征)描述的示例 x =(x1; x2; …; xd),其中xi是x在第i个属性(特征)上的取值,线性模型(linear model)试图学得一个通过属性(特征)的

#算法#机器学习#python
Flink海量数据实时去重

Flink海量数据实时去重方案1: 借助redis的Set具体实现代码缺点需要频繁连接Redis如果数据量过大, 对redis的内存也是一种压力方案2: 使用Flink的MapState具体实现代码缺点如果数据量过大, 状态后端最好选择 RocksDBStateBackend如果数据量过大, 对存储也有一定压力方案3: 使用布隆过滤器布隆过滤器可以大大减少存储的数据的数据量优点不需要存储数据本身,

#flink
Phoenix 简介及使用方式

一、Phoenix 简介Phoenix 最早是 saleforce 的一个开源项目,后来成为 Apache 的顶级项目。Phoenix 构建在 HBase 之上的开源 SQL 层。能够让我们使用标准的 JDBC API 去建表, 插入数据和查询 HBase 中的数据, 从而可以避免使用 HBase 的客户端 API。在我们的应用和 HBase 之间添加了 Phoenix, 并不会降低性能, 而且我

#hbase#数据库#大数据
Hbase中的二级索引

Hbase中的二级索引一、什么是索引索引是一种数据结构,为了加速查询!HBase中的一级索引指,数据在写入region时,会根据rowkey进行排序后写入,之后regionserver在加载region时,会自动为当前region的rowkey创建一个LSM树的索引!方便对当前region,rowkey的查询!HBase 里面只有 rowkey 作为一级索引, 如果要对库里的非 rowkey 字段

#hbase#大数据
Hbase的优缺点

一、Hbase的优点HDFS有高容错,高扩展的特点,而Hbase基于HDFS实现数据的存储,因此Hbase拥有与生俱来的超强的扩展性和吞吐量。HBase采用的是Key/Value的存储方式,这意味着,即便面临海量数据的增长,也几乎不会导致查询性能下降。HBase是一个列式数据库,相对于于传统的行式数据库而言。当你的单张表字段很多的时候,可以将相同的列(以regin为单位)存在到不同的服务实例上,分

#大数据#hbase
Clickhouse数据库一:简介

ClickHouse数据库简介ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库(DBMS),使用C++语言编写,主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告。OLAP场景的关键特征大多数是读请求数据总是以相当大的批(> 1000 rows)进行写入不修改已添加的数据每次查询都从数据库中读取大量的行,但是同时又仅需要少量的列宽表,即每

#数据库
数据仓库分层

一、数据仓库分层ODS层:原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理DWD层:对ODS层数据进行清洗(去除空值,脏数据,超过极限范围的数据)、维度退化脱敏等DWS层:以DWD为基础,按天进行轻度汇总。DWT层:以DWS为基础,按主题进行汇总ADS层:为各种报表提供数据二、数据仓库为什么要分层把复杂问题简单化,将复杂的任务分解成多层来完成,每一层只处理简单任务,方便定位问

#大数据#数据仓库
暂无文章信息