大数据面壁者个人主页

@weixin_42796403

大数据面壁者

2022-09-29 16:55:20 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

机器学习主要分类

机器学习主要分类有监督学习：提供数据并提供数据对应结果的机器学习过程。无监督学习：提供数据并且不提供数据对应结果的机器学习过程。强化学习：通过与环境交互并获取延迟返回进而改进行为的学习过程。1.无监督学习无监督聚类应用的一个例子就是在谷歌新闻中。谷歌新闻每天都会收集很多新闻内容。它将这些新闻分组，组成有关联的新闻，然后按主题显示给用户谷歌新闻做的就是搜索新闻事件，自动地把它们聚类到一起；这些新闻事

#机器学习 #深度学习

数据仓库分层

一、数据仓库分层ODS层：原始数据层，存放原始数据，直接加载原始日志、数据，数据保持原貌不做处理DWD层：对ODS层数据进行清洗（去除空值，脏数据，超过极限范围的数据）、维度退化脱敏等DWS层：以DWD为基础，按天进行轻度汇总。DWT层：以DWS为基础，按主题进行汇总ADS层：为各种报表提供数据二、数据仓库为什么要分层把复杂问题简单化，将复杂的任务分解成多层来完成，每一层只处理简单任务，方便定位问

#大数据 #数据仓库

离线计算与实时计算的对比

离线计算与实时计算的比较离线需求就是在计算开始前已知所有输入数据，输入数据不会产生变化，一般计算量级较大，计算时间也较长。例如今天早上一点，把昨天累积的日志，计算出所需结果。最经典的就是Hadoop的MapReduce方式；一般是根据前一日的数据生成报表，虽然统计指标、报表繁多，但是对时效性不敏感。从技术操作的角度，这部分属于批处理的操作。即根据确定范围的数据一次性计算。实时需求输入数据是可以以序

#大数据

最小二乘法求解线性回归模型及求解

机器学习线性回归模型线性回归（linear regression）是一种线性模型，它假设输入变量 x 和单个输出变量 y 之间存在线性关系具体来说，利用线性回归模型，可以从一组输入变量 x 的线性组合中，计算输出变量 y给定有d个属性（特征）描述的示例 x =（x1; x2; …; xd），其中xi是x在第i个属性（特征）上的取值，线性模型（linear model）试图学得一个通过属性（特征）的

#算法 #机器学习 #python

使用Zepplin连接Kylin进行数据可视化分析

使用Zepplin连接Kylin进行数据可视化分析1）Zepplin安装与启动（1）将zeppelin-0.8.0-bin-all.tgz上传至Linux（2）解压zeppelin-0.8.0-bin-all.tgz之/opt/module[hadoop@hadoop102 sorfware]$ tar -zxvf zeppelin-0.8.0-bin-all.tgz -C /opt/module

#kylin

Superset可视化之制作地图

1 制作地图1.1 配置Table1.2 配置Chart2 制作饼状图2.1 配置Table此处使用地区主题表——ads_user_topic2.2 配置Chart

IEDA编写Scala代码

一、IDEA环境创建Scala环境准备详见：https://blog.csdn.net/weixin_42796403/article/details/1111225781）步骤1：file->new project -> 选择Maven2）步骤2：添加包名和项目名称3）步骤3：指定项目工作目录空间4）步骤4：默认下，maven不支持Scala的开发，需要引入Scala框架。右键项目点

#scala #大数据

最小二乘法求解线性回归模型及求解

#算法 #机器学习 #python

Phoenix 简介及使用方式

一、Phoenix 简介Phoenix 最早是 saleforce 的一个开源项目，后来成为 Apache 的顶级项目。Phoenix 构建在 HBase 之上的开源 SQL 层。能够让我们使用标准的 JDBC API 去建表, 插入数据和查询 HBase 中的数据, 从而可以避免使用 HBase 的客户端 API。在我们的应用和 HBase 之间添加了 Phoenix, 并不会降低性能, 而且我

#hbase #数据库 #大数据

Hbase中的二级索引

Hbase中的二级索引一、什么是索引索引是一种数据结构，为了加速查询！HBase中的一级索引指，数据在写入region时，会根据rowkey进行排序后写入，之后regionserver在加载region时，会自动为当前region的rowkey创建一个LSM树的索引！方便对当前region，rowkey的查询！HBase 里面只有 rowkey 作为一级索引，如果要对库里的非 rowkey 字段

#hbase #大数据

到底了