logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据基础之Hbase——Hbase的shell基本操作

目录一:简介二:Hbase重要概念:Hbase的表结构表Table命名空间namespace行键Row Key区域region列簇column family修饰符(列限定符)Hbase shell基本操作:创建Hbase表:1.创建简单表:2.修改(添加、删除)表结构:3.获取表的描述describe4.列举所有表list5.表是否存在exists6.启用表enable和禁用表disable7.删

#hbase#数据库
大数据基础之Hive——hive数据清洗过程csv表格字段出现分割符逗号的解决方案

在创建表进行数据清洗的过程中 csv表格字段中可能存在csv表格的分割符号 ,如图此时如果还是按照原来的写法:%hivecreate external table if not exists ext_transaction_details(transaction_id string,customer_id string,store_id string,price string,product st

#大数据#hive
大数据基础之算法——Spark ML归一化方法 MinMaxScaler

归一化是一种简化计算的方式,即通过某种算法将原始数据集限制在你需要的一定范围内,一方面是数据处理的方便,另一方面是为了后面放入模型计算的方便,使得运行时的收敛性更快。Spark ML机器学习库中包含了4种归一化的方法:NormalizerStandardScalerMinMaxScalerMaxAbsScaler在我的项目中只用到了MinMaxScaler方法,在这里我就着重分享该方法的用法。Mi

#算法#机器学习
大数据基础之Scala(一)——Scala环境搭建

一、搭建Scala开发环境 Scala的优势多范式编程:面向对象编程,函数式编程表达能力强,代码精简 安装Scala编译器

#scala#大数据
大数据进阶之算法——Spark ML库VectorAssemble详解

VectorAssemble是将给定列列表组合成单个向量列的转换器。为了训练逻辑回归和决策树等ML模型,将原始的多个特征列组合成一个特征向量是很有用的。VectorAssemble将接受一下的输入列类型:所有数值类型、布尔类型和向量类型。在每一行中,输入列的值将按照指定的顺序连接到一个向量中。示例:以下是我的一些项目模拟数据原始数据集:处理后的数据集:VecotrAssemble代码实现://nu

#机器学习#深度学习#人工智能
Vbox安装虚拟机教程

新建虚拟机:点击新建->创建一个名称->选择放置虚拟机的文件夹位置->类型选择Linux->版本选择redHat64位设置虚拟机的运行内存4g或8g->然后点击创建->选择虚拟机的硬盘大小,一般为20-50g,然后就创建完毕设置虚拟机:常规->高级:共享粘贴板和拖放都选择双向系统:去掉软驱前面的钩,然后将光驱和硬盘的位置上移处理器选择绿色和红色交接点显示:

#linux
大数据软件之搭建完全分布式Hadoop

集群准备准备三台客户机(关闭防火墙、静态ip、主机映射、主机名称),主机名分别为Hadoop2,Hadoop3,Hadoop4(具体虚拟机安装步骤在我之前的博客有写到)安装jdk,配置环境变量(具体步骤在我之前的博客里也有写到)配置虚拟机免密以及互联免密(具体步骤在我之前的博客里也有写到)配置时间同步集群规划hadoop2hadoop3hadoop4HDFSNameNode、DataNodeDat

#分布式#大数据#hadoop
JSON解析详解

JSON解析详解1.定义一串测试JSON{"retCode":0,"retMSg":"成功","data":[{"name":"李雷","id":"001","score":{"Chinese":"80","Math":"95"},"schoolInfo": [{"School_name": "清华"

#json
到底了