我玩的很开心个人主页

@and52696686

我玩的很开心

2023-06-07 22:14:38 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Protobuf

Spark应用之日志数据清洗一、日志数据二、准备工作三、数据清洗3.1 清洗数据 user.csv3.2 清洗数据 event.csv3.3 清洗数据 user_friends.csv一、日志数据日志数据：下载链接:events提取码: ngs3二、准备工作下载日志数据将下载的日志数据上传至hdfs：/eventData文件夹linux 启动spark，spark安装根目录输入：sbin/star

#spark

Git仓库使用--新手入门

Git仓库使用一、安装Git二、安装插件工具 TortoiseGit三、Git常用操作3.1 Git的工作流程3.2 创建版本库3.2.1 使用Git GUI3.2.2 使用Git Bash3.2.3 使用TortoiseGit一、安装Git下载地址：https://git-scm.com/download笔者下载的版本是： Git-2.27.0-64-bit.exe下载好之后双击打开一连续点击

#git

zeppelin环境搭建及连接hive使用--简易版一看就会

zeppelin环境搭建及连接hive使用一、准备工作1.zepeelin简介2.安装包下载3.环境要求二、解压安装三、修改配置文件1.修改配置文件zeppelin-site.xml2.修改zeppelin的环境文件四、启动zepeelin五、配置hive解释器1.配置hive的环境变量至zeppelin中2.在web页面配置集成hive2.1需先启动hadoop和hive服务2.2启动zeppe

#hadoop #大数据

hbase shell基本命令、本地数据批量导入Hbase、Hbase与Hive交互实例

Hbase常用操作一、hbase shell基本命令二、将本地表数据批量导入到hbase中三、hbase与hive映射一、hbase shell基本命令判断表存在与否exists 'tablename'使用通配符的方式列出所有表list 'abc.*'查看HBase 的版本version查看HBase 的状态status查看HBase 帮助文档help创建一个表user，列族为baseinfo，p

#hbase #大数据

邻近算法(KNN)原理简单解析

邻近算法（KNN）原理简单解析一、什么是邻近算法1.1简介1.2核心思想1.3 算法流程1.4 优缺点二、实例演示KNN算法一、什么是邻近算法1.1简介邻近算法，或者说K最近邻（KNN，K-NearestNeighbor）分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是K个最近的邻居的意思，说的是每个样本都可以用它最接近的K个邻近值来代表。近邻算法就是将数据集合中每一个记录进行分

大数据常见面试题----冲！！！

大数据常见面试题一、Hadoop生态1.1 HDFS1.1.1 hdfs读写流程1.1.2 NameNode、DataNode的作用二、Spark技术栈2.1 scala2.1.1 scala 偏函数2.1.2 scala 柯理化2.1.3 scala 的apply和unapply方法是什么作用2.1.4 scala 定义元组后可变吗2.1.5 java和scala的区别2.1.6 scala中的

Linux系统搭建Hadoop集群

Linux系统搭建hadoop集群一、准备工作安装包下载：使用Oracle VM VirtualBox 创建Linux虚拟机：https://blog.csdn.net/and52696686/article/details/106837909将IP地址设为：192.168.56.131设置主机名：

#hadoop

Spark应用之日志数据清洗--实例解析

#spark

共 12 条

请选择