logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

使用Java API访问Hdfs服务器

使用Java API访问Hdfs服务器

#hdfs#java
Spark应用之日志数据清洗--实例解析

Spark应用之日志数据清洗一、日志数据二、准备工作三、数据清洗3.1 清洗数据 user.csv3.2 清洗数据 event.csv3.3 清洗数据 user_friends.csv一、日志数据日志数据:下载链接:events提取码: ngs3二、准备工作下载日志数据将下载的日志数据上传至hdfs:/eventData文件夹linux 启动spark,spark安装根目录输入:sbin/star

#spark
Git仓库使用--新手入门

Git仓库使用一、安装Git二、安装插件工具 TortoiseGit三、Git常用操作3.1 Git的工作流程3.2 创建版本库3.2.1 使用Git GUI3.2.2 使用Git Bash3.2.3 使用TortoiseGit一、安装Git下载地址:https://git-scm.com/download笔者下载的版本是: Git-2.27.0-64-bit.exe下载好之后双击打开一连续点击

#git
zeppelin环境搭建及连接hive使用--简易版一看就会

zeppelin环境搭建及连接hive使用一、准备工作1.zepeelin简介2.安装包下载3.环境要求二、解压安装三、修改配置文件1.修改配置文件zeppelin-site.xml2.修改zeppelin的环境文件四、启动zepeelin五、配置hive解释器1.配置hive的环境变量至zeppelin中2.在web页面配置集成hive2.1需先启动hadoop和hive服务2.2启动zeppe

#hadoop#大数据
hbase shell基本命令、本地数据批量导入Hbase、Hbase与Hive交互实例

Hbase常用操作一、hbase shell基本命令二、将本地表数据批量导入到hbase中三、hbase与hive映射一、hbase shell基本命令判断表存在与否exists 'tablename'使用通配符的方式列出所有表list 'abc.*'查看HBase 的版本version查看HBase 的状态status查看HBase 帮助文档help创建一个表user,列族为baseinfo,p

#hbase#大数据
邻近算法(KNN)原理简单解析

邻近算法(KNN)原理简单解析 一、什么是邻近算法1.1简介1.2核心思想1.3 算法流程1.4 优缺点二、实例演示KNN算法一、什么是邻近算法1.1简介邻近算法,或者说K最近邻(KNN,K-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的K个邻近值来代表。近邻算法就是将数据集合中每一个记录进行分

大数据常见面试题----冲!!!

大数据常见面试题一、Hadoop生态1.1 HDFS1.1.1 hdfs读写流程1.1.2 NameNode、DataNode的作用二、Spark技术栈2.1 scala2.1.1 scala 偏函数2.1.2 scala 柯理化2.1.3 scala 的apply和unapply方法是什么作用2.1.4 scala 定义元组后可变吗2.1.5 java和scala的区别2.1.6 scala中的

Linux系统搭建Hadoop集群

Linux系统搭建hadoop集群一、准备工作安装包下载:使用Oracle VM VirtualBox 创建Linux虚拟机:https://blog.csdn.net/and52696686/article/details/106837909将IP地址设为:192.168.56.131设置主机名:

#hadoop
Spark应用之日志数据清洗--实例解析

Spark应用之日志数据清洗一、日志数据二、准备工作三、数据清洗3.1 清洗数据 user.csv3.2 清洗数据 event.csv3.3 清洗数据 user_friends.csv一、日志数据日志数据:下载链接:events提取码: ngs3二、准备工作下载日志数据将下载的日志数据上传至hdfs:/eventData文件夹linux 启动spark,spark安装根目录输入:sbin/star

#spark
    共 12 条
  • 1
  • 2
  • 请选择