疯狂学习的白菜个人主页

@xcvbxv01

疯狂学习的白菜

2023-06-03 19:11:07 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Hadoop基础（六） --- hadoop的压缩算法，安装LZO，安装snappy，安装lz4，各种压缩算法的对比测试

一、压缩算法-------------------------------------------------------- 1.空间优先 -9 、速度优先 -1 2.压缩算法 "org.apache.hadoop.io.compress.DeflateCodec" "org.apache.hadoop.io.co

大数据之JAVA基础（十四）：集合--2

一、List接口1.概念1）List接口是一个元素存取的有序集合2）是一个带有索引的集合3）集合中可以有重复的元素，可以通过集合元素的equals方法，来比较是否为重复的元素2.常用的子类ArrayListLinkedList3.List接口中常用的方法/** List练习*/public static void func16(){List<String> list =

Linux基础（一）--- VMware虚拟机，Centos常用基本命令、centos目录与权限、网络连接、Vnet8虚拟网卡丢失找回、mount、共享文件夹

一、VMware虚拟机-------------------------------------------------------------------------- 1.安装VMware 2.在VMware中安装centos客户机二、Centos基本命令---------------------------------------------------------...

从零开始搭建CDH大数据平台（一） -- 虚拟机篇

一、安装虚拟机--------------------------------------------------1.安装vbox2.新进虚拟机 -- linux -- red hat -- 1024M -- create3.设置网卡为桥接网卡bridage adapter或者NAT模式4.选择centos镜像，进行安装（s101 - s105）...

大数据之Spark（一）--- Spark简介，模块，安装，使用，一句话实现WorldCount，API，scala编程，提交作业到spark集群，脚本分析

一、Spark简介----------------------------------------------------------1.快如闪电的集群计算2.大规模快速通用的计算引擎3.速度: 比hadoop 100x,磁盘计算快10x4.使用: java / Scala /R /python5.提供80+算子(操作符)，容易构建并行应用。...

PythonML-Day01: sklearn

ML-Day011.机器学习的数据大多都是文件，比如csv文件2.Pandas：读取数据工具基本的数据处理3.缺失值：数据转换4.重复值：不需要去重5.sklearn：对于特征数据提供了强大的支持- Python的机器学习工具- 许多知名的机器学习算法的实现- 文档完善，容易上手，丰富的API6.特征工程：将原始数据转换为能更好...

大数据之Spark（三）--- Spark核心API，Spark术语，Spark三级调度流程源码分析

一、Spark核心API-----------------------------------------------[SparkContext]连接到spark集群,入口点.[HadoopRDD] extends RDD读取hadoop hdfs上的数据，hbase的数据，s3的数据[MapPartitionsRDD]...

到底了