简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
一、VMware虚拟机-------------------------------------------------------------------------- 1.安装VMware 2.在VMware中安装centos客户机二、Centos基本命令---------------------------------------------------------...
一、安装虚拟机--------------------------------------------------1.安装vbox2.新进虚拟机 -- linux -- red hat -- 1024M -- create3.设置网卡为桥接网卡bridage adapter或者NAT模式4.选择centos镜像,进行安装(s101 - s105)...
一、Avro介绍----------------------------------------------1.数据串行化系统2.提供了丰富的数据结构,紧凑的快速的二进制格式,存储持久化数据的容器,远程过程调用3.动态语言的简单集成,代码生成不需要读写数据文件,也不需要实现RPC协议4.跨语言5.可压缩,可切分6.自描述语言:数据和数...
一、项目简介----------------------------------------------1.hadoop+hbase+flume+zookeeper实现电信级海量通话日志数据的存储,随机访问与实时读写。通过hash技术对rowkey进行分析处理,解决hbase的热点问题,协同coprocessor,解决系统的高吞吐量和查询负载问题以及如何避免中间...
一、flume + kafka进行日志收集----------------------------------------------------------1.在集群上每台nginx服务器安装flume.2.配置flume,并分发使用spooldir做为source,监控/soft/nginx/logs/flume文件夹。[/soft...
一、Spark简介----------------------------------------------------------1.快如闪电的集群计算2.大规模快速通用的计算引擎3.速度: 比hadoop 100x,磁盘计算快10x4.使用: java / Scala /R /python5.提供80+算子(操作符),容易构建并行应用。...
ML-Day011.机器学习的数据大多都是文件,比如csv文件2.Pandas: 读取数据工具 基本的数据处理3.缺失值: 数据转换4.重复值: 不需要去重5.sklearn: 对于特征数据提供了强大的支持- Python的机器学习工具- 许多知名的机器学习算法的实现- 文档完善,容易上手,丰富的API6.特征工程: 将原始数据转换为 能更好...
一、Spark核心API-----------------------------------------------[SparkContext]连接到spark集群,入口点.[HadoopRDD] extends RDD读取hadoop hdfs上的数据,hbase的数据,s3的数据[MapPartitionsRDD]...