logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据之Avro(一) --- Avro介绍,Avro数据类型,编译和非编译Avro进行串行和反串行,avro_tools.jar的使用

一、Avro介绍----------------------------------------------1.数据串行化系统2.提供了丰富的数据结构,紧凑的快速的二进制格式,存储持久化数据的容器,远程过程调用3.动态语言的简单集成,代码生成不需要读写数据文件,也不需要实现RPC协议4.跨语言5.可压缩,可切分6.自描述语言:数据和数...

电话日志分析callLog(一)

一、项目简介----------------------------------------------1.hadoop+hbase+flume+zookeeper实现电信级海量通话日志数据的存储,随机访问与实时读写。通过hash技术对rowkey进行分析处理,解决hbase的热点问题,协同coprocessor,解决系统的高吞吐量和查询负载问题以及如何避免中间...

购物平台商品实时推荐系统(四)

一、flume + kafka进行日志收集----------------------------------------------------------1.在集群上每台nginx服务器安装flume.2.配置flume,并分发使用spooldir做为source,监控/soft/nginx/logs/flume文件夹。[/soft...

大数据之Spark(一)--- Spark简介,模块,安装,使用,一句话实现WorldCount,API,scala编程,提交作业到spark集群,脚本分析

一、Spark简介----------------------------------------------------------1.快如闪电的集群计算2.大规模快速通用的计算引擎3.速度: 比hadoop 100x,磁盘计算快10x4.使用: java / Scala /R /python5.提供80+算子(操作符),容易构建并行应用。...

PythonML-Day01: sklearn

ML-Day011.机器学习的数据大多都是文件,比如csv文件2.Pandas: 读取数据工具 基本的数据处理3.缺失值: 数据转换4.重复值: 不需要去重5.sklearn: 对于特征数据提供了强大的支持- Python的机器学习工具- 许多知名的机器学习算法的实现- 文档完善,容易上手,丰富的API6.特征工程: 将原始数据转换为 能更好...

大数据之Spark(三)--- Spark核心API,Spark术语,Spark三级调度流程源码分析

一、Spark核心API-----------------------------------------------[SparkContext]连接到spark集群,入口点.[HadoopRDD] extends RDD读取hadoop hdfs上的数据,hbase的数据,s3的数据[MapPartitionsRDD]...

到底了