
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
传统定义:Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue)主要应用于大数据实时处理领域。发布/订阅:消息的发布者不会将消息直接发送给特点的订阅者,而是将发布的消息分为不同的类别,订阅者只接收感兴趣的消息。最新定义:Kafka是一个开源的分布式事件流平台(Event Streaming Platform)被公司用于高性能数据管道流分析数据集成和关键任务应用。

HBase 是一种分布式、可扩展、支持海量数据存储的 NoSQL 数据库非结构化数据存储的数据库,基于列的模式存储。利用Hadoop HDFS作为其文件存储系统,写入性能很强,读取性能较差。利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。关系型数据库存储数据是以表格的形式存储,非关系型数据库是以进行存储。通过进行存储,当在用key读取value

索引的创建:create index 索引名 on 表名(字段)

的数据模型是(Resilient Distributed Dattsets),这个内存数据结构使得spark可以通过固定内存做大批量计算。初期的 Spark Streaming 是通过(micro-batches),即,所以严格意义上,还不能算作流式处理。
HBase 是一种分布式、可扩展、支持海量数据存储的 NoSQL 数据库非结构化数据存储的数据库,基于列的模式存储。利用Hadoop HDFS作为其文件存储系统,写入性能很强,读取性能较差。利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。关系型数据库存储数据是以表格的形式存储,非关系型数据库是以进行存储。通过进行存储,当在用key读取value

hive自带了一些函数,比如max/min等。但是数量有限,自己可以通过UDF来方便的扩展。当hive提供的内置函数无法满足业务需求时,就可以考虑用户自定义函数UDF根据用户自定义函数类别分为以下三种:UDF一进一出UDAF用户自定义聚合函数,多进一出类似于:count/max/minUDTF用户自定义表生成函数,一进多出。如lateral view explode()

Apache Spark是一个开源的、强大的分布式查询和处理引擎,它提供MapReduce的灵活性和可扩展性,但速度明显要快上很多;拿数据存储在内存中的时候来说,它比Apache Hadoop 快100倍,访问磁盘时也要快上10倍。
RDD 的操作分为和。就是从一个 RDD 产生一个新的 RDD;就是进行实际的计算。我们把RDD方法也称为算子。所以转换操作和行动操作一般也被叫做和。

传统定义:Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue)主要应用于大数据实时处理领域。发布/订阅:消息的发布者不会将消息直接发送给特点的订阅者,而是将发布的消息分为不同的类别,订阅者只接收感兴趣的消息。最新定义:Kafka是一个开源的分布式事件流平台(Event Streaming Platform)被公司用于高性能数据管道流分析数据集成和关键任务应用。

*自定义聚合函数类:计算年龄平均值1. 继承UserDefineAggregateFunction2. 重写方法*/// 输入数据的结构Array(// 缓冲区数据的结构:BufferArray(// 函数计算结果的数据类型:Out// 函数的稳定性// 缓冲区初始化// 根据输入的值更新缓冲区数据// 缓冲区数据合并// 计算平均值。








