
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Spark一、Spark基础及安装(单机)二、Spark核心组件、运行架构及RDD创建三、Spark的RDD算子操作四、Spark算子:Java版本(map、flatMap、distinct、subtract、combineByKey等)五、RDD算子:reduceByKey、foldByKey、SortByKey六、Spark算子:groupByKey、cogroup、subtractByKey
Python使用技巧
目录current_datecurrent_date拓展datediff和pmod例题current_dateHive 中可识别的日期格式有两种:yyyy-MM-dd HH:mm:ssyyyy-MM-dd例如:2020-09-21在Hive命令行中,我们可以通过current_date查看当前日期:select current_date;current_date拓展只求当前年:select yea
目录SqoopSqoop安装数据迁移导入表到HDFS通过where语句过滤导入表导入指定列query查询导入数据Sqoop用途Sqoop是一个用于在hadoop和关系数据库之间传输数据的工具。它可以将数据从RDBMS导入到HDFS。例如:HDFS、Hive、HBase。也可以从HDFS导出数据到RDBMS。Sqoop使用MapReduce导入和导出数据,提供并行操作和容错。Sqoop安装在安装Sq
概述spark Streaming是对核心Spark API的一个扩展,用来实现对实时流数据的处理,并且具有很好的可扩展性、高吞吐量和容错性。Spark Streaming支持从多种数据源提取数据,例如:Kafka、Flume、Kinesis,或者是TCP套接子。同时也能提供一些高级API来表达复杂的算法,如map、reduce、join以及window等。再处理完数据后,Spark Stremi
mapmap接收一个函数,把这个函数用于RDD中的每个元素,将函数的返回结果作为结果RDD。文件内容:hello worldhello scalahello sparkjava goodpythonscalaimport org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spa
含义WHILE 语句也是有条件控制的循环语句,当满足条件时,执行循环内的语句,否则退出循环。它的基本语法格式如下:WHILE search_condition DOstatement listEND WHILE [end label]其中,search_condition 参数表示循环执行的条件,满足该条件时循环执行;statement_list 参数表示循环的执行语句。WHILE 循环需要使用