logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据学习:Spark知识总结

Spark一、Spark基础及安装(单机)二、Spark核心组件、运行架构及RDD创建三、Spark的RDD算子操作四、Spark算子:Java版本(map、flatMap、distinct、subtract、combineByKey等)五、RDD算子:reduceByKey、foldByKey、SortByKey六、Spark算子:groupByKey、cogroup、subtractByKey

#spark
HIve的日期函数(year/month/week)

目录current_datecurrent_date拓展datediff和pmod例题current_dateHive 中可识别的日期格式有两种:yyyy-MM-dd HH:mm:ssyyyy-MM-dd例如:2020-09-21在Hive命令行中,我们可以通过current_date查看当前日期:select current_date;current_date拓展只求当前年:select yea

#hive
Sqoop的安装与使用(导入数据到HDFS)

目录SqoopSqoop安装数据迁移导入表到HDFS通过where语句过滤导入表导入指定列query查询导入数据Sqoop用途Sqoop是一个用于在hadoop和关系数据库之间传输数据的工具。它可以将数据从RDBMS导入到HDFS。例如:HDFS、Hive、HBase。也可以从HDFS导出数据到RDBMS。Sqoop使用MapReduce导入和导出数据,提供并行操作和容错。Sqoop安装在安装Sq

#mysql#数据库#hadoop
sparkStreaming:实时流数据详解

概述spark Streaming是对核心Spark API的一个扩展,用来实现对实时流数据的处理,并且具有很好的可扩展性、高吞吐量和容错性。Spark Streaming支持从多种数据源提取数据,例如:Kafka、Flume、Kinesis,或者是TCP套接子。同时也能提供一些高级API来表达复杂的算法,如map、reduce、join以及window等。再处理完数据后,Spark Stremi

#大数据
Spark算子:Java版本(map、flatMap、distinct、subtract、combineByKey等)

mapmap接收一个函数,把这个函数用于RDD中的每个元素,将函数的返回结果作为结果RDD。文件内容:hello worldhello scalahello sparkjava goodpythonscalaimport org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spa

#spark#java
MySQL的while循环

含义WHILE 语句也是有条件控制的循环语句,当满足条件时,执行循环内的语句,否则退出循环。它的基本语法格式如下:WHILE search_condition DOstatement listEND WHILE [end label]其中,search_condition 参数表示循环执行的条件,满足该条件时循环执行;statement_list 参数表示循环的执行语句。WHILE 循环需要使用

#sql
到底了