
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Spark一、Spark基础及安装(单机)二、Spark核心组件、运行架构及RDD创建三、Spark的RDD算子操作四、Spark算子:Java版本(map、flatMap、distinct、subtract、combineByKey等)五、RDD算子:reduceByKey、foldByKey、SortByKey六、Spark算子:groupByKey、cogroup、subtractByKey
目录一、准备工作1.1 redis的安装1.2 安装总结二、依赖包三、代码实现3.1 redis命令一、准备工作1.1 redis的安装redis的配置大家可以参考这两篇文章:redis安装1redis安装21.2 安装总结1、在Linux上,可以直接使用wget http://download.redis.io/releases/redis-3.0.7.tar.gz命令进行安装。2、make报错
实现时区同步1、下载安装包在hadoop集群中下载ntp安装包yum install -y ntp2、文件配置】打开etc下的ntp.conf文件,进入配置,三台机器都要配置添加一行,这里填的是每台机器的IP地址restrict 192.168.136.30 nomodify notrap nopeer noquery然后释放下面的restrict,把默认的地址改成本机的地址把下面的四行serve
Python使用技巧
目录current_datecurrent_date拓展datediff和pmod例题current_dateHive 中可识别的日期格式有两种:yyyy-MM-dd HH:mm:ssyyyy-MM-dd例如:2020-09-21在Hive命令行中,我们可以通过current_date查看当前日期:select current_date;current_date拓展只求当前年:select yea
目录SqoopSqoop安装数据迁移导入表到HDFS通过where语句过滤导入表导入指定列query查询导入数据Sqoop用途Sqoop是一个用于在hadoop和关系数据库之间传输数据的工具。它可以将数据从RDBMS导入到HDFS。例如:HDFS、Hive、HBase。也可以从HDFS导出数据到RDBMS。Sqoop使用MapReduce导入和导出数据,提供并行操作和容错。Sqoop安装在安装Sq
概述spark Streaming是对核心Spark API的一个扩展,用来实现对实时流数据的处理,并且具有很好的可扩展性、高吞吐量和容错性。Spark Streaming支持从多种数据源提取数据,例如:Kafka、Flume、Kinesis,或者是TCP套接子。同时也能提供一些高级API来表达复杂的算法,如map、reduce、join以及window等。再处理完数据后,Spark Stremi
mapmap接收一个函数,把这个函数用于RDD中的每个元素,将函数的返回结果作为结果RDD。文件内容:hello worldhello scalahello sparkjava goodpythonscalaimport org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spa
含义WHILE 语句也是有条件控制的循环语句,当满足条件时,执行循环内的语句,否则退出循环。它的基本语法格式如下:WHILE search_condition DOstatement listEND WHILE [end label]其中,search_condition 参数表示循环执行的条件,满足该条件时循环执行;statement_list 参数表示循环的执行语句。WHILE 循环需要使用







