logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

从零开始搭建——分布式部署个人网站(LNMP+WordPress)三

—>点击主文件夹的其他位置的计算机,找到user文件夹打开后,找到local文件夹打开,找到src文件夹打开,找到刚刚发送的php软件包,注意这里的(user/local/src/软件包)路径是可以根据要求来变化的。这里其实是两个命令一起运行,一个是make,另一个是make install,两个命令可以分开运行,也可以一起运行,也就是make && make install,这里只是为了速度,所

文章图片
#分布式#linux
摸鱼大数据——Spark Core——RDD的基本介绍和如何构建RDD

RDD:英文全称Resilient Distributed Dataset,叫做弹性分布式数据集,代表一个不可变、可分区、里面的元素可并行计算的分布式的抽象的数据集合。Resilient弹性:RDD的数据可以存储在内存或者磁盘当中,RDD的数据可以分区Distributed分布式:RDD的数据可以分布式存储,可以进行并行计算Dataset数据集:一个用于存放数据的集合。

文章图片
#大数据#spark#分布式 +4
摸鱼大数据——Spark基础——Spark环境安装——PySpark搭建

bashrc 也是看名字就知道, 是专门用来给 bash 做初始化的比如用来初始化 bash 的设置, bash 的代码补全, bash 的别名, bash 的颜色. 以此类推也就还会有 shrc, zshrc 这样的文件存在了, 只是 bash 太常用了而已.其实看名字就能了解大概了, profile 是某个用户唯一的用来设置环境变量的地方, 因为用户可以有多个 shell 比如 bash, s

文章图片
#大数据#spark#分布式 +4
摸鱼大数据——Spark Structured Steaming——Spark 和 Kafka 整合

Spark天然支持集成Kafka, 基于Spark读取Kafka中的数据, 同时可以实施精准一次(仅且只会处理一次)的语义, 作为程序员, 仅需要关心如何处理消息数据即可, 结构化流会将数据读取过来, 转换为一个DataFrame的对象, DataFrame就是一个无界的DataFrame, 是一个无限增大的表。1- 放置位置一: 当spark-submit提交的运行环境为Spark集群环境的时候

文章图片
#大数据#spark#kafka +4
摸鱼大数据——用户画像——如何给用户“画像”

标签: 是某一种用户特征的符号表示标签体系: 把用户分到多少类别里面去, 这些类是什么, 彼此之间有什么关系, 就构成了标签体系标签解决的问题: 解决描述(或命名)问题以及解决数据之间的关联。

文章图片
#大数据
摸鱼大数据——Spark基础——Spark环境安装——PySpark搭建

bashrc 也是看名字就知道, 是专门用来给 bash 做初始化的比如用来初始化 bash 的设置, bash 的代码补全, bash 的别名, bash 的颜色. 以此类推也就还会有 shrc, zshrc 这样的文件存在了, 只是 bash 太常用了而已.其实看名字就能了解大概了, profile 是某个用户唯一的用来设置环境变量的地方, 因为用户可以有多个 shell 比如 bash, s

文章图片
#大数据#spark#分布式 +4
程序猿大战Python——Python与MySQL交互一

增 insert into 表名[(字段1, 字段2, ...)] values(值1, 值2,...)[,(值1, 值2,...),...][;(1)当操作完pymysql后,需要对连接、游标等对象资源进行关闭,可以使用()方法;(1)通常情况下,使用pymysql连接MySQL数据库,需要知道:IP地址、()、用户名、密码;==A、端口号==;(2)注意:当要使用pymysql模块时,可以直接

文章图片
#python#mysql#开发语言 +4
摸鱼大数据——Spark基础——Spark-submit命令

export/data/spark_project/spark_base/05_词频统计案例_spark_on_yarn运行.py。后续需要将自己编写的Spark程序提交到相关的资源平台上,比如说: local yarn spark集群(standalone)Spark为了方便任务的提交操作,专门提供了一个用于进行任务提交的脚本文件: spark-submit。spark-submit在提交的过程

文章图片
#大数据#spark#分布式 +4
摸鱼大数据——Spark SQL——Spark on Hive部署

spark.sql("""insert intospark_demo.stu values(1,'张三'),(2,'李四')""")spark-sql>insert intospark_demo.stu values(1,'张三'),(2,'李四');(1)检查hive中 hive-site.xml中,是否有关于metastore的地址配置。4- 对于使用者/程序员来说,SparkSQL与Hive

文章图片
#大数据#spark#hive +4
摸鱼大数据——Spark SQL——Spark SQL的运行机制

Spark SQL底层依然运行的是Spark RDD的程序,所以说Spark RDD程序的运行的流程,在Spark SQL中依然是存在的,只不过在这个流程的基础上增加了从SQL翻译为RDD的过程Spark SQL的运行机制,其实就是在描述如何将Spark SQL翻译为RDD程序:整个Spark SQL 转换为RDD 是基于Catalyst 优化器实施,基于这个优化器即可完成整个转换操作大白话:SQ

文章图片
#大数据#spark#sql +4
    共 39 条
  • 1
  • 2
  • 3
  • 4
  • 请选择