logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

摸鱼大数据——Spark Core——RDD的基本介绍和如何构建RDD

RDD:英文全称Resilient Distributed Dataset,叫做弹性分布式数据集,代表一个不可变、可分区、里面的元素可并行计算的分布式的抽象的数据集合。Resilient弹性:RDD的数据可以存储在内存或者磁盘当中,RDD的数据可以分区Distributed分布式:RDD的数据可以分布式存储,可以进行并行计算Dataset数据集:一个用于存放数据的集合。

文章图片
#大数据#spark#分布式 +4
摸鱼大数据——Spark基础——Spark环境安装——PySpark搭建

bashrc 也是看名字就知道, 是专门用来给 bash 做初始化的比如用来初始化 bash 的设置, bash 的代码补全, bash 的别名, bash 的颜色. 以此类推也就还会有 shrc, zshrc 这样的文件存在了, 只是 bash 太常用了而已.其实看名字就能了解大概了, profile 是某个用户唯一的用来设置环境变量的地方, 因为用户可以有多个 shell 比如 bash, s

文章图片
#大数据#spark#分布式 +4
摸鱼大数据——Spark Structured Steaming——Spark 和 Kafka 整合

Spark天然支持集成Kafka, 基于Spark读取Kafka中的数据, 同时可以实施精准一次(仅且只会处理一次)的语义, 作为程序员, 仅需要关心如何处理消息数据即可, 结构化流会将数据读取过来, 转换为一个DataFrame的对象, DataFrame就是一个无界的DataFrame, 是一个无限增大的表。1- 放置位置一: 当spark-submit提交的运行环境为Spark集群环境的时候

文章图片
#大数据#spark#kafka +4
摸鱼大数据——用户画像——如何给用户“画像”

标签: 是某一种用户特征的符号表示标签体系: 把用户分到多少类别里面去, 这些类是什么, 彼此之间有什么关系, 就构成了标签体系标签解决的问题: 解决描述(或命名)问题以及解决数据之间的关联。

文章图片
#大数据
从零开始搭建——分布式部署个人网站(LNMP+WordPress)二

—>点击主文件夹的其他位置的计算机,找到user文件夹打开后,找到local文件夹打开后,找到src文件夹打开,找到刚刚发送的nginx软件包,注意这里的(user/local/src/软件包)路径是可以根据要求来变化的。——>输入命令useradd-u900nginx-gnginx-s/sbin/nologin后回车,创建一个新用户,用户名为nginx,UID设置为900,所属用户组为nginx

文章图片
#分布式#linux
程序猿大战Python——深浅拷贝

第二种情况:复制的对象中有复杂子对象(例如列表中的一个子元素是一个列表),如果不改变其中复杂子对象,浅复制的值改变并不会影响原来的值。当改变某个变量时候,由于其所指的值不能被改变,相当于把原来的值复制一份后再改变,这会开辟一个新的地址,变量再指向这个新的地址。变量(准确的说是引用)改变后,实际上是其所指的值直接发生改变,并没有发生复制行为,也没有开辟新的地址,通俗点说就是原地改变。第一种情况:复制

文章图片
#python#开发语言#大数据 +4
程序猿大战Python——容器——字符串

=目标:==了解Python容器是什么?在现实生活中,我们知道容器是用来存放东西的,比如实验室里的烧杯等。类似的,在Python中的容器是用来存放数据的。与此同时,为了操作方便,Python给我们提供了对容器中数据处理的方法,例如增加、删除、修改、查询等。变量名.函数(x)说明:请记住这个操作方法的格式。在Python中,常见容器有:(1)字符串:str(2)列表:list(3)元组:tuple(

文章图片
#python#开发语言#大数据 +4
程序猿大战Python——类属性、类方法、闭包、装饰器——PyMySQL

提前安装MySQL数据库(可以使用Linux系统的,也可以使用Windows版本,如小皮面板)

文章图片
#python#开发语言#大数据 +4
程序猿大战Python——类属性、类方法、闭包、装饰器——闭包

在Python代码中,作用域分为两种情况:全局作用域 与 局部作用域。

文章图片
#python#jvm#开发语言 +4
摸鱼大数据——Spark SQL——Spark SQL函数定义二

第一步: 在PySpark中创建一个Python的函数,在这个函数中书写自定义的功能逻辑代码即可​第二步: 将Python函数注册到Spark SQL中注册方式一: udf对象 = sparkSession.udf.register(参数1,参数2,参数3)参数1: 【UDF函数名称】,此名称用于后续在SQL中使用,可以任意取值,但是要符合名称的规范参数2: 【自定义的Python函数】,表示将哪

文章图片
#ajax#javascript#ecmascript +4
    共 25 条
  • 1
  • 2
  • 3
  • 请选择