logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

pyspark对mysql的读写

准备工作:将mysql的jar包放在$SPARK_HOME/jars目录下1.生成一个SparkSession()对象,并导入相关的库和接口from pyspark.sql import SparkSessionfrom pyspark import SparkConf,SparkContext, SparkConfspark = SparkSession.builder.config(conf=

#mysql#sql#数据库
Pyspark特征工程--PCA

PCA:主成分分析class pyspark.ml.feature.PCA(k=None, inputCol=None, outputCol=None)主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。PCA 训练模型以将向量投影到前 k 个主成分的低维空间model.explainedVariance:返回由每个主成分解释的方差比例向

#spark#机器学习#大数据
OpenCV,读取图片为ndarray数组,进行简单的裁剪,保存,灰度,平滑处理

01.读取文件为灰色图from matplotlib import cmimport numpy as npimport cv2import matplotlib.pyplot as plt#%%image = cv2.imread("/root/Github_files/python_All/Dataset/OpenCV001.jpg",cv2.IMREAD_GRAYSCALE)#%%plt.i

#opencv#计算机视觉#python
#ndarray数组的遍历,索引,切片,布尔索引与条件过滤,copy()函数创建副本

#ndarray数组的遍历importnumpyasnpA=np.array([[1,2,3],[4,5,6],[7,8,9]])foriinA:forjini:print(j,end='')#ndarray数组的索引importnumpyasnparr1=np.array([1,3,5,7])print(arr1[3])try:print(arr1[10])exceptIndexError...

Pyspark特征工程--VectorAssembler

VectorAssembler是一个转换器它将给定的列列表组合到一个向量列中​将原始特征和由不同特征变换器生成的特征组合成单个特征向量非常有用以便训练ML模型如逻辑回归和决策树​VectorAssembler接受以下输入列类型:所有数字类型,布尔类型和矢量类型。 在每一行中,输入列的值将按指定的顺序连接到一个向量中​返回的是一个vector,向量01.加载模块创建对象from pyspark.sq

#spark#机器学习
解决Idea因为语言水平(Language level)语法报错和编译器(java compiler)运行报错

问题描述:​我很确定自己使用的java版本是1.8,我一直都用的这个版本,但是使用java写flink的时候出现如下情况:​虽然可以自己定义一个接口去实现,但是以前写Scala的我,还是觉得写隐函数比较习惯一点定位问题:step1:​看一下configurations的信息,确定一下使用的JRE版本,使用的默认的1.8step2:​看一下项目结构使用的Language level​这里语言水平居然

#idea#intellij-idea
解决docker中数据库时间与当前时间不吻合

01.问题排查1.使用mysql数据库查询当前日期的时候发现时间并不吻合select CURRENT_DATE(),CURRENT_TIME();2.数据库的配置问题​在window11系统上,使用VMware Workstation软件,配置的虚拟机​虚拟机系统为centos7,配置有docker容器。并在docker容器中配置的mysql数据库(base) [root@192 ~]# dock

#docker#数据库#容器
Part5---Java连接HBase读取数据

01.加载maven依赖<dependency><groupId>org.apache.hbase</groupId><artifactId>hbase-client</artifactId><version>2.1.1</version></dependency>02.准备数据​在dbeaver上显示

#java#hbase
python实现kafka生产以及sparkstream消费

01.启动zookeeper,启动Kafka,创建Kafka主题,kafka生产者,kafka消费者​详见之前文章:http://t.csdn.cn/JRFRs02.使用python语言,对Kafka进行数据的写入from kafka import KafkaProducerfrom kafka.errors import KafkaErrorproducer =KafkaProducer(boo

#kafka
kafka+Spark+Hive+Hdfs模拟实时数据接入并汇总输出

​目的:模拟数据不断写入,同时不断处理01.启动相关的服务​Hdfs文件系统​Zookeeper服务​Kafka(主题,生产,消费)​Hive数仓(元数据库mysql)​Spark能够直接sql操作Hive,不然使用jdbc方式(base) [root@192 ~]# jps3200 SecondaryNameNode2835 NameNode5011 ConsoleProducer85045 J

#kafka#spark
    共 12 条
  • 1
  • 2
  • 请选择