logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

spark catalog与hive metastore的区别

但它们在实现方式和使用场景上有所不同。Spark Catalog是Spark内置的一个元数据管理组件,用于管理Spark数据源、表、视图等元数据信息。Spark Catalog支持多种数据源,包括HDFS、Hive、JDBC等,可以将这些数据源中的数据映射为Spark中的表,从而方便地进行数据处理和分析。。。Hive Metastore支持将Hive表关联到多种数据源,包括HDFS、HBase、A

文章图片
#hive#spark#hadoop
spark.network.timeout参数入门

默认120s所有网络交互的默认超时时间。 如果未配置,则将使用此配置代替spark.storage.blockManagerSlaveTimeoutMs,spark.shuffle.io.connectionTimeout,spark.rpc.askTimeout或spark.rpc.lookupTimeout。用途若如出现各种timeout,executor lost ,task lostspa

#spark
spark计算列与列之间的余弦相似度

import org.apache.spark.mllib.linalgimport org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.linalg.distributed.{CoordinateMatrix, RowMatrix}import org.apache.spark.rdd.RDDimport org.

#spark
spark TF-IDF入门

​ 在Spark ML库中,TF-IDF被分成两部分:TF (+hashing) 和 IDF。TF: HashingTF 是一个Transformer,在文本处理中,接收词条的集合然后把这些集合转化成固定长度的特征向量。这个算法在哈希的同时会统计各个词条的词频。IDF: IDF是一个Estimator,在一个数据集上应用它的fit()方法,产生一个IDFModel。 该IDFModel 接收特征向

#spark
Cannot find class ‘org.apache.hudi.hadoop.HoodieParquetInputFormat‘

使用hudi报错, 原因需要把hudi的jar包放到hive的auxlib目录下./usr/local/hive/auxlibCaused by: org.apache.hive.service.cli.HiveSQLException: Error while compiling statement: FAILED: SemanticException Cannot find class 'or

#hive
spark 连接mysql读取数据

spark提供了一个RDD来处理对JDBC的连接,但是十分的鸡肋.这个RDD只能进行查询,不能进行增删改,很少用,而且还必须是查询范围的SQL语句ps:这个案例需要结合上一个中的import java.sql.{Date, DriverManager, ResultSet}import org.apache.spark.rdd.JdbcRDDimport org.apache.spark.{Spa

#spark
spark shell

spark shelllocal模式启动# spark-shellSpark context Web UI available at http://192.168.xx.101:4041Spark context available as 'sc' (master = local[*], app id = local-1605581715026).Spark session available a

#spark
spark Drive 与Executor

Driver开发人员自己写的程序中的main方法的进程把我们编写的spark应用程序代码拆分为多个stage,每个stage执行一部分代码,并为每个stage创建一批tasks,然后把这些tasks分配到各个executor中执行.跟踪Executor的运行状况为执行器节点调度任务UI展示应用运行状况Executor工作进程,运行task作用executor进程宿主在worker节点上,一个wor

#spark
hadoop longwritable类

看下定义,继承了WritableComparable接口.这个说明什么呢?public class LongWritableextends Objectimplements org.apache.hadoop.io.WritableComparable<LongWritable>属性就一个 valueprivate long value;然后get set方法,常规操作/** Set

#java#hadoop
Apache Atlas 安装及入门

介绍Apache Atlas 用来管理hive元数据安装# 解压更名tar xvfz apache-atlas-1.0.0-sources.tar.gzcd apache-atlas-sources-1.0.0/export MAVEN_OPTS="-Xms2g -Xmx2g"mvn clean -DskipTests package -Pdist,embedded-hbase-solr启动参考A

#apache
    共 56 条
  • 1
  • 2
  • 3
  • 6
  • 请选择