logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

spark kryo压缩报错问题

由于上游数据湖数据压缩格式改变使用spark sql的thrift jdbc接口查询数据时报错19/07/29 06:12:55 WARN scheduler.TaskSetManager: Lost task 1.0 in stage 1.0 (TID 4, svldl015.csvw.com, executor 1): org.apache.spark.SparkException: Kr..

#spark
sparksql读parquet表执行报错

集群内存:1024G(数据量:400G)(1)报错信息:Job aborted due to stage failure: Serialized task 2231:2304 was 637417604 bytes, which exceeds max allowed: spark.rpc.message.maxSize (134217728 bytes). Consider increas...

spark读写csv文件

如果是spark1.6.0请添加maven:<dependency><groupId>com.databricks</groupId><artifactId>spark-csv_2.10</artifactId><version>1

#spark
spark-sql显示字段名称

cdh6.3.2集群中,使用命令启动spark-sql,执行。

文章图片
#spark#sql#大数据
本地oracle远程访问设置

操作系统:windows7X64安装软件:oracle 11g开始->程序->Net Manager查看本地IP修改主机为IP地址(否则局域网其他电脑不能访问)打开services.msc启动监听服务配置tnsnames.ora文件ORCL =(DESCRIPTION =(ADDRESS_LIST =(ADDRESS = (PROTOCOL = TCP)(...

中文自然语言处理(处理流程)

主要步骤:(1) 获取语料(2) 语料预处理(语料清洗,分词,词性标注,去停用词)(3) 特征工程(4) 特征选择(5) 模型训练(6) 评价指标(错误率、精度、准确率、精确度、召回率、F1 衡量)(7) 评价指标(ROC 曲线、AUC 曲线)...

阿里云odps SQL

odps官方网站使用示例:#使用TO_DATEselect *from xx_bi.dwd_bi_wide_order_pay_record_detail_di where ds='20210711'and payment_timebetween TO_DATE('2021-07-09 00:00:00','yyyy-mm-dd hh:mi:ss') and TO_DATE('2021-07-09

机器学习-KNN分类算法(上)

K近邻算法(k-NearestNeighbor)k近邻算法是机器学习算法最简单的算法,流程如下:(1) 计算测试对象到训练集中每个对象的距离(2)按照距离的远近排序(3)选取与当前测试对象最近的k个对象,作为该测试对象的邻居(4)统计这k个邻居的类别频率(5)k个邻居里频率最高的类别,即为测试对象的类别python代码实现1、自实现KNN算法import numpy as np...

机器学习-KMeans聚类算法

K-Means和KNN区别:KNN是监督学习的分类算法,有对应的类别输出。KNN基本不需要训练,对测试集里面的点,只需要找到在训练集中最近的k个点,用这最近的k个点的类别来决定测试点的类别。K-Means是无监督学习的聚类算法,没有样本输出;K-Means则有明显的训练过程,找到k个类别的最佳质心,从而决定样本的簇类别。两个算法都包含一个过程,即找出和某一个点最近的点。两者都利用了最...

数据库迁移问题

(一)Spark读数据为空问题近期数据库迁移,使用Sqoop抽数据到Hive,然后用Spark读数据。经过测试sqoop底层是使用MapReduce程序把Oracle数据导入到Hive中的所以我们应该使用hive的引擎去读这些表,需要在Spark代码中添加配置hiveContext.setConf("spark.sql.hive.convertMetastoreParquet","fals...

    共 15 条
  • 1
  • 2
  • 请选择