logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【SQOOP】sqoop import hive ,export mysql 实践及遇到的问题

sqoop version :Sqoop 1.4.6-cdh5.15.1mysql cron_table 数据结构大家先记住一下后面会出现很多问题:1、从mysql 导入数据到 hive1.1 第一次是以英文 ','为field 分隔符,如果没有指定 --hive-table default.xxxx,默认为mysql的表名: cron_tasksqoop impor...

#sqoop#json
spark sql运行出错(Container killed on request. Exit code is 143)

Diagnostic Messages for this Task:Container [pid=27756,containerID=container_1460459369308_5864_01_000570] is running beyond physical memory limits. Current usage: 4.2 GB of 4 GB physical memory used;

【FLINK SQL CLIENT】使用flink 1.11.2 sql client 使用HiveCatalog实践过程

版本:Apache Flink 1.11.2 for Scala 2.11 下载地址:https://mirror.bit.edu.cn/apache/flink/flink-1.11.2/flink-1.11.2-bin-scala_2.11.tgzHive 2.1.1 (腾讯云版本)参考官方Example链接:https://ci.apache.org/projects/flink/flink

[面试题]海量数据处理-从10亿个数中找频率最高的1000个数

方法一:分治思想通常比较好的方案是分治+Trie树/hash+小顶堆(就是上面提到的最小堆),即先将数据集按照Hash方法分解成多个小数据集,然后使用Trie树或者Hash统计每个小数据集中的query词频,之后用小顶堆求出每个数据集中出现频率最高的前K个数,最后在所有top K中求出最终的top K。方法二:hadoop的map,reducetop K问题很适合采用MapReduce...

#hadoop#面试
spark机器学习 K-means聚类算法

推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://blog.csdn.net/weixin_43283487/article/details/890335991.聚类和分类区别K-means聚类算法中K表示将数据聚类成K个簇,means表示每个聚类中数据的均值作为该簇的中心,也称为质心。K-means聚类试图将相似的对象归为同一个簇,将不相似的对象归为不同簇,

html 引入js不生效 解决办法

1.问题描述,js放在<head>里面不生效   js存放路径/xxx/src/main/webapp/js/common.js   页面存放地址:/xxx/src/main/webapp/WEB-INF/xxx/xxx/xxx/xxx.jsp报错信息:function xx not defiend........解决思路,把js放在<body&g

spark sql运行出错(Container killed on request. Exit code is 143)

Diagnostic Messages for this Task:Container [pid=27756,containerID=container_1460459369308_5864_01_000570] is running beyond physical memory limits. Current usage: 4.2 GB of 4 GB physical memory used;

【FLINK】RECEIVED SIGNAL 15: SIGTERM. Shutting down as requested.

参考以下两篇博客,定位解决了问题,【备注学习】本人使用的版本是flink 1.101、Flink任务物理内存溢出问题定位问题现象一个使用10秒滚动窗口的任务在平稳运行一段时间之后出现了频繁的重启。在TaskManager日志中能看到以下文本:2019-03-17 16:05:28,854 INFOorg.apache.flink.yarn.YarnTaskExecutorRunner- RECEI

解决visudo: command not found错误

转自:http://kuaile.in/archives/1019visudo可以安全的编辑/etc/sudoers文件,虽然也可以直接使用vi来编辑sudoers文件,但是visudo和直接编辑sudoers最大的区别在于visudo在退出并保持文件的时候会自动的检测语法错误,如果使用 vi /etc/sudoers 直接编辑sudoers的话,可以回出现语法错误,但是使用visudo却...

#linux
【FLINK】flink 读取Kafka数据写入Hive表中

背景:对实时的历史数据持久化保存到Hdfs中,可以使用Hive Sql 追溯历史数据给业务参考多维度指标版本信息:Flink 1.11.2,Scala 2.11,Kafka 2.12,Hive 2.3.71、引入pom.xml内容<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.or

到底了