logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

[面试题]海量数据处理-从10亿个数中找频率最高的1000个数

方法一:分治思想通常比较好的方案是分治+Trie树/hash+小顶堆(就是上面提到的最小堆),即先将数据集按照Hash方法分解成多个小数据集,然后使用Trie树或者Hash统计每个小数据集中的query词频,之后用小顶堆求出每个数据集中出现频率最高的前K个数,最后在所有top K中求出最终的top K。方法二:hadoop的map,reducetop K问题很适合采用MapReduce...

#hadoop#面试
【Flink】 执行flink-python Test模块遇到的Bug

环境:Flink Version 1.15,Scala 2.11,Jdk 1.8,Maven 3.6背景,今天在测试flink-python 模块下的PythonProgramOptionsITCase.testConfigurePythonExecution方法时提示java: 程序包org.apache.flink.sql.parser.impl不存在1、run PythonProgramOp

文章图片
#flink
spark机器学习 K-means聚类算法

推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://blog.csdn.net/weixin_43283487/article/details/890335991.聚类和分类区别K-means聚类算法中K表示将数据聚类成K个簇,means表示每个聚类中数据的均值作为该簇的中心,也称为质心。K-means聚类试图将相似的对象归为同一个簇,将不相似的对象归为不同簇,

spark sql运行出错(Container killed on request. Exit code is 143)

Diagnostic Messages for this Task:Container [pid=27756,containerID=container_1460459369308_5864_01_000570] is running beyond physical memory limits. Current usage: 4.2 GB of 4 GB physical memory used;

【FLINK】RECEIVED SIGNAL 15: SIGTERM. Shutting down as requested.

参考以下两篇博客,定位解决了问题,【备注学习】本人使用的版本是flink 1.101、Flink任务物理内存溢出问题定位问题现象一个使用10秒滚动窗口的任务在平稳运行一段时间之后出现了频繁的重启。在TaskManager日志中能看到以下文本:2019-03-17 16:05:28,854 INFOorg.apache.flink.yarn.YarnTaskExecutorRunner- RECEI

解决visudo: command not found错误

转自:http://kuaile.in/archives/1019visudo可以安全的编辑/etc/sudoers文件,虽然也可以直接使用vi来编辑sudoers文件,但是visudo和直接编辑sudoers最大的区别在于visudo在退出并保持文件的时候会自动的检测语法错误,如果使用 vi /etc/sudoers 直接编辑sudoers的话,可以回出现语法错误,但是使用visudo却...

#linux
【Flink】【ClickHouse】写入流式数据到ClickHouse

Flink 安装的教程就不在这里赘叙了,可以看一下以前的文章,这篇文章主要是把流式数据写入的OLAP(ClickHouse)中作查询分析Flink 1.13.2, ClickHouse22.1.3.7

文章图片
#flink#clickhouse
Linux下根据进程ID查看进程文件的路径

最近遇到一个问题,同事写得一个jar程序,在生产环境下出错了,他打电话让我给他重启一下,当时是我还不清楚他jar包放在哪个路径下的,只知道包名xxxxx.jar.这个时候我通过ps -aux |grep xxxx.jar 找到进程PID这里有两种方法可以使用1. 执行命令:pwdxPID 命令,就得到进程jar包所在的位置2.执...

【Canal】 从binlog接入kafka,动态创建topic 写入数据

1、接入kafka(以下内容来自官方文档:https://github.com/alibaba/canal/wiki/Canal-Kafka-RocketMQ-QuickStart)Canal Kafka RocketMQ QuickStart基本说明canal 1.1.1版本之后, 默认支持将canal server接收到的binlog数据直接投递到MQ, 目前默认支持的MQ系统有:kafka:

【KAFKA】kafka可视化工具kafkaTool 免费下载

【资源是免费的,官网可下载,可是官网下载的网络实在是太慢了有时候还会断线,我也是花了很长时间才下载下来的,提供给大家一个方便】符合kafka version 0.11+mac 版:链接:https://pan.baidu.com/s/1q6qKrEbaDGukvqHLomrQdg 密码:qqy2windows 64bit 版:链接:https://pan.baidu.com/s/...

#kafka
    共 17 条
  • 1
  • 2
  • 请选择