Zsigner 个人主页

@Zsigner

Zsigner

2022-09-29 18:09:35 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

[面试题]海量数据处理-从10亿个数中找频率最高的1000个数

方法一：分治思想通常比较好的方案是分治+Trie树/hash+小顶堆（就是上面提到的最小堆），即先将数据集按照Hash方法分解成多个小数据集，然后使用Trie树或者Hash统计每个小数据集中的query词频，之后用小顶堆求出每个数据集中出现频率最高的前K个数，最后在所有top K中求出最终的top K。方法二：hadoop的map,reducetop K问题很适合采用MapReduce...

#hadoop #面试

【Flink】执行flink-python Test模块遇到的Bug

环境：Flink Version 1.15，Scala 2.11，Jdk 1.8，Maven 3.6背景，今天在测试flink-python 模块下的PythonProgramOptionsITCase.testConfigurePythonExecution方法时提示java: 程序包org.apache.flink.sql.parser.impl不存在1、run PythonProgramOp

#flink

spark机器学习 K-means聚类算法

推荐大家去看原文博主的文章，条理清晰阅读方便，转载是为了方便以后个人查阅https://blog.csdn.net/weixin_43283487/article/details/890335991.聚类和分类区别K-means聚类算法中K表示将数据聚类成K个簇，means表示每个聚类中数据的均值作为该簇的中心，也称为质心。K-means聚类试图将相似的对象归为同一个簇，将不相似的对象归为不同簇，

spark sql运行出错（Container killed on request. Exit code is 143）

Diagnostic Messages for this Task:Container [pid=27756,containerID=container_1460459369308_5864_01_000570] is running beyond physical memory limits. Current usage: 4.2 GB of 4 GB physical memory used;

【FLINK】RECEIVED SIGNAL 15: SIGTERM. Shutting down as requested.

参考以下两篇博客，定位解决了问题,【备注学习】本人使用的版本是flink 1.101、Flink任务物理内存溢出问题定位问题现象一个使用10秒滚动窗口的任务在平稳运行一段时间之后出现了频繁的重启。在TaskManager日志中能看到以下文本：2019-03-17 16:05:28,854 INFOorg.apache.flink.yarn.YarnTaskExecutorRunner- RECEI

解决visudo: command not found错误

转自:http://kuaile.in/archives/1019visudo可以安全的编辑/etc/sudoers文件，虽然也可以直接使用vi来编辑sudoers文件，但是visudo和直接编辑sudoers最大的区别在于visudo在退出并保持文件的时候会自动的检测语法错误，如果使用 vi /etc/sudoers 直接编辑sudoers的话，可以回出现语法错误，但是使用visudo却...

#linux

【Flink】【ClickHouse】写入流式数据到ClickHouse

Flink 安装的教程就不在这里赘叙了，可以看一下以前的文章,这篇文章主要是把流式数据写入的OLAP（ClickHouse）中作查询分析Flink 1.13.2, ClickHouse22.1.3.7

#flink #clickhouse

Linux下根据进程ID查看进程文件的路径

最近遇到一个问题，同事写得一个jar程序，在生产环境下出错了，他打电话让我给他重启一下，当时是我还不清楚他jar包放在哪个路径下的，只知道包名xxxxx.jar.这个时候我通过ps -aux |grep xxxx.jar 找到进程PID这里有两种方法可以使用1. 执行命令：pwdxPID 命令，就得到进程jar包所在的位置2.执...

【Canal】从binlog接入kafka，动态创建topic 写入数据

1、接入kafka（以下内容来自官方文档：https://github.com/alibaba/canal/wiki/Canal-Kafka-RocketMQ-QuickStart）Canal Kafka RocketMQ QuickStart基本说明canal 1.1.1版本之后, 默认支持将canal server接收到的binlog数据直接投递到MQ, 目前默认支持的MQ系统有:kafka:

【KAFKA】kafka可视化工具kafkaTool 免费下载

【资源是免费的，官网可下载，可是官网下载的网络实在是太慢了有时候还会断线，我也是花了很长时间才下载下来的，提供给大家一个方便】符合kafka version 0.11+mac 版：链接:https://pan.baidu.com/s/1q6qKrEbaDGukvqHLomrQdg 密码:qqy2windows 64bit 版：链接:https://pan.baidu.com/s/...

#kafka

共 17 条

请选择