简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
windows上一般用telnet如telnet ip portlinux上可以用telnet,跟windows一样 telnet ip port也可以用wget:如:wget ip:port或者ssh:如ssh -v -p port username@ip-v代表打开调试模式,username可随意指定
首先先介绍一下背景,博主是hadoop大数据小白一枚,相信也有很多自学的大数据的人都跟我处境一样,在很多人已经在讨论大数据架构,实时分析,离线分析,优化等等问题的时候,我们还在闭门造车地玩着手里的那套hdfs+hbase+zookeeper+hive+sqoop+jdbc+mysql 的原始框架,然而还是到懂不懂的hadoop集群的环境和查询处理都还是十分容易搭建,但是遇到一个十分...
demo数据结构:val items = "[{\"skuId\": \"100101\", \"quantity\": 1},{\"skuId\": \"100104\", \"quantity\": 2}]"假设dataframe中只有items一个字段,
1. 查看磁盘空间使用情况:df -h2. 进入空间占用最多的目录:cd /3. 使用命令 : du -sh * 查看根目录下每个文件夹的大小4. 进入占用空间比较大的文件夹,然后再使用步骤2,3中命令查找大文件的方法依次查找。---------------------------------------------------------------------------
在linux上执行crontab的时候,job一直未能成功执行,解决方式:1.首先手动执行下job,检查job本身有没有问题2.如果job本身没有问题,则cat /var/spool/mail/root,看下错误信息内容基本上在这里可以定位出问题3.如果报 service command not found,则可按如下方式修改对应的定时脚本:在脚本的顶部,加入SHELL=/bi
本篇主要介绍kafka的分区和副本,因为这两者是有些关联的,所以就放在一起来讲了,后面顺便会给出一些对应的配置以及具体的实现代码,以供参考~1.kafka分区机制分区机制是kafka实现高吞吐的秘密武器,但这个武器用得不好的话也容易出问题,今天主要就来介绍分区的机制以及相关的部分配置。首先,从数据组织形式来说,kafka有三层形式,kafka有多个主题,每个主题有多个分区,每个分区又有多条消息。而
Kafka发送消息主要有三种方式:1.发送并忘记 2.同步发送 3.异步发送+回调函数方式一:发送并忘记(不关心消息是否正常到达,对返回结果不做任何判断处理)发送并忘记的方式本质上也是一种异步的方式,只是它不会获取消息发送的返回结果,这种方式的吞吐量是最高的,但是无法保证消息的可靠性方式二:同步发送(通过get方法等待Kafka的响应,判断消息是否发送成功)以同步的方式发送消息时,一条...
spring/memory-instance.xml所有的组件(parser , sink , store)都选择了内存版模式,记录位点的都选择了memory模式,重启后又会回到初始位点进行解析特点:速度最快,依赖最少(不需要zookeeper)场景:一般应用在quickstart,或者是出现问题后,进行数据分析的场景,不应该将其应用于生产环境spring/file-instance.xml所有的
canal高可用架构实践
在Kafak中国社区的qq群中,这个问题被提及的比例是相当高的,这也是Kafka用户最常碰到的问题之一。本文结合Kafka源码试图对该问题相关的因素进行探讨。希望对大家有所帮助。怎么确定分区数?“我应该选择几个分区?”——如果你在Kafka中国社区的群里,这样的问题你会经常碰到的。不过有些遗憾的是,我们似乎并没有很权威的答案能够解答这样的问题。其实这也不奇怪,毕竟这样的问题通常都是没有固定答案的。