
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
由于项目需要,需要抓取某些网站数据,抓取后收集用作大数据分析,展示,但是基于网站,网页的数据抓取,每次数据量不大,所以用python,go(本文用python).但是每个网站的编码格式也不一样,所以需要下载chardet 进行相应的网页编码格式进行解码,编码,避免进行手工判断.以下为抓取网页例子1.安装chatdet,此处为ubunt 安装,linux安装可以下载chardet-*.g
一 前言对于现实PHP代码,无法进行debug,只能在线上进行代码调试;但是没有java相关的arthas灯工具,只能使用PHP自带工具二 方法1.单行注释对于有些无法发现的错误【如http请求错误/超时】,可进行注释,一行行验证代码正确性2.var_dump()使用该方法打印所有的变量类型例子$array = array("a"->3,"b"->...
这里写自定义目录标题错误检查本次原因解决错误spark 读取hive时,出现如下错误java.lang.ClassNotFoundException: org.apache.hadoop.hive.ql.metadata.HiveException检查依赖检查<properties><scala.version>2.11.8</scala.version><
将下载的镜像源地址指向国内的地址:清华:https://pypi.tuna.tsinghua.edu.cn/simple阿里云:http://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/华中理工大学:http://pypi.hustunique.com/山东理工大学:http:...
Java使用Runtime,ProcesBuilder执行shell命令失败问题
安装配置datax略配置mysql数据源和目标端 hivevim conf/table2hdfs.json{"job": {"setting": {"speed": {"channel":1}},"content": [{"reader": {"name": "mysqlreader","parameter": {
前言为了定位服务所在服务网络数据传输量,需要查看服务【进程】在网卡的传输数据情况流程查看服务进程PIDps -ef / ps aux 的到PID 8630ps aux | grep Test | grep -v greproot86300.30.3 53399460 910268 ?Sl06:010:55 java -cp .:/data/program/JobDispatchMaven/reso
众所周知:python json 可以转换的json字符串,但是在将其转换为字典时,出现了乱序字典是一个散列结构,亦即他自身根据key进行排序,无法保证顺序import jsonjsonstr = '{"username":"string","age":"int","income":"fl
一 kafka某个offset的监控工具(1).开源社区有相应的组件进行监控a.下载 kafka offset监控 (地址链接)https://pan.baidu.com/s/1sj0YERV (如果失效,可以上社区搜索)b. 解压后发现KafkaOffsetMonitor-assembly-0.2.1.jar,即为监控组件c.编写脚本(可定时启动)KafkaOffsetMonitor...
1.spark streaming 持续如下打印日志,无法进行任务处理,并无报错AbstractCoordinator: (Re-)joining group testpAbstractCoordinator: (Re-)joining group testpAbstractCoordinator: (Re-)joining group testp2.查看zookeeper...







