
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文简单介绍了爬虫的基本原理,Java和Python两种语言实现网页爬虫的方式。随着现在互联网环境越来越规范,爬虫也成为了高危操作,对数据爬取者本身来说,如果对爬取的目标网站造成危害,就可能要承担相应的法律责任,对于被爬取网站来说,会造成服务器的负载过大,影响自身业务系统。

环境如下win10IDEA2020.3spark2.4.4在Windows上调试Spark程序时出现如下错误:Spark程序在运行的时候会提供一个名为SparkUI的web子程序来显示Spark程序执行状态,启动Web程序就需要监听一个端口,默认为4040,这个好像是端口被占用了,spark就会依次重试16,将端口号依次加1,如果重试16次之后依然被占用,就会抛出异常。解决方法需要配置端口被占用之
1.问题引入最近开始使用Hadoop3.0,由于电脑的硬盘空间不是很多了,就直接在原来的虚拟机上安装,原来的虚拟机上已经安装了Hadoop2.9,也配置好了环境变量,把原来的环境变量修改成现在的路径的时候就出现了如下问题。修改了HADOOP_HOME为/opt/hadoop-3.2.1,并且source了/etc/profile文件,但是在使用Hadoop命令的时候发现Hadoop命令还...
本文采用虚拟机演示1.为虚拟机添加磁盘(虚拟机要为关机状态) 点击下一步到这个界面PS:最后一定要在虚拟机设置后点击确定 添加成功后就会多出一个硬盘 2.开始分区(主要使用 fdisk命令) 1)使用 fdisk -l 命令 显示所有的磁盘 fdisk -l此时就会发现 多了一个 磁盘 /dev/sdb 不要问我为什么是10.7 GB 可以自行bai
1.环境准备安装jdk www.baidu.com(输入正确的关键词)3台虚拟机vi /etc/hosts在文件末尾加入192.168.1.4 slave1192.168.1.5 slave2192.168.1.6 slave3关闭防火墙(不关闭会导致zookeeper无法通信)systemctl stop firewall...
本文只介绍在win7安装Oracle 10g(同样适用Win10)Oracle与MySQL的结构区别 1.注意事项 1.最好在安装前备份系统,因为安装失败后,不好卸载,就导致不好再次安装 2.可以先尝试在虚拟机上安装 3.由于Oracle官网已经不支持Oracle 10g的下载,请使用本文提供的Oracle 10g 4.关掉杀毒软...
Centos镜像包下载:http://mirror.centos.org/altarch/7/isos/32位:i38664位:带64的1.将Vmware中的光驱设置为镜像包(在虚拟机关闭时设置)1)打开虚拟机设置2)选择CD/DVD3)按图片操作 注意启动时连接一定要钩中 4...
虚拟机屏幕黑屏修复LSP。命令行窗口—输入netsh winsock reset然后重启计算机
1.环境准备安装jdk www.baidu.com(输入正确的关键词)3台虚拟机vi /etc/hosts在文件末尾加入192.168.1.4 slave1192.168.1.5 slave2192.168.1.6 slave3关闭防火墙(不关闭会导致zookeeper无法通信)systemctl stop firewall...
1.开发环境Win10+IDEA2019.2+JDK1.8+Maven2.maven依赖<!-- hadoop-client Hadoop客户端maven依赖 注意版本--><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</arti







