抓取网站, 趴取网站HTML页面

在Linux服务器中输入如下命令抓取网站HTML页面:wget -r -p -np -k -E http://www.xxx.com 抓取整站wget -l 1 -p -np -khttp://www.xxx.com 抓取第一级-r 递归抓取-k 抓取之后修正链接，适合本地浏览.wget -m -e robots=off -k -E "http://www.x...

PS测

3974人浏览 · 2019-03-02 13:22:12

PS测 · 2019-03-02 13:22:12 发布

在Linux服务器中输入如下命令抓取网站HTML页面:

wget -r -p -np -k -E http://www.xxx.com 抓取整站

wget -l 1 -p -np -k http://www.xxx.com 抓取第一级

-r 递归抓取
-k 抓取之后修正链接，适合本地浏览.

wget -m -e robots=off -k -E "http://www.xxx.com/"
可以将全站下载以本地的当前工作目录，生成可访问、完整的镜像。

解释：

-m //镜像，就是整站抓取
-e robots=off //忽略robots协议，强制、流氓抓取
-k //将绝对URL链接转换为本地相对URL
-E //将所有text/html文档以.html扩展名保存

更多推荐

Linux虚拟文件系统之文件系统卸载（sys_umount())

Linux中卸载文件系统由umount系统调用实现，入口函数为sys_umount()。较于文件系统的安装较为简单，下面是具体的实现。1. /*sys_umont系统调用*/2. SYSCALL_DEFINE2(umount, char __user *, name, int, flags)3. {4.struct path path;

网卡速率和双工模式的配置

http://linux.chinaitlab.com/system/792187.html1、mii-tool 配置网络设备协商方式的工具； 1.1 mii-tool 介绍； mii-tool - view, manipulate media-independent interface status （mii-tool 是查看，管理介质的网络接口的状态）

Linux系统下超级终端Minicom的使用方法（例如：连接交换机，路由器等）转http://baike.baidu.com/view/2911642.htm?fr=ala0_1

<br />　　Linux系统下超级终端Minicom的使用方法 <br />　　Linux下的Minicom的功能与下的超级终端功能相似，适于在通过超级终端对设备的管理以及对嵌入操作系统的升级，现写出Minicom的使用手册： <br />　　1．启动minicom <br />　　以root权限登录系统 <br />　　使用命令 <br />　　minicom –s 则minicom启动，屏

所有评论(0)

查看更多评论

PS测

已为社区贡献1条内容