
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
如果链接简单,爬虫可以通过链接用requests库提取页面信息,如爬取豆瓣top250影片信息,链接简单易懂。爬取豆瓣top250影片信息但如果遇到一些搜索之类的,基于js动态加载的网页,以上就不适合,如爬虫b站,搜索“爬虫”页面,第一页链接如下,第二页又是很长没规律的链接。很难用requests库提取页面。针对以上情况,我们可以通过浏览器直接访问每个页面,然后提取页面。当然是让爬虫自己打开浏览器
一:linux下git和github搭建1、注册gihub账号:github官网:https://github.com/自行创建即可。登录,create repository新建仓库一个测试库test,创建完成。2、linux安装git环境yum -y install git3、生成ssh key 密钥ssh-keygen命令生成密钥,可直接默认,也可自己选择加密方式,如选择rsa加密方式ssh-
一、简介对于网站来说,尤其是流量较大出名的网站,经常遇到攻击,如DDOS攻击等,虽然有些第三方,如Cloudflare可以挡,但对于动态网站PHP来说,只能挡一部分。这时候需要对于单个IP恶意攻击做出限流。nginx的两个模块可以限流。nginx两个限流模块:连接频率限制,ngx_http_limit_conn_module:官方文档请求频率限制,ngx_http_limit_req_module
K3s 是一个轻量级的 Kubernetes(K8s)发行版,由 Rancher 开发,专为资源受限环境设计,例如物联网 (IoT) 设备、边缘计算和小型开发环境。K3s 提供了简化的安装和操作体验,同时保持 Kubernetes 的核心功能。

在使用爬虫的时候,很多网站都有一定的反爬措施,甚至在爬取大量的数据或者频繁地访问该网站多次时还可能面临ip被禁,所以这个时候我们通常就可以找一些代理ip,和不用的浏览器来继续爬虫测试。下面就开始来简单地介绍一下User-Agent池和免费代理ip池。
rsync+sersync简介sersync是基于inotify开发的,类似于inotify-tools的工具。所以同样内核需先支持inotify,才能搭建。sersync可以记录下被监听目录中发生变化的(包括增加、删除、修改)具体某一个文件或者某一个目录的名字,然后使用rsync同步的时候,只同步发生变化的文件或者目录。相对于inotify-tools遍历更快,在同步大量数据时更有优势。inot
一、Linux磁盘基本信息查看命令df -h 查看已经在使用或挂载的磁盘信息。查看的是文件系统的大小ubuntu@ubuntu:~$ df -hFilesystemSizeUsed Avail Use% Mounted onudev1.9G01.9G0% /devtmpfs391M1.5M390M
HLS,Http Live Streaming 是由Apple公司定义的用于实时流传输的协议,HLS基于HTTP协议实现,传输内容包括两部分,一是M3U8描述文件,二是TS媒体文件。M3U8文件是指UTF-8编码格式的M3U文件。M3U文件是记录了一个索引纯文本文件,打开它时播放软件并不是播放它,而是根据它的索引找到对应的音视频文件的网络地址进行在线播放。M3U8是一种常见的流媒体格式,主要以文件
一、简介为了保证服务器安全,加个堡垒机,所有ssh连接都通过堡垒机来完成,堡垒机也需要有身份认证,授权,访问控制,审计等功能。Jumpserver 是一款由python编写开源的跳板机(堡垒机)系统,实现了跳板机应有的功能。基于ssh协议来管理,客户端无需安装agent。在公司中,分配人员服务器权限也是相当方便,如:来一个新人,在Jumpserver分配Jumpserver账号即可,人员离职,在J
在使用爬虫的时候,很多网站都有一定的反爬措施,甚至在爬取大量的数据或者频繁地访问该网站多次时还可能面临ip被禁,所以这个时候我们通常就可以找一些代理ip,和不用的浏览器来继续爬虫测试。下面就开始来简单地介绍一下User-Agent池和免费代理ip池。