typora-copy-images-to

README_img

爬虫与校验器

文件介绍

Spider为爬虫爬取的文件

Spider_java为爬虫程序本体

Verifier为校验器程序本体

Spider_java.jar为网络爬虫导出的jar包

Verifier.jar为校验器导出的jar包

README.md为本文档说明

README_img文件夹储存本文档需要用到的图片

校验器演示.pdf是校验器实际运行的一个演示

内容介绍

数据爬取基础:东方财富网行情中心,沪深个股中的股票

存放在Spider/data下

元数据结构为每一个股票一行

.%5CREADME_img%5C1577284622042.png

分别为股票名、股票编号、最新价、涨跌幅、涨跌额和成交量

数据爬取拓展:原来的数据量经过与老师交流后发现并不是很符合要求,因为爬取的是某一天的价格,数据校验只能对比股票名和股票编号,没有太大意义。

这里,选择在网易财经中爬取沪深A股,3877个股票近三年的数据,以000001平安银行为例,爬取的数据以csv格式储存:

.%5CREADME_img%5C1577517307167.png

注意,请不要随意保存对于文件的更改,这可能会造成校验器校验的错误。

文章爬取:东方财富网财经首页各个板块,比如财经导读、经济时评……

存放在Spider/content_Metadata/板块名称

.%5CREADME_img%5C1577284766265.png

以文字的序列号命名,元数据分别记录文章编号、文章主页url、文章标题、文章发布时间、文章来源、评论数、参与讨论数、摘要、责任编辑

文件爬取:N站(NEXUS HD)http://www.nexushd.org/index.php需要用户登入,可能需要校网接入

存放在Spider/seed下

每个种子文件为一个文件,以种子的序列号命名

.%5CREADME_img%5C1577284920788.png

元数据记录种子序列号、种子文件类型、种子标题、种子介绍、种子主页url、种子发布日期、种子文件大小、种子文件数、种子发布者、种子下载url

验证器:将会重新爬取,只是爬取数据不在本地储存,而是直接与Spider下的对应文件的元数据进行比较,在控制台有较为详细的比较信息显示

其他

爬虫与校验器使用Java编写,且均已导出jar包

运行时需要输入Spider目录的绝对地址,这个目录需要自行建立,两个程序的开始都会要求填写目录地址,以下面的填写方式为例:

C:/Users/74783/Desktop/课程/软件质量保证/Spider/

最后需要加上"/",路径为绝对路径,且斜杠使用"/"而不是"\"

登入说明

本次在爬取N站时,需要登入,也就是只有登入后才能爬取,登入部分选择使用Httpunit来达到目的,关键部分代码截图如下:

.%5CREADME_img%5C1577519722278.png

Logo

瓜分20万奖金 获得内推名额 丰厚实物奖励 易参与易上手

更多推荐