java爬虫spider_GitHub - LuckyTiger123/Spider_Java: Java爬虫与校验器
typora-copy-images-toREADME_img爬虫与校验器文件介绍Spider为爬虫爬取的文件Spider_java为爬虫程序本体Verifier为校验器程序本体Spider_java.jar为网络爬虫导出的jar包Verifier.jar为校验器导出的jar包README.md为本文档说明README_img文件夹储存本文档需要用到的图片校验器演示.pdf是校验器实际运行的一个演
typora-copy-images-to
README_img
爬虫与校验器
文件介绍
Spider为爬虫爬取的文件
Spider_java为爬虫程序本体
Verifier为校验器程序本体
Spider_java.jar为网络爬虫导出的jar包
Verifier.jar为校验器导出的jar包
README.md为本文档说明
README_img文件夹储存本文档需要用到的图片
校验器演示.pdf是校验器实际运行的一个演示
内容介绍
数据爬取基础:东方财富网行情中心,沪深个股中的股票
存放在Spider/data下
元数据结构为每一个股票一行
分别为股票名、股票编号、最新价、涨跌幅、涨跌额和成交量
数据爬取拓展:原来的数据量经过与老师交流后发现并不是很符合要求,因为爬取的是某一天的价格,数据校验只能对比股票名和股票编号,没有太大意义。
这里,选择在网易财经中爬取沪深A股,3877个股票近三年的数据,以000001平安银行为例,爬取的数据以csv格式储存:
注意,请不要随意保存对于文件的更改,这可能会造成校验器校验的错误。
文章爬取:东方财富网财经首页各个板块,比如财经导读、经济时评……
存放在Spider/content_Metadata/板块名称
以文字的序列号命名,元数据分别记录文章编号、文章主页url、文章标题、文章发布时间、文章来源、评论数、参与讨论数、摘要、责任编辑
文件爬取:N站(NEXUS HD)http://www.nexushd.org/index.php需要用户登入,可能需要校网接入
存放在Spider/seed下
每个种子文件为一个文件,以种子的序列号命名
元数据记录种子序列号、种子文件类型、种子标题、种子介绍、种子主页url、种子发布日期、种子文件大小、种子文件数、种子发布者、种子下载url
验证器:将会重新爬取,只是爬取数据不在本地储存,而是直接与Spider下的对应文件的元数据进行比较,在控制台有较为详细的比较信息显示
其他
爬虫与校验器使用Java编写,且均已导出jar包
运行时需要输入Spider目录的绝对地址,这个目录需要自行建立,两个程序的开始都会要求填写目录地址,以下面的填写方式为例:
C:/Users/74783/Desktop/课程/软件质量保证/Spider/
最后需要加上"/",路径为绝对路径,且斜杠使用"/"而不是"\"
登入说明
本次在爬取N站时,需要登入,也就是只有登入后才能爬取,登入部分选择使用Httpunit来达到目的,关键部分代码截图如下:
更多推荐
所有评论(0)