java爬虫spider_GitHub - LuckyTiger123/Spider_Java: Java爬虫与校验器

typora-copy-images-toREADME_img爬虫与校验器文件介绍Spider为爬虫爬取的文件Spider_java为爬虫程序本体Verifier为校验器程序本体Spider_java.jar为网络爬虫导出的jar包Verifier.jar为校验器导出的jar包README.md为本文档说明README_img文件夹储存本文档需要用到的图片校验器演示.pdf是校验器实际运行的一个演

bibbobi

279人浏览 · 2021-02-26 14:32:33

bibbobi · 2021-02-26 14:32:33 发布

typora-copy-images-to

README_img

爬虫与校验器

文件介绍

Spider为爬虫爬取的文件

Spider_java为爬虫程序本体

Verifier为校验器程序本体

Spider_java.jar为网络爬虫导出的jar包

Verifier.jar为校验器导出的jar包

README.md为本文档说明

README_img文件夹储存本文档需要用到的图片

校验器演示.pdf是校验器实际运行的一个演示

内容介绍

数据爬取基础:东方财富网行情中心，沪深个股中的股票

存放在Spider/data下

元数据结构为每一个股票一行

.%5CREADME_img%5C1577284622042.png

分别为股票名、股票编号、最新价、涨跌幅、涨跌额和成交量

数据爬取拓展:原来的数据量经过与老师交流后发现并不是很符合要求，因为爬取的是某一天的价格，数据校验只能对比股票名和股票编号，没有太大意义。

这里，选择在网易财经中爬取沪深A股，3877个股票近三年的数据，以000001平安银行为例，爬取的数据以csv格式储存：

.%5CREADME_img%5C1577517307167.png

注意，请不要随意保存对于文件的更改，这可能会造成校验器校验的错误。

文章爬取:东方财富网财经首页各个板块，比如财经导读、经济时评……

存放在Spider/content_Metadata/板块名称

.%5CREADME_img%5C1577284766265.png

以文字的序列号命名，元数据分别记录文章编号、文章主页url、文章标题、文章发布时间、文章来源、评论数、参与讨论数、摘要、责任编辑

文件爬取:N站(NEXUS HD)http://www.nexushd.org/index.php需要用户登入，可能需要校网接入

存放在Spider/seed下

每个种子文件为一个文件，以种子的序列号命名

.%5CREADME_img%5C1577284920788.png

元数据记录种子序列号、种子文件类型、种子标题、种子介绍、种子主页url、种子发布日期、种子文件大小、种子文件数、种子发布者、种子下载url

验证器：将会重新爬取，只是爬取数据不在本地储存，而是直接与Spider下的对应文件的元数据进行比较，在控制台有较为详细的比较信息显示

其他

爬虫与校验器使用Java编写，且均已导出jar包

运行时需要输入Spider目录的绝对地址，这个目录需要自行建立，两个程序的开始都会要求填写目录地址，以下面的填写方式为例：

C:/Users/74783/Desktop/课程/软件质量保证/Spider/

最后需要加上"/"，路径为绝对路径，且斜杠使用"/"而不是"\"

登入说明

本次在爬取N站时，需要登入，也就是只有登入后才能爬取，登入部分选择使用Httpunit来达到目的，关键部分代码截图如下：

.%5CREADME_img%5C1577519722278.png

AtomGit 开源协作平台测评赛

瓜分20万奖金获得内推名额丰厚实物奖励易参与易上手

更多推荐

ADS1292R 使用过程心电图高精度ADC模块

文章目录1 Fundamentals ofPrecision ADC Noise Analysis 精密模数转换器噪声分析基础1 Fundamentals ofPrecision ADC Noise Analysis 精密模数转换器噪声分析基础https://www.ti.com.cn/cn/lit/wp/slyy192/slyy192.pdf?ts=1600659610730&ref_u

开放原子开发者工作坊

实现一个家庭安防与环境监测系统（一）

开放原子开发者工作坊

【cf】Codeforces Round #774 (Div. 2) 前4题

题目A. Square Counting 简单数学题目大意题解代码B. Quality vs Quantity 排序题目大意题解代码C. Factorials and Powers of Two 状态压缩dp+位运算题目大意题解代码D. Weight the Tree 树形dp+dfs题目大意题解代码E. Power Board 看起来像是数论？许多年没打cf了，偶尔打了一盘，恢复紫名了。A. S