
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
问题笔者曾经遇到一个学习性质的爬虫任务:爬取‘微博辟谣’账号的历史微博。具体要求如下:采集范围:1. ‘微博辟谣’账号原创或转发的历史全部贴子。2. 需要踢除微博月度工作报告。剔除的样例如下:采集格式:采集方框中的如下文本信息。分为4列。每行一条记录。1. 若为该账号原创帖,则采集账号本身、文本内容、发布时间、转发数。2. 若为转发的贴子,需要采集包含:原贴发布账号、原贴文本内容、原贴发布时间、原
专题系列导引前言 前面专题文章【二】中,我们编写了微博PC网页版单线程的爬虫方式。但执行速度较慢,需要约两个小时才能处理完成。 此文我们对之前的程序略作改造,让其实现在每个页面内爬取45条数据时,进行多线程异步爬取,从而缩短每个页面的爬取时间,进而缩短整个爬取时间。一.改造多线程 对于整个设计流程,之前CrawlHandle串行方法内的逻辑没有问题,仍然是执行五个步骤。前面的启动driver
专题系列导引前言 前面专题文章【三】中,我们编写了微博PC网页版单页面内多线程爬取内容的爬虫方式。但执行速度仍然不太可观。因为翻页、下拉也是耗时高的操作,但为单线程执行。尤其是网路不理想的情形下,加载页面格外耗时。 因此我们设想是否可以异步启动多个driver驱动,数量为n;同时将微博辟谣240页数据分割为n份的piece,每个driver驱动负责分析爬取一部分piece,最后再汇总,写入表格
Spring线程池1. 自带线程池源码分析 下面是SpringBoot 2.2.2.RELEASE在启动时的输出日志。可以看到Spring容器启动了一个name为applicationTaskExecutor的bean。 定位此bean的创建过程,其代码放在spring-boot-autoconfigure模块内。创建此bean的@Configuration类如下:@Conditio...
前言博主最近在看《Vue.js实战》(梁灏著,2017年10月01日出版),学习vue框架和webpack编译打包。在进行npm run build编译生产环境包时,出现了很多报错,特此记录采坑和解决方案一. 问题背景书中首先创建webpack.prod.config.js文件,如下var webpack = require('webpack');var HtmlwebpackPlugin = r
一. 问题背景用如下命令加载依赖cnpm install --save vuecnpm install --save-dev vue-loadercnpm install --save-dev vue-style-loadercnpm install --save-dev vue-template-compilerwebpack中配置如下:var path = require('path');//