logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Python爬虫【零】问题介绍 -- 对“微博辟谣”账号的历史微博进行数据采集

问题笔者曾经遇到一个学习性质的爬虫任务:爬取‘微博辟谣’账号的历史微博。具体要求如下:采集范围:1. ‘微博辟谣’账号原创或转发的历史全部贴子。2. 需要踢除微博月度工作报告。剔除的样例如下:采集格式:采集方框中的如下文本信息。分为4列。每行一条记录。1. 若为该账号原创帖,则采集账号本身、文本内容、发布时间、转发数。2. 若为转发的贴子,需要采集包含:原贴发布账号、原贴文本内容、原贴发布时间、原

#python#爬虫#selenium
Python爬虫【三】爬取PC网页版“微博辟谣”账号内容(selenium单页面内多线程爬取内容)

专题系列导引前言  前面专题文章【二】中,我们编写了微博PC网页版单线程的爬虫方式。但执行速度较慢,需要约两个小时才能处理完成。  此文我们对之前的程序略作改造,让其实现在每个页面内爬取45条数据时,进行多线程异步爬取,从而缩短每个页面的爬取时间,进而缩短整个爬取时间。一.改造多线程  对于整个设计流程,之前CrawlHandle串行方法内的逻辑没有问题,仍然是执行五个步骤。前面的启动driver

#爬虫#selenium
Python爬虫【四】爬取PC网页版“微博辟谣”账号内容(selenium多线程异步处理多页面)

专题系列导引前言  前面专题文章【三】中,我们编写了微博PC网页版单页面内多线程爬取内容的爬虫方式。但执行速度仍然不太可观。因为翻页、下拉也是耗时高的操作,但为单线程执行。尤其是网路不理想的情形下,加载页面格外耗时。  因此我们设想是否可以异步启动多个driver驱动,数量为n;同时将微博辟谣240页数据分割为n份的piece,每个driver驱动负责分析爬取一部分piece,最后再汇总,写入表格

#爬虫#selenium
Spring线程池知多少?-------ThreadPoolTaskExecutor类源码浅析

Spring线程池1. 自带线程池源码分析  下面是SpringBoot 2.2.2.RELEASE在启动时的输出日志。可以看到Spring容器启动了一个name为applicationTaskExecutor的bean。  定位此bean的创建过程,其代码放在spring-boot-autoconfigure模块内。创建此bean的@Configuration类如下:@Conditio...

#spring#java
webpack5.27:UglifyJsPlugin、webpack-merge、html-webpack-plugin报错解决--《Vue.js实战》采坑

前言博主最近在看《Vue.js实战》(梁灏著,2017年10月01日出版),学习vue框架和webpack编译打包。在进行npm run build编译生产环境包时,出现了很多报错,特此记录采坑和解决方案一. 问题背景书中首先创建webpack.prod.config.js文件,如下var webpack = require('webpack');var HtmlwebpackPlugin = r

#webpack#前端
webpack5.27+vue2.6.12版本处理css文件以及.vue文件的<style>css模块

一. 问题背景用如下命令加载依赖cnpm install --save vuecnpm install --save-dev vue-loadercnpm install --save-dev vue-style-loadercnpm install --save-dev vue-template-compilerwebpack中配置如下:var path = require('path');//

#webpack#css
到底了