郭振廷个人主页

@u010086122

郭振廷

2022-07-08 17:10:03 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Python爬虫【零】问题介绍 -- 对“微博辟谣”账号的历史微博进行数据采集

问题笔者曾经遇到一个学习性质的爬虫任务：爬取‘微博辟谣’账号的历史微博。具体要求如下：采集范围：1. ‘微博辟谣’账号原创或转发的历史全部贴子。2. 需要踢除微博月度工作报告。剔除的样例如下：采集格式：采集方框中的如下文本信息。分为4列。每行一条记录。1. 若为该账号原创帖，则采集账号本身、文本内容、发布时间、转发数。2. 若为转发的贴子，需要采集包含：原贴发布账号、原贴文本内容、原贴发布时间、原

#python #爬虫 #selenium

Python爬虫【三】爬取PC网页版“微博辟谣”账号内容(selenium单页面内多线程爬取内容)

专题系列导引前言前面专题文章【二】中，我们编写了微博PC网页版单线程的爬虫方式。但执行速度较慢，需要约两个小时才能处理完成。此文我们对之前的程序略作改造，让其实现在每个页面内爬取45条数据时，进行多线程异步爬取，从而缩短每个页面的爬取时间，进而缩短整个爬取时间。一.改造多线程对于整个设计流程，之前CrawlHandle串行方法内的逻辑没有问题，仍然是执行五个步骤。前面的启动driver

#爬虫 #selenium

Python爬虫【四】爬取PC网页版“微博辟谣”账号内容(selenium多线程异步处理多页面)

专题系列导引前言前面专题文章【三】中，我们编写了微博PC网页版单页面内多线程爬取内容的爬虫方式。但执行速度仍然不太可观。因为翻页、下拉也是耗时高的操作，但为单线程执行。尤其是网路不理想的情形下，加载页面格外耗时。因此我们设想是否可以异步启动多个driver驱动，数量为n；同时将微博辟谣240页数据分割为n份的piece，每个driver驱动负责分析爬取一部分piece，最后再汇总，写入表格

#爬虫 #selenium

Spring线程池知多少？-------ThreadPoolTaskExecutor类源码浅析

Spring线程池1. 自带线程池源码分析下面是SpringBoot 2.2.2.RELEASE在启动时的输出日志。可以看到Spring容器启动了一个name为applicationTaskExecutor的bean。定位此bean的创建过程，其代码放在spring-boot-autoconfigure模块内。创建此bean的@Configuration类如下：@Conditio...

#spring #java

webpack5.27：UglifyJsPlugin、webpack-merge、html-webpack-plugin报错解决--《Vue.js实战》采坑

前言博主最近在看《Vue.js实战》(梁灏著，2017年10月01日出版)，学习vue框架和webpack编译打包。在进行npm run build编译生产环境包时，出现了很多报错，特此记录采坑和解决方案一. 问题背景书中首先创建webpack.prod.config.js文件，如下var webpack = require('webpack');var HtmlwebpackPlugin = r

#webpack #前端

webpack5.27+vue2.6.12版本处理css文件以及.vue文件的＜style＞css模块

一. 问题背景用如下命令加载依赖cnpm install --save vuecnpm install --save-dev vue-loadercnpm install --save-dev vue-style-loadercnpm install --save-dev vue-template-compilerwebpack中配置如下：var path = require('path');//

#webpack #css

到底了