logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

使用vue 开发chrome 插件

原文项目中需要从百度图片和谷歌图片批量抓取一系列关键词的图片,而且需要是大图资源,不能是缩略图。在后端通过http请求直接拉取内容抓取,遇到下面两个问题:有的大图地址是在前端通过脚本生成的,拉取页面内容之后无法直接得到大图地址翻页请求并不是简单的pageindex++,拿到下一页内容。抓取第一页后边的内容也需要分析翻页请求链接组装,以及返回的数据如何解析。这两个问题导致通过后端爬取大图列表十分困难

#chrome#javascript
canal的坑:CanalParseException: column size is not match for table

解析线程阻塞问题这个基本是每个使用Canal的开发者的必踩之坑。$CANAL_HOME/conf/canal.properties配置文件中存在一行注释掉的配置:canal.instance.parser.parallelThreadSize = 16。该配置用于指定解析器实例并发线程数,如果注释了会导致解析线程阻塞,得到的结果就是什么都不会发生。注释解除即可,建议使用默认值16。表结构缓存异常阻

#mysql
到底了