用Scrapy Splash 来抓取渲染后的html页面

很多复杂的网页都是用javascript来对网页进行填充，这样用request的body和在浏览器中看到的不一样啊。这个时候splash就可以使用了，它是提供一个轻量级的api，传给它网址，它返回网页内容。这样就OK了1.安装splash要先安装dockerdocker pull registry.docker-cn.com/scrapinghub/splash#从docker镜像中拉取sp...

瓦力冫

4656人浏览 · 2018-04-11 16:58:26

瓦力冫 · 2018-04-11 16:58:26 发布

很多复杂的网页都是用javascript来对网页进行填充，这样用request的body和在浏览器中看到的不一样啊。这个时候splash就可以使用了，它是提供一个轻量级的api，传给它网址，它返回网页内容。这样就OK了

1.安装splash

要先安装docker

docker pull registry.docker-cn.com/scrapinghub/splash   #从docker镜像中拉取splash实例
docker run -p 8050:8050 scrapinghub/splash  #启动splash实例

现在docker 可以用国内的源了，所以要加上registry.docker-cn.com来加快速度

还需要安装个scrapy-splash

sudo pip3 install scrapy-splash

2. setting 设置

SPLASH_URL = 'http://localhost:8050'  

DOWNLOADER_MIDDLEWARES = {
'scrapy_splash.SplashCookiesMiddleware': 723,
'scrapy_splash.SplashMiddleware': 725,
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}

SPIDER_MIDDLEWARES = {
'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
}

DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'

HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'

3. spider中使用

import scrapy
import logging
import re
import datetime
from tutorial import settings
from scrapy_splash import SplashRequest

class JanDanSpider(scrapy.Spider):
    name = "jandan"

    def start_requests(self):
        #start_url = 'http://jandan.net/ooxx'
        start_url = 'http://www.baidu.com'
        headers = {
            'Connection' : 'keep - alive',
            'User-Agent' : 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36'
        }

        yield SplashRequest(url=start_url, callback = self.parse, args={'wait': 1.0})


    def parse(self, response):

        # --------------------------------body image url--------------------------------------------
        image_urls = response.css('img::attr("src")').extract()


        new_image_urls = []
        for i in range(len(image_urls)):
            new_image_urls.append('http://' + image_urls[i][2:])

        pass

主要这里用了SplashRequest，加了一个等待时间，callback回来就跟默认的一样了。进行爬虫的其他处理。。。

http://www.waitingfy.com/archives/3302

向您推荐>>Eolink开发者社区

权威｜前沿｜技术｜干货｜国内首个API全生命周期开发者社区

更多推荐

ELK实现containerd的容器日志采集展示【基于logging的全栈监测】

企业级ELK Stack构建介绍

云原生

深入理解 Mocha 测试框架：从零实现一个 Mocha

前言什么是自动化测试自动化测试在很多团队中都是Devops环节中很难执行起来的一个环节，主要原因在于测试代码的编写工作很难抽象，99%的场景都需要和业务强绑定，而且写测试代码的编写工作量往往比编写实际业务代码的工作量更多。在一些很多业务场景中投入产出比很低，适合写自动化测试的应该是那些中长期业务以及一些诸如组件一样的基础库。自动化测试是个比较大的概念，其中分类也比较多，比如单元测试，端对端测试，集

云原生

(20200916 Solved)docker-compose up创建容器自动退出

问题描述如题，创建容器后自动退出了。并且docker start container无效解决方案原因是缺失了控制终端的配置，需要在docker-compose.yml中增加tty:true ，有时候这样也不行，需要再增加一个command:/bin/bash，命令不一定是这个，需要是一个不会退出的命令，然后用-d后台启动容器。Referencesdocker-compose启动容器后自动退出...

云原生

所有评论(0)

查看更多评论

瓦力冫

@fox64194167

已为社区贡献2条内容