如何使用 BeautifulSoup 访问 svg 中的元素?

Mangs

1人浏览 · 2022-08-28 20:27:32

Mangs · 2022-08-28 20:27:32 发布

问题:如何使用 BeautifulSoup 访问 svg 中的元素?

我正在从谷歌搜索结果中抓取天气数据。最后,我想从svg graphs 中抓取数据,这是我遇到所有问题的地方。

我的代码:

from bs4 import BeautifulSoup as bs
import requests

def get_weather_data(region):
    # const values
    USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36"
    LANGUAGE = "en-US,en;q=0.5" # US english
    URL = f"https://www.google.com/search?lr=lang_en&q=weather+in+{region.strip().lower().replace(' ', '+')}"
    
    # Send request and store response
    s = requests.Session()
    s.headers['User-Agent'] = USER_AGENT
    s.headers['Accept-Language'] = LANGUAGE
    s.headers['Content-Language'] = LANGUAGE
    html = s.get(URL)
    soup = bs(html.text, "html.parser")

    hourly = soup.find("svg", attrs={'id':'wob_gsvg'})
    hourly2 = soup.find("svg", attrs={'id':'wob_gsvg'}).children
    print(hourly, hourly2)

get_weather_data("London")

输出:<svg class="wob_gsvg" data-ved="2ahUKEwiToY6r0eLzAhWOpZUCHdMQC0kQnaQEegQIGRAG" id="wob_gsvg" style="height:80px"></svg> <list_iterator object at 0x00000275054D9E20>

但是在chrome浏览器控制台中,可以看到:

浏览器图片

主要目标

做网页抓取——来自谷歌搜索结果的天气数据。
scrape 每小时预报可用

解答

在html.text你没有这个数据。在此处输入图像描述

检查它尝试:

with open("data.html", "w") as f:
    f.write(html.text)

然后在浏览器上打开此文件。

要解决此问题,请尝试使用selenium库。https://selenium-python.readthedocs.io

Python

Python社区为您提供最前沿的新闻资讯和知识内容

更多推荐

求助！为什么用InsCode部署会出现无限重定向？

Python

如何重塑熊猫。系列

问题:如何重塑熊猫。系列在我看来,它就像 pandas.Series 中的一个错误。 a = pd.Series([1,2,3,4]) b = a.reshape(2,2) b b 有类型 Series 但无法显示,最后一条语句给出异常,非常冗长,最后一行是“TypeError: %d format: a number is required, not numpy.ndarray”。 b.sha

Python

在哪里可以找到有关 Keras 中默认权重初始化器的文档? [复制]

问题:在哪里可以找到有关 Keras 中默认权重初始化器的文档? [复制] 我刚刚在这里](https://keras.io/initializers/)中阅读了有关[中的 Keras 权重初始化器的信息。在文档中,只介绍了不同的初始化程序。如: model.add(Dense(64, kernel_initializer='random_normal')) 当我没有指定kernel_initia