如何使用beautifulsoup在亚马逊网页上抓取产品详细信息[关闭]

Mangs

0人浏览 · 2022-08-28 22:22:00

Mangs · 2022-08-28 22:22:00 发布

问题:如何使用beautifulsoup在亚马逊网页上抓取产品详细信息[关闭]

对于网页:http://www.amazon.com/Harry-Potter-Prisoner-Azkaban-Rowling/dp/0439136369/refu003dpd_sim_b_2?ieu003dUTF8&refRIDu003d1MFBRAECGPMVZC5MJCWG我怎么能刮产品python中的详细信息和输出字典。在上述情况下,我想要的 dict 输出将是:

Age Range: 9 - 12 years
Grade Level: 4 - 7
...
...

我是 beautifulsoup 的新手,没有找到好的例子来实现这一点。我想有一些例子可以效仿。

解答

这个想法是在table#productDetailsTable div.content ul liCSS selector的帮助下遍历所有Product Details项目,然后使用粗体文本作为键,并使用下一个兄弟作为值:

from pprint import pprint
from bs4 import BeautifulSoup
import requests

url = 'http://www.amazon.com/dp/0439136369'
response = requests.get(url, headers={'User-agent': 'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.120 Safari/537.36'})

soup = BeautifulSoup(response.content)
tags = {}
for li in soup.select('table#productDetailsTable div.content ul li'):
    try:
        title = li.b
        key = title.text.strip().rstrip(':')
        value = title.next_sibling.strip()

        tags[key] = value
    except AttributeError:
        break

pprint(tags)

印刷:

{
    u'Age Range': u'9 - 12 years',
    u'Amazon Best Sellers Rank': u'#1,440 in Books (',
    u'Average Customer Review': u'',
    u'Grade Level': u'4 - 7',
    u'ISBN-10': u'0439136369',
    u'ISBN-13': u'978-0439136365',
    u'Language': u'English',
    u'Lexile Measure': u'880L',
    u'Mass Market Paperback': u'448 pages',
    u'Product Dimensions': u'1.2 x 5.2 x 7.8 inches',
    u'Publisher': u'Scholastic Paperbacks (September 11, 2001)',
    u'Series': u'Harry Potter (Book 3)',
    u'Shipping Weight': u'11.2 ounces ('
}

请注意,一旦我们遇到AttributeError,我们就会打破循环。它发生在li元素内不再有粗体文本之后。

Python

Python社区为您提供最前沿的新闻资讯和知识内容

更多推荐

求助！为什么用InsCode部署会出现无限重定向？

Python

如何重塑熊猫。系列

问题:如何重塑熊猫。系列在我看来,它就像 pandas.Series 中的一个错误。 a = pd.Series([1,2,3,4]) b = a.reshape(2,2) b b 有类型 Series 但无法显示,最后一条语句给出异常,非常冗长,最后一行是“TypeError: %d format: a number is required, not numpy.ndarray”。 b.sha

Python

在哪里可以找到有关 Keras 中默认权重初始化器的文档? [复制]

问题:在哪里可以找到有关 Keras 中默认权重初始化器的文档? [复制] 我刚刚在这里](https://keras.io/initializers/)中阅读了有关[中的 Keras 权重初始化器的信息。在文档中,只介绍了不同的初始化程序。如: model.add(Dense(64, kernel_initializer='random_normal')) 当我没有指定kernel_initia