Python实战之数据表提取和下载自动化

在网络爬虫领域，动态渲染类型页面的数据提取和下载自动化是一个常见的挑战。本文将介绍如何利用Pyppeteer库完成这一任务，帮助您轻松地提取动态渲染页面中的数据表并实现下载自动化。

q56731523

1878人浏览 · 2023-08-29 10:34:41

q56731523 · 2023-08-29 10:34:41 发布

在这里插入图片描述

一、环境准备

首先，确保您已经安装了Python环境。接下来，我们需要安装pyppeteer库：

pip install pyppeteer

二、启动浏览器和页面

使用Pyppeteer，我们可以启动一个无头浏览器（headless browser），并打开目标网页：

import asyncio
from pyppeteer import launch
async def main():
    browser = await launch()
    page = await browser.newPage()
    await page.goto("https://example.com")
     后续操作
asyncio.run(main())

三、等待页面动态渲染

在访问动态渲染页面时，我们需要等待页面加载完成。Pyppeteer提供了多种等待方式，例如等待某个元素出现：

await page.waitForSelector("data-table")

四、提取数据表内容

接下来，我们可以使用page.evaluate()方法提取数据表的内容。假设数据表的ID为data-table：

async def extract_table_content(page):
    table_content = await page.evaluate('''() => {
        const table = document.querySelector("data-table");
        const rows = Array.from(table.querySelectorAll("tr"));
        return rows.map(row => {
            const cells = Array.from(row.querySelectorAll("td"));
            return cells.map(cell => cell.innerText);
        });
    }''')
    return table_content
table_content = asyncio.run(extract_table_content(page))

五、下载数据表

提取到数据表内容后，我们可以将其保存为CSV文件：

import csv
def save_to_csv(table_content, file_name):
    with open(file_name, "w", newline="", encoding="utf-8") as f:
        writer = csv.writer(f)
        writer.writerows(table_content)
save_to_csv(table_content, "data.csv")