Python爬虫入门：从零开始的数据获取之旅

网络爬虫是一种自动化程序，能够从互联网上抓取数据。本文介绍了爬虫的基本概念、应用场景、开发准备和核心实现方法。文章详细讲解了使用Python的requests和BeautifulSoup库构建爬虫的基础流程，包括发送HTTP请求、解析HTML、数据提取和存储等关键技术。同时探讨了爬虫开发中的进阶技巧，如处理请求头、Cookie、反爬机制，以及使用正则表达式、CSS选择器等数据提取方法。最后还介绍了

Cyb3rMagnet

2306人浏览 · 2025-09-30 10:58:28

Cyb3rMagnet · 2025-09-30 10:58:28 发布

什么是爬虫？为什么要学它？

说到爬虫，很多人第一反应可能是那种在网上爬来爬去的小虫子。但在编程世界里，爬虫可是个相当厉害的工具！简单来说，爬虫就是一个自动化程序，它能帮你从互联网上自动收集数据。

想象一下这样的场景：你需要收集1000个电商网站的商品价格信息。手动一个个去查看？那得累死个人！但如果用爬虫，几分钟就能搞定。这就是爬虫的魅力所在。

爬虫的应用场景超广泛

在实际工作中，爬虫的用途多得数不过来：

数据分析师经常用它收集竞争对手的价格信息、用户评论数据
新闻媒体用它监控全网热点话题和舆情变化
求职者可以爬取招聘网站的岗位信息做数据分析
投资者用它获取股票、基金的历史数据
学术研究中用来收集大量样本数据

说白了，只要是需要大量数据的地方，爬虫都能派上用场！

开始之前的准备工作

环境搭建（超级重要！）

首先你得有Python环境。如果还没装Python的话，建议直接去官网下载最新版本。安装完成后，我们需要安装几个核心库：

pip install requests
pip install beautifulsoup4
pip install lxml

这三个库是爬虫开发的黄金组合。requests负责发送HTTP请求，beautifulsoup4用来解析HTML内容，lxml则是一个高效的解析器。

基础知识储备

想要玩转爬虫，你至少得了解一些HTML的基本结构。不需要成为前端大神，但要知道什么是标签、属性、CSS选择器这些概念。

HTTP协议的基础知识也很重要。GET请求、POST请求、状态码这些概念要搞清楚。别担心，这些东西用多了自然就熟了。

第一个爬虫程序

理论说得再多，不如直接动手写代码！我们先来爬取一个简单的网页：

import requests
from bs4 import BeautifulSoup

# 发送HTTP请求
url = "https://httpbin.org/html"
response = requests.get(url)

# 检查请求是否成功
if response.status_code == 200:
    print("请求成功！")
    
    # 解析HTML内容
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 提取标题
    title = soup.find('title').text
    print(f"网页标题：{title}")
    
    # 提取所有段落
    paragraphs = soup.find_all('p')
    for i, p in enumerate(paragraphs):
        print(f"第{i+1}个段落：{p.text}")
else:
    print(f"请求失败，状态码：{response.status_code}")

这个程序虽然简单，但已经包含了爬虫的核心流程：发送请求→获取响应→解析数据→提取信息。

进阶技巧：处理各种复杂情况

添加请求头

很多网站会检测请求头来判断是否为爬虫。我们可以通过添加User-Agent来伪装成浏览器：

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
}

response = requests.get(url, headers=headers)

处理Cookie和Session

某些网站需要登录才能访问内容，这时就需要处理Cookie：

session = requests.Session()

# 先访问登录页面
login_data = {
    'username': 'your_username',
    'password': 'your_password'
}

session.post('https://example.com/login', data=login_data)

# 登录后访问其他页面
response = session.get('https://example.com/protected_page')

异常处理很关键

网络环境复杂多变，异常处理绝对不能少：

import time
from requests.exceptions import RequestException

def safe_request(url, max_retries=3):
    for attempt in range(max_retries):
        try:
            response = requests.get(url, timeout=10)
            response.raise_for_status()  # 检查HTTP错误
            return response
        except RequestException as e:
            print(f"第{attempt + 1}次请求失败：{e}")
            if attempt < max_retries - 1:
                time.sleep(2)  # 等待2秒后重试
            else:
                print("所有重试都失败了")
                return None

数据提取的艺术

CSS选择器大显身手

BeautifulSoup支持CSS选择器，这让数据提取变得超级简单：

# 通过class选择器
articles = soup.select('.article-title')

# 通过ID选择器  
content = soup.select('#main-content')

# 层级选择器
prices = soup.select('div.product-info span.price')

# 属性选择器
links = soup.select('a[href*="product"]')

正则表达式的妙用

有时候HTML结构比较复杂，正则表达式就派上用场了：

import re

# 提取所有邮箱地址
email_pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'
emails = re.findall(email_pattern, response.text)

# 提取价格信息（假设格式为￥xxx.xx）
price_pattern = r'￥(\d+\.?\d*)'
prices = re.findall(price_pattern, response.text)

数据存储：让信息落地

保存到CSV文件

CSV格式简单实用，Excel也能直接打开：

import csv

data = []  # 假设这里是你爬取的数据

with open('scraped_data.csv', 'w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(['标题', '价格', '链接'])  # 表头
    
    for item in data:
        writer.writerow([item['title'], item['price'], item['link']])

存储到数据库

对于大量数据，数据库是更好的选择：

import sqlite3

# 创建数据库连接
conn = sqlite3.connect('scraped_data.db')
cursor = conn.cursor()

# 创建表
cursor.execute('''
    CREATE TABLE IF NOT EXISTS products (
        id INTEGER PRIMARY KEY,
        title TEXT,
        price REAL,
        url TEXT
    )
''')

# 插入数据
for item in data:
    cursor.execute('INSERT INTO products (title, price, url) VALUES (?, ?, ?)',
                   (item['title'], item['price'], item['url']))

conn.commit()
conn.close()

反反爬策略

现在的网站反爬技术越来越厉害，我们也得升级装备！

代理IP轮换

import random

proxy_list = [
    {'http': 'http://proxy1:port'},
    {'http': 'http://proxy2:port'},
    {'http': 'http://proxy3:port'}
]

def get_random_proxy():
    return random.choice(proxy_list)

response = requests.get(url, proxies=get_random_proxy())

随机延时

模拟人类行为，避免请求过于频繁：

import random
import time

def random_delay(min_delay=1, max_delay=3):
    delay = random.uniform(min_delay, max_delay)
    time.sleep(delay)

# 在每次请求之间添加随机延时
for url in url_list:
    response = requests.get(url)
    # 处理响应...
    random_delay()  # 随机等待1-3秒

常见问题及解决方案

编码问题

网页编码不统一是个老大难问题：

response = requests.get(url)

# 自动检测编码
if response.encoding == 'ISO-8859-1':
    response.encoding = response.apparent_encoding

# 或者手动指定编码
response.encoding = 'utf-8'

content = response.text

JavaScript渲染的页面

有些页面内容是通过JavaScript动态加载的，requests库就无能为力了。这时候可以考虑使用Selenium：

from selenium import webdriver
from selenium.webdriver.common.by import By

driver = webdriver.Chrome()  # 需要下载chromedriver
driver.get(url)

# 等待页面加载完成
driver.implicitly_wait(10)

# 提取数据
elements = driver.find_elements(By.CLASS_NAME, "product-item")

driver.quit()  # 别忘了关闭浏览器

道德与法律考量

虽然技术很酷，但我们也要做个有素质的爬虫开发者：

尊重robots.txt文件。大部分网站都会在根目录放一个robots.txt文件，说明哪些内容允许爬取，哪些不允许。虽然这不是法律约束，但遵守它是基本礼貌。

控制请求频率。疯狂发送请求可能会给服务器造成压力，甚至导致服务中断。设置合理的延时，做个文明的爬虫。

保护个人隐私。如果爬取的数据涉及个人信息，要特别小心处理，不要随意传播或滥用。

总结

Python爬虫入门其实不难，关键是要多动手实践。从简单的静态页面开始，逐步挑战更复杂的场景。记住，爬虫不仅仅是技术活，更是一门艺术！

每个网站都有自己的特点，没有一套通用的解决方案。遇到问题时，保持耐心，仔细分析，总能找到突破口。

技术在进步，反爬技术也在升级。持续学习新技术、新方法，才能在这个猫鼠游戏中立于不败之地。

最重要的是，用技术创造价值的同时，也要承担相应的责任。合法合规地使用爬虫技术，既保护了自己，也维护了整个行业的健康发展。

现在就开始你的爬虫之旅吧！从第一行代码开始，一步步探索数据世界的无限可能！

广州城市开发者社区

欢迎加入我们的广州开发者社区，与优秀的开发者共同成长！

更多推荐

大数据与人工智能专业毕设选题 “精品合集”：优质选题推荐

广州城市开发者社区

世界模型崛起，AI路线之争喧嚣再起

区别于宽泛意义上的大语言模型，世界模型并非通过可获取的语言、图像及视频来理解现实场景，而是通过大量数据学习现实世界的物理规则，实施因果推理，从而预测、生成合乎现实规律的未来。更核心的桎梏在于，大语言模型的认知局限于文本符号的线性关联，缺乏对物理世界的三维空间建模能力与动态因果推理能力。当AI需要从虚拟交互走向物理世界的实际应用，从单一任务响应升级为复杂场景的自主决策，纯文本驱动的模型架构已难以承载