Python Selenium自动化测试入门：从环境搭建到实战案例详解

桃子胖

224人浏览 · 2026-06-21 10:00:02

桃子胖 · 2026-06-21 10:00:02 发布

1. 项目概述：为什么从Selenium开始学自动化？

如果你刚接触Python，想找点“能看见结果”的东西来练手，写个能自动操作网页的脚本，成就感绝对拉满。Selenium就是一个能让你用代码“遥控”浏览器的工具，想象一下，写几行指令就能让浏览器自动打开网页、点击按钮、填写表单、抓取数据，是不是挺酷的？这不仅是学习Python的绝佳实践，更是踏入自动化测试、数据采集（爬虫）甚至日常办公自动化（RPA）领域的一块敲门砖。

网上教程很多，但要么太散，要么一上来就讲高深框架，对新手不太友好。这篇内容，我就从一个老码农的角度，带你从零开始，手把手搭建环境、理解核心概念、写出第一个能跑的脚本，再到剖析一个完整的实战案例源码。目标很明确：让你看完就能动手，避开我当年踩过的那些坑，真正把Selenium用起来。

2. 环境搭建与核心工具解析

工欲善其事，必先利其器。别小看环境配置，很多新手卡半天就卡在这儿了。

2.1 Python安装与包管理

Python是基础，必须装对。现在官网（python.org）下载稳定版，比如Python 3.8+。安装时务必勾选“Add Python to PATH”，这能让你在命令行（CMD或终端）里直接输入 python 和 pip 命令，省去后续手动配置环境变量的麻烦。

安装完，打开命令行，输入 python --version 和 pip --version 验证。看到版本号就说明成功了。接下来，我们用 pip 安装Selenium库，这是Python用来和Selenium WebDriver通信的客户端库。

pip install selenium

注意：国内网络有时连接PyPI官方源会很慢甚至超时。建议使用国内镜像源加速，比如清华源： pip install selenium -i https://pypi.tuna.tsinghua.edu.cn/simple 。这能极大提升安装成功率。

2.2 浏览器驱动：WebDriver的桥梁

这是Selenium的核心，也是最容易出问题的一环。Selenium本身只是一个“发号施令”的库，真正去操作浏览器的是各个浏览器厂商提供的“驱动程序”——WebDriver。你需要根据自己电脑上安装的浏览器版本，下载对应的驱动。

以最常用的Chrome浏览器为例：

首先，打开Chrome，在地址栏输入 chrome://settings/help ，查看你的Chrome版本号（例如：128.0.6613.138）。
然后，访问ChromeDriver的官方下载站或国内镜像站。 关键点来了 ：你必须下载与你的Chrome浏览器 主版本号完全一致 的驱动。比如你是128.x.x.x，就找版本号为128.x.x.x的ChromeDriver。大版本不匹配，百分百会报错。
下载后，你会得到一个可执行文件（Windows是 chromedriver.exe ，macOS/Linux是 chromedriver ）。你需要把它放在一个 PATH 环境变量包含的目录里，这样Python才能找到它。最简单的方法有两个：
- 方法一（推荐） ：直接把它扔到Python的安装目录下（和 python.exe 在同一文件夹），因为这个目录默认就在 PATH 里。
- 方法二 ：把它放在项目目录下，然后在代码里指定它的绝对路径。

对于Firefox（geckodriver）、Edge（msedgedriver）也是同样的道理，去各自官网下载对应版本即可。

2.3 集成开发环境（IDE）选择

写代码，一个好用的编辑器能事半功倍。PyCharm是专业选择，功能强大，对Python支持最好。Visual Studio Code（VSCode）轻量灵活，通过安装Python插件也能获得很好的体验。对于纯新手，我甚至建议先用系统自带的记事本或IDLE写第一个脚本，强迫自己熟悉代码结构和命令行运行方式（ python your_script.py ），这能加深你对程序执行流程的理解。

3. Selenium核心概念与基础操作详解

环境搞定，我们来聊聊Selenium是怎么工作的。简单说，它模拟真人操作：打开浏览器，找到页面上的元素（输入框、按钮、链接），然后对它们进行操作（点击、输入、读取）。

3.1 WebDriver对象：你的遥控器

一切始于创建一个WebDriver对象，它就是你对浏览器的“遥控器”。

from selenium import webdriver
from selenium.webdriver.common.by import By
import time

# 创建Chrome浏览器驱动实例
driver = webdriver.Chrome() # 如果chromedriver不在PATH，需指定路径：webdriver.Chrome(executable_path='/path/to/chromedriver')
# 如果是Firefox
# driver = webdriver.Firefox(executable_path='/path/to/geckodriver')

# 打开百度首页
driver.get("https://www.baidu.com")
# 等待3秒，方便观察
time.sleep(3)
# 关闭浏览器
driver.quit()

运行这段代码，你会看到一个Chrome浏览器窗口自动打开，跳转到百度，然后3秒后关闭。恭喜，你的第一个Selenium脚本成功了！

3.2 元素定位：找到页面上的目标

要对元素操作，首先得找到它。Selenium提供了8种主要的定位方式，最常用的是前几种：

ID定位 ： driver.find_element(By.ID, “kw”) 。ID通常唯一，定位最快最准。
Name定位 ： driver.find_element(By.NAME, “wd”) 。
Class Name定位 ： driver.find_element(By.CLASS_NAME, “s_ipt”) 。注意class可能有多个，返回第一个。
Tag Name定位 ： driver.find_element(By.TAG_NAME, “input”) 。用于找特定类型的标签。
Link Text ： driver.find_element(By.LINK_TEXT, “新闻”) 。用于定位纯文本链接。
Partial Link Text ： driver.find_element(By.PARTIAL_LINK_TEXT, “闻”) 。链接文本的部分匹配。
XPath ： driver.find_element(By.XPATH, ‘//*[@id=“kw”]’) 。功能最强大，可以遍历页面所有元素，但写起来复杂，执行速度相对慢。
CSS Selector ： driver.find_element(By.CSS_SELECTOR, ‘#kw’) 。功能和性能平衡得很好，语法简洁，推荐掌握。

实操心得 ：优先使用ID和Name，因为它们最稳定。如果都没有，用CSS Selector，它比XPath更高效，浏览器原生支持。XPath是“终极武器”，当页面结构复杂、元素没有明显特征时再用。你可以在浏览器开发者工具（F12）的Elements面板，右键点击元素，选择“Copy” -> “Copy selector”或“Copy XPath”来快速获取，但自动生成的路径可能很脆弱，容易因页面微调而失效，最好能自己写相对简洁稳定的路径。

3.3 常用元素操作：点击、输入与获取信息

找到元素后，就可以“指挥”它了。

# 接上面的代码，在打开百度后
# 1. 找到搜索输入框（ID为‘kw’）并输入关键词
search_box = driver.find_element(By.ID, ‘kw’)
search_box.send_keys(“Selenium教程”) # 模拟键盘输入

# 2. 找到“百度一下”按钮（ID为‘su’）并点击
search_button = driver.find_element(By.ID, ‘su’)
search_button.click()

# 等待2秒看搜索结果
time.sleep(2)

# 3. 获取页面标题和URL
print(“当前页面标题：”, driver.title)
print(“当前页面URL：”, driver.current_url)

# 4. 获取某个元素的文本内容（例如第一个搜索结果的标题）
# 假设第一个结果标题的CSS选择器是 ‘.result h3 a’
first_result = driver.find_element(By.CSS_SELECTOR, ‘.result h3 a’)
print(“第一个结果标题：”, first_result.text)

# 5. 清空输入框内容
search_box.clear()

4. 等待机制：让脚本更稳定可靠

这是新手写脚本最容易忽略，也最容易导致脚本运行失败的关键点。网页加载需要时间，元素不会瞬间出现。如果你在元素还没加载出来时就尝试去操作它，程序就会抛出 NoSuchElementException （找不到元素）异常。

4.1 强制等待： `time.sleep()`

最简单粗暴，让程序无条件等待指定秒数。

import time
time.sleep(5) # 等待5秒

缺点：效率低下。如果元素提前加载好了，你还在傻等；如果网络慢，5秒不够，还是会失败。它只适合在调试或明确知道需要固定等待时间时使用。

4.2 隐式等待： `driver.implicitly_wait()`

设置一个全局的等待时间，在查找 任何一个 元素时，如果元素没有立即找到，WebDriver会轮询DOM（默认每0.5秒）直到找到它或超时。

driver.implicitly_wait(10) # 设置隐式等待时间为10秒
element = driver.find_element(By.ID, ‘someId’)

优点：设置一次，对整个driver生命周期有效。缺点：不灵活，只对 find_element 和 find_elements 方法有效。对于元素是否可点击、可见等条件无效。

4.3 显式等待： `WebDriverWait` + `expected_conditions`

最强大、最推荐的方式。针对某个特定条件进行等待，条件满足则立即继续执行，超时则抛出异常。

from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 等待直到ID为‘kw’的元素出现在DOM中并且可见
wait = WebDriverWait(driver, 10) # 最长等待10秒
element = wait.until(EC.visibility_of_element_located((By.ID, ‘kw’)))
element.send_keys(“hello”)

# 等待直到元素可被点击
button = wait.until(EC.element_to_be_clickable((By.ID, ‘submitBtn’)))
button.click()

# 等待直到页面标题包含某个关键词
wait.until(EC.title_contains(“百度一下”))

expected_conditions 模块提供了很多预定义条件，如元素可见、可点击、被选中、弹窗出现等。 显式等待是编写健壮自动化脚本的基石 ，它能精准控制等待逻辑，避免不必要的等待，大大提高脚本的稳定性和执行效率。

避坑技巧 ：在实际项目中，我通常采用“显式等待为主，隐式等待为辅，强制等待慎用”的策略。先设置一个较短的隐式等待（如5秒）作为兜底，然后在关键操作步骤（如点击重要按钮、等待新页面加载、等待弹窗）前使用显式等待。记住，一个稳定的脚本，其等待逻辑的设计至关重要。

5. 高级操作与浏览器控制

掌握了基本操作和等待，你已经能完成很多任务了。但Selenium的能力远不止于此。

5.1 处理JavaScript弹窗

网页上常见的 alert 、 confirm 、 prompt 对话框，Selenium也能处理。

from selenium.webdriver.common.alert import Alert

# 触发一个alert
driver.execute_script(“alert(‘这是一个测试弹窗’);”)
# 切换到alert
alert = Alert(driver)
# 获取弹窗文本
print(alert.text)
# 点击“确定”
alert.accept()
# 如果是confirm，还可以点击“取消”
# alert.dismiss()
# 如果是prompt，还可以输入文本
# alert.send_keys(‘输入的内容’)

5.2 执行JavaScript代码

有些操作通过WebDriver API难以实现，比如滚动页面、修改元素属性，可以直接注入JavaScript。

# 滚动到页面底部
driver.execute_script(“window.scrollTo(0, document.body.scrollHeight);”)
time.sleep(2)
# 滚动到页面顶部
driver.execute_script(“window.scrollTo(0, 0);”)

# 将某个输入框的背景色临时改为黄色高亮（用于调试）
element = driver.find_element(By.ID, ‘kw’)
driver.execute_script(“arguments[0].style.backgroundColor = ‘yellow’;”, element)

5.3 浏览器窗口与标签页操作

# 获取当前窗口句柄
current_window = driver.current_window_handle
print(“当前窗口句柄：”, current_window)

# 打开一个新标签页
driver.execute_script(“window.open(‘’);”)
# 获取所有窗口句柄
all_windows = driver.window_handles
# 切换到新打开的标签页
driver.switch_to.window(all_windows[1])
driver.get(“https://www.google.com”)
time.sleep(2)
# 切换回原来的标签页
driver.switch_to.window(current_window)

# 浏览器导航
driver.back() # 后退
driver.forward() # 前进
driver.refresh() # 刷新

5.4 鼠标与键盘高级动作

对于悬停、拖拽、右键等复杂鼠标操作，以及组合键，需要使用 ActionChains 类。

from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.common.keys import Keys

element = driver.find_element(By.LINK_TEXT, “设置”)
# 鼠标悬停
ActionChains(driver).move_to_element(element).perform()
time.sleep(1)

# 链式操作：点击并按住，移动到另一个位置，然后释放（模拟拖拽）
source = driver.find_element(By.ID, ‘draggable’)
target = driver.find_element(By.ID, ‘droppable’)
ActionChains(driver).drag_and_drop(source, target).perform()

# 键盘操作：全选输入框内容 (Ctrl+A)
input_box = driver.find_element(By.ID, ‘kw’)
input_box.send_keys(“一些文本”)
ActionChains(driver).key_down(Keys.CONTROL).send_keys(‘a’).key_up(Keys.CONTROL).perform()

6. 实战源码案例：自动登录并抓取用户中心信息

光说不练假把式。我们来看一个相对完整的实战案例：模拟登录一个假设的论坛网站，登录成功后进入用户中心，抓取用户名和积分信息。

假设目标网站登录页面元素如下：

用户名输入框： <input type=“text” id=“username”>
密码输入框： <input type=“password” id=“password”>
登录按钮： <button id=“loginBtn”>登录</button>
登录成功后，用户中心页面显示： <span class=“user-name”>欢迎，[用户名]</span> 和 <span class=“user-points”>积分：[积分]</span>

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

class ForumAutoLogin:
    def __init__(self):
        # 初始化驱动，可在此处配置无头模式、代理等选项
        options = webdriver.ChromeOptions()
        # 可选：无头模式，不显示浏览器界面
        # options.add_argument(‘--headless’)
        # 可选：禁用GPU加速，避免一些潜在问题
        options.add_argument(‘--disable-gpu’)
        # 可选：禁用沙箱，在某些Linux环境下可能需要
        # options.add_argument(‘--no-sandbox’)
        self.driver = webdriver.Chrome(options=options)
        self.wait = WebDriverWait(self.driver, 15) # 设置一个全局显式等待
        self.driver.implicitly_wait(5) # 设置一个较短的隐式等待作为兜底

    def login(self, url, username, password):
        “”“执行登录操作”“”
        try:
            print(f“正在访问登录页面：{url}”)
            self.driver.get(url)

            # 1. 等待并定位用户名输入框
            print(“正在定位用户名输入框...”)
            username_input = self.wait.until(
                EC.presence_of_element_located((By.ID, “username”))
            )
            username_input.clear()
            username_input.send_keys(username)
            print(f“已输入用户名：{username}”)

            # 2. 定位并输入密码
            print(“正在定位密码输入框...”)
            password_input = self.driver.find_element(By.ID, “password”)
            password_input.clear()
            password_input.send_keys(password)
            print(“密码已输入”)

            # 3. 定位并点击登录按钮
            print(“正在定位登录按钮...”)
            login_button = self.wait.until(
                EC.element_to_be_clickable((By.ID, “loginBtn”))
            )
            login_button.click()
            print(“已点击登录按钮”)

            # 4. 等待登录成功后的页面跳转或元素出现
            # 这里假设登录成功后，页面会出现一个用户名的欢迎信息
            print(“等待登录成功...”)
            self.wait.until(
                EC.presence_of_element_located((By.CLASS_NAME, “user-name”))
            )
            print(“登录成功！”)
            return True
        except Exception as e:
            print(f“登录过程中出现异常：{e}”)
            # 可以在这里截图保存，方便排查问题
            self.driver.save_screenshot(‘login_error.png’)
            return False

    def get_user_info(self):
        “”“获取用户中心信息”“”
        try:
            # 等待用户信息元素加载
            name_element = self.wait.until(
                EC.visibility_of_element_located((By.CLASS_NAME, “user-name”))
            )
            points_element = self.driver.find_element(By.CLASS_NAME, “user-points”)

            username = name_element.text.replace(“欢迎，”, “”).strip()
            points = points_element.text.replace(“积分：”, “”).strip()

            print(“=”*30)
            print(f“用户名：{username}”)
            print(f“用户积分：{points}”)
            print(“=”*30)
            return {“username”: username, “points”: points}
        except Exception as e:
            print(f“获取用户信息失败：{e}”)
            return None

    def run(self, login_url, username, password):
        “”“主运行流程”“”
        if self.login(login_url, username, password):
            time.sleep(2) # 稍作等待，让用户中心页面完全稳定
            user_info = self.get_user_info()
            if user_info:
                # 这里可以将信息保存到文件或数据库
                with open(‘user_info.txt’, ‘w’, encoding=‘utf-8’) as f:
                    f.write(str(user_info))
                print(“用户信息已保存到文件。”)
        else:
            print(“登录失败，程序终止。”)

        # 程序结束前，等待一会儿方便观察，然后关闭浏览器
        time.sleep(5)
        self.driver.quit()

if __name__ == “__main__”:
    # 配置你的实际信息
    LOGIN_URL = “https://your-forum-site.com/login” # 替换为实际登录地址
    USERNAME = “your_username”
    PASSWORD = “your_password”

    bot = ForumAutoLogin()
    bot.run(LOGIN_URL, USERNAME, PASSWORD)

案例代码解析与关键点：

结构化设计 ：使用了类（ class ）来组织代码，将浏览器驱动、等待对象封装为实例属性，将登录、获取信息等步骤封装为方法。这使得代码更清晰，易于维护和扩展。
健壮的等待策略 ：综合运用了显式等待（ WebDriverWait ）和隐式等待。在关键步骤（如等待输入框出现、等待按钮可点击、等待登录后元素）使用显式等待，并设置了明确的等待条件（如 visibility_of_element_located , element_to_be_clickable ），这是脚本稳定性的核心。
异常处理 ：使用 try...except 块捕获可能出现的异常（如元素未找到、超时等），并打印错误信息和截图。在实际自动化任务中，完善的异常处理和日志记录是必不可少的。
可配置性 ：将登录URL、用户名、密码作为参数传入，而不是硬编码在逻辑里，提高了代码的复用性。
无头模式选项 ：代码中注释了无头模式（ --headless ）的选项。在服务器或不需要图形界面的环境下运行脚本时，可以取消注释，浏览器将在后台运行，不显示窗口，节省资源。

7. 常见问题排查与进阶技巧

即使按照教程一步步来，你也可能会遇到各种问题。这里汇总了一些典型问题及解决方法。

7.1 高频报错与解决方案

报错信息	可能原因	解决方案
`selenium.common.exceptions.WebDriverException: Message: ‘chromedriver’ executable needs to be in PATH.`	系统找不到ChromeDriver。	1. 确认已下载ChromeDriver。2. 将其所在目录添加到系统PATH环境变量，或将其放在Python安装目录下，或在代码中指定 `executable_path` 参数。
`selenium.common.exceptions.SessionNotCreatedException: Message: session not created: This version of ChromeDriver only supports Chrome version XX`	Chrome浏览器版本与ChromeDriver驱动版本不匹配。	检查Chrome浏览器版本，下载完全相同主版本号的ChromeDriver。
`selenium.common.exceptions.NoSuchElementException: Message: no such element: Unable to locate element`	找不到页面元素。	1. 最常见原因：元素还没加载出来。增加等待时间，使用显式等待。2. 定位器写错了（ID/Class/XPATH不对）。用浏览器开发者工具仔细核对。3. 元素在 `<iframe>` 框架内，需要先 `driver.switch_to.frame()` 切换进去。4. 元素在新打开的窗口/标签页，需要先切换窗口句柄。
`selenium.common.exceptions.ElementNotInteractableException: Message: element not interactable`	元素存在但不可交互（如被遮挡、不可见、禁用）。	1. 等待元素变为可交互状态（使用 `EC.element_to_be_clickable` ）。2. 检查是否有遮罩层（Modal）。3. 尝试用JavaScript直接操作元素（ `driver.execute_script(“arguments[0].click();”, element)` ）。
脚本在本地运行成功，放服务器上失败	环境差异。服务器可能无图形界面、浏览器未安装或版本不同。	1. 在服务器上安装对应版本的浏览器（如 `apt-get install chromium-browser` ）。2. 使用无头模式（ `--headless` ）。3. 确保服务器上的驱动版本与浏览器匹配。

7.2 反爬虫策略应对基础

很多网站会检测并屏蔽自动化脚本。Selenium驱动浏览器时，会留下一些特征（如 navigator.webdriver 属性为 true ）。初级反爬措施：

options = webdriver.ChromeOptions()

# 1. 添加实验性选项，规避检测（不一定总是有效）
options.add_experimental_option(“excludeSwitches”, [“enable-automation”])
options.add_experimental_option(‘useAutomationExtension’, False)

# 2. 修改 navigator.webdriver 属性（需在启动后执行JS）
driver = webdriver.Chrome(options=options)
driver.execute_cdp_cmd(“Page.addScriptToEvaluateOnNewDocument”, {
    “source”: “””
        Object.defineProperty(navigator, ‘webdriver’, {
            get: () => undefined
        });
    “””
})

# 3. 使用真实用户代理（User-Agent）
options.add_argument(‘user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ...’)

# 4. 添加随机延迟，模拟真人操作
import random
time.sleep(random.uniform(1, 3)) # 随机等待1-3秒

重要提醒 ：这些方法只能应对基础检测。现代高级反爬系统（如Distil Networks, Imperva）能通过行为指纹、Canvas指纹等多维度识别自动化流量。请务必遵守网站的 robots.txt 协议，尊重版权，控制访问频率，不要对目标网站造成压力。将Selenium用于学习、测试或已获得授权的场景。

7.3 性能优化与最佳实践

复用浏览器会话 ：对于需要多次运行的脚本，可以考虑复用已经打开的浏览器和用户数据目录，避免每次重新登录。
```
options.add_argument(f”user-data-dir={os.path.expanduser(‘~’)}/chrome_profile”)
```
合理使用无头模式 ：在不需要观察浏览器界面的场景（如服务器定时任务），务必启用无头模式，可以显著减少资源消耗。
及时清理资源 ：脚本结束时，务必调用 driver.quit() ，而不是 driver.close() 。 quit() 会关闭所有窗口并终止WebDriver进程，释放资源； close() 只关闭当前标签页。
元素定位策略 ：尽量使用稳定的定位方式。避免使用绝对XPath（如 /html/body/div[3]/div[2]/span ），这种路径一旦页面结构微调就会失效。使用相对路径、ID或CSS Selector。
日志与截图 ：在关键步骤和异常捕获处添加日志输出和屏幕截图功能，这是后期调试和排查问题的救命稻草。

走到这里，你已经掌握了Selenium从环境搭建到编写一个完整自动化脚本的核心技能。记住，自动化脚本的编写是一个“迭代”和“调试”的过程，很少有一次写成的。多动手，多遇到问题，多解决问题，你的能力才会快速提升。下一步，你可以尝试更复杂的项目，比如结合 pandas 处理抓取的数据，用 schedule 库实现定时任务，或者探索更强大的Playwright框架。但无论如何，Selenium给你打下的基础，会让你在自动化这条路上走得更稳。

亚马逊云科技技术品牌专区

更多推荐

Kiro Editor 开发实战：使用 Cargo 构建、测试与性能优化指南

欢迎来到这篇终极指南，我们将深入探索如何使用Rust构建高性能的终端文本编辑器Kiro Editor。无论你是Rust新手还是经验丰富的开发者，这篇完整教程将带你了解如何利用Cargo工具链进行高效的开发、测试和性能优化，打造一款快速、轻量且功能强大的UTF-8文本编辑器。## 什么是Kiro Editor？Kiro Editor是一款使用Rust编写的极简终端文本编辑器，它最初是著名编辑