Python+Selenium入门：手把手教你编写第一个Web自动化测试脚本

山海尽明意

342人浏览 · 2026-06-17 11:57:55

山海尽明意 · 2026-06-17 11:57:55 发布

1. 项目概述：从零到一，敲开Web自动化测试的大门

“第一个Web自动化测试脚本”，这听起来像是一个简单的起点，但对于很多测试工程师或开发同学来说，它却是一道实实在在的门槛。我见过不少朋友，对着Selenium、Playwright这些工具的名字望而却步，总觉得自动化测试是件复杂又高深的事情。今天，我就来带你亲手敲出这“第一个脚本”，用最直白的方式，让你在半小时内看到浏览器如何在你写的代码指挥下自动操作。这不仅仅是写几行代码，更是理解自动化测试核心思想的第一步： 将重复、机械的人工操作，转化为可重复、可验证、高效率的代码执行 。

无论你是想提升测试效率的测试工程师，还是希望自己写的网页功能更可靠的开发者，甚至是好奇技术如何模拟人类操作的产品经理，这个“第一个脚本”都将是一个绝佳的实践入口。我们会使用目前最主流、对新手最友好的工具组合—— Python + Selenium ，来完成一个经典的“在搜索引擎中输入关键词并验证结果”的自动化场景。别担心环境配置，我会一步步带你走通，重点不仅是“怎么做”，更是“为什么这么做”，以及那些只有踩过坑才知道的“注意事项”。

2. 环境准备与工具选型：为什么是Python + Selenium？

在开始写代码之前，搭建一个稳定、可复现的测试环境是成功的一半。工具选型背后是一系列的权衡，我选择Python和Selenium这套组合，是基于多年实战下来对效率、生态和上手成本的综合考量。

2.1 核心工具链解析

1. Python 作为编程语言 为什么不是Java、C#或者JavaScript？对于自动化测试，尤其是入门和日常脚本编写，Python的优势非常明显：

语法简洁，上手快 ：Python代码接近自然语言，你可以更专注于测试逻辑本身，而不是复杂的语法结构。这对于需要频繁修改、调试的测试脚本来说，效率提升巨大。
强大的生态系统 ： pip 包管理器让安装任何第三方库（如Selenium）变得轻而易举。除了测试，数据处理（pandas）、报告生成等周边需求也有丰富的库支持。
跨平台 ：在Windows、macOS或Linux上，Python环境和脚本都能良好运行，保证了测试脚本的可移植性。

注意：建议使用Python 3.7及以上版本，避免一些旧版本兼容性问题。可以在命令行输入 python --version 或 python3 --version 来检查。

2. Selenium 作为浏览器自动化框架 Selenium不是一个单独的工具，而是一个项目集合。我们主要用到的是 Selenium WebDriver 。它是W3C推荐的标准，提供了与各种浏览器进行交互的统一API。你可以把它想象成一个“遥控器”，你的代码通过这个“遥控器”向浏览器发送指令（如点击、输入），并获取浏览器状态（如页面标题、元素文本）。

核心价值 ：实现了对浏览器真实、原生的操作模拟，测试环境更贴近真实用户。
支持广泛 ：Chrome、Firefox、Edge、Safari等主流浏览器全部支持。

3. 浏览器驱动 这是关键但易出错的一环。WebDriver API需要通过与特定浏览器对应的“驱动程序”来实际控制浏览器。例如，要控制Chrome，就需要 ChromeDriver 。这个驱动必须与你的 浏览器主版本号 匹配，否则无法工作。

2.2 一步步搭建你的测试环境

下面我们以Windows/macOS系统，Chrome浏览器为例，进行环境搭建。请严格按照顺序操作。

步骤1：安装Python 如果你还没有安装Python，请访问 python.org 下载安装包。安装时务必勾选 “Add Python to PATH” 选项，这样才可以在命令行中直接使用 python 和 pip 命令。

步骤2：安装Selenium库 打开命令行终端（CMD、PowerShell或Terminal），输入以下命令，通过pip安装Selenium包。

pip install selenium

如果速度慢，可以使用国内镜像源，例如：

pip install selenium -i https://pypi.tuna.tsinghua.edu.cn/simple

步骤3：下载并配置ChromeDriver

首先，打开你的Chrome浏览器，点击右上角三个点 -> 帮助 -> 关于Google Chrome，查看完整的版本号（例如， 128.0.6613.138 ）。
打开ChromeDriver的官方下载站点或国内镜像站。你需要下载与你的Chrome 主版本号 （例如 128 ）一致的驱动。如果找不到完全一致的，选择版本号最接近的。
下载对应操作系统的文件（Windows是 .zip ，macOS/Linux是 .tar.gz ）。
解压下载的文件，你会得到一个名为 chromedriver （或 chromedriver.exe ）的可执行文件。
配置路径（三种常用方法，任选其一） ：
- 方法A（推荐，放入Python脚本目录） ：将 chromedriver 文件直接放在你即将编写Python测试脚本的同一个文件夹里。这是最简单直接的方式。
- 方法B（放入系统PATH） ：将 chromedriver 文件放在一个固定目录（如 C:\WebDriver 或 /usr/local/bin ），然后将该目录添加到系统的环境变量 PATH 中。这样可以在任何位置运行脚本。
- 方法C（代码指定路径） ：在后续的Python代码中，通过指定 executable_path 参数来告诉Selenium驱动在哪里（后续代码示例会展示）。

实操心得 ：驱动版本不匹配是新手最常遇到的“拦路虎”。一个快速检查的方法是：在命令行中，进入驱动所在目录，运行 ./chromedriver （macOS/Linux）或 chromedriver.exe （Windows）。如果它启动并监听一个端口（如9515），而没有报版本错误，基本就是可用的。另外，建议固定你的浏览器版本和驱动版本，避免因自动升级导致脚本突然失效。

3. 第一个脚本实战：让浏览器自动搜索

环境就绪，现在我们来编写第一个有实际意义的脚本。我们的目标是：自动打开Chrome浏览器，访问百度首页，在搜索框中输入“Selenium自动化测试”，并点击搜索按钮，最后验证搜索结果页面标题是否包含关键词。

3.1 脚本编写与逐行解析

创建一个新的Python文件，例如 first_web_auto_test.py ，用任何文本编辑器或IDE（如VSCode、PyCharm）打开，输入以下代码：

# 导入selenium的webdriver模块，这是所有浏览器自动化的起点
from selenium import webdriver
# 导入By类，用于指定定位元素的方式（如通过ID、NAME、CSS选择器等）
from selenium.webdriver.common.by import By
# 导入WebDriverWait和expected_conditions，用于实现“智能等待”
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 1. 创建浏览器驱动实例，启动Chrome浏览器
# 如果chromedriver不在PATH中，需要指定executable_path参数，例如：
# driver = webdriver.Chrome(executable_path=r‘./chromedriver’)
driver = webdriver.Chrome()

try:
    # 2. 打开目标网址 - 百度首页
    driver.get("https://www.baidu.com")
    print("已成功打开百度首页")

    # 3. 定位搜索框并输入关键词
    # 通过检查百度首页搜索框的HTML，我们发现它的id是‘kw’
    # find_element方法用于定位页面上第一个匹配的元素
    search_box = driver.find_element(By.ID, "kw")
    # 模拟键盘输入，向搜索框发送文本
    search_box.send_keys("Selenium自动化测试")
    print("已在搜索框中输入关键词")

    # 4. 定位搜索按钮并点击
    # 百度搜索按钮的id是‘su’
    search_button = driver.find_element(By.ID, "su")
    # 模拟鼠标点击动作
    search_button.click()
    print("已点击搜索按钮")

    # 5. 等待搜索结果页面加载完成，并验证
    # 显式等待：设置一个最长等待时间（这里10秒），并等待某个条件成立
    # 这里我们等待搜索结果页面的标题（title）包含“Selenium自动化测试”这个字符串
    # 这比使用固定的time.sleep(秒数)更智能、更高效
    wait = WebDriverWait(driver, 10)
    # expected_conditions.title_contains 是一个条件判断函数
    result = wait.until(EC.title_contains("Selenium自动化测试"))
    
    if result:
        print("测试通过！搜索结果页面标题包含‘Selenium自动化测试’。")
        print("当前页面标题是:", driver.title)
    else:
        print("测试未通过，页面标题不符合预期。")

except Exception as e:
    # 捕获并打印运行过程中出现的任何异常
    print(f"脚本运行过程中出现错误: {e}")

finally:
    # 6. 无论成功与否，最后都关闭浏览器
    # 等待几秒，方便人工查看结果
    import time
    time.sleep(3)
    # driver.quit() 会关闭所有窗口并结束WebDriver会话，释放资源
    # 使用driver.close()只会关闭当前标签页，如果只有一个标签页则效果相同
    driver.quit()
    print("浏览器已关闭，测试结束。")

3.2 核心操作原理解析

1. 元素定位：自动化测试的基石 driver.find_element(By.ID, "kw") 这行代码是自动化脚本的核心。 By.ID 表示使用HTML元素的 id 属性来定位。 id 在理想情况下应该是页面内唯一的，是最快速、最可靠的定位方式。除了 By.ID ，还有：

By.NAME : 根据 name 属性定位。
By.CLASS_NAME : 根据 class 属性定位。
By.CSS_SELECTOR : 使用CSS选择器定位，功能强大且灵活。
By.XPATH : 使用XPath路径定位，可以处理非常复杂的定位需求。

注意事项 ：优先使用 ID 和 NAME ，因为它们通常更稳定。避免使用绝对XPath（如 /html/body/div[3]/div[2]/form/span[1]/input ），因为页面结构微调就会导致定位失败。应使用相对XPath或CSS选择器。

2. 等待机制：让脚本更健壮 网络有快慢，页面加载需要时间。如果代码在页面元素还没出现时就尝试去操作它，就会抛出 NoSuchElementException （找不到元素）异常。

强制等待 ： time.sleep(5) ，让线程暂停5秒。简单粗暴，但效率低下，无论页面是否加载完成都必须等。
隐式等待 ： driver.implicitly_wait(10) ，设置一个全局等待时间。在查找任何元素时，如果元素没有立即出现，WebDriver会轮询查找直到超时。但它只对 find_element 查找元素有效。
显式等待 ：我们脚本中使用的方式。它针对某个特定条件进行等待，如“元素可点击”、“元素可见”、“标题包含某文字”。 WebDriverWait 配合 expected_conditions 是最佳实践，它只在需要时等待，条件满足立即继续，最大程度节省时间并提高稳定性。

3. 驱动会话的生命周期 driver = webdriver.Chrome() 这一行代码，背后启动了一个完整的浏览器进程和一个WebDriver服务会话。 driver.quit() 是至关重要的清理步骤，它会关闭所有关联的浏览器窗口，并终止驱动进程。如果不调用，后台可能会残留许多浏览器和 chromedriver 进程，消耗系统资源。

4. 脚本优化与进阶技巧

第一个脚本能跑通，但还很脆弱。下面我们把它变得更健壮、更专业。

4.1 封装常用操作与页面对象模型雏形

直接将定位和操作写在主流程里，脚本会难以维护。我们可以简单封装一下，这是向“页面对象模型”设计模式迈进的一小步。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

class BaiduPage:
    """百度首页的页面操作封装"""
    # 将页面元素定位器集中管理，像地图坐标
    SEARCH_INPUT = (By.ID, ‘kw‘)  # 搜索框
    SEARCH_BUTTON = (By.ID, ‘su‘) # 搜索按钮

    def __init__(self, driver):
        self.driver = driver
        self.wait = WebDriverWait(self.driver, 10)

    def open(self):
        """打开百度首页"""
        self.driver.get("https://www.baidu.com")
        # 等待页面关键元素（搜索框）出现，确保页面加载完成
        self.wait.until(EC.presence_of_element_located(self.SEARCH_INPUT))
        return self

    def search(self, keyword):
        """执行搜索操作"""
        # 查找元素并输入
        self.driver.find_element(*self.SEARCH_INPUT).send_keys(keyword)
        # 点击搜索
        self.driver.find_element(*self.SEARCH_BUTTON).click()
        # 等待搜索结果页面标题变化
        self.wait.until(EC.title_contains(keyword))
        return SearchResultPage(self.driver) # 可以返回下一个页面对象

class SearchResultPage:
    """搜索结果页面的操作封装"""
    def __init__(self, driver):
        self.driver = driver
        self.wait = WebDriverWait(self.driver, 5)

    def get_first_result_title(self):
        """获取第一个搜索结果的标题文本（示例）"""
        # 假设第一个结果标题的CSS选择器是 ‘#content_left h3.t a‘
        first_result = self.wait.until(
            EC.presence_of_element_located((By.CSS_SELECTOR, ‘#content_left h3.t a‘))
        )
        return first_result.text

# 主脚本变得非常简洁清晰
driver = webdriver.Chrome()
try:
    baidu_page = BaiduPage(driver).open()
    result_page = baidu_page.search("Selenium自动化测试")
    
    first_title = result_page.get_first_result_title()
    print(f"第一个搜索结果是: {first_title[:50]}...") # 打印前50个字符

except Exception as e:
    print(f"测试失败: {e}")
finally:
    import time
    time.sleep(2)
    driver.quit()

这样做的好处是：业务逻辑（测试步骤）和页面细节（元素定位）分离。当百度页面的 ID 或结构发生变化时，你只需要修改 BaiduPage 类中的定位器，而不需要去改动主测试逻辑，大大提升了代码的可维护性。

4.2 处理常见交互与弹窗

真实的网页会有弹窗、下拉框、iframe等复杂交互。

处理JavaScript弹窗（Alert/Confirm/Prompt） ：

from selenium.webdriver.common.alert import Alert

# 触发一个alert后，切换到alert并操作
alert = Alert(driver)
print(“弹窗文本是:”, alert.text)
alert.accept() # 点击“确定”
# alert.dismiss() # 点击“取消”
# alert.send_keys(‘输入文本‘) # 用于Prompt弹窗输入

操作下拉选择框 ：

from selenium.webdriver.support.ui import Select

# 假设有一个id为‘city‘的下拉框
select_element = driver.find_element(By.ID, ‘city‘)
select = Select(select_element)

# 通过可见文本选择
select.select_by_visible_text(‘北京‘)
# 通过value属性选择
# select.select_by_value(‘beijing‘)
# 通过索引选择（从0开始）
# select.select_by_index(1)

在iframe/frame之间切换 ：如果元素位于一个 <iframe> 内部，你必须先切换到该iframe，才能定位其中的元素。

# 通过iframe的id或name切换
driver.switch_to.frame(‘iframe_id_or_name‘)
# 或者通过定位到的iframe元素切换
# iframe_element = driver.find_element(By.TAG_NAME, ‘iframe‘)
# driver.switch_to.frame(iframe_element)

# 操作iframe内的元素...

# 操作完成后，切换回主页面
driver.switch_to.default_content()

5. 常见问题排查与调试技巧

即使按照步骤操作，你也可能会遇到一些问题。这里汇总了新手最常见的“坑”及其解决方案。

5.1 驱动与浏览器版本不匹配

问题现象 ：执行 driver = webdriver.Chrome() 时报错，提示“This version of ChromeDriver only supports Chrome version XX”或“无法启动Chrome进程”。

解决方案 ：

确认你的Chrome浏览器版本。
访问ChromeDriver下载站，下载与浏览器 主版本号 完全一致的驱动。如果找不到完全一致的，下载版本号最接近的（通常低一两个小版本也可能兼容）。
确保驱动文件路径正确，并具有可执行权限（在macOS/Linux上可能需要 chmod +x chromedriver ）。

5.2 元素找不到（NoSuchElementException）

这是最频繁出现的错误。

可能原因及排查步骤 ：

等待时间不足 ：页面还没加载完就去查找元素。 解决方案 ：增加隐式等待或使用显式等待（推荐）。
定位器写错了 ：ID、Class名或CSS选择器有误。 解决方案 ：使用浏览器的开发者工具（F12）仔细检查元素属性。在“Elements”面板中，右键点击元素，选择“Copy” -> “Copy selector” 或 “Copy XPath”可以快速获取定位表达式，但需谨慎使用自动生成的绝对XPath。
元素在iframe/frame内 ： 解决方案 ：先使用 driver.switch_to.frame() 切换到正确的iframe。
元素是动态生成的 ：有些元素是在页面加载后通过JavaScript动态添加的。 解决方案 ：使用显式等待，条件设为元素出现（ presence_of_element_located ）或可见（ visibility_of_element_located ）。
页面有多个匹配元素 ： find_element 只返回第一个。如果你需要操作第二个，应使用 find_elements （返回列表）然后按索引获取，或者使用更精确的定位器。

5.3 脚本运行不稳定，有时成功有时失败

可能原因 ：

网络波动或页面响应慢 ： 解决方案 ：适当增加显式等待的超时时间（如从10秒加到20秒）。
使用了不稳定的定位方式 ：如依赖元素顺序或绝对位置的XPath。 解决方案 ：改用更稳定的定位方式，如唯一的 ID ，或基于 data-* 属性的CSS选择器。
没有考虑动画或过渡效果 ：点击后，页面可能有一个渐入或滑动效果，元素虽然存在但不可交互。 解决方案 ：等待元素可点击（ element_to_be_clickable ）而不仅仅是存在。

5.4 实用的调试技巧

截屏保存现场 ：当脚本失败时，自动截屏能帮你快速定位问题出现在哪个页面状态。
```
driver.save_screenshot(‘error_screenshot.png‘)
```

打印当前页面信息 ：在关键步骤前后打印URL、标题或页面源码。

print(“当前URL:”, driver.current_url)
print(“当前标题:”, driver.title)
# print(driver.page_source) # 慎用，输出很长

高亮显示正在操作的元素 ：通过执行JavaScript给元素加个边框，在脚本运行时就能看清它在操作哪个元素。
```
element = driver.find_element(By.ID, ‘kw‘)
driver.execute_script(“arguments[0].style.border=‘3px solid red‘“, element)
```

6. 从脚本到测试用例：融入测试框架

单个脚本只是一个开始。真正的自动化测试需要组织、管理和报告。这时就需要引入测试框架，如Python自带的 unittest 或更流行的 pytest 。

6.1 使用pytest组织测试

pytest 以其简洁的语法和强大的功能成为Python测试的事实标准。下面我们将第一个脚本改造成一个 pytest 测试用例。

首先，安装pytest：

pip install pytest

然后，创建一个测试文件 test_baidu_search.py ：

import pytest
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 这是一个fixture，用于初始化和清理浏览器驱动
# scope=“function“表示每个测试函数都会执行一次setup和teardown
@pytest.fixture(scope=“function“)
def driver():
    # 测试开始前，启动浏览器
    d = webdriver.Chrome()
    d.implicitly_wait(5) # 设置一个全局隐式等待
    yield d # 将驱动对象传递给测试函数
    # 测试结束后，关闭浏览器
    d.quit()

# 一个简单的测试函数
def test_baidu_search_title(driver): # driver参数会自动注入上面定义的fixture
    """测试百度搜索功能，验证结果页面标题"""
    driver.get(“https://www.baidu.com“)
    
    search_box = driver.find_element(By.ID, ‘kw‘)
    search_box.send_keys(“pytest测试框架“)
    
    search_button = driver.find_element(By.ID, ‘su‘)
    search_button.click()
    
    # 使用显式等待进行断言
    wait = WebDriverWait(driver, 10)
    # assert 语句是pytest进行断言的方式
    # wait.until 本身会等待条件成立，如果超时则抛出异常，测试失败
    assert wait.until(EC.title_contains(“pytest测试框架“))
    
    # 也可以获取标题后断言
    # actual_title = driver.title
    # assert “pytest测试框架“ in actual_title

# 另一个测试函数，可以测试不同的搜索词
def test_baidu_search_empty_keyword(driver):
    """测试搜索空关键词的行为"""
    driver.get(“https://www.baidu.com“)
    
    search_button = driver.find_element(By.ID, ‘su‘)
    search_button.click() # 不输入内容直接点击搜索
    
    # 验证页面是否仍然停留在百度首页，或者有相应的提示
    # 这里只是示例，实际断言需要根据页面行为来定
    assert “百度一下“ in driver.title

在命令行中，进入该文件所在目录，运行：

pytest test_baidu_search.py -v

-v 参数可以输出更详细的测试结果。pytest会自动发现以 test_ 开头的函数并执行，清晰地将每个测试用例分离，并生成专业的测试报告。

6.2 生成测试报告

单纯的命令行输出不够直观。可以使用 pytest-html 插件生成漂亮的HTML报告。

pip install pytest-html
pytest test_baidu_search.py --html=report.html

运行后，会在当前目录生成一个 report.html 文件，用浏览器打开即可看到包含通过率、失败详情、执行时间等信息的可视化报告。

走到这一步，你的“第一个Web自动化测试脚本”已经进化成了一个结构清晰、易于维护、具备专业报告能力的自动化测试项目雏形。记住，自动化测试不是一蹴而就的，从一个小脚本开始，逐步封装、抽象、集成到框架中，才是可持续的实践道路。当你下次再需要测试一个搜索功能时，你只需要写一个新的 test_xxx_search 函数，或者稍微修改一下页面对象类，效率的提升是肉眼可见的。

亚马逊云科技技术品牌专区

更多推荐

Kiro Editor 开发实战：使用 Cargo 构建、测试与性能优化指南

欢迎来到这篇终极指南，我们将深入探索如何使用Rust构建高性能的终端文本编辑器Kiro Editor。无论你是Rust新手还是经验丰富的开发者，这篇完整教程将带你了解如何利用Cargo工具链进行高效的开发、测试和性能优化，打造一款快速、轻量且功能强大的UTF-8文本编辑器。## 什么是Kiro Editor？Kiro Editor是一款使用Rust编写的极简终端文本编辑器，它最初是著名编辑