从零搭建Python+Selenium+Pytest UI自动化测试框架实战指南

Robeon Lee

291人浏览 · 2026-06-22 13:04:51

Robeon Lee · 2026-06-22 13:04:51 发布

1. 项目概述：从“点点点”到“自动跑”，UI自动化的价值跃迁

干了这么多年测试，最怕听到开发说“就改了一行代码，你随便测测”。结果一测，登录挂了、支付崩了、页面样式全乱了。这种场景，但凡在一线待过的测试工程师，估计都深有体会。UI自动化，就是在这种“人肉测试”的疲惫与“快速交付”的压力夹缝中，生长出来的一剂良药。它不是什么高深莫测的黑科技，本质上就是让程序模拟人的操作，去点击、输入、滑动，然后验证页面的响应是否符合预期。但就是这么个简单的想法，一旦规模化、工程化，就能把测试人员从大量重复、枯燥的回归测试中解放出来，让他们有更多精力去探索新功能、设计更复杂的场景，甚至去琢磨性能、安全这些更有挑战性的领域。

简单来说，UI自动化解决的核心痛点就两个： 回归测试的效率 和 测试执行的稳定性 。想象一下，一个核心购物流程，每次发版都要手动走一遍，从登录、浏览、加购、下单到支付，少说也得10分钟。如果一天发5个版本，光这一个流程就得耗掉近一个小时，还不算中途可能出现的误操作和疲劳导致的遗漏。而UI自动化脚本，可以在无人值守的深夜，用几分钟时间就完成同样的流程，并且每次操作都精准无误。这不仅仅是时间上的节省，更是对软件质量信心的巨大提升——你知道每次代码变更后，核心功能依然是稳固的。

那么，谁适合搞UI自动化？如果你是测试新手，想提升自己的技术栈和职场竞争力，UI自动化是绝佳的切入点，它连接了业务（测试用例）与技术（编程、框架）。如果你是业务测试专家，苦于回归测试占用太多时间，学习UI自动化能让你事半功倍。甚至对于开发同学，写个自动化脚本来自测自己开发的功能是否被其他改动影响，也是个高效的习惯。接下来，我们就抛开那些空洞的概念，直接切入实战，看看如何从零开始，搭建一个真正能用、好用的UI自动化框架。

2. 框架选型与核心设计思路

市面上UI自动化的工具和框架多如牛毛，从商业化的UFT、TestComplete，到开源的Selenium、Cypress、Playwright，还有移动端专用的Appium、Airtest。对于大多数团队，尤其是从零开始的团队，我的建议很明确： 优先考虑开源、生态活跃、学习成本适中、且能覆盖你主要技术栈的工具 。基于这个原则，我们以Web端为例，一个经典的、久经考验的技术栈组合是： Python + Selenium + Pytest 。这个组合几乎成了行业事实上的标准，不是因为它最先进，而是因为它最平衡、资源最丰富、坑都被踩得差不多了。

2.1 为什么是Python + Selenium + Pytest？

Python ：语法简洁，上手快，对于测试人员非常友好。庞大的第三方库生态（如 requests 用于接口测试， openpyxl 用于处理Excel测试数据）能让你的测试框架能力轻松扩展。社区活跃，任何问题几乎都能找到答案。
Selenium ：Web UI自动化的“老大哥”，支持所有主流浏览器（Chrome, Firefox, Edge, Safari），语言绑定丰富（Python, Java, C#等）。它的原理是通过浏览器驱动（如ChromeDriver）与真实浏览器交互，模拟真实用户操作，因此测试结果更可靠。虽然较新的框架如Playwright和Cypress在速度和稳定性上有些优势，但Selenium的普适性和稳定性依然是很多企业的首选。
Pytest ：一个功能极其强大的测试框架。它比Python自带的unittest更简洁灵活。支持丰富的插件（如生成美观的测试报告 pytest-html 、控制用例执行顺序 pytest-ordering 、多线程执行 pytest-xdist ），夹具（Fixture）机制能优雅地处理测试前置和后置条件（如启动/关闭浏览器）。用Pytest组织测试用例，代码会非常清晰。

注意：不要陷入“工具之争”。没有最好的工具，只有最适合当前团队和项目的工具。如果你的应用是单页应用（SPA）且对执行速度要求极高，可以研究Cypress。如果需要测试Chromium、Firefox、WebKit多个浏览器引擎，Playwright是更好的选择。但对于大多数传统的、需要兼容多浏览器的Web项目，Selenium+Pytest的组合足以应对，且人才储备和知识积累更丰富。

2.2 框架核心架构设计

一个健壮的UI自动化框架，不能只是一堆散乱的脚本。它需要有清晰的结构，实现“高内聚、低耦合”，让脚本易于编写、维护和扩展。一个典型的分层架构如下：

项目根目录/
├── common/          # 公共组件层
│   ├── base_page.py # 页面基类，封装Selenium基本操作
│   ├── logger.py    # 日志记录模块
│   └── config.py    # 配置文件读取模块
├── page_objects/    # 页面对象层
│   ├── login_page.py
│   ├── home_page.py
│   └── ...
├── test_cases/      # 测试用例层
│   ├── test_login.py
│   ├── test_order.py
│   └── ...
├── test_data/       # 测试数据层
│   ├── login_data.yaml
│   └── ...
├── reports/         # 测试报告输出目录
├── logs/            # 日志输出目录
├── conftest.py      # Pytest全局配置文件，定义Fixture
└── requirements.txt # 项目依赖包列表

各层职责解析：

公共组件层（Common） ：这是框架的基石。 base_page.py 是所有页面类的父类，里面封装了如 find_element （查找元素）、 click （点击）、 input_text （输入文本）、 wait_element_visible （等待元素可见）等所有页面都会用到的基础操作。这样做的好处是，当Selenium API有变动或者我们想统一给所有操作添加日志、截图时，只需要修改这一个基类。 logger.py 负责生成格式统一、带时间戳和级别的日志，便于问题回溯。 config.py 则用来管理环境URL、数据库连接串、超时时间等配置，实现代码与配置分离。
页面对象层（Page Objects） ：这是 Page Object Model（POM）设计模式 的核心。每个页面对应一个Python类（如 LoginPage ），这个类里不包含具体的测试逻辑，只包含这个页面的元素定位符（如用户名输入框、密码输入框、登录按钮）和在这个页面上可以进行的操作（如 input_username , input_password , click_login ）。测试用例层通过调用这些页面对象的方法来组合业务流程。POM的最大优势是将页面元素的定位与测试业务逻辑分离，当页面UI发生变化时，我们只需要修改对应页面对象类中的元素定位符，而不需要修改大量的测试用例脚本，极大地提升了可维护性。
测试用例层（Test Cases） ：这里存放真正的测试脚本。每个脚本文件对应一个测试模块或场景。脚本里利用Pytest编写测试函数，通过调用不同页面对象的方法，像搭积木一样组装出完整的测试流程（例如： 登录页.输入用户名 -> 登录页.输入密码 -> 登录页.点击登录 -> 主页.验证登录成功 ）。测试断言也发生在这里。
测试数据层（Test Data） ：将测试数据（如用户名、密码、商品ID）从脚本中剥离出来，存放在YAML、JSON或Excel文件中。这样可以实现数据驱动测试（DDT），即用同一套脚本执行多组不同的测试数据，提高脚本的复用率。
配置文件与报告（Conftest, Reports, Logs） ： conftest.py 是Pytest的魔力所在，可以在这里定义全局的 fixture ，比如 @pytest.fixture(scope="session") 定义一个启动浏览器并返回 driver 对象的fixture，所有测试用例都可以直接使用这个 driver ，无需在每个用例中重复初始化。测试报告和日志则是测试执行的“黑匣子”，是分析失败原因、展示测试结果的必备产物。

3. 从零搭建：手把手实现核心模块

理论说再多，不如动手写一行代码。我们以搭建一个最简单的Web登录自动化测试为例，贯穿上述架构。

3.1 环境准备与依赖安装

首先，确保你的电脑上安装了Python（建议3.8及以上版本）。然后，在项目根目录下，创建 requirements.txt 文件，并写入核心依赖：

# requirements.txt
selenium==4.15.0
pytest==7.4.4
pytest-html==4.1.1
pytest-xdist==3.5.0
pyyaml==6.0.1
webdriver-manager==4.0.1

使用 pip 安装它们：

pip install -r requirements.txt

这里特别提一下 webdriver-manager ，它是一个神器。传统方式需要手动下载对应浏览器版本的驱动（如ChromeDriver），并配置到系统路径，非常麻烦且容易因浏览器升级而失效。 webdriver-manager 可以自动检测你本地安装的浏览器版本，并下载匹配的驱动，省心省力。

3.2 实现公共组件层（BasePage与Logger）

base_page.py ：这是框架的灵魂，封装了所有基础操作。

# common/base_page.py
import time
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException, NoSuchElementException
from common.logger import logger

class BasePage:
    """页面基类，封装所有页面通用的操作方法"""
    
    def __init__(self, driver):
        self.driver = driver
        self.timeout = 10  # 默认显式等待超时时间
        self.log = logger

    def find_element(self, locator):
        """查找单个元素，加入显式等待和日志"""
        try:
            self.log.info(f"正在查找元素: {locator}")
            element = WebDriverWait(self.driver, self.timeout).until(
                EC.presence_of_element_located(locator)
            )
            return element
        except TimeoutException:
            self.log.error(f"查找元素超时: {locator}")
            # 失败时自动截图，便于排查
            self.save_screenshot(f"element_not_found_{locator[1]}")
            raise

    def click(self, locator):
        """点击元素"""
        element = self.find_element(locator)
        self.log.info(f"点击元素: {locator}")
        element.click()

    def input_text(self, locator, text):
        """向元素输入文本"""
        element = self.find_element(locator)
        self.log.info(f"向元素 {locator} 输入文本: {text}")
        element.clear()
        element.send_keys(text)

    def get_text(self, locator):
        """获取元素的文本内容"""
        element = self.find_element(locator)
        text = element.text
        self.log.info(f"获取元素 {locator} 的文本: {text}")
        return text

    def wait_element_visible(self, locator, timeout=None):
        """等待元素可见"""
        wait_time = timeout or self.timeout
        try:
            WebDriverWait(self.driver, wait_time).until(
                EC.visibility_of_element_located(locator)
            )
            self.log.info(f"元素已可见: {locator}")
            return True
        except TimeoutException:
            self.log.warning(f"元素在{wait_time}秒内未可见: {locator}")
            return False

    def save_screenshot(self, name):
        """保存截图，文件名包含时间戳"""
        timestamp = time.strftime("%Y%m%d_%H%M%S")
        filename = f"screenshots/{name}_{timestamp}.png"
        self.driver.save_screenshot(filename)
        self.log.info(f"截图已保存: {filename}")

logger.py ：配置一个简单的日志器。

# common/logger.py
import logging
import os
from datetime import datetime

# 创建logs目录
if not os.path.exists('logs'):
    os.makedirs('logs')

# 设置日志文件名（按天）
log_file = f"logs/automation_{datetime.now().strftime('%Y%m%d')}.log"

# 配置logging
logger = logging.getLogger('UI_Auto_Logger')
logger.setLevel(logging.DEBUG)

# 文件处理器
file_handler = logging.FileHandler(log_file, encoding='utf-8')
file_handler.setLevel(logging.DEBUG)

# 控制台处理器
console_handler = logging.StreamHandler()
console_handler.setLevel(logging.INFO)

# 设置日志格式
formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')
file_handler.setFormatter(formatter)
console_handler.setFormatter(formatter)

# 添加处理器到logger
logger.addHandler(file_handler)
logger.addHandler(console_handler)

3.3 实现页面对象层（LoginPage）

假设我们有一个简单的登录页，用户名输入框ID是 username ，密码输入框ID是 password ，登录按钮ID是 loginBtn ，登录成功后的欢迎语元素class是 welcome-msg 。

# page_objects/login_page.py
from selenium.webdriver.common.by import By
from common.base_page import BasePage

class LoginPage(BasePage):
    """登录页面对象"""
    
    # 页面元素定位符（Locators）
    # 使用(By.策略, '值')的元组形式，清晰且易于维护
    USERNAME_INPUT = (By.ID, 'username')
    PASSWORD_INPUT = (By.ID, 'password')
    LOGIN_BUTTON = (By.ID, 'loginBtn')
    WELCOME_MSG = (By.CLASS_NAME, 'welcome-msg')
    ERROR_MSG = (By.ID, 'errorMessage') # 假设的错误信息提示元素

    def __init__(self, driver):
        super().__init__(driver)
        # 可以在这里添加页面特有的初始化逻辑，比如打开登录页URL
        # self.driver.get("https://your-app.com/login")

    def input_username(self, username):
        """输入用户名"""
        self.input_text(self.USERNAME_INPUT, username)
        return self  # 返回自身，支持链式调用

    def input_password(self, password):
        """输入密码"""
        self.input_text(self.PASSWORD_INPUT, password)
        return self

    def click_login(self):
        """点击登录按钮"""
        self.click(self.LOGIN_BUTTON)
        return self

    def get_welcome_text(self):
        """获取登录成功后的欢迎文本"""
        return self.get_text(self.WELCOME_MSG)

    def get_error_text(self):
        """获取登录失败后的错误提示文本"""
        if self.wait_element_visible(self.ERROR_MSG, timeout=5):
            return self.get_text(self.ERROR_MSG)
        return None

    # 一个完整的登录成功业务方法
    def login_with_valid_credentials(self, username, password):
        """使用有效凭据登录，返回主页或其他页面对象（这里简化处理）"""
        self.input_username(username).input_password(password).click_login()
        # 通常这里会跳转到主页，可以返回一个HomePage对象
        # from page_objects.home_page import HomePage
        # return HomePage(self.driver)
        # 本例中我们简单等待欢迎信息出现
        self.wait_element_visible(self.WELCOME_MSG)
        return self

3.4 编写测试用例与Pytest配置

首先，在项目根目录创建 conftest.py ，定义核心的 driver fixture。

# conftest.py
import pytest
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from webdriver_manager.firefox import GeckoDriverManager

@pytest.fixture(scope="function")  # 每个测试函数执行一次
def driver(request):
    """提供WebDriver实例的Fixture"""
    browser = request.config.getoption("--browser")  # 通过命令行参数指定浏览器
    driver = None
    
    if browser == "firefox":
        service = Service(GeckoDriverManager().install())
        driver = webdriver.Firefox(service=service)
    else:  # 默认使用Chrome
        service = Service(ChromeDriverManager().install())
        options = webdriver.ChromeOptions()
        options.add_argument('--ignore-certificate-errors')
        options.add_argument('--start-maximized')
        # options.add_argument('--headless') # 无头模式，用于CI环境
        driver = webdriver.Chrome(service=service, options=options)
    
    driver.implicitly_wait(5)  # 设置隐式等待（备用）
    yield driver  # 将driver对象提供给测试用例使用
    # 测试结束后执行清理
    driver.quit()

def pytest_addoption(parser):
    """添加自定义命令行选项"""
    parser.addoption(
        "--browser", action="store", default="chrome", help="指定浏览器: chrome 或 firefox"
    )

然后，编写我们的第一个测试用例。

# test_cases/test_login.py
import pytest
from page_objects.login_page import LoginPage

class TestLogin:
    """登录功能测试类"""
    
    @pytest.mark.parametrize("username, password, expected", [
        ("admin", "admin123", True),  # 正确用例
        ("wrong", "admin123", False), # 错误用户名
        ("admin", "wrong", False),    # 错误密码
    ])
    def test_login(self, driver, username, password, expected):
        """数据驱动的登录测试"""
        # 1. 打开登录页（这里假设应用根URL在config中配置，简化处理直接打开）
        login_url = "https://your-app.com/login"  # 应放入config.py
        driver.get(login_url)
        
        # 2. 初始化页面对象
        login_page = LoginPage(driver)
        
        # 3. 执行登录操作
        login_page.input_username(username)
        login_page.input_password(password)
        login_page.click_login()
        
        # 4. 断言验证
        if expected:
            # 预期登录成功，应出现欢迎语
            welcome_text = login_page.get_welcome_text()
            assert "admin" in welcome_text.lower(), f"登录成功，但欢迎语'{welcome_text}'不符合预期"
        else:
            # 预期登录失败，应出现错误提示
            error_text = login_page.get_error_text()
            assert error_text is not None and len(error_text) > 0, "登录失败，但未发现错误提示信息"

3.5 运行测试并生成报告

现在，我们可以运行测试了。在项目根目录下打开终端：

运行所有测试 ：
```
pytest test_cases/ -v
```
-v 参数显示详细信息。
指定浏览器运行 ：
```
pytest test_cases/ --browser=firefox
```
生成HTML测试报告 （需要先安装 pytest-html ）：
```
pytest test_cases/ -v --html=reports/report.html --self-contained-html
```
运行后会在 reports 目录下生成一个美观的HTML报告，包含测试通过率、失败详情、日志和截图（如果我们在 save_screenshot 中实现了的话）。

4. 进阶技巧与实战避坑指南

框架搭起来只是第一步，要让它在项目中稳定运行并创造价值，还需要大量的“踩坑”和经验积累。下面分享几个最关键的心得。

4.1 元素定位：稳定性的基石

UI自动化脚本不稳定的首要原因就是元素定位失败。除了常用的ID、Name、XPath、CSS Selector，有几点至关重要：

优先级 ： ID > Name > CSS Selector > XPath 。ID通常是唯一且最稳定的。尽量避免使用基于索引或绝对路径的XPath（如 /html/body/div[3]/div[2]/span ），它们极其脆弱。
CSS Selector vs XPath ：对于简单定位，CSS Selector通常性能更好，语法更简洁。但对于需要根据文本内容定位（如 //button[text()='Submit'] ）或复杂层级关系，XPath更强大。 我的经验是：能用CSS就用CSS，需要文本匹配或复杂逻辑时用XPath。
处理动态ID/Class ：现代前端框架（如React, Vue）经常生成动态的ID或Class。此时应寻找其他稳定属性，如 data-testid （测试专用属性，最好让开发同学加上）、 aria-label 或者具有特定模式的属性（如 class 里包含 btn-primary 的部分）。
显式等待是必须的 ：不要用 time.sleep(10) 这种固定等待！使用 WebDriverWait 配合 expected_conditions （如 element_to_be_clickable , visibility_of_element_located ）。这能确保脚本在元素真正就绪时才进行操作，大大提升稳定性和执行速度。

4.2 测试数据管理：分离与驱动

千万不要把测试数据硬编码在脚本里！这会给维护带来噩梦。推荐使用YAML或JSON文件管理。

# test_data/login_data.yaml
valid_user:
  username: "test_user@example.com"
  password: "SecurePass123!"
  expected_welcome: "Welcome, Test User"

invalid_users:
  - username: "wrong@example.com"
    password: "SecurePass123!"
    expected_error: "Invalid username or password"
  - username: "test_user@example.com"
    password: "wrong"
    expected_error: "Invalid username or password"

在测试用例中读取并使用：

import yaml
with open('test_data/login_data.yaml', 'r', encoding='utf-8') as f:
    login_data = yaml.safe_load(f)

# 在 @pytest.mark.parametrize 中使用 login_data['invalid_users']

4.3 失败分析与调试：截图、日志与重试

自动截图 ：就像我们在 BasePage 的 find_element 异常处理里做的那样，在关键步骤失败（特别是断言失败）时自动截图，能直观地看到失败时的页面状态。Pytest的 @pytest.hookimpl 钩子可以方便地在用例失败时触发截图。
详尽的日志 ：日志是排查问题的生命线。不仅要记录“在做什么”，还要记录“做到了哪一步”、“看到了什么”。例如，点击前记录元素信息，输入后记录输入的内容，获取文本后记录获取到的值。
重试机制 ：对于某些非代码缺陷导致的偶发性失败（如网络短暂波动、前端渲染稍慢），可以引入重试机制。Pytest有 pytest-rerunfailures 插件，可以给不稳定的用例添加 @pytest.mark.flaky(reruns=3) 装饰器，让它失败后自动重试几次。

4.4 持续集成（CI）集成

自动化测试只有集成到CI/CD流水线中，才能最大化其价值。通常的做法是：

将代码提交到Git仓库。
CI工具（如Jenkins, GitLab CI, GitHub Actions）触发构建。
在构建环境中（通常是Linux服务器）拉取代码，安装依赖（ pip install -r requirements.txt ）。
以 无头模式 运行UI自动化测试（即不启动图形界面，节省资源且适合服务器环境）。在 conftest.py 的Chrome options中加上 --headless=new 。
收集测试结果和报告，归档或发送到指定位置（如邮件通知、上传到云存储）。
根据测试结果决定是否继续后续的部署流程。

5. 常见问题与排查技巧实录

在实际项目中，你会遇到各种各样稀奇古怪的问题。这里列一个速查表，帮你快速定位和解决。

问题现象	可能原因	排查步骤与解决方案
元素找不到（NoSuchElementException）	1. 定位表达式写错了。 2. 页面尚未加载完成。 3. 元素在iframe或shadow DOM内。 4. 元素是动态生成的，需要等待。	1. 在浏览器开发者工具中（F12）用 `$x()` 或 `$$()` 验证XPath/CSS。 2. 添加显式等待（ `wait_element_visible` ）。 3. 使用 `driver.switch_to.frame()` 切换到iframe；对于shadow DOM，使用 `driver.execute_script` 穿透。 4. 检查网络请求，确认数据已返回，再等待元素。
元素不可交互（ElementNotInteractableException）	1. 元素被遮挡（如弹窗、广告）。 2. 元素未处于可操作状态（如disabled）。 3. 需要滚动到元素位置。	1. 关闭遮挡物或等待其消失。 2. 检查元素属性 `disabled` 。 3. 使用 `driver.execute_script("arguments[0].scrollIntoView();", element)` 滚动到元素。
脚本在本地跑得通，在CI服务器上失败	1. 浏览器/驱动版本不匹配。 2. CI环境是无头模式，渲染或行为有差异。 3. 环境依赖缺失（如字体、库）。 4. 网络或资源加载超时。	1. 使用 `webdriver-manager` 自动管理驱动版本。 2. 在本地也以无头模式运行测试，复现问题。 3. 确保CI镜像包含所有必要依赖（如 `xvfb` 用于模拟显示）。 4. 增加全局超时时间，检查网络代理设置。
测试执行速度慢	1. 使用了大量的 `time.sleep` 。 2. 隐式等待时间设置过长。 3. 网络请求或页面响应慢。 4. 用例设计不合理，重复打开关闭浏览器。	1. 全部替换为显式等待。 2. 将隐式等待调小（如3-5秒）。 3. 考虑Mock部分后端接口或使用测试环境。 4. 使用 `@pytest.fixture(scope="class"或"session")` 共享浏览器实例。
截图或报告是空白/不全	1. 截图时机不对，可能在页面跳转或关闭后。 2. 无头模式下页面尺寸问题。 3. 报告生成路径错误。	1. 在断言失败或异常捕获后立即截图。 2. 在无头模式下设置浏览器窗口大小： `options.add_argument('--window-size=1920,1080')` 。 3. 使用绝对路径或确保报告目录存在。

最后，我想分享一个最深刻的体会： UI自动化测试的维护成本永远高于开发成本 。页面一个微小的改动，可能就需要你更新几十个定位符。因此，在开始大规模实施前，一定要和开发团队、产品经理达成共识：

为关键元素添加稳定的测试属性 ，如 data-testid 。这是对自动化测试最友好的支持。
建立变更沟通机制 ，UI有较大改动时，提前通知测试团队。
明确自动化测试的定位 ：它不是用来发现大量新Bug的，而是用来保障核心功能在迭代中不衰退的“守门员”。将自动化重点放在 核心业务流程 和 高频使用的功能 上，不要试图覆盖所有边边角角。

UI自动化是一条需要耐心和持续投入的路，但当你看到每次发布前，成百上千的用例在静静地为产品质量保驾护航时，那种成就感和安全感，会让你觉得所有的折腾都是值得的。先从一个小流程开始，把它做稳、做透，再逐步扩展，你会发现，自动化不仅仅是工具，更是一种提升研发效能和质量文化的思维方式。

亚马逊云科技技术品牌专区

更多推荐