Selenium UI自动化测试入门：从零编写第一个Python脚本

duo dou

259人浏览 · 2026-06-20 10:25:07

duo dou · 2026-06-20 10:25:07 发布

1. 项目概述：为什么我们需要UI自动化测试？

如果你是一名测试工程师，或者是一名开发人员，最近被重复的、枯燥的页面点击和表单填写搞得焦头烂额，那么“UI自动化测试”这个词对你来说一定不陌生。简单来说，它就是用代码模拟人的操作，去自动执行那些在浏览器里需要手动完成的测试步骤。而Selenium，就是实现这个目标最经典、最广泛使用的工具之一。它不是什么高深莫测的黑科技，本质上就是一个能通过代码控制浏览器的“遥控器”。

我刚开始接触自动化测试时，也走过不少弯路。总觉得这玩意儿配置复杂，脚本动不动就报错，维护成本高，不如手动点几下来得快。但当你负责的模块越来越大，回归测试的用例从几十个膨胀到几百个时，你就会发现，凌晨两点还在机械地点击同一个按钮，只为验证一个简单的修改没有破坏其他功能，是多么低效且痛苦。Selenium的价值就在于，它能把这些重复劳动固化下来，一次编写，多次运行。无论是每日构建后的冒烟测试，还是上线前的全量回归，它都能不知疲倦地执行，把我们从重复劳动中解放出来，去关注更复杂的业务逻辑和探索性测试。

所以，这篇内容的目标很明确： 面向零基础或稍有编程经验的朋友，抛开那些复杂的概念和框架，直接上手，用最短的路径跑通你的第一个Selenium UI自动化测试脚本。 我们会从环境搭建的每一个细节开始，到写出一个能真正在浏览器里运行的脚本，并解释清楚每一步背后的“为什么”。过程中我会分享那些官方文档里不会写的坑，以及如何让脚本更健壮的小技巧。

2. 环境准备与核心组件解析

在开始写代码之前，我们必须把“战场”布置好。Selenium UI自动化测试依赖于几个核心组件协同工作，理解它们的关系至关重要，这能帮助你在遇到问题时快速定位。

2.1 核心三件套：语言、Selenium库与浏览器驱动

你可以把自动化测试想象成一场木偶戏：

编程语言（如Python） ：你就是幕后的操纵者，负责编写指令（脚本）。
Selenium客户端库（如selenium package） ：它是你手中的控制线和语言翻译官。你用Python写的命令（如 find_element , click ），由这个库翻译成WebDriver协议能听懂的语言。
浏览器驱动（如ChromeDriver） ：它是连接在木偶（浏览器）身上的具体操纵装置。它接收WebDriver协议的命令，并转化为对真实浏览器的底层操作。
浏览器（如Chrome） ：最终执行动作的木偶。

为什么是Python？ 对于入门而言，Python语法简洁，库丰富，社区活跃，遇到问题容易找到解决方案。本文将以Python为例，但Selenium支持Java、C#、JavaScript等多种语言，原理相通。

2.2 详细安装与配置步骤

接下来，我们一步步完成环境搭建。我会以Windows系统下的Chrome浏览器为例，其他系统或浏览器（如Firefox）思路类似。

步骤一：安装Python与pip 如果你还没有Python，请前往 Python官网下载安装。务必在安装时勾选“Add Python to PATH”，这样可以在命令行中直接使用 python 和 pip 命令。安装完成后，打开命令行（CMD或PowerShell），输入以下命令验证：

python --version
pip --version

如果能正确显示版本号，说明安装成功。

步骤二：安装Selenium客户端库 通过pip安装Selenium库非常简单：

pip install selenium

这条命令会从Python的官方包索引中下载并安装最新稳定版的Selenium库。

步骤三：下载与配置浏览器驱动（最易踩坑环节） 这是新手最容易出错的地方。你必须使用与 你本地安装的Chrome浏览器版本号匹配 的ChromeDriver。

查看Chrome版本 ：打开Chrome浏览器，点击右上角三个点 -> 帮助 -> 关于Google Chrome。记下版本号（例如：124.0.6367.91）。
下载ChromeDriver ：访问 ChromeDriver官方下载站或更直接的下载地址。对于新版本Chrome，推荐使用后者，它提供了更清晰的版本匹配。找到与你Chrome主版本号一致的驱动进行下载（例如Chrome是124.x，就下载124.x.x.x版本的驱动）。
放置驱动文件 ：下载的是一个可执行文件（如 chromedriver.exe ）。你有三种处理方式：
- 方式A（推荐） ：将其放在一个固定的目录（如 C:\WebDriver\ ），然后将此目录路径添加到系统的 PATH 环境变量中。这是最一劳永逸的方法。
- 方式B ：将其放在你的Python脚本所在的同一个目录下。
- 方式C ：在代码中指定驱动的绝对路径。

注意：很多教程会告诉你把 chromedriver.exe 丢到Python的安装目录下，这在某些情况下可行，但并非最佳实践。特别是当你使用虚拟环境或有多个Python版本时，容易造成混乱。我强烈推荐 方式A ，管理清晰。

验证安装 ：环境就绪后，我们可以用一个最简单的脚本来测试。创建一个名为 test_demo.py 的文件，写入以下代码：

from selenium import webdriver

# 如果驱动已加入PATH，直接实例化即可
driver = webdriver.Chrome()
# 如果使用方式C，需要指定路径
# driver = webdriver.Chrome(executable_path=r‘C:\WebDriver\chromedriver.exe’)

driver.get(“https://www.baidu.com“) # 打开百度
print(driver.title) # 打印页面标题
driver.quit() # 关闭浏览器

运行这个脚本( python test_demo.py )。如果能看到一个Chrome浏览器窗口自动打开，访问百度，并在控制台打印出“百度一下，你就知道”，然后浏览器关闭，那么恭喜你，环境配置成功！

3. 第一个自动化脚本：从打开浏览器到元素操作

环境搞定，我们来真正写一个有点用的脚本。假设我们要测试一个简单的登录流程：打开一个测试网页，输入用户名和密码，点击登录按钮。

3.1 脚本骨架与浏览器启动选项

首先，我们引入必要的模块，并配置浏览器选项。有时我们不需要看到浏览器界面（例如在服务器上运行），或者需要禁用一些特性，可以通过 Options 来配置。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

# 创建浏览器选项
options = webdriver.ChromeOptions()
# options.add_argument(‘--headless‘) # 无头模式，不显示图形界面
# options.add_argument(‘--disable-gpu‘) # 禁用GPU，通常配合无头模式使用
options.add_argument(‘--start-maximized‘) # 启动时最大化窗口

# 实例化驱动，传入选项
driver = webdriver.Chrome(options=options)

WebDriverWait 和 expected_conditions 是处理等待的关键工具，后面会详细讲。 By 用于指定元素定位方式。

3.2 元素定位：自动化测试的基石

要让脚本操作页面上的元素（输入框、按钮、链接），第一步是找到它。Selenium提供了8种主要的定位方式，掌握最常用的前几种就能应对90%的场景。

定位方式	示例代码（By.XXX）	适用场景	优先级
ID	`By.ID(“kw”)`	元素有唯一id属性时，最快最准。	★★★★★
NAME	`By.NAME(“wd”)`	元素有name属性，常用于表单。	★★★★☆
CLASS_NAME	`By.CLASS_NAME(“s_ipt”)`	通过CSS类名定位，注意类名可能多个或有空格。	★★★☆☆
TAG_NAME	`By.TAG_NAME(“input”)`	通过标签名定位，通常用于找多个同类元素。	★★☆☆☆
LINK_TEXT	`By.LINK_TEXT(“新闻”)`	精确匹配超链接的完整文本。	★★★☆☆
PARTIAL_LINK_TEXT	`By.PARTIAL_LINK_TEXT(“新”)`	匹配超链接的部分文本。	★★★☆☆
CSS_SELECTOR	`By.CSS_SELECTOR(“#kw”)`	功能强大，语法灵活，性能好。	★★★★★
XPATH	`By.XPATH(‘//*[@id=“kw”]’)`	功能最强大，可以遍历整个DOM，但性能稍差，易受结构变化影响。	★★★★☆

实操心得 ：

优先使用ID和NAME ：它们通常是唯一的，且最稳定。就像人的身份证号。
慎用CLASS_NAME ：页面样式调整时，类名容易改变。而且如果一个元素有多个类（如 class=“btn btn-primary” ），你需要使用其中一个完整的单词，不能带空格。
CSS_SELECTOR vs XPATH ：对于简单定位，CSS选择器更简洁高效。例如 #id 、 .class 、 input[name=‘wd’] 。XPATH在处理复杂层级关系（如“找到某个div下的第三个table的第二个tr”）时更有优势，但写起来复杂，且一旦页面结构微调就可能失效。 入门建议先掌握CSS选择器 。
如何获取元素属性 ：在浏览器中按F12打开开发者工具，使用“检查”功能（Ctrl+Shift+C）点击页面元素，在Elements面板中，元素标签上显示的 id 、 name 、 class 等属性都可以用于定位。

3.3 编写完整的登录测试脚本

假设我们有一个简单的测试登录页，其HTML关键部分如下：

<input type=“text” id=“username” placeholder=“用户名”>
<input type=“password” id=“password” placeholder=“密码”>
<button id=“loginBtn”>登录</button>

我们的自动化脚本可以这样写：

# 假设测试页面地址
login_url = “http://your-test-site.com/login“
driver.get(login_url)

# 1. 定位用户名输入框并输入
username_input = driver.find_element(By.ID, “username”)
username_input.send_keys(“testuser”) # 输入用户名

# 2. 定位密码输入框并输入
password_input = driver.find_element(By.ID, “password”)
password_input.send_keys(“secret123”)

# 3. 定位登录按钮并点击
login_button = driver.find_element(By.ID, “loginBtn”)
login_button.click()

# 4. 添加一个简单断言，验证是否跳转到成功页面
time.sleep(2) # 等待2秒，等待页面跳转（这是初级做法，后面会改进）
assert “dashboard” in driver.current_url, “登录失败，未跳转到预期页面！”
print(“登录流程测试通过！”)

# 5. 关闭浏览器
driver.quit()

这个脚本完成了基本的“定位-操作-断言”流程。但其中使用了 time.sleep(2) ，这是一个 需要改进的坏习惯 ，我们马上会讲到更好的方法。

4. 核心进阶：等待、断言与框架思维

一个健壮的自动化脚本，必须能优雅地处理页面加载、元素出现的延迟，并能清晰地验证测试结果。

4.1 告别 `time.sleep` ：显式等待与隐式等待

网络延迟、动态加载、前端框架渲染都会导致元素不会立即出现。盲目使用 time.sleep(秒数) 是一种固定等待，无论元素是否已就绪，脚本都会傻等设定的时间，这极大地降低了测试效率。

隐式等待 (Implicit Wait) 在创建驱动后设置一次，对整个驱动生命周期有效。它告诉WebDriver在查找 任何元素 时，如果没立即找到，就轮询DOM一段时间（默认0.5秒检查一次），直到找到或超时。

driver.implicitly_wait(10) # 单位：秒
element = driver.find_element(By.ID, “someId”)

注意：隐式等待是全局设置，可能会在某些场景下产生副作用，比如当你确实需要检查一个元素不存在时。它也无法处理更复杂的条件（如元素可点击、元素包含特定文本）。

显式等待 (Explicit Wait) 这是 推荐的最佳实践 。它为某个特定的操作设置等待条件，更加灵活和精确。

from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 等待最多10秒，直到ID为‘welcomeMsg’的元素出现在DOM中
element = WebDriverWait(driver, 10).until(
    EC.presence_of_element_located((By.ID, “welcomeMsg”))
)

# 等待最多10秒，直到登录按钮变为可点击状态
login_button = WebDriverWait(driver, 10).until(
    EC.element_to_be_clickable((By.ID, “loginBtn”))
)
login_button.click()

expected_conditions 模块提供了很多有用的条件，例如：

presence_of_element_located : 元素存在于DOM。
visibility_of_element_located : 元素存在且可见（宽高大于0）。
element_to_be_clickable : 元素存在、可见且可点击。
title_contains : 页面标题包含特定文字。
alert_is_present : 出现了alert弹窗。

我的经验 ： 混合使用，以显式等待为主 。我通常会在项目开始时设置一个较短的隐式等待（如5秒）作为兜底，然后在所有关键交互步骤（点击、输入、获取文本）前，使用显式等待来等待特定条件满足。这能最大程度保证脚本的稳定性和执行速度。

4.2 测试断言：验证自动化结果

自动化测试不是“跑完就行”，必须验证结果是否符合预期。断言就是我们的检查点。

# 断言页面标题
assert driver.title == “用户主页”, f“页面标题不符，实际是：{driver.title}”

# 断言URL
assert “/home” in driver.current_url

# 断言元素文本内容
welcome_element = driver.find_element(By.ID, “welcome”)
assert welcome_element.text == “欢迎回来，testuser!”, f“欢迎信息错误：{welcome_element.text}”

# 断言元素是否存在/可见（结合等待）
try:
    error_msg = WebDriverWait(driver, 5).until(
        EC.visibility_of_element_located((By.CLASS_NAME, “error”))
    )
    print(f“测试失败，出现错误提示：{error_msg.text}”)
    assert False, “登录失败时应有错误提示，但内容可能不符”
except:
    print(“未发现错误提示，符合成功登录预期。”)

断言失败时，脚本会抛出 AssertionError 并停止。在实际测试框架中（如 pytest ），这些断言会被框架捕获并生成漂亮的测试报告。

4.3 初步的框架思维：让脚本可维护

当你有超过10个测试用例时，把所有的代码都写在一个文件里将是灾难。我们需要简单的组织结构。

your_project/
├── conftest.py (可选，pytest的配置文件/夹具)
├── pages/ (页面对象模型)
│   ├── __init__.py
│   ├── login_page.py
│   └── home_page.py
├── tests/ (测试用例)
│   ├── __init__.py
│   └── test_login.py
├── utils/ (工具类)
│   ├── __init__.py
│   └── driver_manager.py
└── requirements.txt (项目依赖)

页面对象模型 (Page Object Model, POM) 是一种设计模式，它将每个页面抽象成一个类，页面的元素定位和基本操作封装在类的方法中。测试用例只关心业务逻辑，不关心元素如何定位。 pages/login_page.py 示例：

from selenium.webdriver.common.by import By
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

class LoginPage:
    def __init__(self, driver):
        self.driver = driver
        self.wait = WebDriverWait(driver, 10)

    # 定位器 (Locators)
    USERNAME_INPUT = (By.ID, “username”)
    PASSWORD_INPUT = (By.ID, “password”)
    LOGIN_BUTTON = (By.ID, “loginBtn”)
    ERROR_MSG = (By.CLASS_NAME, “error”)

    # 页面操作方法
    def open(self, url):
        self.driver.get(url)
        return self

    def enter_username(self, username):
        element = self.wait.until(EC.visibility_of_element_located(self.USERNAME_INPUT))
        element.clear()
        element.send_keys(username)
        return self # 支持链式调用

    def enter_password(self, password):
        self.wait.until(EC.visibility_of_element_located(self.PASSWORD_INPUT)).send_keys(password)
        return self

    def click_login(self):
        self.wait.until(EC.element_to_be_clickable(self.LOGIN_BUTTON)).click()

    def get_error_message(self):
        try:
            return self.wait.until(EC.visibility_of_element_located(self.ERROR_MSG)).text
        except:
            return None

tests/test_login.py 示例：

import pytest
from pages.login_page import LoginPage
from utils.driver_manager import get_driver # 假设有一个管理驱动的工具

class TestLogin:
    def setup_method(self):
        self.driver = get_driver() # 获取浏览器驱动实例
        self.login_page = LoginPage(self.driver)

    def teardown_method(self):
        self.driver.quit()

    def test_login_success(self):
        self.login_page.open(“http://your-test-site.com/login“)
        self.login_page.enter_username(“correct_user”)
        self.login_page.enter_password(“correct_pwd”)
        self.login_page.click_login()
        # 断言跳转或首页元素
        assert “dashboard” in self.driver.current_url

    def test_login_failure(self):
        self.login_page.open(“http://your-test-site.com/login“)
        self.login_page.enter_username(“wrong_user”)
        self.login_page.enter_password(“wrong_pwd”)
        self.login_page.click_login()
        error_msg = self.login_page.get_error_message()
        assert error_msg is not None
        assert “用户名或密码错误” in error_msg

采用POM后，如果登录页面的输入框ID改变了，你只需要修改 LoginPage 类中的 USERNAME_INPUT 定位器，所有用到这个定位器的测试用例都无需改动。这大大提升了代码的可维护性。

5. 常见问题排查与实战技巧

即使按照步骤操作，你也一定会遇到各种问题。这里我总结了一些高频问题和解决思路。

5.1 驱动与浏览器版本不匹配

问题：运行脚本时报错 SessionNotCreatedException: Message: session not created: This version of ChromeDriver only supports Chrome version... 解决：这是最经典的问题。严格按照2.2节的方法，核对并下载对应版本的ChromeDriver。可以使用 chrome://version/ 查看浏览器精确版本。

5.2 元素定位不到（NoSuchElementException）

这是最常见的问题，原因多种多样。

等待不足 ：元素还没加载出来就去定位。 解决方案 ：使用显式等待（ WebDriverWait + EC ）。

iframe/Shadow DOM ：目标元素嵌套在 <iframe> 或Shadow DOM内部。 解决方案 ：需要先切换到对应的上下文。

# 切换进iframe
iframe = driver.find_element(By.TAG_NAME, “iframe”)
driver.switch_to.frame(iframe)
# 操作iframe内的元素...
# 操作完后切回主文档
driver.switch_to.default_content()

动态ID/Class ：元素的标识符是每次刷新页面后随机生成的。 解决方案 ：使用其他稳定的属性，如 name 、 data-testid （如果开发有约定），或者使用相对定位的XPath或CSS选择器（如通过父元素的稳定属性来定位）。
页面结构变化 ：前端代码更新了。 解决方案 ：更新你的定位器。这也是提倡使用POM的原因，只需改一处。

5.3 元素交互失败（ElementNotInteractableException）

元素找到了，但点击或输入失败。

元素不可见 ：可能被其他元素遮挡，或者CSS设置了 display: none 或 visibility: hidden 。 解决方案 ：使用 EC.visibility_of_element_located 和 EC.element_to_be_clickable 进行等待。
元素未启用 ：按钮有 disabled 属性。 解决方案 ：等待其变为可用状态，或检查前置操作是否未完成。

需要滚动到视图 ：元素在页面可视区域外。 解决方案 ：使用JavaScript滚动到元素位置。

element = driver.find_element(By.ID, “someId”)
driver.execute_script(“arguments[0].scrollIntoView(true);”, element)
element.click()

5.4 弹窗与多窗口处理

JavaScript弹窗 (Alert/Confirm/Prompt) ：

from selenium.webdriver.common.alert import Alert

# 等待弹窗出现并切换到它
WebDriverWait(driver, 5).until(EC.alert_is_present())
alert = Alert(driver)

print(alert.text) # 获取弹窗文本
alert.accept() # 点击“确定”
# alert.dismiss() # 点击“取消”
# alert.send_keys(“输入文本”) # 适用于Prompt

新窗口/标签页 ：

# 点击一个会打开新窗口的链接
main_window = driver.current_window_handle # 记录当前窗口句柄
driver.find_element(By.LINK_TEXT, “新窗口”).click()

# 切换到新窗口
WebDriverWait(driver, 5).until(lambda d: len(d.window_handles) > 1)
new_window = [w for w in driver.window_handles if w != main_window][0]
driver.switch_to.window(new_window)

# 在新窗口操作...
# 操作完后关闭新窗口，切回主窗口
driver.close()
driver.switch_to.window(main_window)

5.5 让脚本更健壮的技巧

使用 data-testid 属性 ：与前端开发约定，为重要的测试元素添加一个唯一的、不随样式变化的属性，如 data-testid=“login-submit-btn” 。这能从根本上解决定位器脆弱的问题。

失败截图 ：在测试失败时自动截图，便于事后分析。

def take_screenshot(driver, name=“screenshot”):
    timestamp = time.strftime(“%Y%m%d_%H%M%S”)
    filename = f“{name}_{timestamp}.png”
    driver.save_screenshot(filename)
    print(f“截图已保存：{filename}”)
# 在断言失败或异常捕获处调用

合理使用 try…except ：不是所有失败都需要让整个测试套件停止。对于一些非核心的检查点，可以捕获异常并记录日志。
清理测试数据 ：自动化测试可能会创建垃圾数据。确保用例之间有良好的 setup （准备）和 teardown （清理）机制，保持测试环境的干净。

6. 下一步：从脚本到测试套件

当你掌握了单个脚本的编写后，自然会面临如何管理大量测试用例、生成报告、集成到持续集成（CI）流程中的问题。这时，你需要引入测试框架。

推荐组合：Pytest + Selenium pytest 是Python生态中最强大、最流行的测试框架之一，它比自带的 unittest 更简洁灵活。

安装： pip install pytest
编写测试 ：函数以 test_ 开头，使用 assert 断言。
夹具 (Fixture) ：用于提供测试依赖（如浏览器驱动），并管理setup/teardown逻辑。上面示例中的 setup_method 和 teardown_method 就可以用 pytest 的 @pytest.fixture 更优雅地实现。
运行与报告 ：可以方便地选择运行部分用例，并生成HTML、XML等格式的测试报告。

持续集成 (CI) 将你的自动化测试项目接入Git，然后使用Jenkins、GitLab CI、GitHub Actions等工具，配置在代码推送后或每天定时自动执行测试套件，并将测试报告发送到邮箱或团队聊天工具。这才是UI自动化测试价值最大化的体现——守护质量，及时反馈。

UI自动化测试入门不难，但写出稳定、可维护、有价值的自动化测试代码需要不断的实践和总结。从今天开始，尝试为你手头项目中最枯燥的那部分手动测试编写一个自动化脚本吧，迈出第一步，你就已经领先了。

亚马逊云科技技术品牌专区

更多推荐

Kiro Editor 开发实战：使用 Cargo 构建、测试与性能优化指南

欢迎来到这篇终极指南，我们将深入探索如何使用Rust构建高性能的终端文本编辑器Kiro Editor。无论你是Rust新手还是经验丰富的开发者，这篇完整教程将带你了解如何利用Cargo工具链进行高效的开发、测试和性能优化，打造一款快速、轻量且功能强大的UTF-8文本编辑器。## 什么是Kiro Editor？Kiro Editor是一款使用Rust编写的极简终端文本编辑器，它最初是著名编辑