Agent-E核心技能库全解析：从打开网页到DOM操作的完整技能清单

Agent-E是一款强大的智能自动化工具，专为网页操作设计，通过其丰富的核心技能库实现从基础网页导航到复杂DOM操作的全流程自动化。本文将详细介绍Agent-E的核心技能体系，帮助新手快速掌握这一自动化神器的使用方法。## Agent-E技能架构概览Agent-E的技能系统采用模块化设计，所有技能集中管理在`ae/core/skills/`目录下，通过技能注册机制实现统一调度。技能注册器`

屈凌爱

385人浏览 · 2026-03-14 02:33:51

屈凌爱 · 2026-03-14 02:33:51 发布

Agent-E核心技能库全解析：从打开网页到DOM操作的完整技能清单

【免费下载链接】Agent-E Agent driven automation starting with the web. Discord: https://discord.gg/czHhPDMk 项目地址: https://gitcode.com/gh_mirrors/ag/Agent-E

Agent-E是一款强大的智能自动化工具，专为网页操作设计，通过其丰富的核心技能库实现从基础网页导航到复杂DOM操作的全流程自动化。本文将详细介绍Agent-E的核心技能体系，帮助新手快速掌握这一自动化神器的使用方法。

Agent-E技能架构概览

Agent-E的技能系统采用模块化设计，所有技能集中管理在ae/core/skills/目录下，通过技能注册机制实现统一调度。技能注册器skill_registry.py提供了装饰器模式，让开发者可以轻松注册新技能并添加描述信息。

技能系统主要分为四大类：基础导航技能、DOM操作技能、用户交互技能和内容处理技能。这种分类方式使Agent-E能够灵活应对各种网页自动化场景。

基础导航技能详解

打开网页（openurl）

open_url.py中实现的openurl函数是所有网页自动化的起点，它支持完整URL导航并提供超时处理机制。该技能会自动检测URL协议，如果缺少则默认添加https://，确保导航的准确性。

async def openurl(url: Annotated[str, "The URL to navigate to"], timeout: int = 3) -> str:
    # 导航到指定URL并等待加载完成
    # 返回页面标题和URL信息

使用示例：openurl("gitcode.com/gh_mirrors/ag/Agent-E")会自动补全为https://gitcode.com/gh_mirrors/ag/Agent-E并打开该页面。

获取当前URL（geturl）

get_url.py中的geturl函数提供了获取当前页面URL的功能，这在需要验证导航结果或记录访问路径时非常有用。

DOM操作核心技能

元素点击（click）

click_using_selector.py实现了强大的元素点击功能，支持通过CSS选择器精确定位元素。该技能具有以下特点：

支持元素可见性检查和滚动到视图
提供Playwright点击和JavaScript点击两种模式
处理特殊元素如下拉菜单选项
检测DOM变化并返回操作结果

文本输入（entertext）

enter_text_using_selector.py提供了灵活的文本输入功能，支持通过选择器定位输入框并输入文本。它还支持批量输入和自定义填充逻辑，适用于表单填写等场景。

键盘操作（press_key_combination）

press_key_combination.py实现了键盘快捷键功能，支持模拟各种按键组合，如Enter、PageDown等，扩展了交互能力。

高级内容处理技能

PDF文本提取（extract_text_from_pdf）

pdf_text_extractor.py提供了从PDF文件中提取文本的能力，支持从URL下载PDF并进行内容解析，这对于处理网页中的PDF文档非常有用。

DOM内容获取（get_dom_with_content_type）

get_dom_with_content_type.py能够获取当前页面的DOM结构并根据内容类型进行过滤，为后续分析和自动化决策提供数据支持。

实用辅助技能

用户输入获取（get_user_input）

get_user_input.py实现了与用户交互的功能，可以提出问题列表并收集用户回答，使自动化流程更加灵活。

流程暂停（pause_flow）

pause_flow.py提供了暂停功能，允许在自动化流程中设置等待时间，确保页面有足够时间加载或完成动画效果。

批量文本输入（bulk_enter_text）

enter_text_using_selector.py中的批量输入功能支持一次性填写多个表单字段，大大提高了复杂表单的处理效率。

技能使用最佳实践

组合使用技能：将多个技能组合使用可以实现复杂自动化流程，如"打开网页→填写表单→点击提交"
错误处理：大多数技能都内置了错误处理机制，建议在调用时添加适当的异常处理
选择器策略：优先使用mmid属性选择器（如[mmid='114']）以提高元素定位的稳定性
等待机制：在页面交互之间适当使用pause_flow或设置wait_before_execution参数

如何扩展Agent-E技能库

Agent-E的技能系统设计为可扩展架构，开发者可以通过以下步骤添加新技能：

在ae/core/skills/目录下创建新的Python文件
使用skill_registry.py中的@skill装饰器注册新技能
实现技能逻辑并添加适当的参数注解和文档字符串

from ae.core.skills.skill_registry import skill

@skill(description="新技能描述")
async def new_skill(param1: str, param2: int) -> str:
    # 技能实现逻辑
    return "操作结果"