logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Agent安全测试:如何设计攻击Case库

本文探讨了构建Agent系统安全攻击Case库的必要性与方法。针对Agent系统模型行为随版本变化的特点(如Prompt调整、工具新增等),提出需要建立可重复、可回归、可自动化的安全测试机制。文章详细介绍了安全Case库的结构化设计(包含用例编号、攻击类型、攻击输入和期望行为等字段),列举了Prompt注入、工具注入、数据泄露和权限绕过等常见攻击类型,并建议以JSON/YAML/CSV格式维护案例

#kotlin#开发语言#android +1
我对 AI 辅助测试的新理解:不是生成结果,而是沉淀判断体系

AI 辅助测试,不是让 AI 直接替我生成需求分析、测试点和脚本。更核心的是,先把测试判断体系沉淀下来,再通过规则、流程和反馈机制,让 AI 逐步按我的思路执行,并持续优化。工具会变,模型会变,平台也会变。但只要判断框架和反馈闭环还在,这套能力就能继续迁移。

#人工智能#深度学习#自动化
AI 如何参与 Playwright 自动化维护:一次自动修复闭环实践

在自动化测试里,脚本写出来并不难,真正麻烦的是后续维护。很多失败并不是真正的功能缺陷,而是 locator 变化、placeholder 调整、断言文本不一致这类高频、低难、重复性的维护问题。这次实践没有继续围绕“AI 会不会生成 Playwright 脚本”去做,而是换了一个更贴近测试日常的问题:AI 能不能参与自动化测试维护流程,完成失败归因、最小修复和回归验证这条闭环。本文记录这次最小实践的

#算法#人工智能#自动化
AI时代,测试工程师的未来:我做Agent项目后想清楚的几件事

你没办法说哪个”对”、哪个”错”,你只能去定义——什么范围内的回答是可接受的,然后想办法把系统行为控制在这个范围里。造数接口、清数接口、日志查询、状态校验、回归执行入口,这些能力如果没有被标准化,AI就只能给建议,没办法真正帮你做事。状态写入不稳定,后续的行为和输出都不可信。∙不再是”发现问题报Bug”,而是”定义规则,让问题可复现、可回归”输出层:结果是否可信,有没有幻觉,该拒答的时候有没有拒答

#自动化#人工智能
AI系统测试实践:Agent是如何触发Tool的?(LLM决策层解析)

在 AI Agent 系统中,大模型并不会直接执行系统操作,而是通过 Tool 来完成业务逻辑。因此理解,是理解 AI 系统行为的关键。本文重点拆解。核心问题包括:Agent是怎么触发Tool的?Function Calling是怎么工作的?如何控制模型调用Tool?如果模型乱调用怎么办?

#人工智能#数据库#自动化
项目实践笔记7:基于真实交互日志的打卡/日报 Agent v1.0 Bug 清单整理

在完成打卡 / 日报 Agent v1.0 的基础功能后,通过真实交互日志 + 用例执行,对当前版本进行了一轮系统性的 Bug 梳理。将零散的异常现象合并为可复现、可归因、可修改的 Bug 清单,并明确区分了代码缺陷与业务策略问题。通过这次整理,我重点暴露了输入解析、对话状态维护、一致性/幂等性等基础问题,为后续 v1.1 的修复与规则收敛提供了明确方向。这套从“用例执行 → Bug 合并 → 清

#功能测试#人工智能#自动化
AI测试工程笔记:AI Agent评测体系设计(从数据集到质量验证)

AI系统评测与传统测试存在本质差异:由于AI输出具有生成性、决策性和不确定性,需构建系统化评测体系。文章提出三层评测模型:1)行为层验证Tool调用决策;2)状态层检查数据一致性;3)输出层评估结果质量。采用回归集和BadCase数据集驱动测试,覆盖正常流程与边界场景,并发现情绪输入误触发等典型问题。当前以人工评估为主,未来将向自动化评测演进。核心转变在于:从验证"功能正确"升

#人工智能#功能测试#自动化
项目实践笔记:打卡 / 日报 Agent 中的输入边界设计

在实现一个用于打卡提醒与日报辅助的个人 Agent 过程中,我没有一开始就写代码,而是先花时间梳理:真实工作场景下的输入,哪些应该触发 Function Calling,哪些必须被系统拦住。通过把日常工作中的自然语言输入进行分类,我逐步明确了“事实输入、查询输入、情绪/评价输入、越界输入”等边界,并据此约束 Agent 的行为。这篇笔记记录了我在项目实践中,如何从真实输入出发,为 AI Agent

#人工智能#功能测试#自动化
项目实践笔记 6:用扣子 + Skill 实现测试用例生成规则

这篇实践笔记记录了我一次具体尝试:将平时写测试用例时会反复检查的规则(结构、边界、异常覆盖等),整理成一个可复用的 Skill,并通过扣子进行调用。Skill 本身不替代人工设计用例,只负责先跑出一版结构清晰、边界明确的用例初稿,便于后续人工 review 和补充。本文不讨论方法论,重点放在实操过程与使用感受,供类似场景参考。

文章图片
#测试用例#人工智能#功能测试 +1
AI驱动的自动化自愈链路:从失败归因到自动修复

本文记录一次 AI 辅助自动化测试维护流程实践。项目聚焦 UI 自动化中高频出现的 locator 变化、placeholder 变化、文本变化、断言不一致等维护问题,基于 Playwright + Codex 打通了“执行测试 → 读取日志 → 失败归因 → 最小修复 → 回归验证”这条核心链路,并进一步完成了统一 workflow 和连续两轮稳定性验证。

#人工智能#自动化#需求分析
    共 33 条
  • 1
  • 2
  • 3
  • 4
  • 请选择