
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文记录了在持续测试 RAG 系统过程中,发现的一类问题:检索命中相关 chunk 后,系统仍可能给出不成立的回答。通过多次问法复现,梳理了从 PDF 切分、检索打分到回答生成的实际流程,明确了问题并非出在检索本身,而在于将“命中证据”等同于“可以回答”。这一观察为后续拒答与兜底策略的设计提供了直接依据。

本文记录了在 RAG 系统中对检索阶段的一次实际验证过程。通过查看 PDF 切分结果与检索输出,梳理了 chunk 的生成方式、chunk_id 与 page 的含义,以及固定问题下检索结果为何命中这些内容。重点在于确认检索行为是否可观察、可解释,为后续的引用与边界控制打基础。

在完成 RAG 最小闭环后,没有立即引入向量数据库,而是先对现有链路进行了一轮回归测试。通过一组带明确预期的问题,逐步暴露出当前系统在检索命中率、生成可控性和结果稳定性方面的问题。本阶段不引入新模型或新组件,仅通过增强检索过程的可观测性、修复中文检索策略以及加入拒答约束,使 RAG 从“能跑”过渡到“可验证、可回归”。这一过程为后续引入向量数据库和 embedding 奠定了工程基础。

在该项目中已完成 RAG 的最小闭环,实现了基于 PDF 文档的内容生成。但在继续推进时发现,问题并不在模型能力,而在输出结果的稳定性与可控性:同一份文档多次运行,输出形态不一致,难以复现与信任。为此,本阶段引入“输出契约”的工程思路,将同一输入拆分为“课程大纲”和“项目说明”两种输出模式,通过 prompt 明确约束结果结构,并对项目说明模式固定为三页结构。该实践使 RAG 从“能跑”迈向“可信

本篇记录跑通 Tool Calling + 本地 PDF 接入的全过程:先定义 tools schema 与两段关键 prompt(触发工具调用 / 基于证据生成),再让模型在 tool_choice=auto 下自动触发 read_local_pdf(file_path),由代码执行工具读取 PDF 文本并返回“文件名+摘录”作为 evidence,最后将 evidence 回填 message

在打卡 / 日报 Agent v1.0 的测试过程中,而是从测试视角出发,选取了几类具有代表性的 Bug 进行修改与收口。通过将问题分为代码执行层、模型决策层与输出兜底层,逐层定位不稳定来源,并以最小改动方式保证系统在真实自然语言输入下可运行、可解释、可回归。引入了最小化的输入控制逻辑,对相对时间与意图进行前置解析,减少模型对关键参数的自由猜测,从而显著提升 Agent 行为的一致性与可控性。这一
在完成打卡 / 日报 Agent v1.0 的基础功能后,通过真实交互日志 + 用例执行,对当前版本进行了一轮系统性的 Bug 梳理。将零散的异常现象合并为可复现、可归因、可修改的 Bug 清单,并明确区分了代码缺陷与业务策略问题。通过这次整理,我重点暴露了输入解析、对话状态维护、一致性/幂等性等基础问题,为后续 v1.1 的修复与规则收敛提供了明确方向。这套从“用例执行 → Bug 合并 → 清
在完成基础功能和一轮冒烟测试后,我没有继续扩展能力,而是先把当前阶段用到的一组测试用例整理了出来。这些用例全部来自实际工作中常见的表达,覆盖事实记录、状态查询、情绪化输入和越界指令等场景,目的是验证 Agent 在不同状态下是否会误触发、越权或行为不稳定。这篇内容不讨论方法论,也不追求覆盖面,只是把一份正在使用的测试用例清单完整放出来,作为后续提 Bug、优化逻辑和回归验证的基础。
本文记录了一次基于 Google AI Studio 的结构化日报 Agent 实验过程。通过实际对话测试,重点验证了大模型在信息不完整和存在风险信号时的行为表现,包括是否会主动追问、是否会补全未给出的内容,以及风险标记是否稳定。实验过程中对 Prompt 语言选择(英文规则 + 中文交互)、字段缺失处理策略(UNKNOWN vs 补全)以及“先约束再补全”和“先输出再确认”两种策略进行了对比分析

在尝试使用 AI 生成测试用例的过程中,我发现同一个需求、相同输入下,多次生成的结果在覆盖点和侧重点上存在明显差异。为此,我以一个常见的登录页面为例,在不改变 prompt 的前提下连续生成三次测试用例和风险提示,并对结果进行对比。实验发现,AI 更擅长从不同视角提醒可能的测试点,但单次生成结果难以支撑对测试覆盖性的确定判断。本文记录了这次小实践的过程与阶段性思考,供同样在探索 AI 辅助测试的同








