logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

揭开 AI 智能体评估的神秘面纱 - 领测软件测试网

本文由 Anthropic 工程团队发布,系统拆解了 AI Agent(智能体)评估的核心难点与实践方法。文章解释了为何评估对智能体研发至关重要,介绍了代码型、模型型、人工三类评分器,以及针对编码、对话、研究、计算机操作等不同智能体的评估方案。同时给出了从零搭建评估体系的完整路线图,强调通过 pass@k、pass^k 等指标衡量智能体稳定性,并建议将自动化评估与生产监控、A/B 测试、人工审核结

文章图片
#人工智能#算法
AI测试新选择:OpenCode对比Claude Code,谁更适合测试工程师使用?

测试工程师能否用开源的OpenCode替代付费的ClaudeCode?这取决于具体场景。对于常规测试脚本编写、环境搭建等简单任务,OpenCode搭配国产模型(如Qwen3.5)完全够用,成本仅为ClaudeCode的零头。但在处理复杂并发问题、深度调试等场景,ClaudeCode的推理能力和Agent主动性仍具优势。2026年国产模型虽在编码性能上追赶迅速,但在复杂逻辑链处理上仍有差距。建议团队

文章图片
#人工智能
AI测试新选择:OpenCode对比Claude Code,谁更适合测试工程师使用?

测试工程师能否用开源的OpenCode替代付费的ClaudeCode?这取决于具体场景。对于常规测试脚本编写、环境搭建等简单任务,OpenCode搭配国产模型(如Qwen3.5)完全够用,成本仅为ClaudeCode的零头。但在处理复杂并发问题、深度调试等场景,ClaudeCode的推理能力和Agent主动性仍具优势。2026年国产模型虽在编码性能上追赶迅速,但在复杂逻辑链处理上仍有差距。建议团队

文章图片
#人工智能
测试工程师别只顾着把测试技能蒸馏到Skill中,后面可能会裁员...... - 领测软件测试网首发

测试工程师将自身测试经验和技能封装成企业推行的 Skill(技能资产),看似能通过版税、积分等激励获取短期收益,实则陷入企业精心设计的 “慢性裁员” 陷阱:Skill 的高复用性会让 AI 逐步替代人工测试,企业将 Skill 包装为 “知识资产化”,本质是把测试工程师的工作量化为可削减的成本;Skill 激励背后藏着版税衰减、无成本维护、虚假转型通道三大谎言,工程师失去规则制定、风险决策等核心话

文章图片
#人工智能#测试覆盖率#测试用例 +1
你引以为傲的10年测试经验、测试思维,AI三个月就学完了

📌 摘要(149字) 软件测试行业正面临AI冲击下的认知误区:82%从业者认为AI重要,但73%团队在CI/CD中完全不用AI。MIT研究揭示85%重大事故源于"未测试的组合",暴露测试思维比执行更重要。AI将淘汰"伪测试者"——仅执行不质疑的从业者,而真正具备系统性质疑能力的测试架构师将崛起。测试左移与右移应并行补充,质量瓶颈在于想象力边界而非覆盖率。未

文章图片
#人工智能
敏捷转型中的PDCA实践:从迭代开发到持续改善的闭环--领测软件测试网首发

摘要: PDCA循环(戴明环)是由休哈特提出、戴明推广的持续改进工具,广泛应用于制造业、服务业及医疗领域。其四阶段(策划、实施、检查、处置)通过结构化方法提升效率与质量。PDCA可与ADKAR模型(解决人员变革阻力)和敏捷实践(加速迭代)结合,形成系统性变革框架。案例显示,福特、Spotify等企业通过整合PDCA、ADKAR与敏捷,显著提升转型成功率(89%)与交付效率(30%)。这一协同策略为

文章图片
ADKAR®模型如何赋能敏捷型组织--领测软件测试网首发

摘要:ADKAR®是由Prosci创始人Jeff Hiatt于1998年提出的个人变革管理框架,填补了传统组织变革模型忽略个体适应性的空白。该模型包含认知、渴望、知识、能力和巩固五个阶段,广泛应用于组织变革、个人职业转型和行为习惯改变。研究表明,ADKAR®可显著提升变革成功率,但需与组织级模型结合使用。其优势在于诊断个人变革阻力,局限性在于需补充解决系统性问题的工具。(150字)

文章图片
揭开 AI 智能体评估的神秘面纱 - 领测软件测试网

本文由 Anthropic 工程团队发布,系统拆解了 AI Agent(智能体)评估的核心难点与实践方法。文章解释了为何评估对智能体研发至关重要,介绍了代码型、模型型、人工三类评分器,以及针对编码、对话、研究、计算机操作等不同智能体的评估方案。同时给出了从零搭建评估体系的完整路线图,强调通过 pass@k、pass^k 等指标衡量智能体稳定性,并建议将自动化评估与生产监控、A/B 测试、人工审核结

文章图片
#人工智能#算法
软件测试工程师AI转型只需3步:从测试用例执行者升级为质量架构师

当下 AI 重构了测试行业的生产力公式,众多企业测试团队出现大规模裁员,被淘汰的多是仅依赖传统手工测试方法、仅负责用例执行的测试人员,而掌握 AI 应用能力的质量架构师得以留存。本文结合大量企业实践案例与行业数据,提出测试人员完成 AI 转型的三步路径:学会做 AI 的教练,将精力从写用例转向训练 AI、建立 AI 用例校验机制并聚焦复杂业务决策;以 TMMi 夯实测试成熟度基础,搭建需求 - 测

文章图片
#人工智能#测试用例
使用AI测试大幅提升软件测试覆盖率?别再迷信覆盖率了,测试用例数量是幻觉!

摘要:AI测试工具的真正危机并非技术缺陷,而是管理者用"用例数量"等工业指标制造"认知债务"。当组织盲目追求AI生成的测试用例数量和覆盖率,却忽视测试意图与业务风险时,反而导致关键缺陷漏检率上升。本文揭示三大认知陷阱:1)把生成能力等同于测试能力;2)管理者的"堆砌策略"惯性;3)人类测试者经验贬值。提出解决方案:构建"提示词资

文章图片
#人工智能#测试覆盖率#测试用例 +1
    共 20 条
  • 1
  • 2
  • 请选择