logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

36|RAG 评测与回归:命中率、覆盖率、引用正确性

《RAG系统评测指南:告别“感觉好用”,科学评估三大黄金指标》 本文针对RAG(检索增强生成)系统上线前的关键评测环节,提出必须通过自动化机制取代主观判断。核心方法论围绕三大黄金指标: 命中率(检索准确性):确保系统能定位正确资料片段,达标门槛>0.85; 忠实度(生成可靠性):杜绝大模型虚构内容,要求>0.95且零容忍幻觉; 答案覆盖率(回答完整性):检查是否全面解决用户问题,基准>0.80。

#回归#数据挖掘#人工智能
44|评测入门:从“能用”到“稳定可用”

本文聚焦AI工程中的评测体系,强调以"金标数据集"替代主观判断,提出三种评测方法:基于规则的自动评分、LLM裁判模型和人工审核。重点讲解了离线评测与回归测试的生命周期管理,并给出包含5类30条测试用例的通用最小评测集框架(含Happy Path、模糊指代、知识盲区等关键测试场景)。文章指出,建立自动化评测流水线(如Python脚本+GPT-4裁判)是确保AI系统稳定性的关键,能有效避免"解决一个B

27|MCP × Skills 分层:连接能力与流程知识如何组合

MCP(工具)与Skills(技能)是AI工程化落地的核心分层架构。MCP提供原子化能力(如文件读写、API调用),而Skills则封装业务逻辑与标准流程(如Bug修复SOP)。二者的关系类似厨房工具与菜谱:工具决定"能做什么",技能规定"怎么做、何时做、如何回滚"。通过分层设计(意图层→技能层→能力层→系统层),既能复用底层工具,又能用确定性流程约束AI的随机性。典型场景如自动修复Bug时,技能

#MCP
AI工程落地:研发场景核心能力深挖

本文聚焦AI原生研发的实战案例与落地经验,通过对比传统研发与AI原生研发的核心差异,揭示AI带来的效率提升。文章详细分析了Radency、华为、海尔、喜马拉雅等企业的AI研发实践,展示AI在需求分析、编码、测试等环节最高可节省75%时间。同时提出为AI Agent设计软件的12条原则,强调结构化输出、小Agent分工等关键点。最后阐述从提示词工程到驾驭工程的三阶段演进,指出模型需要结合边界管理、状

#人工智能#华为
29|前沿互操作概念速览:跨平台复用与生态演进

AI行业正面临严重的"碎片化"问题,不同平台间的工具和技能无法互通。本文探讨了解决这一问题的关键——互操作性(Interoperability)。通过类比USB接口,说明建立统一标准的重要性。MCP协议已初步实现工具层面的互操作,但技能跨平台复用仍面临执行环境差异等挑战。未来需要统一技能描述规范和环境抽象层,最终形成开放的技能市场。文章还列出了需要重点跟进的技术清单,包括标准协议演进、安全执行环境

38|任务分解:从模糊目标到可执行子任务

本文探讨了AI Agent在执行复杂任务时如何进行有效分解。通过对比人类工程师的工作方式,提出任务分解的三大核心目标:降低单步试错成本、理清依赖关系和优化上下文控制。文章强调优秀子任务应具备边界清晰、前置依赖和明确验收标准三个特征,并提供了一个包含项目目标、子任务ID、描述、依赖关系和验收标准的JSON模板。这种结构化分解方法能帮助Agent像专业项目经理一样工作,实现断点续跑和精准验证,为后续记

48|上线形态:本地脚本、服务端 API、前端产品、插件

AI系统上线阶段需根据应用场景选择合适形态:本地脚本(注意密钥安全)、服务端API(优化超时与并发)、前端产品(避免API Key暴露)、插件(防范权限滥用)。核心安全准则包括密钥隔离、权限控制和性能优化,上线前必须检查安全配置、成本监控和日志记录。遵循工程规范可规避99%低级错误,确保AI应用稳定交付。后续将探讨线上应急治理策略。

#前端
47|成本与性能:缓存、批处理、模型路由与降级

本文介绍了降低大模型API成本的五大策略:1)语义缓存技术,通过识别相似问题避免重复调用;2)批处理API,打包非实时任务享受半价优惠;3)智能模型路由,根据任务复杂度分配大小模型;4)多级降级预案,保障系统高可用性;5)建立成本预算表,明确不同场景的优化方案。文章强调,要像"带着计算器写代码"一样精打细算,通过缓存拦截、批处理优惠、模型分级和容灾设计,可在保持系统智能的同时降低80%成本。最后指

#缓存
46|可观测性:日志、追踪、指标与失败复盘

Agent系统上线后,面对用户反馈的“AI乱改订单”等突发问题,缺乏可观测性会导致排查困难。本文介绍了构建Agent监控体系的三大支柱:**指标(Metrics)**用于宏观报警,**日志(Logs)记录详细事件(如Prompt与输出),追踪(Traces)通过唯一ID串联请求全流程。针对Agent特性,提出Span标记思维轨迹,并利用可重放(Replay)**功能可视化问题。最后强调结构化复盘,

44|评测入门:从“能用”到“稳定可用”

本文聚焦AI工程中的评测体系,强调以"金标数据集"替代主观判断,提出三种评测方法:基于规则的自动评分、LLM裁判模型和人工审核。重点讲解了离线评测与回归测试的生命周期管理,并给出包含5类30条测试用例的通用最小评测集框架(含Happy Path、模糊指代、知识盲区等关键测试场景)。文章指出,建立自动化评测流水线(如Python脚本+GPT-4裁判)是确保AI系统稳定性的关键,能有效避免"解决一个B

    共 90 条
  • 1
  • 2
  • 3
  • 9
  • 请选择