
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Agent不能什么都做。要写清楚:它能做什么不能做什么需要哪些工具输出什么格式什么时候需要人工确认失败时怎么处理例如:客户分析Agent的职责:能查询客户基础信息。能查询历史订单。能查询工单记录。能总结风险点。能生成跟进建议。不能直接修改客户等级。不能直接承诺退款。不能查看无权限客户。不能编造没有来源的数据。这个边界越清楚,Agent越稳定。Agent工程的本质不是“让大模型更会聊天”。
AI 写完代码后,必须经过:一、本地启动。二、接口测试。三、单元测试。四、代码 Review。五、安全检查。六、灰度发布。不要让 AI 直接决定上线。用自然语言驱动 AI,把开发过程从手写代码,升级为描述需求、拆解任务、审查方案、验证结果。它最适合快速原型、小功能开发、代码解释、Bug 修复、页面搭建和自动化工具开发。AI 可以帮你提速,不能替你负责。真正靠谱的 Vibe Coding,一定不是“
活动复盘报表解读会议纪要用户反馈分析工单总结运营日报需要查数据需要找原因需要生成建议不能编造事实AI Agent 想真正落地,不能只靠一个大模型加几个工具。因为真实业务不是简单问答,而是有流程、有规则、有权限、有异常、有质量要求。把零散 Prompt 变成标准能力把个人经验变成可复用流程把工具调用变成稳定任务链把模型输出变成可控结果Tool 解决“能不能做”,Skill 解决“怎么做好”,Agen
大模型如何连接外部工具和数据。大模型如何稳定、安全、高并发、可治理地连接外部系统。1、MCP Gateway 统一入口2、MCP Server 按业务域拆分3、Gateway 和 Server 都做无状态多副本4、前面通过负载均衡分发流量5、通过注册中心或 Kubernetes 做服务发现6、通过 Gateway 做鉴权、路由、限流、熔断7、通过缓存提升高频工具性能8、通过二次确认保护高危操作9、
大模型项目真正上线后,拼的不只是模型能力,而是工程能力。效果优化能力性能优化能力并发治理能力熔断保护能力容灾降级能力监控告警能力链路追踪能力问题复盘能力Prompt 优化解决“答得好不好”。RAG 优化解决“有没有依据”。缓存和流式返回解决“快不快”。限流和熔断解决“扛不扛得住”。容灾和降级解决“出问题还能不能用”。日志和监控解决“问题能不能定位”。真正的大模型工程化,不是写一个 Demo,而是让
trace_id消息队列:trace_id异步任务:trace_id模型调用:trace_id工具调用:trace_id否则链路会断。一、这次请求经历了什么?二、每一步花了多久?三、每一步输入输出是什么?四、最终答案为什么会这样?它不是简单打日志,也不是只看接口耗时。用户输入鉴权安全检测意图识别Query改写RAG检索重排Prompt组装模型调用Agent工具调用输出审核用户反馈Token成本质量
用户让模型总结一篇文档。例如:帮我总结这份项目复盘文档的主要问题和改进措施。这种问题不能只看标准答案,要看覆盖度和表达质量。评测集不是简单整理一批题目。它本质上是大模型项目的质量标准。1、有真实业务来源。2、有清晰问题分类。3、有标准答案和评分规则。4、有边界问题和对抗问题。5、RAG场景要单独评检索和生成。6、人工评测和自动评测结合。7、持续接入研发和上线流程。8、不断吸收线上失败案例,持续迭代
用户让模型总结一篇文档。例如:帮我总结这份项目复盘文档的主要问题和改进措施。这种问题不能只看标准答案,要看覆盖度和表达质量。评测集不是简单整理一批题目。它本质上是大模型项目的质量标准。1、有真实业务来源。2、有清晰问题分类。3、有标准答案和评分规则。4、有边界问题和对抗问题。5、RAG场景要单独评检索和生成。6、人工评测和自动评测结合。7、持续接入研发和上线流程。8、不断吸收线上失败案例,持续迭代
模型做一个动作,环境给一个奖励,模型为了拿更高奖励不断调整行为。举个简单例子。坐下,奖励零食乱跑,没有奖励听口令,奖励更多时间久了,小狗就知道什么行为更容易得到奖励。大模型里的强化学习也类似。模型生成一个回答,如果这个回答更符合人类偏好,就给高分;如果回答差,就给低分。用人类反馈训练奖励模型,再用强化学习优化大模型。RLHF 工程复杂度更高,不建议初学者直接上。可以先理解流程,再看 PPO、奖励模
混合检索之所以重要,是因为真实业务里的搜索问题非常复杂。用户有时输入的是精确关键词,比如错误码、字段名、接口名、合同条款。用户有时输入的是自然语言,比如“为什么登录不上”“系统太慢怎么办”“怎么优化知识库问答”。关键词检索擅长精确匹配,但语义理解弱。向量检索擅长语义理解,但精确命中不一定稳定。混合检索把两者结合起来,再通过融合排序、Rerank、元数据过滤等方式,提升最终检索质量。对于大模型 RA







