
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文围绕AI应用开发中的数据质量管理与评估方法展开,重点介绍了数据集的构建和评估流程两大核心环节。在数据集方面,详细阐述了数据整理的三种方法(人工整理、线上收集和合成数据)、数据划分策略以及版本管理的重要性。在评估体系方面,系统说明了评估器的输入输出规范,并介绍了人工评估、启发式评估、大模型评估和配对评估四种技术方法。文章还区分了离线评估(包括基准测试、单元测试等)和在线评估的应用场景,最后对评估
本文围绕AI应用开发中的数据质量管理与评估方法展开,重点介绍了数据集的构建和评估流程两大核心环节。在数据集方面,详细阐述了数据整理的三种方法(人工整理、线上收集和合成数据)、数据划分策略以及版本管理的重要性。在评估体系方面,系统说明了评估器的输入输出规范,并介绍了人工评估、启发式评估、大模型评估和配对评估四种技术方法。文章还区分了离线评估(包括基准测试、单元测试等)和在线评估的应用场景,最后对评估
本文介绍了使用LangSmith工具评估AI应用性能的方法。主要内容包括:1)评估三要素:数据集(含输入和预期输出)、目标函数(被评估的AI组件)和评估器(对输出进行语义评分);2)实践步骤:设置环境变量,构建RAG智能体(含PDF加载、文本分割、向量存储和检索工具),创建5个测试用例的数据集,使用Deepseek模型实现语义评估器,定义目标函数调用智能体;3)执行评估并查看结果。该方法通过结构化
本文介绍了使用LangSmith工具评估AI应用性能的方法。主要内容包括:1)评估三要素:数据集(含输入和预期输出)、目标函数(被评估的AI组件)和评估器(对输出进行语义评分);2)实践步骤:设置环境变量,构建RAG智能体(含PDF加载、文本分割、向量存储和检索工具),创建5个测试用例的数据集,使用Deepseek模型实现语义评估器,定义目标函数调用智能体;3)执行评估并查看结果。该方法通过结构化
本文介绍了如何使用LangSmith工具对大模型应用进行开发和监控。首先演示了一个基于PDF文档的RAG应用构建过程,包括文档加载、文本分割、向量存储和信息检索。随后详细说明了如何通过设置环境变量和封装模型,使用LangSmith跟踪大模型调用过程,包括输入输出记录和完整应用流程跟踪。文章还展示了LangSmith对LangChain原生支持的特性,通过简单的环境变量配置即可实现对智能体(agen
本文介绍了如何使用LangSmith工具对大模型应用进行开发和监控。首先演示了一个基于PDF文档的RAG应用构建过程,包括文档加载、文本分割、向量存储和信息检索。随后详细说明了如何通过设置环境变量和封装模型,使用LangSmith跟踪大模型调用过程,包括输入输出记录和完整应用流程跟踪。文章还展示了LangSmith对LangChain原生支持的特性,通过简单的环境变量配置即可实现对智能体(agen
本文对于langchain 智能体的护栏进行讲解。首先对于护栏的概念、作用、实现模式进行介绍,然后分别用示例讲解langchain自带护栏及如何实现自定义的护栏,最后说明如何通过护栏堆叠实现对于智能体的多级安全保护。
本文对于langchain 智能体的护栏进行讲解。首先对于护栏的概念、作用、实现模式进行介绍,然后分别用示例讲解langchain自带护栏及如何实现自定义的护栏,最后说明如何通过护栏堆叠实现对于智能体的多级安全保护。
本文对于langchain 智能体的护栏进行讲解。首先对于护栏的概念、作用、实现模式进行介绍,然后分别用示例讲解langchain自带护栏及如何实现自定义的护栏,最后说明如何通过护栏堆叠实现对于智能体的多级安全保护。
本文介绍了深度智能体中人机回环(human-in-the-loop)的实现方法。通过interrupt_on参数可以设置不同工具的中断策略(允许/拒绝/编辑),实现对工具调用的细粒度控制。文章演示了如何创建具备企业信息查询和保存功能的智能体,并详细说明了处理工具调用中断的流程,包括批准、拒绝和修改参数等操作。此外,还介绍了多工具中断的批量处理和子智能体独立中断策略的配置方法。这种机制为风险操作提供







