
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文探讨了LLM-as-a-judge(大模型作为评委)系统的设计与应用。该系统利用更强/更对齐的大模型对开放生成任务(如总结、对话、代码等)进行质量评估,解决了传统指标不足和人工评审昂贵的问题。主流评估方式包括单回答打分(Pointwise)、成对比较(Pairwise)和多回答排序(Listwise)。研究表明,强模型(如GPT-4)与人类评审一致性可达80%,但仍存在位置偏差、冗长偏好和专业
本文探讨了LLM-as-a-judge(大模型作为评委)系统的设计与应用。该系统利用更强/更对齐的大模型对开放生成任务(如总结、对话、代码等)进行质量评估,解决了传统指标不足和人工评审昂贵的问题。主流评估方式包括单回答打分(Pointwise)、成对比较(Pairwise)和多回答排序(Listwise)。研究表明,强模型(如GPT-4)与人类评审一致性可达80%,但仍存在位置偏差、冗长偏好和专业
A2A系统综述:多智能体协作技术概述 Agent-to-Agent(A2A)指多个自主智能体通过协作、竞争或协议共享完成复杂任务,代表AI从单智能体向多智能体自治系统的演进。A2A分为协作式、竞争式、互评式、协议驱动和自组织五大范式,广泛应用于软件工程、企业自动化、科研、教育等领域。其架构包括调度层(Orchestrator)、Agent层(独立推理、记忆、工具)、通信系统及共享内存。核心挑战包括
A2A系统综述:多智能体协作技术概述 Agent-to-Agent(A2A)指多个自主智能体通过协作、竞争或协议共享完成复杂任务,代表AI从单智能体向多智能体自治系统的演进。A2A分为协作式、竞争式、互评式、协议驱动和自组织五大范式,广泛应用于软件工程、企业自动化、科研、教育等领域。其架构包括调度层(Orchestrator)、Agent层(独立推理、记忆、工具)、通信系统及共享内存。核心挑战包括
本文提出了一套企业级Agent能力评测体系,旨在评估智能Agent在任务执行、工具调用、环境交互等方面的全栈能力。该体系包含6类核心能力模型(任务理解、分解、工具使用、环境交互、执行稳定性和任务完成度),采用三层评测结构(基础能力、业务子流程和端到端流程)和四类评分模块(规则打分、过程分析、LLM裁判和安全合规检查)。评测流程涵盖数据集设计、执行流水线、LLM裁判系统和结果可视化,强调安全合规、成
本文提出了一套企业级Agent能力评测体系,旨在评估智能Agent在任务执行、工具调用、环境交互等方面的全栈能力。该体系包含6类核心能力模型(任务理解、分解、工具使用、环境交互、执行稳定性和任务完成度),采用三层评测结构(基础能力、业务子流程和端到端流程)和四类评分模块(规则打分、过程分析、LLM裁判和安全合规检查)。评测流程涵盖数据集设计、执行流水线、LLM裁判系统和结果可视化,强调安全合规、成
从 0 到 1 设计一套「真的能在企业内跑起来」的 Agent 评测平台。平台目标 & 场景边界总体架构设计(模块图 + 数据流)评测任务体系 & 指标体系评测流水线:从“题库”到“报告”的全链路工程落地建议(技术栈、环境隔离、多租户、安全)
从 0 到 1 设计一套「真的能在企业内跑起来」的 Agent 评测平台。平台目标 & 场景边界总体架构设计(模块图 + 数据流)评测任务体系 & 指标体系评测流水线:从“题库”到“报告”的全链路工程落地建议(技术栈、环境隔离、多租户、安全)
LLM-Agent 能力评测」是。
LLM-Agent 能力评测」是。







