logo
publist
写文章

简介

葡萄城是专业的软件开发技术和低代码平台提供商,以“赋能开发者”为使命,通过表格控件、低代码和BI等各类软件开发工具和服务,一站式满足开发者需求

擅长的技术栈

JavaScript.net

可提供的服务

提供低代码平台、高性能表格控件与嵌入式BI工具,为企业数字化转型提供全栈技术赋能。

LLM as a Judge:如何给 AI 工作台做自动化测试?

文章摘要: 传统软件测试通过固定输入输出比对验证功能,但AI Agent的多样化输出无法用字符串匹配评判。"LLM as a Judge"创新地引入语义级测试方案:用独立语言模型作为评判者,通过分析Agent的交互记录、系统日志和预期条件,进行多维度智能评估。该方案需设计条件式测试用例(描述预期特征而非具体结果),构建包含任务背景、本体定义等要素的结构化提示词,并在隔离的测试环境中执行。评判结果不

#人工智能
LLM as a Judge:如何给 AI 工作台做自动化测试?

文章摘要: 传统软件测试通过固定输入输出比对验证功能,但AI Agent的多样化输出无法用字符串匹配评判。"LLM as a Judge"创新地引入语义级测试方案:用独立语言模型作为评判者,通过分析Agent的交互记录、系统日志和预期条件,进行多维度智能评估。该方案需设计条件式测试用例(描述预期特征而非具体结果),构建包含任务背景、本体定义等要素的结构化提示词,并在隔离的测试环境中执行。评判结果不

#人工智能
LLM as a Judge:如何给 AI 工作台做自动化测试?

文章摘要: 传统软件测试通过固定输入输出比对验证功能,但AI Agent的多样化输出无法用字符串匹配评判。"LLM as a Judge"创新地引入语义级测试方案:用独立语言模型作为评判者,通过分析Agent的交互记录、系统日志和预期条件,进行多维度智能评估。该方案需设计条件式测试用例(描述预期特征而非具体结果),构建包含任务背景、本体定义等要素的结构化提示词,并在隔离的测试环境中执行。评判结果不

#人工智能
LLM as a Judge:如何给 AI 工作台做自动化测试?

文章摘要: 传统软件测试通过固定输入输出比对验证功能,但AI Agent的多样化输出无法用字符串匹配评判。"LLM as a Judge"创新地引入语义级测试方案:用独立语言模型作为评判者,通过分析Agent的交互记录、系统日志和预期条件,进行多维度智能评估。该方案需设计条件式测试用例(描述预期特征而非具体结果),构建包含任务背景、本体定义等要素的结构化提示词,并在隔离的测试环境中执行。评判结果不

#人工智能
LLM as a Judge:如何给 AI 工作台做自动化测试?

文章摘要: 传统软件测试通过固定输入输出比对验证功能,但AI Agent的多样化输出无法用字符串匹配评判。"LLM as a Judge"创新地引入语义级测试方案:用独立语言模型作为评判者,通过分析Agent的交互记录、系统日志和预期条件,进行多维度智能评估。该方案需设计条件式测试用例(描述预期特征而非具体结果),构建包含任务背景、本体定义等要素的结构化提示词,并在隔离的测试环境中执行。评判结果不

#人工智能
为什么最佳实践对人和 AI 都有价值?可维护性与可理解性的统一

文章摘要:元数据治理常被误解为仅服务于AI系统的额外负担,实则其核心价值在于提升工程可维护性。通过规范命名、补充注释、明确关联等基础治理措施,系统不仅能让AI准确理解,更能显著降低人类维护者的认知成本——新成员上手速度提升、代码可读性增强、团队沟通效率优化。治理本质是双向受益的工程质量建设,而非AI专属任务。实践表明,治理过程中对系统结构的重新审视还能意外发现设计缺陷。将治理定位为开发标准而非临时

#人工智能#数据库
活字格元数据治理实战:让 AI 能读懂你的业务系统

本文探讨了系统治理对AI调用准确率的关键影响,强调治理应作为日常开发习惯而非一次性任务。核心治理内容包括:名词治理(禁用拼音/缩写,保持技术名词一致,规范枚举备注);关系治理(显式配置表关联);动词治理(谓宾结构命令命名,补充复杂命令描述)。治理完成度可通过"人工Agent测试"和典型任务回归来验证。实践数据显示,小时级的治理投入(重点处理枚举备注和命令描述)即可显著提升主流程准确率。治理本质是为

#人工智能
代码界的“地心引力”:Google Antigravity 与 Cursor、Claude Code 的终极决战

AI辅助开发工具迎来全新阶段,Google推出智能体优先的Antigravity,挑战Cursor和VS Code+Claude Code。三款工具代表不同方向:Cursor是超级代码补全,VS Code+Claude Code是终端系统级接管,Antigravity则是;全能虚拟团队。Antigravity的突破在于视觉感知和并行任务管理,AI能直接查看页面效果并自动修复问题,同时支持多任务并行

文章图片
#人工智能
如何使用缓存把大模型薅出白菜价

摘要: 大模型应用中,重复计算系统提示词导致成本激增。某团队因每次请求都重新处理相同的5,000 token提示词,月账单高达$5,000;接入Prompt Cache后,成本骤降至$800,降幅84%。主流模型厂商(如DeepSeek、OpenAI、Claude)的缓存价格仅为普通输入的1/10至1/50,但需开发者优化请求结构以命中缓存。 核心机制:Prompt Cache复用Prefill阶

文章图片
#缓存
大AI淘金热终极推演:卖铲子的人分四层,金子可能藏在六条暗河里

摘要: AI时代重现“淘金热”,2026年全球AI支出将达2.59万亿美元,产业链分化为“挖金子”(模型研发)与“卖铲子”(基础设施)两大路径。 卖铲子分层: 算力基础层(GPU/智算中心); 开发者工具层(开源工具如DeepSeek-TUI); 数据层(向量数据库如Milvus); 培训服务层(知识付费与微调)。 挖金子六大方向: Agent智能体(企业流程优化); 具身智能(机器人落地); 工

文章图片
#人工智能
    共 1012 条
  • 1
  • 2
  • 3
  • 102
  • 请选择