logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Langfuse 与 OpenTelemetry:别再傻傻分不清

本文对比了OpenTelemetry与Langfuse在AI应用监控中的区别与联系。OpenTelemetry是通用的云原生监控标准,负责数据采集和传输;而Langfuse是专为LLM应用设计的可观测性平台,提供Trace分析、成本追踪、质量评估等功能。两者可协同工作,OpenTelemetry作为数据源,Langfuse作为消费端。文章通过建筑比喻和RAG案例,解释了Langfuse的四大核心概

Multi-Agent多智能体的当前研究、工具、挑战的概述

多智能体会是LLMs的下一个热点么?看下最新的研究进展和相关工具、挑战!

文章图片
关于 Agent 评测,我搭了一个能跑的最小版!

不做成一个平台,只做好一件事——把 Agent 的执行变成可复现、可记录、可评分的实验。150 行 Python,5 个模块,接入了真实模型,输出了标准化的 Eval Report。就这么简单。有了这套结构,Agent 评测不再是"试一下好不好用",而是能精确定位问题出在哪个环节:🤔任务理解错了?→ 改 System Prompt🔧工具用错了?→ 看 Trace 里的 tool name📝参

#人工智能
使用大型语言模型改进文本嵌入2

通过利用 LLM 可以大大提高文本嵌入的质量。

文章图片
#语言模型#人工智能#自然语言处理
大模型测试:我今天有三个苹果

问题:我今天有三个苹果,昨天我吃了一个,现在我有几个苹果?

文章图片
使用大型语言模型改进文本嵌入2

通过利用 LLM 可以大大提高文本嵌入的质量。

文章图片
#语言模型#人工智能#自然语言处理
大模型测试:我今天有三个苹果

问题:我今天有三个苹果,昨天我吃了一个,现在我有几个苹果?

文章图片
简述语言理解任务基准:superGLUE

SuperGLUE一种评估通用语言理解系统的新基准。SuperGLUE 通过识别一组新的具有挑战性的 NLU任务来更新 GLUE 基准,这些任务通过人类和机器基线之间的差异来衡量。

文章图片
#自然语言处理#语言模型
    共 12 条
  • 1
  • 2
  • 请选择