AI技术老狗（QA）个人主页

@longxiaotian718

AI技术老狗（QA）

2024-10-28 14:56:10 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

智能体系统中Agent部分测试的五个维度

智能体测试涵盖五个关键层面：基础能力层验证语言理解、生成及指令执行的准确性；任务完成层评估规划与执行能力；智能进化层测试学习优化能力；场景适配层检验多场景适应能力；安全可靠层确保数据安全、稳定运行和抗干扰能力。各层评测共同确保智能体在不同应用场景中的功能实现、性能表现及安全性。

#人工智能 #大数据 #深度学习

【Resis实战分析】Redis问题导致页面timeout知识点分析

从上面的例子可以看出，Redis 的内存几乎被缓冲区占用殆尽。以下是具体的结论：当前内存使用 (used_memory) 已经接近最大内存限制 (maxmemory)，即 1.02 GB 接近 1.00 GB 的限制。内存开销 (used_memory_overhead) 很大，主要被客户端普通连接使用（可能是输出缓冲区），而实际的数据仅占用了很少的内存。分配器和 RSS 碎片率 (allocat

AI智能时代，五个常用agent框架你该了解一下

AI Agent目前我见到的最多的翻译是“智能体”，但是直译过来是“智能代理它是一种能够感知环境、自主决策并执行任务以实现特定目标的智能系统。它以大型语言模型（LLM）为核心，赋予机器自主性、适应性和交互性，使其能在复杂多变的环境中独立运作。简单来说，AI Agent 就像是一个拥有独立思考和行动能力的智能助手，能够理解你的需求，并通过调用各种工具和资源，为你完成一系列复杂的任务。就像一位能干的私

从GPT-5发布来分析LLM大模型幻觉收敛（一）

GPT-5 号称在任何领域都有博士级别能力。在医疗健康领域，能够对专业的癌症诊断报告做通俗易懂的解读。对复杂的放射治疗方案决策，也能提供详细的分析报告，帮助病人权衡利弊。一位癌症患者的家属在发布会上表示，“ 真正鼓舞人心的是看着她通过使用 GPT-5 重新获得自主权，病人很容易感到无助，因为知识差距太大了。但是也有人使用后反馈，GPT-5实际上，这并不是一个让人意外的结果。为什么会变成这样？这是不

＜Thinking Claude＞Prompt提示词大模型时代的新质生产力

跟那些教科书式的死板解法看起来有非常大的不同，你可以看到模型在回溯历史，会看到它说“或者，我们试试”或“等等，但”这些东西，这些，更像我们人类在思考时候的“内心独白”，或者说，“意识流”。在o1前时代，思维链的实际情况跟我们真正想要的思考过程还是有很大的差距的，我们希望思维链是模仿我们人类的思考过程，但模型实际上只是模仿它在预训练中看到的所谓的推理路径。首先，整个AI圈，都有个共识是，思维链对于大

【基础协议】大模型通信协议MCP(Model Context Protocol)

MCP（Model Context Protocol，模型上下文协议）是由Anthropic在2024年11月推出的开放标准，旨在解决AI大模型与外部数据源之间的连接问题，使模型能够安全、灵活地访问文件、API、数据库等资源，从而生成更精准的回答。以下是其核心概念、应用场景及与AI agent的关系解析：MCP通过标准化协议构建了AI模型与外部系统的桥梁，主要实现以下功能：上下文共享：允许AI模型

#oracle #数据库

手把手教你windows本地机器部署Deepseek

最近看到抖音热搜的DeepSeek AI只能很火，很多小伙伴都想部署，但感觉上条件不是很满足，不知道怎样才能搞定它。今天就来告诉大家怎么在自己的Windows电脑上部署DeepSeek AI人工智能教程！（本教程仅适用于Windows10或以上版本的系统哦！使用的是测试机i5- 6600T RAM8GB+ROM120GB的配置，其中的i5-6600T是一半的性能（因为是建立在虚拟机上的，所以性能只

#windows

[附下载] AI Agent（智能体）技术白皮书（Google，2024）

宽泛地来说，生成式 AI Agent 可以被定义为一个应用程序，通过观察周围世界并使用可用的工具来实现其目标。Agent 是有自主能力的（autonomous），只要提供了合适的目标，它们就能独立行动，无需人类干预；即使是模糊的人类指令，Agent 也可以推理出它接下来应该做什么，并采取行动，最终实现其目标。在 AI 领域，Agent 是一个非常通用的概念。本文接下来要讨论的 Agent 会更具

【 Sonarqube】可视化Java项目单元测试覆盖率统计框架搭建

一个小公司的朋友反应他们那边Java项目单元测试有，但还没有可视化统计覆盖率数据，没法统计就不能直观的看到单测的覆盖率，Java的覆盖率统计框架还是比较成熟，部署起来也不是很难，下面我们逐一讲解怎么部署, 提高单元测试覆盖率和规范代码编写规范。工程中引入jacoco进行代码覆盖率统计，通过sonarqube scanner扫描工程编写规范，编写单元测试代码后，结合Jenkins每次的编译部署自动执

#java #单元测试 #开发语言

【可视化开源性能压测工具】小巧而强大的oha

oha是一款小巧而强大的测试工具，使用Rust语言编写，依托tokio和ratatui库，实现了高效且美观的测试界面。它可用于向Web应用发送负载，并实时显示带有TUI（Text User Interface）动画的测试结果。这款工具受到了rakyll/hey的启发，并在其基础上进行了改进和创新。oha在测试过程中会实时显示测试结果，包括请求数、并发数、响应时间等关键指标。TUI界面美观且直观，使

#测试工具

共 52 条

请选择