2401_88810683 个人主页

@2401_88810683

2401_88810683

2026-04-12 20:39:33 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

AI狼人杀的策略RAG实现

在做狼人杀 AI Agent 的过程中，我发现一个很有意思的问题：很多时候，Agent 表现不好，并不是因为它“不知道怎么玩狼人杀”，而是因为它把不该当成事实的东西当成了事实。比如它会突然说：User 是真人玩家，所以威胁更大Bot3 位置居中，可能是神职某玩家发言少，所以可疑狼队已经刀过某人，所以女巫可能救了他这些判断看似像推理，其实很多都是幻觉。尤其在狼人杀这种强状态、强隐藏信息的游戏里，。

我根据设计的测评系统，我们进行了多轮测试，在测试过程中，我们发现这个系统的打分效果比较差，于此同时，在测评时因为大量的llm调用，测评时间也比较久。所以，我们对这个评分系统进行了一下修改，我们要设计函数来进行打分，不能都调用大模型，这样确实太耗费时间了。只有对于那些打分比较模糊的，我们再去调用大模型来进行打分，这样既可以节省时间，也可以提升准确度。三层瀑布式评分系统的核心思想是分级评估、按需升级

#人工智能

AI狼人杀评测系统技术解析

在 AI 狼人杀项目中，为了评估 AI 玩家在游戏中的表现，方便用户了解自身情况以及日后为了筛选出优质策略提供一个评分标准，我们实现了一套完整的评测体系。本文将深入解析这一系统的技术设计与实现细节。在ai狼人杀中，我们不能只考虑游戏是否胜利，还得考虑到如下情况：这些都是我们所不能忽视的，可能其中的一小步就会影响到整个游戏的走向多维度的决策空间：发言、投票、技能使用、身份隐藏。信息的不对称性：每个角

#人工智能

Werewolf-Agent 多智能体狼人杀中DSPy应用

Metric（评估指标）是一个函数，它定义了"什么样的输出是好的"。它是优化器（Teleprompt）的评分标准，告诉编译器"朝哪个方向优化"。结果：模型的准确率上去了，但出现"自查"这个bug。因为这个 metric只衡量"答案对不对"，不衡量"有没有违规"。return False # 自查违规return False # 查死人违规# 0.4 规则 + 0.4 答案 + 0.2 推理质量Me

#java #开发语言

项目实训——Werewolf-Agent 多智能体狼人杀

本文探讨了AI狼人杀游戏中SystemPrompt的设计方法。文章首先分析了SystemPrompt在角色扮演类游戏中的核心价值，指出合理的提示词设计能显著提升游戏的博弈性和真实性。然后提出了一个系统化的角色建模框架，从阵营归属、信息权限、行为目标和语言风格四个维度拆解角色特征。接着展示了具体的Prompt模板设计方法，包括身份定义、上下文整合、行为约束和输出规范。特别强调了同一角色在不同游戏阶段

项目实训——Werewolf-Agent 多智能体狼人杀中DSPy应用优化器优化

上周，我在我们的项目中引入了dspy并使用它进行一个简单的测试，在测试过程中，我进行了几局游戏，发现预言家每次的输出结果都相差不大，这让我在玩起来比较无趣，因为在每个阶段，我都可以预测到他将要说什么，那么我就要想办法进行优化。本周，我们对dspy应用进行优化，与此同时，为训练数据提供更适合的标准，为以后的其他节点的提示词提供了一个可靠的模板，对于其他部分，我们可以使用该节点为模板进行修改验证。后续

#人工智能 #算法 #机器学习

项目实训——Werewolf-Agent 中DsPy的metric设计

在前期的工作中，我们在项目中加入了DsPy来优化提示词生成，但是仅仅是初步地利用了它。在 DSPy 框架中，metric（评估指标）是编译器的“指南针”——它告诉优化器什么样的输出是"好的"，什么样的输出需要"改进"。最近的工作就是要针对我们的狼人杀设计一套适用的metric。一个好的 metric 不仅仅是"答案对不对"，更需要定义输出的整体质量。回顾整个过程，有一个规律反复出现：当你觉得模型

#java #开发语言

共 12 条

请选择