
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
这一阶段完成的是项目从“功能丰富”到“体验收束”的转变。这一阶段,我梳理了四种模式中的 AI 角色与参与边界,完善了 ARGUS-0、RELAY-7、觉醒 Agent 与 MCP Agent 的协作关系,也检查了模型调用、Agent 行为和语义判定的降级逻辑。同时,我收束了画风档案与表达策略分析的表述边界,并为最终答辩准备了一条清晰的 AI 模块演示路线。
本阶段完成的核心不是单个功能,而是 AI 模块的系统化升级。从前几周的图像识别、响应解析、画风建模,到第七篇的内置 Agent 玩家,再到现在的 MCP Agent、RELAY-7 和回声传递,AI 已经不再只是后台接口,而是进入了游戏规则、玩法结构和叙事表达。现在项目中的 AI 可以分为四类:ARGUS-0:负责分类、识别和追踪觉醒 Agent:负责协作、陪伴和参与RELAY-7:负责语义校准和
在调研之前,我先花了点时间理解「多模态」这个概念。传统的语言模型(如 GPT-3)只能处理文本,你给它一段话,它回你一段话。但多模态大模型不一样——它能同时理解文本 + 图像,甚至还有的能处理音频、视频。玩家画了一幅画(图像)AI 需要看懂这幅画,猜出画的是什么(图像理解 → 文本输出)这正是多模态模型的典型应用场景。如果用传统方案,我们需要先用 CNN 提取图像特征,再用分类器猜词,整个流程很复
画风建模从方案变成了跑通的代码。印象最深的是 prompt 设计那一块——同样的数据,换一种表达方式,DeepSeek 生成的档案质量差距很大。最开始以为 prompt 工程是“写几句提示词”的小事,实际上改了七八版才稳定,每一版都有具体的失败原因。另一个感受是分层设计让调试好很多:特征提取、档案生成、注入猜词,三层各自独立,哪层出问题一眼就看出来。如果全揉在一起,调试会非常痛苦。
这个数字是我们讨论后的决策:1-2局数据太少,生成的档案没有意义5局以上又让新用户等太久,感受不到AI的变化3局刚好有足够的行为样本,而且玩家在第4局会明显感受到"AI突然变准了"——这个体验上的惊喜感很重要这周没有写代码,但做了一件可能比写代码更重要的事:重新审视了整个项目的方向。从朋友的一句"东西太少"出发,到分析竞品差距,到画风建模方案的诞生,再到四种博弈模式的设计,最后确认了升级后的完整架
这周完成了 Prompt Engineering 的核心设计:理解了“通过 prompt 控制 AI 行为”的思路设计了三档难度的 prompt 策略:信息量递增学会了用示例和强调语约束 AI 的输出格式配合实现双重难度控制现在游戏的难度系统已经可以工作了,简单模式下人类确实更容易赢!(本文代码在 AI 辅助下完成。开发方式为 SPEC 协作:我根据 “三档难度控制 AI 猜词准确率” 的需求,与
messages = [{"role": "user", "content": "你好"}]但我们要让 AI同时看到图片和文字base64,xxxxx..." # 图片},"text": "这幅画画的是什么?" # 文字提示content从字符串变成了数组数组里可以放多个元素,每个元素有type字段标明类型表示图片,表示文字图片和文字的顺序可以调换,AI 会同时理解它们这周完成了 AI 模块的“从
在调研之前,我先花了点时间理解「多模态」这个概念。传统的语言模型(如 GPT-3)只能处理文本,你给它一段话,它回你一段话。但多模态大模型不一样——它能同时理解文本 + 图像,甚至还有的能处理音频、视频。玩家画了一幅画(图像)AI 需要看懂这幅画,猜出画的是什么(图像理解 → 文本输出)这正是多模态模型的典型应用场景。如果用传统方案,我们需要先用 CNN 提取图像特征,再用分类器猜词,整个流程很复







