logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

开源 AI-Eval:Prompt 评估系统,用单元测试跑

TLDR: ai-eval 是一套 Go 写的 Prompt 评估系统。把 Prompt 测试当单元测试跑——写 YAML 定义用例,配评估器(模式匹配、LLM Judge、RAG、Agent、安全检测),跑 pass@k 处理 LLM 的不确定性。带 Web API、Leaderboard、CI 集成,支持 MMLU/GSM8K/HumanEval 标准 Benchmark。

文章图片
#经验分享
AI 自动化测试方案分享

用 Claude Code 跑自动化测试时遇到过这种情况吗?生成了一堆测试用例,跑完发现 Token 烧了不少,结果一半是废的——要么断言写错,要么压根定位不到元素。

文章图片
#经验分享
OmO skills:将 oh-my-opencode 的多 Agent 协同移植到 Claude Code

Oh-my-opencode 最近太火了,我让 Claude Code 学习了一下,然后我就把它的核心移植到了 Claude Code。

文章图片
#经验分享
agentsdk-go:完整的 Claude Code 架构 Agent 开发框架

agentsdk-go 是一个用 Go 实现的 Agent 开发框架,完整移植了 Claude Code 的七大核心能力(Hooks、MCP、Sandbox、Skills、Subagents、Commands、Plugins),并扩展了六层中间件拦截机制。相比 LangGraph 的黑盒架构和 Claude Agent SDK 的资源占用问题,agentsdk-go 提供了更透明的实现、更低的资源

文章图片
#经验分享
2025 我让 Agent 把开发全流程自己跑完了

从 6 月用 Claude Code 手动盯着干活,到 11 月云端触发,再到 12 月全自动开发流程,花了半年时间让 AI 从"需要人盯着"变成"自己能跑完"。

#经验分享
到底了