
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
开源 AI-Eval:Prompt 评估系统,用单元测试跑
TLDR: ai-eval 是一套 Go 写的 Prompt 评估系统。把 Prompt 测试当单元测试跑——写 YAML 定义用例,配评估器(模式匹配、LLM Judge、RAG、Agent、安全检测),跑 pass@k 处理 LLM 的不确定性。带 Web API、Leaderboard、CI 集成,支持 MMLU/GSM8K/HumanEval 标准 Benchmark。

多工作流融合 x10 倍效率提升:多模型 Agent 编排 + Hooks Loop
作者: stellarlinkstellarlink

AI 自动化测试方案分享
用 Claude Code 跑自动化测试时遇到过这种情况吗?生成了一堆测试用例,跑完发现 Token 烧了不少,结果一半是废的——要么断言写错,要么压根定位不到元素。

OmO skills:将 oh-my-opencode 的多 Agent 协同移植到 Claude Code
Oh-my-opencode 最近太火了,我让 Claude Code 学习了一下,然后我就把它的核心移植到了 Claude Code。

agentsdk-go:完整的 Claude Code 架构 Agent 开发框架
agentsdk-go 是一个用 Go 实现的 Agent 开发框架,完整移植了 Claude Code 的七大核心能力(Hooks、MCP、Sandbox、Skills、Subagents、Commands、Plugins),并扩展了六层中间件拦截机制。相比 LangGraph 的黑盒架构和 Claude Agent SDK 的资源占用问题,agentsdk-go 提供了更透明的实现、更低的资源

2025 我让 Agent 把开发全流程自己跑完了
从 6 月用 Claude Code 手动盯着干活,到 11 月云端触发,再到 12 月全自动开发流程,花了半年时间让 AI 从"需要人盯着"变成"自己能跑完"。
到底了







