Novite x Harbor 基于terminal-bench 2.1 89题的测评题库 linghun ai编程智能体获得名次
·
Novita x Harbor Agent Benchmark是:
一个基于 Harbor评估框架 和 Novita Agent Sandbox云环境,通过 黑客松竞赛 形式,在 Terminal-Bench 2.1 任务上对AI智能体进行基准测试,并产生 实时竞技排行榜 的综合性项目。
Linghun 已完成 Novita x Harbor Agent Benchmark 四个公开 TB2.1 榜单的运行与提交:
| 榜单 | 提交时名次 | Harbor记录 |
|---|---|---|
| File & Recovery | 第 2 名 | f77879ac-b30f-47bb-8fb1-650108364fc0 |
| Systems & Security | 第 1 名 | 151a5351-bbf9-45c9-ae2f-1f8db1cd0619 |
| Data & Science | 第 1 名 | dc4a720b-79a5-49dd-b083-6fc40acd1079 |
| Code & Debug | 第 3 名 | 23a26b7f-f1c0-4653-b0c2-4ecc4acae4de |
项目地址和文档
GitHub:
https://github.com/linghungegeg/Linghun
中文白皮书:
https://github.com/linghungegeg/Linghun/blob/main/WHITEPAPER.md
英文 README:
https://github.com/linghungegeg/Linghun/blob/main/README.en.md
许可证:
Apache License 2.0
最后
欢迎大家体验、提 issue、提建议。
更多推荐
所有评论(0)