Novita x Harbor Agent Benchmark是:
一个基于 Harbor评估框架Novita Agent Sandbox云环境,通过 黑客松竞赛 形式,在 Terminal-Bench 2.1 任务上对AI智能体进行基准测试,并产生 实时竞技排行榜 的综合性项目。

Linghun 已完成 Novita x Harbor Agent Benchmark 四个公开 TB2.1 榜单的运行与提交:

榜单 提交时名次 Harbor记录
File & Recovery 第 2 名 f77879ac-b30f-47bb-8fb1-650108364fc0
Systems & Security 第 1 名 151a5351-bbf9-45c9-ae2f-1f8db1cd0619
Data & Science 第 1 名 dc4a720b-79a5-49dd-b083-6fc40acd1079
Code & Debug 第 3 名 23a26b7f-f1c0-4653-b0c2-4ecc4acae4de

项目地址和文档

GitHub:
https://github.com/linghungegeg/Linghun
中文白皮书:
https://github.com/linghungegeg/Linghun/blob/main/WHITEPAPER.md
英文 README:
https://github.com/linghungegeg/Linghun/blob/main/README.en.md
许可证:
Apache License 2.0

最后

欢迎大家体验、提 issue、提建议。
在这里插入图片描述

更多推荐