logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

LLM的极限测试 - HLE

HLE是2025年推出的一个超高难度 AI 测试,主要用来挖掘当前 AI 系统的极限和逻辑缺陷。简单来说,这更像是对 AI 的“极限挑战”,而不是传统的性能排名工具。HLE 的诞生背景源于对“基准测试饱和”问题的讨论。HLE 的目标不是对优秀的模型进行排名,而是挖掘 AI 推理能力中的未知缺陷,从而揭示其逻辑的根本性弱点。HLE 的目标非常明确:找到当前 AI 系统的绝对极限,并探索模型逻辑崩溃的

文章图片
#人工智能
揭秘HumanEval:AI编程能力的终极测试

HumanEval是由 OpenAI于2021年开发的,用于评估大型语言模型(LLMs)的代码生成能力。随着像 Codex(GitHub Copilot的前身)这样的模型展现出非凡的软件编写能力,创建一种标准化的评估方法变得至关重要。早期的模型甚至难以解决少量问题。这推动了更高级的代码基准测试的发展,例如 MBPP(Mostly Basic Programming Problems)和更大规模的项

文章图片
#人工智能#机器学习
LLM通过SVG代码理解世界

总的来说,这篇论文提出了一种既创新又实用的思路:用SVG代码作为AI理解图像的桥梁。虽然目前的AI在这方面还有很多不足,但是我们已经在向这个方向努力了。

文章图片
#人工智能#计算机视觉#深度学习
到底了