老白说IT 个人主页

@neake

老白说IT

2025-10-27 19:14:45 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

LLM的极限测试 - HLE

HLE是2025年推出的一个超高难度 AI 测试，主要用来挖掘当前 AI 系统的极限和逻辑缺陷。简单来说，这更像是对 AI 的“极限挑战”，而不是传统的性能排名工具。HLE 的诞生背景源于对“基准测试饱和”问题的讨论。HLE 的目标不是对优秀的模型进行排名，而是挖掘 AI 推理能力中的未知缺陷，从而揭示其逻辑的根本性弱点。HLE 的目标非常明确：找到当前 AI 系统的绝对极限，并探索模型逻辑崩溃的

#人工智能

揭秘HumanEval：AI编程能力的终极测试

HumanEval是由 OpenAI于2021年开发的，用于评估大型语言模型（LLMs）的代码生成能力。随着像 Codex（GitHub Copilot的前身）这样的模型展现出非凡的软件编写能力，创建一种标准化的评估方法变得至关重要。早期的模型甚至难以解决少量问题。这推动了更高级的代码基准测试的发展，例如 MBPP（Mostly Basic Programming Problems）和更大规模的项

#人工智能 #机器学习

LLM通过SVG代码理解世界

总的来说，这篇论文提出了一种既创新又实用的思路：用SVG代码作为AI理解图像的桥梁。虽然目前的AI在这方面还有很多不足，但是我们已经在向这个方向努力了。

#人工智能 #计算机视觉 #深度学习

到底了