
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
大语言模型(LLM)是否真的“知道”自己在想什么?当我们问模型“你为什么这么回答”时,它是在真诚地剖析内心,还是仅仅在根据训练数据一本正经地胡说八道(Confabulation)? ArXiv URL:http://arxiv.org/abs/2601.01828v1 这是一个困扰AI研究界已久的难题。毕竟,模型不仅学会了推理,也学会了如何“扮演”一个有内省能力的人类。为了解开这个谜题,Anthr

开篇:单体模型真的越大越好吗? ArXiv URL:http://arxiv.org/abs/2601.01330v1 在通往AGI(通用人工智能)的道路上,我们似乎陷入了一种“军备竞赛”:模型参数越来越大,训练数据越来越多。Google 最新的 Gemini 3 Pro 刚刚树立了性能新标杆,仿佛在告诉大家:“大,就是正义。” 但是,这真的是唯一的出路吗? 如果我们将十个“臭皮匠”级别的开源模型

开篇:单体模型真的越大越好吗? ArXiv URL:http://arxiv.org/abs/2601.01330v1 在通往AGI(通用人工智能)的道路上,我们似乎陷入了一种“军备竞赛”:模型参数越来越大,训练数据越来越多。Google 最新的 Gemini 3 Pro 刚刚树立了性能新标杆,仿佛在告诉大家:“大,就是正义。” 但是,这真的是唯一的出路吗? 如果我们将十个“臭皮匠”级别的开源模型

开篇:单体模型真的越大越好吗? ArXiv URL:http://arxiv.org/abs/2601.01330v1 在通往AGI(通用人工智能)的道路上,我们似乎陷入了一种“军备竞赛”:模型参数越来越大,训练数据越来越多。Google 最新的 Gemini 3 Pro 刚刚树立了性能新标杆,仿佛在告诉大家:“大,就是正义。” 但是,这真的是唯一的出路吗? 如果我们将十个“臭皮匠”级别的开源模型

普林斯顿大学的一项新研究,让一个大模型 Agent 真正当了一回“物理学家”,其成果不仅令人印象深刻,更对科研范式本身提出了深刻的挑战。这个由 Claude Opus 4.6 驱动的 AI Agent 自主完成了一个完整的“迷你科研循环” (mini research loop):它能阅读一篇已发表的计算物理学论文,复现其核心计算,批判性地评估其结论,甚至在此基础上进行扩展,最终撰写出一篇足以发表

当我们在惊叹于 AgentOrchestra 或 Devin 等顶尖 AI Agent 处理复杂任务的能力时,往往忽略了一个尴尬的现实:这些系统正在疯狂地“烧钱”。 ArXiv URL:http://arxiv.org/abs/2601.02695v1 为了追求极致的性能,现有的 Agent 系统通常会无脑调用最昂贵的模型(如 GPT 4 或 Claude 3.5 Sonnet)。这就导致了一个严

当我们在惊叹于 AgentOrchestra 或 Devin 等顶尖 AI Agent 处理复杂任务的能力时,往往忽略了一个尴尬的现实:这些系统正在疯狂地“烧钱”。 ArXiv URL:http://arxiv.org/abs/2601.02695v1 为了追求极致的性能,现有的 Agent 系统通常会无脑调用最昂贵的模型(如 GPT 4 或 Claude 3.5 Sonnet)。这就导致了一个严

当我们在惊叹于 AgentOrchestra 或 Devin 等顶尖 AI Agent 处理复杂任务的能力时,往往忽略了一个尴尬的现实:这些系统正在疯狂地“烧钱”。 ArXiv URL:http://arxiv.org/abs/2601.02695v1 为了追求极致的性能,现有的 Agent 系统通常会无脑调用最昂贵的模型(如 GPT 4 或 Claude 3.5 Sonnet)。这就导致了一个严

普林斯顿大学的一项新研究,让一个大模型 Agent 真正当了一回“物理学家”,其成果不仅令人印象深刻,更对科研范式本身提出了深刻的挑战。这个由 Claude Opus 4.6 驱动的 AI Agent 自主完成了一个完整的“迷你科研循环” (mini research loop):它能阅读一篇已发表的计算物理学论文,复现其核心计算,批判性地评估其结论,甚至在此基础上进行扩展,最终撰写出一篇足以发表

大型语言模型(LLM)的推理能力,尤其是在数学这类需要严谨逻辑的任务上,一直是衡量其智能水平的关键标尺。为了提升模型的推理表现,研究者们普遍采用强化学习(RL)作为一种有效的“后训练”(post training)对齐手段。然而,强化学习的成败在很大程度上依赖于一个核心要素:奖励函数(reward function)。这个函数定义了什么是“好”的行为,什么又是“坏”的行为,从而引导模型的优化方向。








