
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
当前, 直接偏好优化 ( Direct Preference Optimization, DPO )和 低秩适配 ( Low Rank Adaptation, LoRA )几乎已成为大模型对齐与微调的“标准动作”。我们似乎默认,先用SFT做监督微调,再用DPO对齐偏好,同时用LoRA来节省资源,就是一套黄金组合拳。 ArXiv URL:http://arxiv.org/abs/2603.20100

普林斯顿大学的一项新研究,让一个大模型 Agent 真正当了一回“物理学家”,其成果不仅令人印象深刻,更对科研范式本身提出了深刻的挑战。这个由 Claude Opus 4.6 驱动的 AI Agent 自主完成了一个完整的“迷你科研循环” (mini research loop):它能阅读一篇已发表的计算物理学论文,复现其核心计算,批判性地评估其结论,甚至在此基础上进行扩展,最终撰写出一篇足以发表

在人机对话的广阔世界里,除了我们熟悉的闲聊机器人和任务型助手,还存在一类特殊的对话智能体—— 非合作型对话代理 (non collaborative dialogue agents)。它们被设计用于处理那些双方利益存在冲突的场景,例如商业谈判、慈善募捐、债务催收等。在这些对话中,智能体需要运用精妙的策略,在多轮博弈中引导对话走向,以达成对自身有利的目标。 ArXiv URL:http://arxi

普林斯顿大学的一项新研究,让一个大模型 Agent 真正当了一回“物理学家”,其成果不仅令人印象深刻,更对科研范式本身提出了深刻的挑战。这个由 Claude Opus 4.6 驱动的 AI Agent 自主完成了一个完整的“迷你科研循环” (mini research loop):它能阅读一篇已发表的计算物理学论文,复现其核心计算,批判性地评估其结论,甚至在此基础上进行扩展,最终撰写出一篇足以发表

对于许多科学与工程领域的开放式问题——例如,为复杂的物流系统找到最优调度启发式算法,或为特定硬件编写最高效的计算内核——我们往往没有标准答案。唯一的路径是通过不断的提出、测试、修正,在迭代循环中探索更好的解决方案。近年来,以 FunSearch、AlphaEvolve 为代表的、基于大语言模型(LLM)的进化式搜索方法在这一领域取得了显著进展。它们将 LLM 作为“变异算子”,嵌入到一个由评估器引

对于许多科学与工程领域的开放式问题——例如,为复杂的物流系统找到最优调度启发式算法,或为特定硬件编写最高效的计算内核——我们往往没有标准答案。唯一的路径是通过不断的提出、测试、修正,在迭代循环中探索更好的解决方案。近年来,以 FunSearch、AlphaEvolve 为代表的、基于大语言模型(LLM)的进化式搜索方法在这一领域取得了显著进展。它们将 LLM 作为“变异算子”,嵌入到一个由评估器引

大型语言模型(LLM)的推理能力,尤其是在数学这类需要严谨逻辑的任务上,一直是衡量其智能水平的关键标尺。为了提升模型的推理表现,研究者们普遍采用强化学习(RL)作为一种有效的“后训练”(post training)对齐手段。然而,强化学习的成败在很大程度上依赖于一个核心要素:奖励函数(reward function)。这个函数定义了什么是“好”的行为,什么又是“坏”的行为,从而引导模型的优化方向。

随着大型语言模型(LLM)的能力日益强大,它们正越来越多地被用作复杂智能系统(即 “Agent”)的核心大脑。从能够自主编码的 AI 程序员到执行多步骤推理任务的框架,这些 Agent 的智能涌现,很大程度上源于其精心设计的“上下文(Context)”。然而,这个至关重要的“上下文工程”(Context Engineering)过程,长期以来却像一门难以言传的“手艺”,缺乏一套标准的描述和沟通语言

随着大型语言模型(LLM)的能力日益强大,它们正越来越多地被用作复杂智能系统(即 “Agent”)的核心大脑。从能够自主编码的 AI 程序员到执行多步骤推理任务的框架,这些 Agent 的智能涌现,很大程度上源于其精心设计的“上下文(Context)”。然而,这个至关重要的“上下文工程”(Context Engineering)过程,长期以来却像一门难以言传的“手艺”,缺乏一套标准的描述和沟通语言

为 AI Agent 构建一个既聪明又敏捷的记忆系统,一直是业界追求的目标。理想的记忆系统应当能够长期存储关键信息、在多轮交互中保持一致性,并为个性化服务提供支持。然而,现实中的技术路径却常常陷入两难:要么选择基于检索的外部记忆,享受低延迟的优势,但要忍受因查询构建和候选筛选能力有限而导致的精度不稳;要么借助大语言模型(LLM)进行在线的记忆操作,以换取更高的准确性,但代价是随着交互的深入,延迟会








