幻觉终结者：OpenAI 终于找到了根本原因

核心在于：让模型**敢于说“不知道”**比“瞎猜”更值钱。最近，OpenAI 正式揭开了大型语言模型（LLM）“幻觉”现象的真面目：原来问题不在于模型太“聪明”，而是它们的训练奖励机制本身，促使它们“自信满满地说错话”，却不愿诚实承认不知道。模型缺乏判断生成内容真伪的能力，特别是面对极少出现的单次事实，其错误可能率媲美其出现概率；设定规则：只有当模型置信度 > 某一阈值才作答，答错扣分，“我不知道

ASKED_2019

407人浏览 · 2025-09-08 22:59:23

ASKED_2019 · 2025-09-08 22:59:23 发布

最近，OpenAI 正式揭开了大型语言模型（LLM）“幻觉”现象的真面目：原来问题不在于模型太“聪明”，而是它们的训练奖励机制本身，促使它们“自信满满地说错话”，却不愿诚实承认不知道。
在这里插入图片描述

幻觉的问题到底从哪来？

1）预训练就埋下了隐患
模型缺乏判断生成内容真伪的能力，特别是面对极少出现的单次事实，其错误可能率媲美其出现概率；若根本找不到规律，就更容易一路“胡说”，幻觉率飙得没下限。

统计必然性的后果
“是否有效（Is-It-Valid）”要求系统通过有标注的正负样本学习识别是否生成了正确内容。但只有在存在清晰模式时，分类器才能发挥效力。结果，如果分类器不可靠，LLM 很可能出错
任意事实
那些只出现一次（singleton）的事实，很可能被模型忘记。其错误率至少与单例事实的比例一样高
表达能力不足
如果模型在某个主题上无法从数据中发现潜在规律，那么该主题上幻觉发生率的下界会变得没有边界（即可能非常高

2）后训练- 考试导向的训练，反而误导了模型
传统评估机制反而惩罚说“我不知道”，让模型宁愿浮夸地答错，也不甘承认无从得知。
在这里插入图片描述

拯救“幻觉”的方法很简单：奖励“不会”的诚实

给模型设定置信度门槛
设定规则：只有当模型置信度 > 某一阈值才作答，答错扣分，“我不知道”则不扣分。
让“不会答”成为最优策略
当置信度低于阈值时，“我不知道”得分更高；这让模型学会在不确定时不瞎猜，从而减少错误输出。

你可能误会了的大逻辑

常见误解	OpenAI 的发现
只要准确率提升，就能彻底免除幻觉？	不行。某些问题本身无法回答，无法逼出 100% 准确率。
幻觉是不可抗拒的宿命？	错！训练恰当的话，它是可避免的。
模型越大就越可靠？	小模型反而更敢承认“我不确定”。
幻觉是某种神秘 bug？	并非魔鬼，而是可量化的统计机制 + 不合理奖励驱动。
只要找到适合的评估指标就够了？	即便看似“优秀”的指标，也可能因为设计原因反而惩罚谨慎行为——评估体系本身需要重构。

OpenAI 的这项研究标志着“幻觉”问题不再是一个让人无解的情绪化批评，而是一项可以通过系统设计修改、训练策略革新来解决的工程挑战。核心在于：让模型**敢于说“不知道”**比“瞎猜”更值钱

深圳城市开发者社区

一座年轻的奋斗人之城，一个温馨的开发者之家。在这里，代码改变人生，开发创造未来！

更多推荐

网易 CodeWave ：用自然语言“说”出你的第一个应用

深圳城市开发者社区

华为CANN异构计算架构技术分析报告：架构、优势与应用实践

深圳城市开发者社区

人工智能与自动化：未来工作方式的革新

人工智能（AI）指的是模拟人类智能的技术，使机器能够执行需要人类智能才能完成的任务，如理解语言、识别图像、决策推理等。AI已经从早期的规则基础系统，发展到现代的深度学习和强化学习模型，能够处理更加复杂的数据，完成多样化的任务。机器学习（ML）：机器学习是AI的一个子领域，它使机器能够通过数据训练进行自我学习和改进。深度学习是机器学习的一种特殊方法，依赖神经网络来处理和分析数据，广泛应用于图像识别、