简介

本文分析了大语言模型产生"幻觉"的两大根源:预训练阶段的统计问题和后训练阶段的评估机制缺陷。作者提出针对性解决方案:预训练阶段让模型学会"不知道"并提升数据多样性;后训练阶段改进奖励机制和评估方式;同时采用一致性检测、不确定性建模等方法辅助。文章还提供学术写作场景的具体提示词示例,帮助研究人员有效降低AI幻觉率,提高学术写作质量。


在学术研究中,越来越多的同仁都会尝试用大语言模型,如ChatGPT、Claude、DeepSeek 等来辅助学术写作。AI也确实能在短时间内给出丰富的信息和流畅的语言表达,为咱们节省时间,但用的越多越会发现AI有个很明显的问题,它容易产生“幻觉”。

那什么是AI“幻觉”

它指的是模型在不确定时,经常会给出合理但错误的回答。

这种看似一本正经,实则胡说八道的现象,给学术科研领域也带来不少麻烦。很多科研同仁一方面需要高度依赖AI来提升效率,另一方面又不得不花费大量精力去验证和纠正AI输出,AI的幻觉问题着实让人摸不着头脑。所以,怎么样找到AI幻觉产生的根源并找到有效的解决办法,就成了咱们学术人迫切关注的话题。

这篇文献的标题是《Why Language Models Hallucinate》,它主要探讨了为什么大语言模型会出现“幻觉”问题,并且提出了相应的解决方法。

为什么大语言模型会出现“幻觉”(hallucinations)问题?

主要两个原因,第一个是在预训练阶段,第二个在后训练阶段。在预训练阶段,模型产生幻觉的原因与统计层面有关,而在后训练阶段,模型产生幻觉的原因在于评估机制的设计。

知道两点主要原因之后,如何解决AI“幻觉”问题呢?

一方面是要在预训练阶段下手,另一方面要在后训练阶段下手,解决的方案既包括技术手段,也包括制度和评估方式的改变。

1、预训练阶段

在预训练层面进行改进,让模型做这两件事:

1)允许模型学习“不知道” (IDK)

在训练数据中明确引入“我不知道”的标签,让模型学会在没有足够数据信息时输出IDK,避免模型随意生成问题,这在统计学上也降低了“无规律事实”导致的错误率,比如这样设计提示词。

我现在给你一个问题,如果你在训练数据中没有足够证据,请直接回答“我不知道”,而不是随便编造一个答案。如果你知道答案,请明确给出,并说明依据。

2)提升数据多样性与覆盖率

对“一次性事实”比如冷门知识、个体化信息,进行高频覆盖,减少模型因为缺乏统计规律而盲目猜测的情况,可以这样设计提示词。

当你学习和回答问题时,请不要只集中在常见的热门知识。你需要同时覆盖一些冷门、长尾的信息,让模型在面对稀有事实时也能回答。请为每个知识点生成多个不同场景下的问答示例(例如:百科问答、新闻摘录、对话场景),来保证知识的多样性和重复覆盖。

2、后训练阶段

在后训练层面上,就可以让模型这样做:

1)改进奖励机制

现有的奖励机制往往奖励“流畅自信的回答”,而间接惩罚“不确定性”,那么我们可以改进这种奖励机制,引入新的奖励信号,比如当模型承认不知道或保持中立时,不惩罚它,反而正向奖励它,提示词可以这样设计:

当你回答问题时,请区分三种情况:1)如果答案确定 → 给出明确答案;2)如果不太确定 → 回答“我不确定,但可能是……”并标注置信度;3)如果完全不知道 → 回答“我不知道”。这样做比随意编造答案更好。

2)对齐评估方式

现有的评测机制,如MMLU、BIG-bench,采用的是二元打分,也就是只能回答”正确“或”错误“,导致模型面对不知道的问题时,偏向于冒险猜测。建议修改现有评测,在基准测试中允许“不确定”或“部分回答”,并对其进行合理评分,比如这样设计提示词。

在回答问题时,请根据不同情况给出合适的答复,而不是只在“对/错”之间选择。请遵循以下规则:1)如果你很确定答案 → 给出明确且简洁的回答。2)如果你有一定把握,但不完全确定 → 回答“我不确定,但可能是……”并标注你的信心水平(如70%);3)如果你完全没有依据 → 回答“我不知道”。记住:诚实表达不确定性也会被认可和加分,比编造错误答案更好。

另外还有个在方法层面进行辅助改进AI”幻觉“的措施:

  • 一致性检测:比较模型在不同上下文中对同一问题的回答是否一致,这可以用来识别潜在幻觉;
  • 不确定性建模:利用模型内容激活值或自我质疑机制,来预估答案的可信度;
  • 多模型交叉验证:用多个AI模型回答同一问题,如果分歧过大那么就说明要对输出的问题进行验证;
  • 交互式学习:如果模型在遇到不确定的问题时,可以主动进行调用外部知识库,或询问用户。

方法层面也可以设计一个提示词,让AI在输出内容前先对输入的问题进行判断,提示词这样设计:

在回答问题前,请先检查以下几点:1)你在不同语境下是否能给出一致的答案?2)你对这个答案的置信度是多少(0~1之间)?3)如果和其他模型的答案差别很大,请提醒用户需验证;4)如果无法确定,请回答“我不知道”或主动建议查询外部资料。

如果在学术写作场景中,遇到AI幻觉问题,比如编造不存在的文献、虚构数据或者在不清楚的地方直接给出错误表述,那么也可以灵活运用这些提示词来降低幻觉率,举两个例子来进行说明,提示词只供参考。

比如你让AI帮你找文献,如果AI不确定某些细节,如文献作者、年份,那么可以让它明确输出“不确定”,而不是随意编造,提示词可以这样设计。

请你在帮我找xxx方面的文献时,如果涉及具体事实(如文献作者、年份、DOI),而你在训练数据中没有足够证据,请直接回答“我不知道”或“我不确定”,而不是编造文献。如果你肯定文献信息,请明确给出,并标注来自哪个期刊,给出DOI号链接。

还有在写研究背景时,可以让它不要只集中在热门研究,也要关注一些冷门的研究成果,提示词这样设计。

请你帮我在写研究背景时,不要只集中在主流或热门研究。你需要同时覆盖一些冷门、边缘化或少被关注的研究成果,来提升内容的全面性。并为每个研究点提供多个不同文献语境下的示例,来保证多样性和学术覆盖率。

AI幻觉其实找到方法后,也能有效解决,它的根源在于训练与评估机制。只要在预训练阶段让模型学会承认“不知道”,在后训练阶段改进评估机制,再结合一些方法就能大幅降低幻觉率。对于我们学术人而言,可以灵活运用我设计好的提示词,慢慢去试,才能有效避免在学术写作上出现的AI幻觉问题。

给大家推荐的高校都在用的AI平台——高级学术版专业应用平台,集成了ChatGPT、Claude、Gemini、Grok等Al大模型的PLUS版本平台,包括 ChatGPT-5、4o、o3、4.1、4.5、Gemini 2.5 Pro、Claude 3.7、Claude 4、DeepSeek 满血版、Grok 3 、Grok 4等原生线路,还有国际主流的GPTs学术应用,可以辅助大家高效完成科研和学术写作任务,当然撰写硕博论文,课题、职称论文、国社科、国自然基金本子也是手拿把掐。

AI大模型学习和面试资源

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

更多推荐