ViWANT
6 5 月 2026, 周三

AI“幻觉”是什么?为什么减少它如此困难?

最近跟朋友聊到AI写论文的事,他说自己让ChatGPT帮忙查一份医疗指南,结果模型信誓旦旦地编出了一整套根本不存在的诊疗流程,还附带了假的参考文献。这种“一本正经胡说八道”的现象,就是业内常说的AI幻觉。简单说,大语言模型本质上是基于概率的文本生成系统,它并不理解自己说了什么,只是在预测最“合理”的下一个词是什么。当遇到知识盲区或数据稀疏的领域时,模型就会用最流畅的方式填补空白——哪怕那些内容完全是虚构的。

幻觉的根源:不是“犯错”,而是“不知道”

要理解为什么减少幻觉如此棘手,得先看清它的底层机制。模型训练时接触的是海量文本,但它的记忆并非数据库式的精确索引,而是分布式的、模糊的关联网络。比如你问“2025年诺贝尔物理学奖得主是谁”,如果训练数据里没有这个确切信息,模型就会从“诺贝尔奖”“物理学”“2025年”这些关键词出发,组合出一个概率最高的回答——很可能把往年的得主或相近领域的人物嫁接过来。这不是“记错了”,而是它压根不知道“我不知道”这个概念。

更麻烦的是,模型的自信程度与答案的正确性没有必然联系。OpenAI内部测试发现,即便在GPT-5.5 Instant这样经过大幅优化的模型上,医疗、法律等高危场景的幻觉率仍然高达两位数百分比。原因在于,模型无法像人类一样区分“确定”和“猜测”——它输出每个token时都带着某种概率分布,但最终呈现的文本不会附带置信度标签。你看到的永远是一个笃定的陈述句,哪怕背后只有30%的把握。

为什么“打补丁”治标不治本

业界尝试过各种方法:用强化学习从人类反馈中矫正(RLHF)、引入外部知识库做检索增强生成(RAG)、甚至让模型自我反思并修正答案。但这些方案都有结构性缺陷。RLHF本质上是“教模型避免某些错误模式”,但训练数据覆盖不了所有可能的幻觉场景,模型会在没见过的领域继续自由发挥。RAG虽然能引入实时信息,但检索结果本身可能不准确,或者模型在整合外部知识时依然会“添油加醋”。

更深层的问题在于,语言模型的设计目标从来不是“说真话”,而是“生成合理文本”。合理性和真实性是两套评价体系——一个编得滴水不漏的虚构故事,在语言模型眼里比一段真实但表述磕巴的陈述更“优秀”。只要优化目标不改变,幻觉就是模型能力的影子,无法彻底消除。

实用应对策略:别把AI当真相机

对普通用户来说,与其指望模型永远不犯错,不如改变使用习惯。关键动作就三个:交叉验证、限定范围、明确上下文。涉及事实性信息时,主动要求模型给出信息来源或逻辑推理过程,而不是只接受结论。比如问“这个药有什么副作用”,可以追加一句“请列出你参考的临床研究编号”。此外,尽量把问题框定在模型训练数据覆盖充分的领域——2023年之后的时事、极度冷门的专业知识、需要实时数据支撑的问题,都天然是幻觉高发区。

有趣的是,OpenAI在GPT-5.5 Instant上引入的“记忆来源”功能,某种程度上承认了“模型不可靠”这个前提。它允许用户查看哪些上下文影响了回答,甚至标记哪些信息是“不相关”的。这相当于在模型输出和用户信任之间加了一层透明纱——虽然不能杜绝幻觉,但至少让你知道幻觉可能从哪里来。

说到底,AI幻觉不是bug,而是特性。语言模型就像个极其博学但从不承认自己无知的对话者,它唯一的超能力就是把任何话题聊得滴水不漏。与其幻想一个永不犯错的AI,不如学会跟这个“自信的骗子”打交道的正确姿势。