Pourquoi ChatGPT a du mal à dire

ChatGPT 不愿意承认自己的无知 引发了对其内部机制的深刻质疑。这种情况主要源于人工智能架构本身，强调回答的生成。在追求精确度的模型中，无意中滋生了 *幻觉* 的内容。基于正确回答率的评估进一步加剧了这一现象，促使人工智能更倾向于猜测而非承认其知识的缺口。

不适当的评估框架促使了错误结果的产生，揭示了重大的伦理问题。这一动态的后果质疑了我们可以信任这些系统的界限。

ChatGPT 的幻觉

OpenAI 的研究揭示了一个广为人知的现象：幻觉，是由人工智能产生的没有事实基础却被视为真理的回答。尽管技术不断进步，这些发言表明，人工智能在缺乏确定性时仍持续产生错误回答。不承认一个不确定性的空间仍然是普遍存在的。

信息获取过程

模型的预训练 在人工智能获取知识的方式上发挥了关键作用。在这个阶段，算法专注于预测下一个单词，基于语言的统计规律，这使它们能够获得语法和句法的能力。然而，针对学习语料库中未体现的非典型或特殊事实，模型必须进行猜测，这增加了幻觉的风险。

模型评估中的偏见

模型的 评估方法 中存在的偏见加剧了这些错误。人工智能接受基于正确回答率的测试。当模型不知道确切答案时，它的倾向是选择猜测而不是承认缺乏知识。这种做法赋予了它产生较好分数的更高概率。这种偏见让我们想起选择题测试，其中风险和运气有时可以带来有利的结果。

必要的标准更新

OpenAI 建议进行 评估标准的根本修订，用于模型学习的过程。其思想在于，在评估结果中考虑模型在不确定时选择不回答的能力，而不是仅仅重视准确性，缺乏确定性应被视为一种值得赞赏和积极的谦逊。

回答类型的区分

OpenAI 引入了一种新的回答分类框架，将回答分为三类：正确回答、错误和弃权。弃权即表明一种识别自己局限性的能力，现在相较于错误回答更受到鼓励。这使得不同模型的效能可以进行比较，证实了选择弃权可以显著减少幻觉。

模型的实际表现

如 GPT-5-thinking-mini 和 o4-mini 等模型的分析结果表明了这一区别。前者在判断其不确定性过高时倾向于选择弃权。尽管其正确回答率可能较低，但由于减少了错误，其整体效能更高。相反，o4-mini 即使在没有确定性的情况下也倾向于给出系统的回答，从而优化了正确回答的数量，但却以增加错误为代价。

迈向无幻觉的未来

这些努力使我们能有一个新的视角来看待学习，将 人工智能对自身局限的意识 作为一项优先事务。评估标准必须发展，以鼓励深思熟虑的弃权行为。这一观点旨在提高模型的可靠性，同时减少幻觉给用户带来的困惑。

常见问题解答

为什么 ChatGPT 不会说“我不知道”？
ChatGPT 被设计为最大化回答数量，通常更倾向于猜测而非承认无知，以保持某种性能水平。

ChatGPT 的幻觉会带来什么后果？
幻觉可能导致不准确或错误的回答，因为模型会编造信息而不是承认它不知道。

ChatGPT 的学习如何运作与其不确定性有关？
在训练阶段，ChatGPT 学习基于统计规律预测单词，但对于稀有信息，它必须进行猜测，这可能导致错误。

有什么调整可以减少 ChatGPT 不愿意承认无知的情况？
OpenAI 建议重新评估模型的评估方法，鼓励在存在不确定性时选择弃权，从而促进对知识局限的认知。

所有人工智能模型在不确定性表现上都与 ChatGPT 相同吗？
不一定。不同的模型在表达其无知方面可能采取不同的方式，有些模型更倾向于承认缺乏确定性。

ChatGPT 的弃权回答与错误回答有什么区别？
弃权回答被视为一种谦逊的表现，表明模型未默认给予答案。相反，当模型提供错误或编造的回答时，会发生错误。

当前的性能标准为何更倾向于猜测而非诚实？
性能标准主要评估正确回答率，从而促使模型进行猜测以获得更好的分数，而不是承认自己的无知。

用户如何解读 ChatGPT 关于不确定性的回答？
用户应意识到，尽管 ChatGPT 提供回答即使存在犹豫，也不能保证准确性，因此建议核实所提供的信息。

网络访问对 ChatGPT 幻觉的影响是什么？
尽管网络访问提升了性能，但也加剧了幻觉，导致有时出现更多的编造回答而非事实。

ChatGPT 表達其無知的背後原因

ChatGPT 的幻觉

信息获取过程

模型评估中的偏见

必要的标准更新

回答类型的区分

模型的实际表现

迈向无幻觉的未来

常见问题解答

一些路人被一個過於誠實的人工智能廣告牌震驚

Apple 開始從德克薩斯州發運一款旗艦產品

在盧浮宮的飛行：由其攝影師解讀的病毒性照片之謎，介於福爾摩斯與人工智能之間

一間創新的公司，尋求擁有清晰和透明價值觀的員工

Microsoft Edge : 由 Copilot 模式所改變的瀏覽器，人工智能為您的瀏覽提供服務！

欧盟：针对美国大型科技巨头的审慎监管

ChatGPT 表達其無知的背後原因

ChatGPT 的幻觉

信息获取过程

模型评估中的偏见

必要的标准更新

回答类型的区分

模型的实际表现

迈向无幻觉的未来

常见问题解答

.tdi_114{z-index:84546!important}Apple 開始從德克薩斯州發運一款旗艦產品

.tdi_133{z-index:84546!important}在盧浮宮的飛行：由其攝影師解讀的病毒性照片之謎，介於福爾摩斯與人工智能之間

.tdi_152{z-index:84546!important}一間創新的公司，尋求擁有清晰和透明價值觀的員工

.tdi_171{z-index:84546!important}Microsoft Edge : 由 Copilot 模式所改變的瀏覽器，人工智能為您的瀏覽提供服務！

.tdi_190{z-index:84546!important}欧盟：针对美国大型科技巨头的审慎监管

Apple 開始從德克薩斯州發運一款旗艦產品

在盧浮宮的飛行：由其攝影師解讀的病毒性照片之謎，介於福爾摩斯與人工智能之間

一間創新的公司，尋求擁有清晰和透明價值觀的員工

Microsoft Edge : 由 Copilot 模式所改變的瀏覽器，人工智能為您的瀏覽提供服務！

欧盟：针对美国大型科技巨头的审慎监管