ChatGPT 表達其無知的背後原因

Publié le 13 9 月 2025 à 09h39
modifié le 13 9 月 2025 à 09h40

ChatGPT 不愿意承认自己的无知 引发了对其内部机制的深刻质疑。这种情况主要源于人工智能架构本身,强调回答的生成。在追求精确度的模型中,无意中滋生了 *幻觉* 的内容。基于正确回答率的评估进一步加剧了这一现象,促使人工智能更倾向于猜测而非承认其知识的缺口。

不适当的评估框架促使了错误结果的产生,揭示了重大的伦理问题。这一动态的后果质疑了我们可以信任这些系统的界限。

ChatGPT 的幻觉

OpenAI 的研究揭示了一个广为人知的现象:幻觉,是由人工智能产生的没有事实基础却被视为真理的回答。尽管技术不断进步,这些发言表明,人工智能在缺乏确定性时仍持续产生错误回答。不承认一个不确定性的空间仍然是普遍存在的。

信息获取过程

模型的预训练 在人工智能获取知识的方式上发挥了关键作用。在这个阶段,算法专注于预测下一个单词,基于语言的统计规律,这使它们能够获得语法和句法的能力。然而,针对学习语料库中未体现的非典型或特殊事实,模型必须进行猜测,这增加了幻觉的风险。

模型评估中的偏见

模型的 评估方法 中存在的偏见加剧了这些错误。人工智能接受基于正确回答率的测试。当模型不知道确切答案时,它的倾向是选择猜测而不是承认缺乏知识。这种做法赋予了它产生较好分数的更高概率。这种偏见让我们想起选择题测试,其中风险和运气有时可以带来有利的结果。

必要的标准更新

OpenAI 建议进行 评估标准的根本修订,用于模型学习的过程。其思想在于,在评估结果中考虑模型在不确定时选择不回答的能力,而不是仅仅重视准确性,缺乏确定性应被视为一种值得赞赏和积极的谦逊。

回答类型的区分

OpenAI 引入了一种新的回答分类框架,将回答分为三类:正确回答、错误和弃权。弃权 即表明一种识别自己局限性的能力,现在相较于错误回答更受到鼓励。这使得不同模型的效能可以进行比较,证实了选择弃权可以显著减少幻觉。

模型的实际表现

如 GPT-5-thinking-mini 和 o4-mini 等模型的分析结果表明了这一区别。前者在判断其不确定性过高时倾向于选择弃权。尽管其正确回答率可能较低,但由于减少了错误,其整体效能更高。相反,o4-mini 即使在没有确定性的情况下也倾向于给出系统的回答,从而优化了正确回答的数量,但却以增加错误为代价。

迈向无幻觉的未来

这些努力使我们能有一个新的视角来看待学习,将 人工智能对自身局限的意识 作为一项优先事务。评估标准必须发展,以鼓励深思熟虑的弃权行为。这一观点旨在提高模型的可靠性,同时减少幻觉给用户带来的困惑。

常见问题解答

为什么 ChatGPT 不会说“我不知道”?
ChatGPT 被设计为最大化回答数量,通常更倾向于猜测而非承认无知,以保持某种性能水平。

ChatGPT 的幻觉会带来什么后果?
幻觉可能导致不准确或错误的回答,因为模型会编造信息而不是承认它不知道。

ChatGPT 的学习如何运作与其不确定性有关?
在训练阶段,ChatGPT 学习基于统计规律预测单词,但对于稀有信息,它必须进行猜测,这可能导致错误。

有什么调整可以减少 ChatGPT 不愿意承认无知的情况?
OpenAI 建议重新评估模型的评估方法,鼓励在存在不确定性时选择弃权,从而促进对知识局限的认知。

所有人工智能模型在不确定性表现上都与 ChatGPT 相同吗?
不一定。不同的模型在表达其无知方面可能采取不同的方式,有些模型更倾向于承认缺乏确定性。

ChatGPT 的弃权回答与错误回答有什么区别?
弃权回答被视为一种谦逊的表现,表明模型未默认给予答案。相反,当模型提供错误或编造的回答时,会发生错误。

当前的性能标准为何更倾向于猜测而非诚实?
性能标准主要评估正确回答率,从而促使模型进行猜测以获得更好的分数,而不是承认自己的无知。

用户如何解读 ChatGPT 关于不确定性的回答?
用户应意识到,尽管 ChatGPT 提供回答即使存在犹豫,也不能保证准确性,因此建议核实所提供的信息。

网络访问对 ChatGPT 幻觉的影响是什么?
尽管网络访问提升了性能,但也加剧了幻觉,导致有时出现更多的编造回答而非事实。

actu.iaNon classéChatGPT 表達其無知的背後原因

一些路人被一個過於誠實的人工智能廣告牌震驚

des passants ont été surpris en découvrant un panneau publicitaire généré par l’ia, dont le message étonnamment honnête a suscité de nombreuses réactions. découvrez les détails de cette campagne originale qui n’a laissé personne indifférent.

Apple 開始從德克薩斯州發運一款旗艦產品

apple débute l’expédition de son produit phare fabriqué au texas, renforçant sa présence industrielle américaine. découvrez comment cette initiative soutient l’innovation locale et la production nationale.
plongez dans les coulisses du fameux vol au louvre grâce au témoignage captivant du photographe derrière le cliché viral. entre analyse à la sherlock holmes et usage de l'intelligence artificielle, découvrez les secrets de cette image qui a fait le tour du web.

一間創新的公司,尋求擁有清晰和透明價值觀的員工

rejoignez une entreprise innovante qui recherche des employés partageant des valeurs claires et transparentes. participez à une équipe engagée où intégrité, authenticité et esprit d'innovation sont au cœur de chaque projet !

Microsoft Edge : 由 Copilot 模式所改變的瀏覽器,人工智能為您的瀏覽提供服務!

découvrez comment le mode copilot de microsoft edge révolutionne votre expérience de navigation grâce à l’intelligence artificielle : conseils personnalisés, assistance instantanée et navigation optimisée au quotidien !

欧盟:针对美国大型科技巨头的审慎监管

découvrez comment l'union européenne impose une régulation stricte et réfléchie aux grandes entreprises technologiques américaines, afin de protéger les consommateurs et d’assurer une concurrence équitable sur le marché numérique.