ChatGPT 表達其無知的背後原因

Publié le 13 9 月 2025 à 09h39
modifié le 13 9 月 2025 à 09h40

ChatGPT 不愿意承认自己的无知 引发了对其内部机制的深刻质疑。这种情况主要源于人工智能架构本身,强调回答的生成。在追求精确度的模型中,无意中滋生了 *幻觉* 的内容。基于正确回答率的评估进一步加剧了这一现象,促使人工智能更倾向于猜测而非承认其知识的缺口。

不适当的评估框架促使了错误结果的产生,揭示了重大的伦理问题。这一动态的后果质疑了我们可以信任这些系统的界限。

ChatGPT 的幻觉

OpenAI 的研究揭示了一个广为人知的现象:幻觉,是由人工智能产生的没有事实基础却被视为真理的回答。尽管技术不断进步,这些发言表明,人工智能在缺乏确定性时仍持续产生错误回答。不承认一个不确定性的空间仍然是普遍存在的。

信息获取过程

模型的预训练 在人工智能获取知识的方式上发挥了关键作用。在这个阶段,算法专注于预测下一个单词,基于语言的统计规律,这使它们能够获得语法和句法的能力。然而,针对学习语料库中未体现的非典型或特殊事实,模型必须进行猜测,这增加了幻觉的风险。

模型评估中的偏见

模型的 评估方法 中存在的偏见加剧了这些错误。人工智能接受基于正确回答率的测试。当模型不知道确切答案时,它的倾向是选择猜测而不是承认缺乏知识。这种做法赋予了它产生较好分数的更高概率。这种偏见让我们想起选择题测试,其中风险和运气有时可以带来有利的结果。

必要的标准更新

OpenAI 建议进行 评估标准的根本修订,用于模型学习的过程。其思想在于,在评估结果中考虑模型在不确定时选择不回答的能力,而不是仅仅重视准确性,缺乏确定性应被视为一种值得赞赏和积极的谦逊。

回答类型的区分

OpenAI 引入了一种新的回答分类框架,将回答分为三类:正确回答、错误和弃权。弃权 即表明一种识别自己局限性的能力,现在相较于错误回答更受到鼓励。这使得不同模型的效能可以进行比较,证实了选择弃权可以显著减少幻觉。

模型的实际表现

如 GPT-5-thinking-mini 和 o4-mini 等模型的分析结果表明了这一区别。前者在判断其不确定性过高时倾向于选择弃权。尽管其正确回答率可能较低,但由于减少了错误,其整体效能更高。相反,o4-mini 即使在没有确定性的情况下也倾向于给出系统的回答,从而优化了正确回答的数量,但却以增加错误为代价。

迈向无幻觉的未来

这些努力使我们能有一个新的视角来看待学习,将 人工智能对自身局限的意识 作为一项优先事务。评估标准必须发展,以鼓励深思熟虑的弃权行为。这一观点旨在提高模型的可靠性,同时减少幻觉给用户带来的困惑。

常见问题解答

为什么 ChatGPT 不会说“我不知道”?
ChatGPT 被设计为最大化回答数量,通常更倾向于猜测而非承认无知,以保持某种性能水平。

ChatGPT 的幻觉会带来什么后果?
幻觉可能导致不准确或错误的回答,因为模型会编造信息而不是承认它不知道。

ChatGPT 的学习如何运作与其不确定性有关?
在训练阶段,ChatGPT 学习基于统计规律预测单词,但对于稀有信息,它必须进行猜测,这可能导致错误。

有什么调整可以减少 ChatGPT 不愿意承认无知的情况?
OpenAI 建议重新评估模型的评估方法,鼓励在存在不确定性时选择弃权,从而促进对知识局限的认知。

所有人工智能模型在不确定性表现上都与 ChatGPT 相同吗?
不一定。不同的模型在表达其无知方面可能采取不同的方式,有些模型更倾向于承认缺乏确定性。

ChatGPT 的弃权回答与错误回答有什么区别?
弃权回答被视为一种谦逊的表现,表明模型未默认给予答案。相反,当模型提供错误或编造的回答时,会发生错误。

当前的性能标准为何更倾向于猜测而非诚实?
性能标准主要评估正确回答率,从而促使模型进行猜测以获得更好的分数,而不是承认自己的无知。

用户如何解读 ChatGPT 关于不确定性的回答?
用户应意识到,尽管 ChatGPT 提供回答即使存在犹豫,也不能保证准确性,因此建议核实所提供的信息。

网络访问对 ChatGPT 幻觉的影响是什么?
尽管网络访问提升了性能,但也加剧了幻觉,导致有时出现更多的编造回答而非事实。

actu.iaNon classéChatGPT 表達其無知的背後原因

谷歌承诺在印度投资100亿美元用于人工智能数据中心项目

google prévoit d'investir 10 milliards de dollars dans la construction de data centers spécialisés en intelligence artificielle en inde, renforçant ainsi l'infrastructure numérique et soutenant l'innovation technologique du pays.

特朗普的假支持者:在社交媒体上推动的虚假抗议者

découvrez comment des faux soutiens pro-trump, créés de toutes pièces, envahissent les réseaux sociaux. analyse de la propagation de manifestants fictifs et de leur influence sur l’opinion publique.

著作權法中的TDM例外:歐洲人工智能發展的關鍵優勢

découvrez comment l'exception de text and data mining (tdm) en droit d'auteur favorise le développement de l'intelligence artificielle en europe, en offrant un cadre juridique adapté à l'innovation et à la recherche.

分析揭示:86% 的人工智能引用来自品牌控制的来源

découvrez comment 86 % des références aux intelligences artificielles sont générées par des sources contrôlées par les marques. une étude inédite dévoile l'ampleur de l'influence des entreprises sur la perception de l'ia.

「ChatGPT,我的無價盟友」:在拼寫上遇到困難的年輕專業人士的巧妙小技巧

découvrez comment de jeunes professionnels surmontent leurs difficultés en orthographe grâce à chatgpt et partagent leurs astuces ingénieuses pour améliorer leur écriture au quotidien.

演员们坚决反对在人工智能生成的内容中使用他们的形象:这是对公平的威胁

découvrez pourquoi de nombreux acteurs s'élèvent contre l'utilisation de leur image par l'intelligence artificielle, invoquant une atteinte à l'équité et à leurs droits. analyse et enjeux de ce débat dans l'industrie du cinéma.