IA et réalité : une nouvelle mesure pour jauger la compréhension des grands modèles de langage

大型语言模型正在革命性地改变我们对人工智能的理解。 对它们理解现实世界能力的评估引发了关键问题。这个领域结合了复杂的数学和认知科学，揭示了预测背后的隐含问题。

对真正理解的挑战超越了简单的计算。 一种新的度量，归纳偏见，证明了当前的局限性以及适应能力。超越预测的智能追求提出了问题，激发了研究人员的兴趣。

这项研究的影响不仅影响技术领域，还影响基础科学学科。

评估人工智能的新方法

麻省理工学院和哈佛大学的研究人员开发了一种创新的方法，以评估人工智能（IA）系统在面对预测模型时的理解深度。随着全球对人工智能系统的依赖不断增加，这显得至关重要。该方法专注于人工智能超越特定任务的能力，以开发一些研究人员所称的 世界模型。

历史比较：开普勒与牛顿

这项研究的概念与约翰内斯·开普勒和艾萨克·牛顿的发现相呼应。开普勒提供了运动定律，可以预测行星的位置。然而，牛顿引入了可普遍适用的思想，改变了我们对引力的理解。研究人员提出的问题是，人工智能模型是否能够进行同样的飞跃，从简单的预测到构建复杂的现实世界模型。

测量理解力：归纳偏见

为了评估这种理解，团队开发了一种新的度量，称为 归纳偏见。该度量量化了一个模型在多大程度上基于广泛多样的数据实例来预测结果。研究人员旨在确定人工智能模型的性能是否与现实相符，或随着任务复杂性的变化而有所偏离。

复杂预测模型的挑战

在测试不同的人工智能系统时，研究人员发现，即使是最简单的模型也能在模拟环境中创建现实的表征。相反，当复杂性增加时，系统的表现迅速恶化。一个有说服力的例子是游戏 Othello。尽管人工智能模型有效地预测允许的移动，但它们把握棋子整体排列的能力仍然不足。

人工智能的未来展望

科学界充满了极大的兴奋，同时也对人工智能模型向更先进应用发展的能力充满担忧。麻省理工和哈佛的研究人员指出，这些系统需要吸收关于世界的知识，不仅是为了特定的应用，还为了自然科学等多个领域的各种任务。这需要适应和全球模型的发展。

朝着更高效模型的方向迈进

进行的研究旨在为当前的预测模型提供一个评估基础，遵循优化训练的参数。研究专注于如何改善模型表征，这可能在化学或生物学等复杂领域带来革命性的结果。目前，优化这些系统正成为一个重大挑战。

参考文献与正在进行的研究

这些模型的潜在应用超越了简单的预测。许多研究专注于使用人工智能系统进行科学发现，尤其是在化学化合物属性的研究或新药物的寻找上。然而，这些系统要实现深刻而可普遍应用的理解仍然任重而道远。

研究人员希望这条新的研究途径将为更精确、更灵活的模型铺平道路，超越当前的局限性。随着对能源和空间的研究，以及对健康和模拟等重要主题的关注，人工智能的未来可能会重新定义我们当前面对现实世界的方法。

关于语言模型理解及其预测现实世界能力的常见问题

大型语言模型真的能理解现实世界吗？
虽然这些模型在基于数据进行预测方面表现出色，但它们对现实世界基本原则的理解仍然有限。它们可以基于过去的示例生成回答，但它们的“智能”水平并不等同于与人类相媲美的深刻理解。

评估人工智能预测能力的新度量是什么？
新的度量，称为“归纳偏见”，可以评估预测系统是否能够基于从大量数据中得出的推论，重现现实世界的条件。

如何测试人工智能模型是否正确理解一个概念？
至关重要的是设定超越简单预测准确率的评估标准。这涉及到检查模型是否能够将其知识推广到略有不同的情况。

在评估语言模型理解能力时遇到的挑战有哪些？
主要挑战包括如何定义 AI 模型“理解”所需的内容，以及这些模型面临的任务复杂性的变化。

为什么开发能够进行广泛预测的语言模型很重要？
能够进行普遍化的模型可以应用于更广泛的问题范围，从而在科学研究到工业决策等多个领域提高结果。

语言模型如何促进科学发现？
它们可以用于预测化学组成或蛋白质结构在尚未实验的数据上，从而促进创新和药理学等领域的研究。

当前人工智能模型可能缺失哪些类型的预测？
这些模型可能在对复杂排列进行推断或从特定案例推断到更广泛应用方面遇到困难。

我们如何展望语言模型的未来及其理解世界的能力？
朝着结合更好的预测能力与深入理解基本原理的模型演变，可能会改变人工智能并加强其在各个领域的影响。

大型语言模型能够理解现实世界吗？一个新的测量评估了人工智能的预测能力。

评估人工智能的新方法

历史比较：开普勒与牛顿

测量理解力：归纳偏见

复杂预测模型的挑战

人工智能的未来展望

朝着更高效模型的方向迈进

参考文献与正在进行的研究

关于语言模型理解及其预测现实世界能力的常见问题

一些路人被一個過於誠實的人工智能廣告牌震驚

Apple 開始從德克薩斯州發運一款旗艦產品

在盧浮宮的飛行：由其攝影師解讀的病毒性照片之謎，介於福爾摩斯與人工智能之間

一間創新的公司，尋求擁有清晰和透明價值觀的員工

Microsoft Edge : 由 Copilot 模式所改變的瀏覽器，人工智能為您的瀏覽提供服務！

欧盟：针对美国大型科技巨头的审慎监管

大型语言模型能够理解现实世界吗？一个新的测量评估了人工智能的预测能力。

评估人工智能的新方法

历史比较：开普勒与牛顿

测量理解力：归纳偏见

复杂预测模型的挑战

人工智能的未来展望

朝着更高效模型的方向迈进

参考文献与正在进行的研究

关于语言模型理解及其预测现实世界能力的常见问题

.tdi_114{z-index:84546!important}Apple 開始從德克薩斯州發運一款旗艦產品

.tdi_133{z-index:84546!important}在盧浮宮的飛行：由其攝影師解讀的病毒性照片之謎，介於福爾摩斯與人工智能之間

.tdi_152{z-index:84546!important}一間創新的公司，尋求擁有清晰和透明價值觀的員工

.tdi_171{z-index:84546!important}Microsoft Edge : 由 Copilot 模式所改變的瀏覽器，人工智能為您的瀏覽提供服務！

.tdi_190{z-index:84546!important}欧盟：针对美国大型科技巨头的审慎监管

Apple 開始從德克薩斯州發運一款旗艦產品

在盧浮宮的飛行：由其攝影師解讀的病毒性照片之謎，介於福爾摩斯與人工智能之間

一間創新的公司，尋求擁有清晰和透明價值觀的員工

Microsoft Edge : 由 Copilot 模式所改變的瀏覽器，人工智能為您的瀏覽提供服務！

欧盟：针对美国大型科技巨头的审慎监管