Grok-4,Elon Musk 在基准测试中人工智能的新突破

Publié le 11 7 月 2025 à 10h03
modifié le 11 7 月 2025 à 10h03

Grok-4 重新定义了人工智能的格局,成为无与伦比的性能支柱。这项由 Elon Musk 创立的 xAI 创新超越了传统基准的既定标准。 *在传统的 OpenAI、Anthropic 和 Google DeepMind 模型之上取得的优异结果* 证明了一个显著的进步。

对推理的重视赋予了 Grok-4 在复杂任务中的卓越表现。 *Grok-4 Heavy 的并行协调能力* 为问题解决提供了新的视角。这项技术成就的意义在于,揭示了人工智能领域无与伦比的创新潜力。

Grok-4 : 人工智能性能的革命

xAI 开发的 Grok-4,最近在基准测试中超越了 OpenAI 的前任领导者 o3-pro。这一重大进展是对复杂推理研究不断加深的结果。

集中于推理

xAI 选择将努力集中在推理上,与通用模型形成对比。Grok-4 专注于需要高级思维和逻辑的任务。重点放在 强化学习 上,投资包括使用 200,000 个 Colossus 超级计算机的 GPU。

基准测试的卓越表现

该模型在多个基准测试中建立了令人印象深刻的记录。在博士水平的测试 Humanities Last Exam 中,Grok-4 以标准模式解决了近 26.9 % 的问题,而 Heavy 版本解决率高达 45 %。这些结果使其明显处于博士后研究的水平。没有其他地方可以满怀希望地期望人类在该考试中的成功率达到 5 %。

在数学方面,Grok-4 在 AIME25 中达到了 100 % 的完美分数,超越了获得 98.4 % 的 o3。在 HMMT25 中,它同样表现突出,以 96.7 % 的成绩高于 Claude 4 Opus 的 82.5 %。

流动智力的新纪录

Grok-4 在 ARC-AGI 测试中表现尤为突出,成为第一个公共模型,实现了超过 10 % 的精度,达到了 15.9 %。 Greg Kamradt,ARC Prize 的主席,确认了这一卓越表现。之前的最佳成绩约为 8 %,由 Claude Opus 4 创造。

认识到局限性

尽管 Grok-4 在推理方面处于领先地位,但其某些能力仍引发了疑问。它的多模态性能仍然较为基础。 Elon Musk 本人承认该模型在图像理解方面存在部分盲点,需要进一步改善。

关于编程,Grok-4 的结果差异明显。在 LiveCodeBench 测试中,它的得分为 79.4 %,与 Gemini 2.5 Pro 持平,略低于 o3。

定价与订阅

Grok-4 通过 SuperGrok 订阅以每月 30 美元的价格对公众开放。 SuperGrok Heavy 订阅,月费 300 美元,提供多代理版本的访问。这样的定价定位使得 xAI 成为最昂贵的 AI 供应商之一。

目前,Grok 的 API 也可以访问,但费用尚待确定。

未来展望

xAI 设想了一个雄心勃勃的未来日程。计划于八月推出专用编码模型,九月推出多模态代理,十月推出视频生成模型。竞争依然激烈,Claude 和 Google 等其他参与者正在积极开发自己的模型。

常见问题解答

Grok-4 的主要特点是什么?
Grok-4 专注于复杂推理,将问题分解为步骤并识别逻辑关系。它使用先进的强化学习技术,并具有 256,000 个 tokens 的上下文。

Grok-4 与 OpenAI 和 Google 等其他人工智能模型相比如何?
Grok-4 超越了如 OpenAI 的 o3-pro 和 Gemini 2.5 Pro 等模型的表现,在多个基准测试中创下新记录,并声称其性能优于 Anthropic 和 Google DeepMind。

Grok-4 的基准测试结果如何?
Grok-4 取得了令人印象深刻的得分:在 Humanities Last Exam 中 26.9 % 的成功率,以及在 AIME25 中的 100 % 成绩, 在多个测试中超越了 Claude-4 和其他竞争对手。

Grok-4 当前的局限性是什么?
尽管 Grok-4 在推理方面表现卓越,但其多模态能力有限,且在编程方面表现不一,尤其是在 LiveCodeBench 测试中得分为 79.4 %。

什么是 Grok-4 Heavy 模型,它与标准模型有何不同?
Grok-4 Heavy 通过并行调动多个代理来解决复杂问题,从而为所面临的问题提供了一种更强大和多样化的方法。

Grok-4 的用户访问成本是多少?
Grok-4 的 SuperGrok 订阅费用为每月 30 美元,而 SuperGrok Heavy 订阅费用为每月 300 美元,提供访问 Grok-4 Heavy 的增强能力。

未来有哪些创新计划?
xAI 计划在八月推出专用编码模型,在九月推出多模态代理,并在十月推出视频生成模型,从而为平台增加更多功能。

actu.iaNon classéGrok-4,Elon Musk 在基准测试中人工智能的新突破

一些路人被一個過於誠實的人工智能廣告牌震驚

des passants ont été surpris en découvrant un panneau publicitaire généré par l’ia, dont le message étonnamment honnête a suscité de nombreuses réactions. découvrez les détails de cette campagne originale qui n’a laissé personne indifférent.

Apple 開始從德克薩斯州發運一款旗艦產品

apple débute l’expédition de son produit phare fabriqué au texas, renforçant sa présence industrielle américaine. découvrez comment cette initiative soutient l’innovation locale et la production nationale.
plongez dans les coulisses du fameux vol au louvre grâce au témoignage captivant du photographe derrière le cliché viral. entre analyse à la sherlock holmes et usage de l'intelligence artificielle, découvrez les secrets de cette image qui a fait le tour du web.

一間創新的公司,尋求擁有清晰和透明價值觀的員工

rejoignez une entreprise innovante qui recherche des employés partageant des valeurs claires et transparentes. participez à une équipe engagée où intégrité, authenticité et esprit d'innovation sont au cœur de chaque projet !

Microsoft Edge : 由 Copilot 模式所改變的瀏覽器,人工智能為您的瀏覽提供服務!

découvrez comment le mode copilot de microsoft edge révolutionne votre expérience de navigation grâce à l’intelligence artificielle : conseils personnalisés, assistance instantanée et navigation optimisée au quotidien !

欧盟:针对美国大型科技巨头的审慎监管

découvrez comment l'union européenne impose une régulation stricte et réfléchie aux grandes entreprises technologiques américaines, afin de protéger les consommateurs et d’assurer une concurrence équitable sur le marché numérique.