Grok-4 : l'IA d'Elon Musk redéfinit les benchmarks

Grok-4 重新定义了人工智能的格局，成为无与伦比的性能支柱。这项由 Elon Musk 创立的 xAI 创新超越了传统基准的既定标准。 *在传统的 OpenAI、Anthropic 和 Google DeepMind 模型之上取得的优异结果* 证明了一个显著的进步。

对推理的重视赋予了 Grok-4 在复杂任务中的卓越表现。 *Grok-4 Heavy 的并行协调能力* 为问题解决提供了新的视角。这项技术成就的意义在于，揭示了人工智能领域无与伦比的创新潜力。

Grok-4 : 人工智能性能的革命

由 xAI 开发的 Grok-4，最近在基准测试中超越了 OpenAI 的前任领导者 o3-pro。这一重大进展是对复杂推理研究不断加深的结果。

集中于推理

xAI 选择将努力集中在推理上，与通用模型形成对比。Grok-4 专注于需要高级思维和逻辑的任务。重点放在 强化学习 上，投资包括使用 200,000 个 Colossus 超级计算机的 GPU。

基准测试的卓越表现

该模型在多个基准测试中建立了令人印象深刻的记录。在博士水平的测试 Humanities Last Exam 中，Grok-4 以标准模式解决了近 26.9 % 的问题，而 Heavy 版本解决率高达 45 %。这些结果使其明显处于博士后研究的水平。没有其他地方可以满怀希望地期望人类在该考试中的成功率达到 5 %。

在数学方面，Grok-4 在 AIME25 中达到了 100 % 的完美分数，超越了获得 98.4 % 的 o3。在 HMMT25 中，它同样表现突出，以 96.7 % 的成绩高于 Claude 4 Opus 的 82.5 %。

流动智力的新纪录

Grok-4 在 ARC-AGI 测试中表现尤为突出，成为第一个公共模型，实现了超过 10 % 的精度，达到了 15.9 %。 Greg Kamradt，ARC Prize 的主席，确认了这一卓越表现。之前的最佳成绩约为 8 %，由 Claude Opus 4 创造。

认识到局限性

尽管 Grok-4 在推理方面处于领先地位，但其某些能力仍引发了疑问。它的多模态性能仍然较为基础。 Elon Musk 本人承认该模型在图像理解方面存在部分盲点，需要进一步改善。

关于编程，Grok-4 的结果差异明显。在 LiveCodeBench 测试中，它的得分为 79.4 %，与 Gemini 2.5 Pro 持平，略低于 o3。

定价与订阅

Grok-4 通过 SuperGrok 订阅以每月 30 美元的价格对公众开放。 SuperGrok Heavy 订阅，月费 300 美元，提供多代理版本的访问。这样的定价定位使得 xAI 成为最昂贵的 AI 供应商之一。

目前，Grok 的 API 也可以访问，但费用尚待确定。

未来展望

xAI 设想了一个雄心勃勃的未来日程。计划于八月推出专用编码模型，九月推出多模态代理，十月推出视频生成模型。竞争依然激烈，Claude 和 Google 等其他参与者正在积极开发自己的模型。

常见问题解答

Grok-4 的主要特点是什么？
Grok-4 专注于复杂推理，将问题分解为步骤并识别逻辑关系。它使用先进的强化学习技术，并具有 256,000 个 tokens 的上下文。

Grok-4 与 OpenAI 和 Google 等其他人工智能模型相比如何？
Grok-4 超越了如 OpenAI 的 o3-pro 和 Gemini 2.5 Pro 等模型的表现，在多个基准测试中创下新记录，并声称其性能优于 Anthropic 和 Google DeepMind。

Grok-4 的基准测试结果如何？
Grok-4 取得了令人印象深刻的得分：在 Humanities Last Exam 中 26.9 % 的成功率，以及在 AIME25 中的 100 % 成绩，在多个测试中超越了 Claude-4 和其他竞争对手。

Grok-4 当前的局限性是什么？
尽管 Grok-4 在推理方面表现卓越，但其多模态能力有限，且在编程方面表现不一，尤其是在 LiveCodeBench 测试中得分为 79.4 %。

什么是 Grok-4 Heavy 模型，它与标准模型有何不同？
Grok-4 Heavy 通过并行调动多个代理来解决复杂问题，从而为所面临的问题提供了一种更强大和多样化的方法。

Grok-4 的用户访问成本是多少？
Grok-4 的 SuperGrok 订阅费用为每月 30 美元，而 SuperGrok Heavy 订阅费用为每月 300 美元，提供访问 Grok-4 Heavy 的增强能力。

未来有哪些创新计划？
xAI 计划在八月推出专用编码模型，在九月推出多模态代理，并在十月推出视频生成模型，从而为平台增加更多功能。

Grok-4，Elon Musk 在基准测试中人工智能的新突破

Grok-4 : 人工智能性能的革命

集中于推理

基准测试的卓越表现

流动智力的新纪录

认识到局限性

定价与订阅

未来展望

常见问题解答

一些路人被一個過於誠實的人工智能廣告牌震驚

Apple 開始從德克薩斯州發運一款旗艦產品

在盧浮宮的飛行：由其攝影師解讀的病毒性照片之謎，介於福爾摩斯與人工智能之間

一間創新的公司，尋求擁有清晰和透明價值觀的員工

Microsoft Edge : 由 Copilot 模式所改變的瀏覽器，人工智能為您的瀏覽提供服務！

欧盟：针对美国大型科技巨头的审慎监管

Grok-4，Elon Musk 在基准测试中人工智能的新突破

Grok-4 : 人工智能性能的革命

集中于推理

基准测试的卓越表现

流动智力的新纪录

认识到局限性

定价与订阅

未来展望

常见问题解答

.tdi_114{z-index:84546!important}Apple 開始從德克薩斯州發運一款旗艦產品

.tdi_133{z-index:84546!important}在盧浮宮的飛行：由其攝影師解讀的病毒性照片之謎，介於福爾摩斯與人工智能之間

.tdi_152{z-index:84546!important}一間創新的公司，尋求擁有清晰和透明價值觀的員工

.tdi_171{z-index:84546!important}Microsoft Edge : 由 Copilot 模式所改變的瀏覽器，人工智能為您的瀏覽提供服務！

.tdi_190{z-index:84546!important}欧盟：针对美国大型科技巨头的审慎监管

Apple 開始從德克薩斯州發運一款旗艦產品

在盧浮宮的飛行：由其攝影師解讀的病毒性照片之謎，介於福爾摩斯與人工智能之間

一間創新的公司，尋求擁有清晰和透明價值觀的員工

Microsoft Edge : 由 Copilot 模式所改變的瀏覽器，人工智能為您的瀏覽提供服務！

欧盟：针对美国大型科技巨头的审慎监管