Grok-4 重新定义了人工智能的格局,成为无与伦比的性能支柱。这项由 Elon Musk 创立的 xAI 创新超越了传统基准的既定标准。 *在传统的 OpenAI、Anthropic 和 Google DeepMind 模型之上取得的优异结果* 证明了一个显著的进步。
对推理的重视赋予了 Grok-4 在复杂任务中的卓越表现。 *Grok-4 Heavy 的并行协调能力* 为问题解决提供了新的视角。这项技术成就的意义在于,揭示了人工智能领域无与伦比的创新潜力。
Grok-4 : 人工智能性能的革命
由 xAI 开发的 Grok-4,最近在基准测试中超越了 OpenAI 的前任领导者 o3-pro。这一重大进展是对复杂推理研究不断加深的结果。
集中于推理
xAI 选择将努力集中在推理上,与通用模型形成对比。Grok-4 专注于需要高级思维和逻辑的任务。重点放在 强化学习 上,投资包括使用 200,000 个 Colossus 超级计算机的 GPU。
基准测试的卓越表现
该模型在多个基准测试中建立了令人印象深刻的记录。在博士水平的测试 Humanities Last Exam 中,Grok-4 以标准模式解决了近 26.9 % 的问题,而 Heavy 版本解决率高达 45 %。这些结果使其明显处于博士后研究的水平。没有其他地方可以满怀希望地期望人类在该考试中的成功率达到 5 %。
在数学方面,Grok-4 在 AIME25 中达到了 100 % 的完美分数,超越了获得 98.4 % 的 o3。在 HMMT25 中,它同样表现突出,以 96.7 % 的成绩高于 Claude 4 Opus 的 82.5 %。
流动智力的新纪录
Grok-4 在 ARC-AGI 测试中表现尤为突出,成为第一个公共模型,实现了超过 10 % 的精度,达到了 15.9 %。 Greg Kamradt,ARC Prize 的主席,确认了这一卓越表现。之前的最佳成绩约为 8 %,由 Claude Opus 4 创造。
认识到局限性
尽管 Grok-4 在推理方面处于领先地位,但其某些能力仍引发了疑问。它的多模态性能仍然较为基础。 Elon Musk 本人承认该模型在图像理解方面存在部分盲点,需要进一步改善。
关于编程,Grok-4 的结果差异明显。在 LiveCodeBench 测试中,它的得分为 79.4 %,与 Gemini 2.5 Pro 持平,略低于 o3。
定价与订阅
Grok-4 通过 SuperGrok 订阅以每月 30 美元的价格对公众开放。 SuperGrok Heavy 订阅,月费 300 美元,提供多代理版本的访问。这样的定价定位使得 xAI 成为最昂贵的 AI 供应商之一。
目前,Grok 的 API 也可以访问,但费用尚待确定。
未来展望
xAI 设想了一个雄心勃勃的未来日程。计划于八月推出专用编码模型,九月推出多模态代理,十月推出视频生成模型。竞争依然激烈,Claude 和 Google 等其他参与者正在积极开发自己的模型。
常见问题解答
Grok-4 的主要特点是什么?
Grok-4 专注于复杂推理,将问题分解为步骤并识别逻辑关系。它使用先进的强化学习技术,并具有 256,000 个 tokens 的上下文。
Grok-4 与 OpenAI 和 Google 等其他人工智能模型相比如何?
Grok-4 超越了如 OpenAI 的 o3-pro 和 Gemini 2.5 Pro 等模型的表现,在多个基准测试中创下新记录,并声称其性能优于 Anthropic 和 Google DeepMind。
Grok-4 的基准测试结果如何?
Grok-4 取得了令人印象深刻的得分:在 Humanities Last Exam 中 26.9 % 的成功率,以及在 AIME25 中的 100 % 成绩, 在多个测试中超越了 Claude-4 和其他竞争对手。
Grok-4 当前的局限性是什么?
尽管 Grok-4 在推理方面表现卓越,但其多模态能力有限,且在编程方面表现不一,尤其是在 LiveCodeBench 测试中得分为 79.4 %。
什么是 Grok-4 Heavy 模型,它与标准模型有何不同?
Grok-4 Heavy 通过并行调动多个代理来解决复杂问题,从而为所面临的问题提供了一种更强大和多样化的方法。
Grok-4 的用户访问成本是多少?
Grok-4 的 SuperGrok 订阅费用为每月 30 美元,而 SuperGrok Heavy 订阅费用为每月 300 美元,提供访问 Grok-4 Heavy 的增强能力。
未来有哪些创新计划?
xAI 计划在八月推出专用编码模型,在九月推出多模态代理,并在十月推出视频生成模型,从而为平台增加更多功能。





