Grok-4：イーロン・マスクのAIがベンチマークを再定義

グロック-4は人工知能の風景を再定義し、比類のないパフォーマンスの柱として登場しています。このエン革新は、イーロン・マスクが設立したxAIによるものであり、従来のベンチマークの基準を超越しています。 *OpenAI、Anthropic、Google DeepMindのモデルを上回る優れた結果* は、重要な進展を示しています。

推論に焦点を当てることで、グロック-4は複雑なタスクにおいて優位性を持っています。 *グロック-4ヘビーの並列に編成された能力* は、問題解決に関する新たな視点を提供します。この技術的成果の意味は、AI分野における前例のない革新の可能性を示しています。

グロック-4: 人工知能におけるパフォーマンスの革命

グロック-4は、xAIによって開発されたモデルで、イーロン・マスクによって設立されたスタートアップです。最近、ベンチマークにおいて旧リーダーであるOpenAIのo3-proを上回りました。この大きな進展は、複雑な推論に関する研究の強化の結果です。

推論への集中

xAIは一般的なモデルとは対照的に、推論に向けて努力を集中させることを選びました。グロック-4は、洗練された思考と高度な論理を必要とするタスクに特化しています。強化学習に重点を置き、200,000のGPUを持つスパコン「コロッサス」の利用などの投資が行われました。

ベンチマークの驚異的なパフォーマンス

このモデルは、複数のベンチマークで印象的な記録を樹立しました。PhDレベルのテストであるHumanities Last Examにおいて、グロック-4は標準モードで26.9％、ヘビーバージョンで45％の問題を解決します。これらの結果は、明らかにポスドクレベルに達しています。どこにも、人間がこの試験で5％の成功を達成すると期待できる場所はありません。

数学では、グロック-4の完璧なスコアはAIME25で100％に達し、o3の98.4％を超えています。HMMT25では、82.5％のClaude 4 Opusに対し、96.7％の成績を収めています。

流動的な知能の新しい記録

グロック-4は、ARC-AGIテストで特に際立っており、15.9％の精度で10％の閾値を初めて越えた公開モデルになりました。グレッグ・カムラッド、ARC Prizeの社長は、この卓越したパフォーマンスを確認しました。前のスコアはClaude Opus 4の約8％でした。

限界の認識

グロック-4が推論の最前線にある一方で、いくつかの能力には疑問が提起されます。そのマルチモーダルパフォーマンスはまだ基本的です。イーロン・マスク自身が、このモデルが部分的に盲目であり、画像の理解を改善する必要があると認めています。

プログラミングに関しては、グロック-4は一貫性のない結果を示しています。LiveCodeBenchテストでは、79.4％のスコアを記録し、Gemini 2.5 Proと並び、その少し下に位置しています。

価格設定とサブスクリプション

グロック-4は、SuperGrokというサブスクリプション（月額30ドル）を通じて一般に提供されています。SuperGrok Heavyというサブスクリプション（月額300ドル）は、マルチエージェントバージョンへのアクセスを提供します。この価格設定は、xAIを最も高価なAIプロバイダーの一つにしています。

現在、グロックのAPIも利用可能ですが、料金は未定です。

未来への展望

xAIは、未来に向けた野心的なスケジュールを企画しています。専門のコーディングモデルが8月に予定されており、9月にはマルチモーダルエージェントが、10月には動画生成モデルが続く予定です。競争は依然として激しく、ClaudeやGoogleなどの他のプレーヤーも自らのモデルを開発するために活動しています。

よくある質問

グロック-4の主な特徴は何ですか？
グロック-4は複雑な推論に集中し、問題を段階に分解し論理関係を特定します。高度な強化学習技術を使用し、256,000トークンのコンテキストを持ちます。

グロック-4はOpenAIやGoogleの他のモデルとどのように比較されますか？
グロック-4は、OpenAIのo3-proやGemini 2.5 Proを超え、いくつかの基準のベンチマークで新しい記録を樹立し、AnthropicやGoogle DeepMindよりも優れたパフォーマンスを誇っています。

グロック-4のベンチマーク結果はどうですか？
グロック-4は、Humanities Last Examで26.9％、AIME25で100％の印象的なスコアを獲得し、Claude-4や他の競合と比較しても優れたパフォーマンスを示しています。

グロック-4の現在の限界は何ですか？
グロック-4は推論に優れていますが、そのマルチモーダル能力は限られており、プログラミングに関してはLiveCodeBenchで79.4％に達するなど、結果はバラバラです。

グロック-4ヘビーはどのようなモデルで、スタンダードモデルとどう異なりますか？
グロック-4ヘビーは、複数のエージェントを並行して動員し、複雑な問題を解決することで、より堅牢で多様なアプローチを提供します。

ユーザーがグロック-4にアクセスするためのコストはどのくらいですか？
グロック-4のSuperGrokサブスクリプションは月額30ドル、グロック-4ヘビーの強化機能にアクセスできるSuperGrok Heavyサブスクリプションは月額300ドルです。

グロック-4に今後予定されている革新は何ですか？
xAIは、8月に専門のコーディングモデル、9月にマルチモーダルエージェント、10月に動画生成モデルの展開を予定しており、プラットフォームにさらなる機能を追加します。

Grok-4、エロン・マスクの人工知能による新たな成果、ベンチマークでの実績

グロック-4: 人工知能におけるパフォーマンスの革命

推論への集中

ベンチマークの驚異的なパフォーマンス

流動的な知能の新しい記録

限界の認識

価格設定とサブスクリプション

未来への展望

よくある質問

AIの少し本音な広告看板に衝撃を受けた通行人たち

Appleはテキサスで製造されたフラッグシップ製品の出荷を開始します

ルーヴルの空飛ぶ写真：その写真家によって解読されたウイルス的な謎、シャーロック・ホームズと人工知能の間で

革新的な企業が明確で透明な価値観を持つ従業員を求めています

Microsoft Edge : コパイロットモードによって変わったブラウザ、あなたのナビゲーションをサポートするAI！

欧州連合：アメリカのビッグテック巨人に対する慎重な規制

Grok-4、エロン・マスクの人工知能による新たな成果、ベンチマークでの実績

グロック-4: 人工知能におけるパフォーマンスの革命

推論への集中

ベンチマークの驚異的なパフォーマンス

流動的な知能の新しい記録

限界の認識

価格設定とサブスクリプション

未来への展望

よくある質問

.tdi_114{z-index:84546!important}Appleはテキサスで製造されたフラッグシップ製品の出荷を開始します

.tdi_133{z-index:84546!important}ルーヴルの空飛ぶ写真：その写真家によって解読されたウイルス的な謎、シャーロック・ホームズと人工知能の間で

.tdi_152{z-index:84546!important}革新的な企業が明確で透明な価値観を持つ従業員を求めています

.tdi_171{z-index:84546!important}Microsoft Edge : コパイロットモードによって変わったブラウザ、あなたのナビゲーションをサポートするAI！

.tdi_190{z-index:84546!important}欧州連合：アメリカのビッグテック巨人に対する慎重な規制

Appleはテキサスで製造されたフラッグシップ製品の出荷を開始します

ルーヴルの空飛ぶ写真：その写真家によって解読されたウイルス的な謎、シャーロック・ホームズと人工知能の間で

革新的な企業が明確で透明な価値観を持つ従業員を求めています

Microsoft Edge : コパイロットモードによって変わったブラウザ、あなたのナビゲーションをサポートするAI！

欧州連合：アメリカのビッグテック巨人に対する慎重な規制