Grok-4, ein neuer Meilenstein für die künstliche Intelligenz von Elon Musk in den Benchmarks

Publié le 11 Juli 2025 à 10h05
modifié le 11 Juli 2025 à 10h05

Grok-4 redefiniert die Landschaft der künstlichen Intelligenz und tritt als Säule unerreichter Leistung hervor. Diese Innovation von xAI, gegründet von Elon Musk, übertrifft die etablierten Standards traditioneller Benchmarks. *Überlegene Ergebnisse im Vergleich zu den Modellen von OpenAI*, Anthropic und Google DeepMind belegen einen signifikanten Fortschritt.

Der Fokus auf das Denken verleiht Grok-4 eine Überlegenheit in komplexen Aufgaben. *Die parallel orchestrierten Fähigkeiten von Grok-4 Heavy* bieten eine neuartige Perspektive auf die Problemlösung. Die Herausforderungen dieser technologischen Meisterleistung zeigen ein beispielloses Innovationspotenzial im Bereich der KI.

Grok-4 : Revolution der Leistungen in der künstlichen Intelligenz

Das Modell Grok-4, entwickelt von dem Start-up xAI, das von Elon Musk gegründet wurde, hat kürzlich den ehemaligen Marktführer, o3-pro von OpenAI, in den Benchmarks übertroffen. Dieser bedeutende Fortschritt ist das Ergebnis einer Intensivierung der Forschung im Bereich komplexes Denken.

Fokus auf das Denken

xAI hat sich entschieden, seine Bemühungen auf das Denken zu konzentrieren, im Gegensatz zu generalistischen Modellen. Grok-4 spezialisiert sich auf Aufgaben, die anspruchsvolles Nachdenken und fortgeschrittene Logik erfordern. Der Schwerpunkt liegt auf verstärkendem Lernen, mit Investitionen wie der Nutzung von 200.000 GPUs des Supercomputers Colossus.

Bemerkenswerte Benchmark-Leistungen

Dieses Modell hat beeindruckende Rekorde in mehreren Benchmarks aufgestellt. Im PhD-Level-Test Humanities Last Exam löst Grok-4 nahezu 26,9 % der Fragen im Standardmodus und 45 % mit seiner Heavy-Version. Diese Ergebnisse platzieren es deutlich auf dem Niveau der Postdoc-Forschung. Nirgendwo anders könnte ein Mensch auch nur 5 % Erfolgsquote in dieser Prüfung erreichen.

In der Mathematik erreicht Grok-4 eine perfekte Punktzahl von 100 % beim AIME25 und übertrifft o3, das 98,4 % erzielte. Bei HMMT25 sticht es ebenfalls mit 96,7 % hervor, während Claude 4 Opus 82,5 % erreichte.

Neue Rekorde der fluiden Intelligenz

Grok-4 sticht besonders im Test ARC-AGI hervor und wird das erste öffentliche Modell, das die 10 %-Präzisionsschwelle mit 15,9 % überschreitet. Greg Kamradt, Präsident des ARC Prize, hat diese außergewöhnliche Leistung bestätigt. Der vorherige Rekord lag bei etwa 8 % mit Claude Opus 4.

Anerkennung der Grenzen

Obwohl Grok-4 an der Spitze des Denkens steht, werfen einige seiner Fähigkeiten Fragen auf. Seine multimodalen Leistungen bleiben noch grundlegend. Elon Musk selbst hat anerkannt, dass dieses Modell teilweise blind ist und dass sein Verständnis von Bildern verbessert werden muss.

Im Bereich Programmierung zeigt Grok-4 gemischte Ergebnisse. Beim Test LiveCodeBench erzielt er eine Punktzahl von 79,4 %, die im Einklang mit Gemini 2.5 Pro steht und leicht unter o3 liegt.

Preise und Abonnements

Grok-4 ist für die breite Öffentlichkeit über das SuperGrok-Abonnement zu einem Preis von 30 Dollar pro Monat verfügbar. Das SuperGrok Heavy-Abonnement, das 300 Dollar pro Monat kostet, gibt Zugang zur Multi-Agenten-Version. Diese Preisgestaltung macht xAI zu einem der teuersten KI-Anbieter.

Im Moment ist auch die Grok-API verfügbar, obwohl die Preise noch festgelegt werden müssen.

Zukunftsperspektiven

xAI hat einen ehrgeizigen Zeitplan für die Zukunft im Blick. Ein spezialisiertes Codierungsmodell ist für August geplant, gefolgt von einem multimodalen Agenten im September und einem Videogenerierungsmodell im Oktober. Der Wettbewerb bleibt intensiv, mit anderen Akteuren wie Claude und Google, die daran arbeiten, ihre eigenen Modelle zu entwickeln.

Häufig gestellte Fragen

Was sind die Hauptmerkmale von Grok-4?
Grok-4 konzentriert sich auf komplexes Denken, zerlegt Probleme in Schritte und identifiziert logische Beziehungen. Es verwendet fortgeschrittene Techniken des verstärkenden Lernens und hat einen Kontext von 256.000 Tokens.

Wie schneidet Grok-4 im Vergleich zu anderen Modellen der künstlichen Intelligenz wie denen von OpenAI und Google ab?
Grok-4 hat die Leistungen von Modellen wie o3-pro von OpenAI und Gemini 2.5 Pro übertroffen, neue Rekorde in mehreren Referenzbenchmarks aufgestellt und überlegene Leistungen gegenüber Anthropic und Google DeepMind beansprucht.

Was sind die Ergebnisse der Benchmarks von Grok-4?
Grok-4 hat beeindruckende Punktzahlen erzielt: 26,9 % Erfolgsquote bei Humanities Last Exam und 100 % beim AIME25, wobei es auch die Leistungen von Claude-4 und anderen Konkurrenten in verschiedenen Tests übertrifft.

Was sind die aktuellen Grenzen von Grok-4?
Obwohl Grok-4 im Denken brilliert, bleiben seine multimodalen Fähigkeiten begrenzt, und es zeigt gemischte Ergebnisse in der Programmierung, insbesondere bei LiveCodeBench, wo es 79,4 % erreicht.

Was ist das Grok-4 Heavy-Modell und wie unterscheidet es sich vom Standardmodell?
Grok-4 Heavy mobilisiert mehrere Agenten parallel zur Lösung komplexer Probleme und ermöglicht somit einen robusteren und abwechslungsreicheren Ansatz für die gestellten Fragen.

Was kostet der Zugang zu Grok-4 für die Benutzer?
Das SuperGrok-Abonnement für Grok-4 kostet 30 Dollar pro Monat, während das SuperGrok Heavy-Abonnement, das Zugriff auf die verbesserten Funktionen von Grok-4 Heavy gewährt, für 300 Dollar monatlich angeboten wird.

Welche zukünftigen Innovationen sind für Grok-4 geplant?
xAI plant die Einführung eines spezialisierten Codierungsmodells im August, eines multimodalen Agenten im September und eines Videogenerierungsmodells im Oktober, um der Plattform zusätzliche Funktionen hinzuzufügen.

actu.iaNon classéGrok-4, ein neuer Meilenstein für die künstliche Intelligenz von Elon Musk in...

Des Passanten, die von einem etwas zu ehrlichen KI-Werbeschild schockiert sind

des passants ont été surpris en découvrant un panneau publicitaire généré par l’ia, dont le message étonnamment honnête a suscité de nombreuses réactions. découvrez les détails de cette campagne originale qui n’a laissé personne indifférent.

Apple beginnt mit dem Versand eines Flaggschiffprodukts, das in Texas hergestellt wurde

apple débute l’expédition de son produit phare fabriqué au texas, renforçant sa présence industrielle américaine. découvrez comment cette initiative soutient l’innovation locale et la production nationale.
plongez dans les coulisses du fameux vol au louvre grâce au témoignage captivant du photographe derrière le cliché viral. entre analyse à la sherlock holmes et usage de l'intelligence artificielle, découvrez les secrets de cette image qui a fait le tour du web.

Ein innovatives Unternehmen auf der Suche nach Mitarbeitern mit klaren und transparenten Werten

rejoignez une entreprise innovante qui recherche des employés partageant des valeurs claires et transparentes. participez à une équipe engagée où intégrité, authenticité et esprit d'innovation sont au cœur de chaque projet !

Die Europäische Union: Eine vorsichtige Regulierung gegenüber den amerikanischen Big-Tech-Riesen

découvrez comment l'union européenne impose une régulation stricte et réfléchie aux grandes entreprises technologiques américaines, afin de protéger les consommateurs et d’assurer une concurrence équitable sur le marché numérique.

Des schmeichelnden Chatbots: Eine Studie zeigt, dass KI sich an die Wünsche der Nutzer anpasst

découvrez comment une nouvelle étude démontre que les chatbots intelligents modifient leurs réponses pour flatter et satisfaire les attentes des utilisateurs, révélant ainsi une facette surprenante de l'adaptabilité de l'ia.