Grok-4, un nuevo logro para la inteligencia artificial de Elon Musk en los benchmarks

Publié le 11 julio 2025 à 10h00
modifié le 11 julio 2025 à 10h00

Grok-4 redefine el paisaje de la inteligencia artificial, emergiendo como un pilar de rendimiento sin igual. Esta innovación de xAI, fundada por Elon Musk, trasciende las normas establecidas por los benchmarks tradicionales. *Resultados superiores a los modelos de OpenAI*, de Anthropic y de Google DeepMind dan cuenta de un avance significativo.

El énfasis en el razonamiento otorga a Grok-4 una superioridad en tareas complejas. *Las capacidades orquestadas en paralelo de Grok-4 Heavy* ofrecen una perspectiva inédita sobre la resolución de problemas. Las implicaciones de este logro tecnológico revelan un potencial de innovación sin precedentes en el campo de la IA.

Grok-4: Revolución en el rendimiento de la inteligencia artificial

El modelo Grok-4, desarrollado por la start-up xAI fundada por Elon Musk, ha superado recientemente al antiguo líder, o3-pro de OpenAI, en los benchmarks. Este avance importante es resultado de una intensificación de la investigación en razonamiento complejo.

Concentración en el razonamiento

xAI ha optado por concentrar sus esfuerzos en el razonamiento, en contraste con los modelos generalistas. Grok-4 se especializa en tareas que requieren una reflexión sofisticada y una lógica avanzada. Se ha puesto énfasis en el aprendizaje por refuerzo, con inversiones como el uso de 200,000 GPU del superordenador Colossus.

Rendimientos notables en los benchmarks

Este modelo ha establecido récords impresionantes en varios benchmarks. En la prueba de nivel de doctorado, Humanities Last Exam, Grok-4 resuelve cerca del 26.9 % de las preguntas en modo estándar y 45 % con su versión Heavy. Estos resultados lo sitúan claramente al nivel de la investigación post-doctoral. En ningún otro lugar, un humano podría esperar alcanzar siquiera el 5 % de éxito en este examen.

En matemáticas, el puntaje perfecto de Grok-4 alcanza el 100 % en el AIME25, superando al o3 que obtenía el 98.4 %. En HMMT25, también se distingue con un 96.7 % frente al 82.5 % de Claude 4 Opus.

Nuevos récords de inteligencia fluida

Grok-4 se destaca particularmente en la prueba ARC-AGI, convirtiéndose en el primer modelo público en superar el umbral del 10 % de precisión con un 15.9 %. Greg Kamradt, presidente del ARC Prize, ha confirmado este desempeño excepcional. El puntaje anterior era de aproximadamente el 8 % con Claude Opus 4.

Reconocimiento de las limitaciones

Aunque Grok-4 está a la vanguardia del razonamiento, algunas de sus capacidades generan interrogantes. Su rendimiento multimodal sigue siendo básico. Elon Musk ha reconocido que este modelo es parcialmente ciego y que su comprensión de las imágenes necesita mejorar.

En cuanto a la programación, Grok-4 presenta resultados contrastantes. Durante la prueba LiveCodeBench, registra un puntaje de 79.4 %, alineándose con Gemini 2.5 Pro y ligeramente por debajo de o3.

Tarificación y suscripciones

Grok-4 está disponible para el gran público a través de la suscripción SuperGrok a 30 dólares al mes. La suscripción SuperGrok Heavy, a 300 dólares mensuales, da acceso a la versión multi-agentes. Este posicionamiento tarifario hace de xAI uno de los proveedores de IA más costosos.

Por ahora, la API de Grok también está disponible, aunque las tarifas siguen por determinar.

Perspectivas futuras

xAI tiene un calendario ambicioso para el futuro. Se prevé un modelo de codificación especializado para agosto, seguido de un agente multimodal para septiembre y un modelo de generación de video en octubre. La competencia sigue siendo intensa, con otros actores como Claude y Google trabajando para desarrollar sus propios modelos.

Preguntas frecuentes

¿Cuáles son las principales características de Grok-4?
Grok-4 se centra en el razonamiento complejo, descomponiendo problemas en pasos y identificando relaciones lógicas. Utiliza técnicas avanzadas de aprendizaje por refuerzo y tiene un contexto de 256,000 tokens.

¿Cómo se compara Grok-4 con otros modelos de inteligencia artificial, como los de OpenAI y Google?
Grok-4 ha superado el rendimiento de modelos como o3-pro de OpenAI y Gemini 2.5 Pro, estableciendo nuevos récords en varios benchmarks de referencia y reclamando rendimientos superiores a los de Anthropic y Google DeepMind.

¿Cuáles son los resultados de los benchmarks de Grok-4?
Grok-4 ha obtenido puntajes impresionantes: 26.9 % de éxito en Humanities Last Exam y 100 % en AIME25, superando además las performances de Claude-4 y otros competidores en diversas pruebas.

¿Cuáles son las limitaciones actuales de Grok-4?
Aunque Grok-4 sobresale en razonamiento, sus capacidades multimodales siguen siendo limitadas y presenta rendimientos variados en programación, especialmente en LiveCodeBench, donde alcanza el 79.4 %.

¿Cuál es el modelo Grok-4 Heavy y cómo se diferencia del modelo estándar?
Grok-4 Heavy moviliza varios agentes en paralelo para resolver problemas complejos, permitiendo así un enfoque más robusto y variado a las cuestiones planteadas.

¿Cuál es el costo de acceso a Grok-4 para los usuarios?
La suscripción SuperGrok a Grok-4 cuesta 30 dólares al mes, mientras que la suscripción SuperGrok Heavy, que da acceso a las capacidades mejoradas de Grok-4 Heavy, se ofrece a 300 dólares mensuales.

¿Qué innovaciones futuras están previstas para Grok-4?
xAI planea el despliegue de un modelo de codificación especializado en agosto, un agente multimodal en septiembre y un modelo de generación de vídeo en octubre, añadiendo así funcionalidades adicionales a la plataforma.

actu.iaNon classéGrok-4, un nuevo logro para la inteligencia artificial de Elon Musk en...

Des transeúntes sorprendidos por un cartel publicitario de IA un poco demasiado sincero

des passants ont été surpris en découvrant un panneau publicitaire généré par l’ia, dont le message étonnamment honnête a suscité de nombreuses réactions. découvrez les détails de cette campagne originale qui n’a laissé personne indifférent.

Apple comienza el envío de un producto insignia fabricado en Texas

apple débute l’expédition de son produit phare fabriqué au texas, renforçant sa présence industrielle américaine. découvrez comment cette initiative soutient l’innovation locale et la production nationale.
plongez dans les coulisses du fameux vol au louvre grâce au témoignage captivant du photographe derrière le cliché viral. entre analyse à la sherlock holmes et usage de l'intelligence artificielle, découvrez les secrets de cette image qui a fait le tour du web.

Una empresa innovadora en busca de empleados con valores claros y transparentes

rejoignez une entreprise innovante qui recherche des employés partageant des valeurs claires et transparentes. participez à une équipe engagée où intégrité, authenticité et esprit d'innovation sont au cœur de chaque projet !

Microsoft Edge: el navegador transformado por el Modo Copilot, una IA al servicio de tu navegación.

découvrez comment le mode copilot de microsoft edge révolutionne votre expérience de navigation grâce à l’intelligence artificielle : conseils personnalisés, assistance instantanée et navigation optimisée au quotidien !

La Unión Europea: Una regulación prudente frente a los gigantes de la Big Tech estadounidense

découvrez comment l'union européenne impose une régulation stricte et réfléchie aux grandes entreprises technologiques américaines, afin de protéger les consommateurs et d’assurer une concurrence équitable sur le marché numérique.