Grok-4 redefine el paisaje de la inteligencia artificial, emergiendo como un pilar de rendimiento sin igual. Esta innovación de xAI, fundada por Elon Musk, trasciende las normas establecidas por los benchmarks tradicionales. *Resultados superiores a los modelos de OpenAI*, de Anthropic y de Google DeepMind dan cuenta de un avance significativo.
El énfasis en el razonamiento otorga a Grok-4 una superioridad en tareas complejas. *Las capacidades orquestadas en paralelo de Grok-4 Heavy* ofrecen una perspectiva inédita sobre la resolución de problemas. Las implicaciones de este logro tecnológico revelan un potencial de innovación sin precedentes en el campo de la IA.
Grok-4: Revolución en el rendimiento de la inteligencia artificial
El modelo Grok-4, desarrollado por la start-up xAI fundada por Elon Musk, ha superado recientemente al antiguo líder, o3-pro de OpenAI, en los benchmarks. Este avance importante es resultado de una intensificación de la investigación en razonamiento complejo.
Concentración en el razonamiento
xAI ha optado por concentrar sus esfuerzos en el razonamiento, en contraste con los modelos generalistas. Grok-4 se especializa en tareas que requieren una reflexión sofisticada y una lógica avanzada. Se ha puesto énfasis en el aprendizaje por refuerzo, con inversiones como el uso de 200,000 GPU del superordenador Colossus.
Rendimientos notables en los benchmarks
Este modelo ha establecido récords impresionantes en varios benchmarks. En la prueba de nivel de doctorado, Humanities Last Exam, Grok-4 resuelve cerca del 26.9 % de las preguntas en modo estándar y 45 % con su versión Heavy. Estos resultados lo sitúan claramente al nivel de la investigación post-doctoral. En ningún otro lugar, un humano podría esperar alcanzar siquiera el 5 % de éxito en este examen.
En matemáticas, el puntaje perfecto de Grok-4 alcanza el 100 % en el AIME25, superando al o3 que obtenía el 98.4 %. En HMMT25, también se distingue con un 96.7 % frente al 82.5 % de Claude 4 Opus.
Nuevos récords de inteligencia fluida
Grok-4 se destaca particularmente en la prueba ARC-AGI, convirtiéndose en el primer modelo público en superar el umbral del 10 % de precisión con un 15.9 %. Greg Kamradt, presidente del ARC Prize, ha confirmado este desempeño excepcional. El puntaje anterior era de aproximadamente el 8 % con Claude Opus 4.
Reconocimiento de las limitaciones
Aunque Grok-4 está a la vanguardia del razonamiento, algunas de sus capacidades generan interrogantes. Su rendimiento multimodal sigue siendo básico. Elon Musk ha reconocido que este modelo es parcialmente ciego y que su comprensión de las imágenes necesita mejorar.
En cuanto a la programación, Grok-4 presenta resultados contrastantes. Durante la prueba LiveCodeBench, registra un puntaje de 79.4 %, alineándose con Gemini 2.5 Pro y ligeramente por debajo de o3.
Tarificación y suscripciones
Grok-4 está disponible para el gran público a través de la suscripción SuperGrok a 30 dólares al mes. La suscripción SuperGrok Heavy, a 300 dólares mensuales, da acceso a la versión multi-agentes. Este posicionamiento tarifario hace de xAI uno de los proveedores de IA más costosos.
Por ahora, la API de Grok también está disponible, aunque las tarifas siguen por determinar.
Perspectivas futuras
xAI tiene un calendario ambicioso para el futuro. Se prevé un modelo de codificación especializado para agosto, seguido de un agente multimodal para septiembre y un modelo de generación de video en octubre. La competencia sigue siendo intensa, con otros actores como Claude y Google trabajando para desarrollar sus propios modelos.
Preguntas frecuentes
¿Cuáles son las principales características de Grok-4?
Grok-4 se centra en el razonamiento complejo, descomponiendo problemas en pasos y identificando relaciones lógicas. Utiliza técnicas avanzadas de aprendizaje por refuerzo y tiene un contexto de 256,000 tokens.
¿Cómo se compara Grok-4 con otros modelos de inteligencia artificial, como los de OpenAI y Google?
Grok-4 ha superado el rendimiento de modelos como o3-pro de OpenAI y Gemini 2.5 Pro, estableciendo nuevos récords en varios benchmarks de referencia y reclamando rendimientos superiores a los de Anthropic y Google DeepMind.
¿Cuáles son los resultados de los benchmarks de Grok-4?
Grok-4 ha obtenido puntajes impresionantes: 26.9 % de éxito en Humanities Last Exam y 100 % en AIME25, superando además las performances de Claude-4 y otros competidores en diversas pruebas.
¿Cuáles son las limitaciones actuales de Grok-4?
Aunque Grok-4 sobresale en razonamiento, sus capacidades multimodales siguen siendo limitadas y presenta rendimientos variados en programación, especialmente en LiveCodeBench, donde alcanza el 79.4 %.
¿Cuál es el modelo Grok-4 Heavy y cómo se diferencia del modelo estándar?
Grok-4 Heavy moviliza varios agentes en paralelo para resolver problemas complejos, permitiendo así un enfoque más robusto y variado a las cuestiones planteadas.
¿Cuál es el costo de acceso a Grok-4 para los usuarios?
La suscripción SuperGrok a Grok-4 cuesta 30 dólares al mes, mientras que la suscripción SuperGrok Heavy, que da acceso a las capacidades mejoradas de Grok-4 Heavy, se ofrece a 300 dólares mensuales.
¿Qué innovaciones futuras están previstas para Grok-4?
xAI planea el despliegue de un modelo de codificación especializado en agosto, un agente multimodal en septiembre y un modelo de generación de vídeo en octubre, añadiendo así funcionalidades adicionales a la plataforma.





