DeepSeek lanza Janus-Pro, un competidor directo de DALL-E 3 de OpenAI

Publié le 29 enero 2025 à 08h19
modifié le 29 enero 2025 à 08h19

DeepSeek causa sensación con el lanzamiento de Janus-Pro, un modelo revolucionario en IA generativa. Al dirigirse directamente a un titán como DALL-E 3, esta innovación se revela como un avance determinante en el campo de la generación multimodal. Su enfoque optimizado y su arquitectura avanzada prometen redefinir los estándares de la comprensión de imágenes a partir de textos. Janus-Pro supera el rendimiento anterior de modelos competidores. Gracias a su red de parámetros ampliada, este modelo demuestra una capacidad sin precedentes para interpretar instrucciones complejas. Los desafíos ecológicos de esta tecnología no pueden ser ignorados. La aparición de este retador marca un giro decisivo en el ecosistema de la IA, donde la innovación debe ser sinónimo de accesibilidad y potencia. Las empresas deben ahora prepararse para navegar en un paisaje donde la competencia se intensifica.

DeepSeek presenta Janus-Pro

La start-up DeepSeek ha lanzado recientemente su nuevo modelo de IA, Janus-Pro, destinado a la generación de imágenes. Este modelo, que sucede a DeepSeek-R1, aspira a colocarse al nivel de las mejores soluciones del mercado, como DALL-E 3 de OpenAI. Fundamental en el ecosistema de las IA generativas, Janus-Pro se posiciona como un competidor directo frente a estos gigantes.

Tecnología subyacente de Janus-Pro

El modelo Janus-Pro es fruto de un avance significativo en el campo de la IA multimodal. A finales de 2024, DeepSeek ya había presentado JanusFlow, un marco que permite integrar modelos de lenguaje autoregresivos con una técnica innovadora de modelado generativo llamada rectified flow. El reciente modelo será capaz de generar imágenes interpretando instrucciones textuales.

Rendimiento y evaluación

Los investigadores de DeepSeek han sometido a Janus-Pro a pruebas rigurosas en varios benchmarks. Los resultados han sido contundentes. El modelo, en particular la versión con 7 mil millones de parámetros, alcanzó una puntuación de 79.2 en el benchmark de comprensión multimodal MMBench, superando a competidores como Janus y TokenFlow.

Capacidades comparativas con DALL-E 3

Las prestaciones de Janus-Pro en términos de seguimiento de instrucciones también se consideran una gran ventaja. El modelo Janus-Pro-7B, por ejemplo, obtuvo un puntaje de 0.80 en el benchmark GenEval, superando a DALL-E 3 (0.67). Esto demuestra un avance significativo, reforzando la posición de DeepSeek en el mercado de la IA generativa.

Ampliación de la gama de modelos

Janus-Pro se ofrece en dos tamaños de modelo, respectivamente de 1 mil millones y 7 mil millones de parámetros. Esta flexibilidad refleja la escalabilidad del método de codificación y decodificación visual adoptado por DeepSeek. La empresa ha decidido hacer su código y modelos accesibles como open source, favoreciendo así la adopción y contribución de la comunidad.

Limitaciones y perspectivas de evolución

Aunque Janus-Pro logra resultados notables, algunas limitaciones persisten. La resolución de entrada está limitada a 384×384 píxeles, lo que puede impactar la calidad de las imágenes generadas. Se han identificado pérdidas de reconstrucción causadas por el tokenizador visual, lo que conlleva a una producción de imágenes con un contenido semántico rico, pero careciendo de detalles.

Los investigadores estiman que aumentar la resolución de las imágenes podría aportar mejoras notables en el rendimiento de Janus-Pro. Al identificar estas limitaciones, DeepSeek se compromete a mejorar continuamente sus modelos para garantizar una oferta competitiva.

Preguntas frecuentes sobre Janus-Pro de DeepSeek

¿Cuáles son las principales características de Janus-Pro?
Janus-Pro se distingue por su integración de una estrategia de entrenamiento optimizada, de datos de entrenamiento extensos y por su capacidad para interpretar y generar imágenes a partir de comandos textuales gracias a una modelización multimodal avanzada.
¿Cómo se compara Janus-Pro con DALL-E 3?
Janus-Pro, con sus modelos de 1 mil millones y 7 mil millones de parámetros, muestra un rendimiento superior en benchmarks de comprensión multimodal, superando a DALL-E 3 en varias pruebas de seguimiento de instrucciones.
¿Es Janus-Pro un modelo open source?
Sí, DeepSeek presenta Janus-Pro como un modelo open source, permitiendo a la comunidad acceder al código y los modelos para un uso y mejora continuos.
¿Cuáles son las limitaciones de Janus-Pro?
Una de las principales limitaciones de Janus-Pro es la resolución de entrada, que está limitada a 384×384 píxeles, lo que puede afectar su rendimiento en tareas que requieren alta precisión, como el reconocimiento óptico de caracteres.
¿Cómo puedo acceder a Janus-Pro?
Janus-Pro está disponible públicamente en plataformas dedicadas al intercambio de modelos de inteligencia artificial, donde los usuarios pueden descargarlo y explorarlo.
¿Qué mejoras aporta Janus-Pro en comparación con Janus?
Janus-Pro mejora la comprensión multimodal y la generación visual a través de una mejor interpretación de las instrucciones textuales gracias a una arquitectura de modelo avanzada.
¿Janus-Pro está destinado a usuarios profesionales o al público en general?
Janus-Pro está diseñado para ser utilizado por una variedad de usuarios, desde investigadores y desarrolladores hasta artistas y diseñadores, gracias a su enfoque open source y sus altas prestaciones en generación de imágenes.
¿Cuáles son las ventajas de utilizar un modelo multimodal como Janus-Pro?
Los modelos multimodales, como Janus-Pro, ofrecen un mejor nivel de comprensión de las relaciones entre el texto y las imágenes, lo que permite una generación de imágenes más precisa y contextualmente apropiada.

actu.iaNon classéDeepSeek lanza Janus-Pro, un competidor directo de DALL-E 3 de OpenAI

Amazon invierte 20 mil millones de dólares en centros de datos en Pensilvania, incluyendo uno cerca de una planta...

découvrez comment amazon prévoit d'investir 20 milliards de dollars dans des centres de données en pennsylvanie, incluant l'un d'eux situé à proximité d'une centrale nucléaire. un projet ambitieux qui promet de transformer le paysage technologique et économique de la région.

ayudar a las máquinas a interpretar el contenido visual gracias a la IA

découvrez comment l'intelligence artificielle révolutionne l'interprétation du contenu visuel par les machines. apprenez les techniques innovantes qui permettent aux systèmes automatisés de comprendre et d'analyser les images, améliorant ainsi leur efficacité dans diverses applications.
découvrez comment tata, la jeune artiste propulsée par timbaland, attire l'attention et suscite des débats passionnés. plongez dans l'univers de cette talentueuse musicienne et les explications du célèbre producteur face aux controverses qui l'entourent.
découvrez comment apple se positionne en vue de son événement annuel en pleine turbulence technologique, entre défis liés à l'intelligence artificielle, bouleversements du marché et tensions commerciales sous l'ère trump.

Perplexity AI registró 708 millones de consultas durante el mes de mayo

découvrez comment perplexity ai a enregistré 708 millions de requêtes en mai, un chiffre impressionnant qui témoigne de l'engouement croissant pour l'intelligence artificielle et son utilisation par les utilisateurs. explorez les implications de cette tendance dans notre article.
découvrez les détails de l'acquisition par openai de la start-up fondée par jony ive, l'ancien designer emblématique d'apple, pour un montant impressionnant de 6,5 milliards de dollars. analyse des enjeux et des perspectives d'avenir.