DeepSeek lance Janus-Pro, un concurrent direct de DALL-E 3 d’OpenAI

Publié le 29 janvier 2025 à 08h07
modifié le 29 janvier 2025 à 08h07
Hugo Mollet
Hugo Mollet
Rédacteur en chef pour la rédaction média d'idax, 36 ans et dans l'édition web depuis plus de 18 ans. Passionné par l'IA depuis de nombreuses années.

DeepSeek fait sensation avec le lancement de Janus-Pro, un modèle révolutionnaire en IA générative. En ciblant directement un titan tel que DALL-E 3, cette innovation se révèle comme une avancée déterminante dans le domaine de la génération multimodale. Son approche optimisée et son architecture avancée promettent de redéfinir les standards de la compréhension d’images à partir de textes. Janus-Pro dépasse les performances précédentes des modèles concurrents. Grâce à son réseau de paramètres élargi, ce modèle démontre une capacité sans précédent à interpréter des instructions complexes. Les enjeux écologiques de cette technologie ne peuvent être ignorés. L’émergence de ce challenger marque un tournant décisif dans l’écosystème de l’IA, où l’innovation se doit d’être synonyme d’accessibilité et de puissance. Les entreprises doivent désormais se préparer à naviguer dans un paysage où la concurrence s’intensifie.

DeepSeek dévoile Janus-Pro

La start-up DeepSeek a récemment lancé son nouveau modèle d’IA, Janus-Pro, destiné à la génération d’images. Ce modèle, qui succède à DeepSeek-R1, ambitionne de se hisser au niveau des meilleures solutions du marché, telles que DALL-E 3 d’OpenAI. Primordial dans l’écosystème des IA génératives, Janus-Pro se positionne en concurrent direct face à ces géants.

Technologie sous-jacente de Janus-Pro

Le modèle Janus-Pro est le fruit d’une avancée significative dans le domaine de l’IA multimodale. À la fin de l’année 2024, DeepSeek avait déjà présenté JanusFlow, un cadre permettant d’intégrer des modèles de langage autoregressifs à une technique innovante de modélisation générative nommée rectified flow. Le récent modèle sera capable de générer des images en interprétant des instructions textuelles.

Performances et évaluation

Les chercheurs de DeepSeek ont soumis Janus-Pro à des tests rigoureux sur plusieurs benchmarks. Les résultats se sont révélés probants. Le modèle, en particulier la version avec 7 milliards de paramètres, a atteint un score de 79,2 sur le benchmark de compréhension multimodale MMBench, surpassant ainsi des concurrents tels que Janus et TokenFlow.

Capacités comparatives avec DALL-E 3

Les performances de Janus-Pro en matière de suivi des instructions s’inscrivent également comme un atout majeur. Le modèle Janus-Pro-7B, par exemple, a obtenu un score de 0,80 sur le benchmark GenEval, surpassant DALL-E 3 (0,67). Ceci démontre une avancée significative, renforçant la position de DeepSeek sur le marché de l’IA générative.

Élargissement de l’éventail de modèles

Janus-Pro est proposé en deux tailles de modèles, respectivement de 1 milliard et 7 milliards de paramètres. Cette flexibilité témoigne de la scalabilité de la méthode d’encodage et de décodage visuel adoptée par DeepSeek. L’entreprise a décidé de rendre son code et ses modèles accessibles en open source, favorisant ainsi l’adoption et la contribution de la communauté.

Limitations et perspectives d’évolution

Bien que Janus-Pro obtienne des résultats remarquables, certaines limitations subsistent. La résolution d’entrée est limitée à 384×384 pixels, pouvant impacter la qualité des images générées. Des pertes de reconstruction causées par le tokenizer visuel sont identifiées, entraînant une production d’images avec un contenu sémantique riche, mais manquant de détails.

Les chercheurs estiment qu’augmenter la résolution des images pourrait apporter des améliorations notables dans les performances de Janus-Pro. En identifiant ces limitations, DeepSeek s’engage à continuellement améliorer ses modèles pour garantir une offre compétitive.

Foire aux questions courantes sur Janus-Pro de DeepSeek

Quelles sont les principales caractéristiques de Janus-Pro ?
Janus-Pro se distingue par son intégration d’une stratégie d’entraînement optimisée, de données d’entraînement étendues et par sa capacité à interpréter et générer des images à partir de commandes textuelles grâce à une modélisation multimodale avancée.
Comment Janus-Pro se compare-t-il à DALL-E 3 ?
Janus-Pro, avec ses modèles de 1 milliard et 7 milliards de paramètres, montre des performances supérieures dans des benchmarks de compréhension multimodale, surpassant DALL-E 3 sur plusieurs tests de suivi des instructions.
Janus-Pro est-il un modèle open source ?
Oui, DeepSeek propose Janus-Pro en tant que modèle open source, permettant à la communauté d’accéder au code et aux modèles pour une utilisation et une amélioration continues.
Quelles sont les limitations de Janus-Pro ?
Une des principales limitations de Janus-Pro est la résolution d’entrée qui est limitée à 384×384 pixels, ce qui peut affecter sa performance dans des tâches nécessitant une haute précision, comme la reconnaissance optique de caractères.
Comment puis-je accéder à Janus-Pro ?
Janus-Pro est disponible publiquement sur les plateformes dédiées au partage de modèles d’intelligence artificielle, où les utilisateurs peuvent le télécharger et l’explorer.
Quelles améliorations Janus-Pro apporte-t-il par rapport à Janus ?
Janus-Pro améliore la compréhension multimodale et la génération visuelle par une meilleure interprétation des instructions textuelles grâce à une architecture de modèle avancée.
Janus-Pro est-il destiné à des utilisateurs professionnels ou grand public ?
Janus-Pro est conçu pour être utilisé par une variété d’utilisateurs, allant des chercheurs et développeurs aux artistes et designers, grâce à son approche open source et ses performances élevées en génération d’images.
Quels sont les avantages d’utiliser un modèle multimodal comme Janus-Pro ?
Les modèles multimodaux, tels que Janus-Pro, offrent un meilleur niveau de compréhension des relations entre le texte et les images, permettant ainsi une génération d’images plus précise et contextuellement appropriée.

Hugo Mollet
Hugo Mollet
Rédacteur en chef pour la rédaction média d'idax, 36 ans et dans l'édition web depuis plus de 18 ans. Passionné par l'IA depuis de nombreuses années.
actu.iaNewsDeepSeek lance Janus-Pro, un concurrent direct de DALL-E 3 d'OpenAI

Des passants choqués par un panneau publicitaire d’IA un brin trop sincère

des passants ont été surpris en découvrant un panneau publicitaire généré par l’ia, dont le message étonnamment honnête a suscité de nombreuses réactions. découvrez les détails de cette campagne originale qui n’a laissé personne indifférent.

Apple commence l’expédition d’un produit phare fabriqué au Texas

apple débute l’expédition de son produit phare fabriqué au texas, renforçant sa présence industrielle américaine. découvrez comment cette initiative soutient l’innovation locale et la production nationale.
plongez dans les coulisses du fameux vol au louvre grâce au témoignage captivant du photographe derrière le cliché viral. entre analyse à la sherlock holmes et usage de l'intelligence artificielle, découvrez les secrets de cette image qui a fait le tour du web.

Une entreprise innovante en quête d’employés aux valeurs claires et transparentes

rejoignez une entreprise innovante qui recherche des employés partageant des valeurs claires et transparentes. participez à une équipe engagée où intégrité, authenticité et esprit d'innovation sont au cœur de chaque projet !

Microsoft Edge : le navigateur transformé par le Mode Copilot, une IA au service de votre navigation !

découvrez comment le mode copilot de microsoft edge révolutionne votre expérience de navigation grâce à l’intelligence artificielle : conseils personnalisés, assistance instantanée et navigation optimisée au quotidien !

L’Union Européenne : Une régulation prudente face aux géants de la Big Tech américaine

découvrez comment l'union européenne impose une régulation stricte et réfléchie aux grandes entreprises technologiques américaines, afin de protéger les consommateurs et d’assurer une concurrence équitable sur le marché numérique.