DeepSeek lance Janus-Pro, un concurrent direct de DALL-E 3 d’OpenAI

Publié le 29 janvier 2025 à 08h07
modifié le 29 janvier 2025 à 08h07
Hugo Mollet
Hugo Mollet
Rédacteur en chef pour la rédaction média d'idax, 36 ans et dans l'édition web depuis plus de 18 ans. Passionné par l'IA depuis de nombreuses années.

DeepSeek fait sensation avec le lancement de Janus-Pro, un modèle révolutionnaire en IA générative. En ciblant directement un titan tel que DALL-E 3, cette innovation se révèle comme une avancée déterminante dans le domaine de la génération multimodale. Son approche optimisée et son architecture avancée promettent de redéfinir les standards de la compréhension d’images à partir de textes. Janus-Pro dépasse les performances précédentes des modèles concurrents. Grâce à son réseau de paramètres élargi, ce modèle démontre une capacité sans précédent à interpréter des instructions complexes. Les enjeux écologiques de cette technologie ne peuvent être ignorés. L’émergence de ce challenger marque un tournant décisif dans l’écosystème de l’IA, où l’innovation se doit d’être synonyme d’accessibilité et de puissance. Les entreprises doivent désormais se préparer à naviguer dans un paysage où la concurrence s’intensifie.

DeepSeek dévoile Janus-Pro

La start-up DeepSeek a récemment lancé son nouveau modèle d’IA, Janus-Pro, destiné à la génération d’images. Ce modèle, qui succède à DeepSeek-R1, ambitionne de se hisser au niveau des meilleures solutions du marché, telles que DALL-E 3 d’OpenAI. Primordial dans l’écosystème des IA génératives, Janus-Pro se positionne en concurrent direct face à ces géants.

Technologie sous-jacente de Janus-Pro

Le modèle Janus-Pro est le fruit d’une avancée significative dans le domaine de l’IA multimodale. À la fin de l’année 2024, DeepSeek avait déjà présenté JanusFlow, un cadre permettant d’intégrer des modèles de langage autoregressifs à une technique innovante de modélisation générative nommée rectified flow. Le récent modèle sera capable de générer des images en interprétant des instructions textuelles.

Performances et évaluation

Les chercheurs de DeepSeek ont soumis Janus-Pro à des tests rigoureux sur plusieurs benchmarks. Les résultats se sont révélés probants. Le modèle, en particulier la version avec 7 milliards de paramètres, a atteint un score de 79,2 sur le benchmark de compréhension multimodale MMBench, surpassant ainsi des concurrents tels que Janus et TokenFlow.

Capacités comparatives avec DALL-E 3

Les performances de Janus-Pro en matière de suivi des instructions s’inscrivent également comme un atout majeur. Le modèle Janus-Pro-7B, par exemple, a obtenu un score de 0,80 sur le benchmark GenEval, surpassant DALL-E 3 (0,67). Ceci démontre une avancée significative, renforçant la position de DeepSeek sur le marché de l’IA générative.

Élargissement de l’éventail de modèles

Janus-Pro est proposé en deux tailles de modèles, respectivement de 1 milliard et 7 milliards de paramètres. Cette flexibilité témoigne de la scalabilité de la méthode d’encodage et de décodage visuel adoptée par DeepSeek. L’entreprise a décidé de rendre son code et ses modèles accessibles en open source, favorisant ainsi l’adoption et la contribution de la communauté.

Limitations et perspectives d’évolution

Bien que Janus-Pro obtienne des résultats remarquables, certaines limitations subsistent. La résolution d’entrée est limitée à 384×384 pixels, pouvant impacter la qualité des images générées. Des pertes de reconstruction causées par le tokenizer visuel sont identifiées, entraînant une production d’images avec un contenu sémantique riche, mais manquant de détails.

Les chercheurs estiment qu’augmenter la résolution des images pourrait apporter des améliorations notables dans les performances de Janus-Pro. En identifiant ces limitations, DeepSeek s’engage à continuellement améliorer ses modèles pour garantir une offre compétitive.

Foire aux questions courantes sur Janus-Pro de DeepSeek

Quelles sont les principales caractéristiques de Janus-Pro ?
Janus-Pro se distingue par son intégration d’une stratégie d’entraînement optimisée, de données d’entraînement étendues et par sa capacité à interpréter et générer des images à partir de commandes textuelles grâce à une modélisation multimodale avancée.
Comment Janus-Pro se compare-t-il à DALL-E 3 ?
Janus-Pro, avec ses modèles de 1 milliard et 7 milliards de paramètres, montre des performances supérieures dans des benchmarks de compréhension multimodale, surpassant DALL-E 3 sur plusieurs tests de suivi des instructions.
Janus-Pro est-il un modèle open source ?
Oui, DeepSeek propose Janus-Pro en tant que modèle open source, permettant à la communauté d’accéder au code et aux modèles pour une utilisation et une amélioration continues.
Quelles sont les limitations de Janus-Pro ?
Une des principales limitations de Janus-Pro est la résolution d’entrée qui est limitée à 384×384 pixels, ce qui peut affecter sa performance dans des tâches nécessitant une haute précision, comme la reconnaissance optique de caractères.
Comment puis-je accéder à Janus-Pro ?
Janus-Pro est disponible publiquement sur les plateformes dédiées au partage de modèles d’intelligence artificielle, où les utilisateurs peuvent le télécharger et l’explorer.
Quelles améliorations Janus-Pro apporte-t-il par rapport à Janus ?
Janus-Pro améliore la compréhension multimodale et la génération visuelle par une meilleure interprétation des instructions textuelles grâce à une architecture de modèle avancée.
Janus-Pro est-il destiné à des utilisateurs professionnels ou grand public ?
Janus-Pro est conçu pour être utilisé par une variété d’utilisateurs, allant des chercheurs et développeurs aux artistes et designers, grâce à son approche open source et ses performances élevées en génération d’images.
Quels sont les avantages d’utiliser un modèle multimodal comme Janus-Pro ?
Les modèles multimodaux, tels que Janus-Pro, offrent un meilleur niveau de compréhension des relations entre le texte et les images, permettant ainsi une génération d’images plus précise et contextuellement appropriée.

Hugo Mollet
Hugo Mollet
Rédacteur en chef pour la rédaction média d'idax, 36 ans et dans l'édition web depuis plus de 18 ans. Passionné par l'IA depuis de nombreuses années.
actu.iaNewsDeepSeek lance Janus-Pro, un concurrent direct de DALL-E 3 d'OpenAI

la théorie sur le dispositif matériel d’IA de Jony Ive devient de plus en plus crédible

explorez la théorie captivante sur le dispositif matériel d'intelligence artificielle imaginé par jony ive, qui gagne en crédibilité. découvrez comment ses concepts innovants pourraient révolutionner notre interaction avec la technologie et redéfinir l'avenir des objets connectés.

comment l’intelligence artificielle a investi le monde de la parfumerie

découvrez comment l'intelligence artificielle transforme l'industrie de la parfumerie, de la création de nouvelles fragrances à l'optimisation des procédés, en alliant innovation technologique et art de la senteur.

L’influence de l’IA sur notre langage : une étude révèle que l’humain s’exprime comme ChatGPT

découvrez comment l'intelligence artificielle, à travers des outils comme chatgpt, façonne notre manière de communiquer. cette étude approfondie révèle des tendances fascinantes sur l'évolution de notre langage et les similitudes croissantes entre les expressions humaines et celles générées par l'ia.

Thomas Wolf de Hugging Face : l’ambition de démocratiser la robotique à travers l’open source

découvrez comment thomas wolf, co-fondateur de hugging face, vise à démocratiser la robotique grâce à l'open source. explorez ses idées innovantes et son engagement pour rendre la technologie accessible à tous.

les 20 modèles d’ia les plus performants de juin 2025 : découvrez le classement détaillé

découvrez notre classement détaillé des 20 modèles d'intelligence artificielle les plus performants de juin 2025. explorez les innovations et les avancées qui façonnent l'avenir de la technologie.

Cédric O face à des accusations de conflit d’intérêts, mais bénéficie du soutien de la HATVP

découvrez comment cédric o se retrouve au cœur de controverses concernant des accusations de conflit d'intérêts, tout en recevant le soutien inattendu de la haute autorité pour la transparence de la vie publique (hatvp).