Ant Group révolutionne le secteur de l’IA en intégrant des puces nationales dans son écosystème technologique. Cette stratégie vise à réduire les coûts de formation des modèles tout en atténuant la dépendance vis-à-vis de la technologie américaine restreinte. L’usage de méthodes innovantes comme le Mixture of Experts marque une avancée significative pour les entreprises chinoises. Ant Group aborde les défis de l’accessibilité aux ressources spécifiques, initiant ainsi une évolution majeure dans l’intelligence artificielle. Les résultats préliminaires laissent entrevoir un avenir où les entreprises chinoises peuvent rivaliser avec les pays aux technologies dominantes.
Utilisation de puces chinoises pour l’entraînement des modèles d’IA
Ant Group adopte une stratégie audacieuse en se tournant vers des puces nationales pour former ses modèles d’intelligence artificielle. Cette initiative répond au besoin de réduire les coûts et de diminuer la dépendance vis-à-vis des technologies américaines restreintes. Des sources terminées rapportent que la société a déjà intégré des puces de fournisseurs domestiques, notamment celles liées à Alibaba et Huawei Technologies, dans son processus d’entraînement des modèles.
Performance comparable à Nvidia
Les résultats des modèles d’Ant Group, issus de l’utilisation de la méthode Mixture of Experts (MoE), rivalisent déjà avec les performances des puces H800 de Nvidia. Bien que l’entreprise continue d’utiliser certaines puces Nvidia pour ses développements en IA, elle explore de plus en plus des alternatives offertes par AMD et des fabricants de puces chinois. Cette diversification souligne l’engagement d’Ant dans la compétition croissante entre les entreprises technologiques chinoises et américaines.
Avancées dans la réduction des coûts
Ant Group a publié un document de recherche détaillant que ses modèles surpassent parfois les créations de Meta, ce qui représente une avancée significative pour la société. Si les performances des modèles se confirment, Ant pourrait franchir une nouvelle étape dans la réduction des coûts liés à l’exécution des applications d’IA, tout en diminuant la dépendance à l’égard des matériels étrangers. Analystes et experts s’interrogent sur cette capacité à produire des résultats probants sans recourir à des GPU haut de gamme.
Le principe des modèles MoE
Les modèles MoE fragmentent les tâches en ensembles de données plus petites, gérées par différents composants. Cette approche a suscité un vif intérêt parmi les chercheurs en IA et les data scientists. Ant Group a clairement ciblé l’objectif de réduire les barrières de coûts associées à l’acquisition de GPU hautes performances. Le titre du document de recherche souligne : « Scaling Models without premium GPUs ».
Impact sur le secteur de l’IA
La direction prise par Ant Group contraste profondément avec celle de Nvidia, dont le PDG, Jensen Huang, met en avant la nécessité d’une hausse permanente de la puissance de calcul. Les entreprises, selon lui, privilégieront des puces plus puissantes, ce qui diverge de l’aspiration d’Ant à progresser sur le front de la réduction des coûts. Ainsi, les stratégies des deux géants technologiques s’avèrent diamétralement opposées.
Coût de l’entraînement des modèles
Selon les informations divulguées par Ant, former un trillion de tokens – unités de base utilisées par les modèles d’IA – coûtait environ 6.35 millions de yuans. Grâce à leur méthode optimisée, Ant a réussi à réduire cette dépense à environ 5.1 millions de yuans, en utilisant des puces de spécifications inférieures.
Applications industrielles des modèles IA
Ant envisage d’appliquer ses modèles, nommés Ling-Plus et Ling-Lite, à des cas d’utilisation industriels tels que la santé et la finance. La prise de contrôle de la plateforme médicale Haodf.com témoigne de l’ambition d’Ant à déployer des solutions basées sur l’IA dans le secteur de la santé. La société propose également divers services d’IA, incluant une application d’assistant virtuel et une plateforme de conseils financiers.
Modèles open source et chiffres clés
Ling-Lite possède 16.8 milliards de paramètres, tandis que Ling-Plus en compte 290 milliards. Pour comparaison, le modèle GPT-4.5, aujourd’hui fermé, disposerait d’environ 1.8 trillion de paramètres. Ant a décidé de rendre ses modèles open source, poussant ainsi l’innovation dans le domaine de l’IA.
Défis persistants dans l’entraînement des modèles
La recherche d’Ant souligne que, malgré les avancées réalisées, l’entraînement des modèles reste un défi technique. De légers ajustements apportés à l’architecture ou au matériel pendant l’entraînement des modèles peuvent provoquer des performances instables, engendrant des pics dans les taux d’erreur.
Pour ceux qui s’intéressent à l’évolution de l’IA et des données massives, l’événement AI & Big Data Expo à Amsterdam, en Californie et à Londres représente une opportunité intéressante pour interagir avec des leaders de l’industrie.
Foire aux questions courantes
Pourquoi Ant Group utilise-t-il des puces nationales pour ses modèles d’IA ?
Ant Group se tourne vers des puces nationales pour réduire ses coûts de formation d’IA et pour diminuer sa dépendance à l’égard de la technologie américaine restreinte, notamment en réponse aux restrictions sur l’exportation de certains composants électroniques.
Quels types de puces nationales Ant Group utilise-t-il pour l’entraînement de ses modèles ?
Ant Group utilise des puces de fournisseurs nationaux, y compris celles associées à Alibaba et Huawei, afin de former des modèles d’IA en utilisant des méthodes innovantes telles que le Mixture of Experts (MoE).
Ant Group a-t-il réussi à atteindre des performances comparables à celles des puces Nvidia avec des puces nationales ?
Oui, selon des sources, les résultats des modèles d’Ant Group formés sur des puces nationales seraient comparables à ceux développés avec les puces H800 de Nvidia.
Quels sont les avantages d’utiliser des puces nationales pour l’IA par rapport aux puces étrangères ?
Les avantages incluent une réduction significative des coûts de formation, une indépendance technologique accrue et le contournement des restrictions d’exportation qui limitent l’accès à des puces de haute performance.
Quel est l’objectif principal de la méthode Mixture of Experts (MoE) utilisée par Ant Group ?
MoE divise les tâches d’entraînement en ensembles de données plus petits gérés par des composants séparés, ce qui rend le processus de formation plus efficace et moins coûteux.
Ant Group envisage-t-il d’appliquer ses modèles d’IA à d’autres secteurs ?
Oui, Ant Group prévoit d’appliquer ses modèles, notamment Ling-Plus et Ling-Lite, à des cas d’utilisation industrielle, tels que la santé et la finance.
Quelles sont les implications de l’open source pour les modèles d’Ant Group ?
En rendant ses modèles open source, Ant Group permet à d’autres organisations d’utiliser et d’améliorer ses travaux, ce qui pourrait accélérer l’innovation dans le secteur de l’IA.
Quels défis Ant Group rencontre-t-il en entraînant ses modèles d’IA avec des puces nationales ?
Ant Group a signalé des défis liés à l’instabilité des performances lors de petits ajustements de matériel ou de structure des modèles, ce qui peut entraîner des pics dans les taux d’erreur.
Comment la stratégie d’Ant Group diffère-t-elle de celle de Nvidia en matière de formation d’IA ?
Alors que Nvidia se concentre sur le développement de GPU plus puissants avec plus de cœurs et de mémoire, Ant Group vise à réduire les coûts de formation en utilisant des puces de spécifications inférieures.
Quel est le coût de formation d’un trillion de tokens selon les recherches d’Ant Group ?
Le coût de formation d’un trillion de tokens est estimé à environ 5,1 millions de yuans grâce à l’utilisation de puces moins performantes, contre 6,35 millions de yuans avec du matériel conventionnel.