Ant Group se apoya en chips nacionales para formar sus modelos de IA y reducir sus costos

Publié le 4 abril 2025 à 09h10
modifié le 4 abril 2025 à 09h11

Ant Group revoluciona el sector de la IA al integrar chips nacionales en su ecosistema tecnológico. Esta estrategia busca reducir los costos de entrenamiento de los modelos al mismo tiempo que mitiga la dependencia de la tecnología estadounidense restringida. El uso de métodos innovadores como Mixture of Experts representa un avance significativo para las empresas chinas. Ant Group enfrenta los desafíos de accesibilidad a recursos específicos, iniciando así una evolución importante en la inteligencia artificial. Los resultados preliminares vislumbran un futuro donde las empresas chinas pueden competir con los países con tecnologías dominantes.

Uso de chips chinos para el entrenamiento de modelos de IA

Ant Group adopta una estrategia audaz al recurrir a chips nacionales para formar sus modelos de inteligencia artificial. Esta iniciativa responde a la necesidad de reducir costos y disminuir la dependencia de las tecnologías estadounidenses restringidas. Fuentes terminadas informan que la empresa ya ha integrado chips de proveedores nacionales, incluidas las relacionadas con Alibaba y Huawei Technologies, en su proceso de entrenamiento de modelos.

Rendimiento comparable al de Nvidia

Los resultados de los modelos de Ant Group, provenientes del uso del método Mixture of Experts (MoE), ya rivalizan con el rendimiento de los chips H800 de Nvidia. Aunque la empresa sigue utilizando algunos chips de Nvidia para sus desarrollos en IA, explora cada vez más alternativas ofrecidas por AMD y fabricantes de chips chinos. Esta diversificación subraya el compromiso de Ant en la creciente competencia entre las empresas tecnológicas chinas y estadounidenses.

Avances en la reducción de costos

Ant Group ha publicado un documento de investigación detallando que sus modelos a veces superan las creaciones de Meta, lo que representa un avance significativo para la compañía. Si las prestaciones de los modelos se confirman, Ant podría dar un nuevo paso en la reducción de costos asociados con la ejecución de aplicaciones de IA, al mismo tiempo que disminuye la dependencia de hardware extranjero. Analistas y expertos se preguntan sobre esta capacidad de producir resultados convincentes sin recurrir a GPU de alto rendimiento.

El principio de los modelos MoE

Los modelos MoE fragmentan las tareas en conjuntos de datos más pequeños, gestionados por diferentes componentes. Este enfoque ha suscitado un gran interés entre los investigadores de IA y los científicos de datos. Ant Group ha claramente fijado el objetivo de reducir las barreras de costos asociadas con la adquisición de GPUs de alto rendimiento. El título del documento de investigación resalta: «Scaling Models without premium GPUs».

Impacto en el sector de la IA

La dirección tomada por Ant Group contrasta profundamente con la de Nvidia, cuyo CEO, Jensen Huang, enfatiza la necesidad de un aumento constante en la potencia de cálculo. Las empresas, según él, privilegiarán chips más potentes, lo que diverge del objetivo de Ant de avanzar en el frente de la reducción de costos. Así, las estrategias de los dos gigantes tecnológicos resultan diametralmente opuestas.

Costo de entrenamiento de modelos

Según la información divulgada por Ant, entrenar un trillón de tokens – unidades básicas utilizadas por los modelos de IA – costaba aproximadamente 6.35 millones de yuanes. Gracias a su método optimizado, Ant ha logrado reducir este gasto a aproximadamente 5.1 millones de yuanes, utilizando chips de especificaciones inferiores.

Aplicaciones industriales de los modelos de IA

Ant planea aplicar sus modelos, llamados Ling-Plus y Ling-Lite, a casos de uso industriales como la salud y las finanzas. La adquisición de la plataforma médica Haodf.com demuestra la ambición de Ant de desplegar soluciones basadas en IA en el sector de la salud. La empresa también ofrece diversos servicios de IA, incluyendo una aplicación de asistente virtual y una plataforma de asesoramiento financiero.

Modelos de código abierto y datos clave

Ling-Lite tiene 16.8 mil millones de parámetros, mientras que Ling-Plus cuenta con 290 mil millones. Para comparación, el modelo GPT-4.5, actualmente cerrado, dispondría de aproximadamente 1.8 trillón de parámetros. Ant ha decidido hacer que sus modelos sean de código abierto, impulsando así la innovación en el campo de la IA.

Desafíos persistentes en el entrenamiento de modelos

La investigación de Ant subraya que, a pesar de los avances realizados, el entrenamiento de modelos sigue siendo un desafío técnico. Pequeños ajustes en la arquitectura o el hardware durante el entrenamiento de los modelos pueden provocar rendimientos inestables, generando picos en las tasas de error.

Para aquellos interesados en la evolución de la IA y los grandes datos, el evento AI & Big Data Expo en Ámsterdam, California y Londres representa una oportunidad interesante para interactuar con líderes de la industria.

Preguntas frecuentes

¿Por qué Ant Group utiliza chips nacionales para sus modelos de IA?
Ant Group se dirige hacia chips nacionales para reducir sus costos de formación de IA y para disminuir su dependencia de la tecnología estadounidense restringida, especialmente en respuesta a las restricciones sobre la exportación de ciertos componentes electrónicos.

¿Qué tipos de chips nacionales utiliza Ant Group para el entrenamiento de sus modelos?
Ant Group utiliza chips de proveedores nacionales, incluidos aquellos asociados con Alibaba y Huawei, para formar modelos de IA utilizando métodos innovadores como el Mixture of Experts (MoE).

¿Ha logrado Ant Group alcanzar rendimientos comparables a los de los chips Nvidia con chips nacionales?
Sí, según fuentes, los resultados de los modelos de Ant Group formados en chips nacionales serían comparables a los desarrollados con los chips H800 de Nvidia.

¿Cuáles son las ventajas de usar chips nacionales para la IA en comparación con los chips extranjeros?
Las ventajas incluyen una reducción significativa de los costos de formación, una mayor independencia tecnológica y el eludir las restricciones de exportación que limitan el acceso a chips de alto rendimiento.

¿Cuál es el objetivo principal de la metodología Mixture of Experts (MoE) utilizada por Ant Group?
MoE divide las tareas de entrenamiento en conjuntos de datos más pequeños gestionados por componentes separados, lo que hace que el proceso de formación sea más eficiente y menos costoso.

¿Ant Group tiene planes de aplicar sus modelos de IA a otros sectores?
Sí, Ant Group planea aplicar sus modelos, incluidos Ling-Plus y Ling-Lite, a casos de uso industrial, como la salud y las finanzas.

¿Cuáles son las implicaciones de código abierto para los modelos de Ant Group?
Al hacer que sus modelos sean de código abierto, Ant Group permite a otras organizaciones usar y mejorar sus trabajos, lo que podría acelerar la innovación en el sector de la IA.

¿Qué desafíos enfrenta Ant Group al entrenar sus modelos de IA con chips nacionales?
Ant Group ha informado sobre desafíos relacionados con la inestabilidad del rendimiento durante pequeños ajustes de hardware o estructura de modelos, lo que puede llevar a picos en las tasas de error.

¿Cómo difiere la estrategia de Ant Group de la de Nvidia en cuanto a entrenamiento de IA?
Mientras Nvidia se centra en el desarrollo de GPUs más potentes con más núcleos y memoria, Ant Group busca reducir los costos de formación utilizando chips de especificaciones inferiores.

¿Cuál es el costo de formar un trillón de tokens según las investigaciones de Ant Group?
El costo de formar un trillón de tokens se estima en aproximadamente 5,1 millones de yuanes gracias al uso de chips de menor rendimiento, en comparación con 6,35 millones de yuanes utilizando hardware convencional.

actu.iaNon classéAnt Group se apoya en chips nacionales para formar sus modelos de...

Nina Schick, autora: el impacto de la IA generativa en las empresas, la política y la sociedad

découvrez l'analyse percutante de nina schick sur l'impact révolutionnaire de l'ia générative sur les entreprises, la politique et la société. plongez dans une réflexion approfondie sur les changements inévitables qu'apporte cette technologie dans notre quotidien.

¿cómo evalúa la IA? anthropic explora los valores de Claude

découvrez comment l'intelligence artificielle évalue les valeurs humaines à travers l'exploration des modèles de claude par anthropic. plongez dans les mécanismes de décision et d'éthique qui façonnent l'avenir de l'ia.

Un nuevo modelo predice el punto de no retorno de una reacción química

découvrez comment un nouveau modèle révolutionnaire prédit le point de non-retour d'une réaction chimique, offrant des perspectives inédites pour la recherche en chimie et les applications industrielles. explorez les implications de cette avancée dans la compréhension des réactions chimiques complexes.
découvrez comment l'intelligence artificielle révolutionne l'impression 3d en intégrant des textures palpables, offrant ainsi une nouvelle dimension tactile aux objets. plongez dans l'univers innovant où technologie et sensation se rencontrent pour transformer notre expérience d'interaction avec les créations numériques.
découvrez comment une licence collective peut assurer une rémunération équitable pour les auteurs britanniques dont les œuvres sont utilisées dans l'entraînement des intelligences artificielles, protégeant ainsi leurs droits d'auteur tout en favorisant l'innovation.

Los 10 generadores de imágenes de IA más efectivos de abril de 2025