Llama 3.3 70B : Meta anuncia un rendimiento comparable al de Llama 3.1 405B, pero a un costo considerablemente reducido

Publié le 9 diciembre 2024 à 13h01
modifié le 9 diciembre 2024 à 13h02

Llama 3.3 70B: desempeños comparables a Llama 3.1 405B

El modelo Llama 3.3 70B, recientemente anunciado por Meta, se posiciona estratégicamente en el mercado de modelos de código abierto. Meta destaca que este modelo iguala las prestaciones del Llama 3.1, que posee 405 mil millones de parámetros, al tiempo que presenta un costo significativamente inferior. Un gran atractivo para las empresas que desean integrar la IA mientras controlan sus presupuestos.

Una serie de lanzamientos rápida

Meta no disminuye su ritmo de publicación, habiendo introducido Llama 3.1 en julio, seguido por Llama 3.2 a finales de septiembre, y finalmente, Llama 3.3 la semana pasada. Meta declara que el modelo Llama 3.3 70B permite acceder a una calidad y un rendimiento superiores para las aplicaciones textuales, siempre a un costo reducido.

Preparación y datos de entrenamiento

Para esta versión definitiva, Meta ha preentrenado su modelo en aproximadamente 15 000 mil millones de tokens provenientes de fuentes accesibles al público. El fine-tuning ha integrado conjuntos de datos de instrucciones públicas y más de 25 millones de ejemplos generados de manera sintética. Los investigadores indican que los datos utilizados para el preentrenamiento se extienden hasta diciembre de 2023.

Arquitectura y desarrollo

Llama 3.3 70B se basa en una arquitectura de tipo Transformer y utiliza un modelo autorregresivo. El desarrollo ha implicado un fine-tuning supervisado así como un aprendizaje por refuerzo asistido por retroalimentación humana (RLHF). El modelo ofrece una ventana contextual de 128 000 tokens, optimizando así su uso para instrucciones textuales variadas.

Comparación de desempeños

Los resultados de las pruebas de evaluación muestran que Llama 3.3 70B iguala las prestaciones de Llama 3.1 70B y del modelo Nova Pro de Amazon, que fue presentado recientemente. A través de diversas pruebas, Llama 3.3 70B superaría a sus competidores como Gemini Pro 1.5 y GPT-4o. Se distingue por ofrecer prestaciones comparables a Llama 3.1 405B por un costo un décimo menor.

Multilingüismo y aplicaciones comerciales

El modelo admite ocho idiomas: alemán, español, francés, hindi, italiano, portugués, tailandés e inglés. Llama 3.3 está diseñado para usos comerciales y de investigación, pudiendo funcionar como un asistente tipo chatbot o para tareas de generación de texto. Meta anima a los desarrolladores a aprovechar las capacidades lingüísticas ampliadas del modelo, destacando la importancia de un fine-tuning para los idiomas no soportados.

Infraestructura y recursos

Se ha movilizado un volumen considerable de recursos para el entrenamiento: 39,3 millones de horas de GPU de cálculo en hardware H100-80GB. Las infraestructuras de preentrenamiento, fine-tuning, anotación y evaluación se han integrado en el ecosistema de producción de Meta, permitiendo así optimizar la calidad de los desempeños.

Potencial y recomendaciones

Meta destaca que Llama 3.3 ofrece desempeños rentables con una inferencia realizable en estaciones de trabajo comunes. Aunque el modelo es capaz de producir texto en otros idiomas, Meta desaconseja su uso para conversaciones en idiomas no oficiales sin ajustes previos.

Preguntas frecuentes sobre Llama 3.3 70B

¿Cuál es la principal diferencia entre Llama 3.3 70B y Llama 3.1 405B?
La principal diferencia es que Llama 3.3 70B ofrece desempeños similares a Llama 3.1 405B mientras requiere menos recursos financieros y de cálculo.
¿Qué ventajas financieras ofrece Llama 3.3 70B en comparación con otros modelos?
El modelo Llama 3.3 70B permite a las empresas acceder a una tecnología avanzada de IA a un costo considerablemente reducido, haciendo que la IA sea más accesible.
¿Cómo logra Llama 3.3 70B tales desempeños con menos parámetros?
Este rendimiento se logra gracias a una optimización de los algoritmos y un entrenamiento en un mayor volumen de datos, así como una arquitectura de modelo avanzada.
¿Qué idiomas son soportados por Llama 3.3 70B?
Llama 3.3 70B admite 8 idiomas, incluidos alemán, español, francés, hindi, italiano, portugués y tailandés.
¿Cómo se ha preentrenado Llama 3.3 70B?
El modelo ha sido preentrenado en aproximadamente 15 000 mil millones de tokens provenientes de fuentes disponibles públicamente, así como en un conjunto de datos de instrucciones.
¿Qué tipos de aplicaciones pueden beneficiarse de Llama 3.3 70B?
Llama 3.3 70B es ideal para aplicaciones de diálogo multilingüe, chatbots y diversas tareas de generación de texto en un contexto comercial y de investigación.
¿Cuál es la capacidad de la ventana contextual de Llama 3.3 70B?
El modelo dispone de una ventana contextual de 128 000 tokens, lo que permite gestionar contextos textuales más largos y complejos.
¿Se recomienda Llama 3.3 70B para idiomas no soportados?
Aunque puede producir texto en otros idiomas, Meta desaconseja su uso sin fine-tuning y controles de seguridad en estos idiomas no soportados.
¿Qué infraestructuras técnicas se utilizaron para el entrenamiento de Llama 3.3 70B?
El preentrenamiento se llevó a cabo en un clúster GPU personalizado de Meta, utilizando un total de 39,3 millones de horas de GPU en hardware de tipo H100-80GB.
¿Llama 3.3 70B sigue siendo un modelo de código abierto?
Sí, Llama 3.3 70B sigue siendo un modelo de código abierto que ofrece una licencia comunitaria que permite una variedad de aplicaciones comerciales y de investigación.

actu.iaNon classéLlama 3.3 70B : Meta anuncia un rendimiento comparable al de Llama...

Des transeúntes sorprendidos por un cartel publicitario de IA un poco demasiado sincero

des passants ont été surpris en découvrant un panneau publicitaire généré par l’ia, dont le message étonnamment honnête a suscité de nombreuses réactions. découvrez les détails de cette campagne originale qui n’a laissé personne indifférent.

Apple comienza el envío de un producto insignia fabricado en Texas

apple débute l’expédition de son produit phare fabriqué au texas, renforçant sa présence industrielle américaine. découvrez comment cette initiative soutient l’innovation locale et la production nationale.
plongez dans les coulisses du fameux vol au louvre grâce au témoignage captivant du photographe derrière le cliché viral. entre analyse à la sherlock holmes et usage de l'intelligence artificielle, découvrez les secrets de cette image qui a fait le tour du web.

Una empresa innovadora en busca de empleados con valores claros y transparentes

rejoignez une entreprise innovante qui recherche des employés partageant des valeurs claires et transparentes. participez à une équipe engagée où intégrité, authenticité et esprit d'innovation sont au cœur de chaque projet !

Microsoft Edge: el navegador transformado por el Modo Copilot, una IA al servicio de tu navegación.

découvrez comment le mode copilot de microsoft edge révolutionne votre expérience de navigation grâce à l’intelligence artificielle : conseils personnalisés, assistance instantanée et navigation optimisée au quotidien !

La Unión Europea: Una regulación prudente frente a los gigantes de la Big Tech estadounidense

découvrez comment l'union européenne impose une régulation stricte et réfléchie aux grandes entreprises technologiques américaines, afin de protéger les consommateurs et d’assurer une concurrence équitable sur le marché numérique.