Llama 3.3 70B: desempeños comparables a Llama 3.1 405B
El modelo Llama 3.3 70B, recientemente anunciado por Meta, se posiciona estratégicamente en el mercado de modelos de código abierto. Meta destaca que este modelo iguala las prestaciones del Llama 3.1, que posee 405 mil millones de parámetros, al tiempo que presenta un costo significativamente inferior. Un gran atractivo para las empresas que desean integrar la IA mientras controlan sus presupuestos.
Una serie de lanzamientos rápida
Meta no disminuye su ritmo de publicación, habiendo introducido Llama 3.1 en julio, seguido por Llama 3.2 a finales de septiembre, y finalmente, Llama 3.3 la semana pasada. Meta declara que el modelo Llama 3.3 70B permite acceder a una calidad y un rendimiento superiores para las aplicaciones textuales, siempre a un costo reducido.
Preparación y datos de entrenamiento
Para esta versión definitiva, Meta ha preentrenado su modelo en aproximadamente 15 000 mil millones de tokens provenientes de fuentes accesibles al público. El fine-tuning ha integrado conjuntos de datos de instrucciones públicas y más de 25 millones de ejemplos generados de manera sintética. Los investigadores indican que los datos utilizados para el preentrenamiento se extienden hasta diciembre de 2023.
Arquitectura y desarrollo
Llama 3.3 70B se basa en una arquitectura de tipo Transformer y utiliza un modelo autorregresivo. El desarrollo ha implicado un fine-tuning supervisado así como un aprendizaje por refuerzo asistido por retroalimentación humana (RLHF). El modelo ofrece una ventana contextual de 128 000 tokens, optimizando así su uso para instrucciones textuales variadas.
Comparación de desempeños
Los resultados de las pruebas de evaluación muestran que Llama 3.3 70B iguala las prestaciones de Llama 3.1 70B y del modelo Nova Pro de Amazon, que fue presentado recientemente. A través de diversas pruebas, Llama 3.3 70B superaría a sus competidores como Gemini Pro 1.5 y GPT-4o. Se distingue por ofrecer prestaciones comparables a Llama 3.1 405B por un costo un décimo menor.
Multilingüismo y aplicaciones comerciales
El modelo admite ocho idiomas: alemán, español, francés, hindi, italiano, portugués, tailandés e inglés. Llama 3.3 está diseñado para usos comerciales y de investigación, pudiendo funcionar como un asistente tipo chatbot o para tareas de generación de texto. Meta anima a los desarrolladores a aprovechar las capacidades lingüísticas ampliadas del modelo, destacando la importancia de un fine-tuning para los idiomas no soportados.
Infraestructura y recursos
Se ha movilizado un volumen considerable de recursos para el entrenamiento: 39,3 millones de horas de GPU de cálculo en hardware H100-80GB. Las infraestructuras de preentrenamiento, fine-tuning, anotación y evaluación se han integrado en el ecosistema de producción de Meta, permitiendo así optimizar la calidad de los desempeños.
Potencial y recomendaciones
Meta destaca que Llama 3.3 ofrece desempeños rentables con una inferencia realizable en estaciones de trabajo comunes. Aunque el modelo es capaz de producir texto en otros idiomas, Meta desaconseja su uso para conversaciones en idiomas no oficiales sin ajustes previos.
Preguntas frecuentes sobre Llama 3.3 70B
¿Cuál es la principal diferencia entre Llama 3.3 70B y Llama 3.1 405B?
La principal diferencia es que Llama 3.3 70B ofrece desempeños similares a Llama 3.1 405B mientras requiere menos recursos financieros y de cálculo.
¿Qué ventajas financieras ofrece Llama 3.3 70B en comparación con otros modelos?
El modelo Llama 3.3 70B permite a las empresas acceder a una tecnología avanzada de IA a un costo considerablemente reducido, haciendo que la IA sea más accesible.
¿Cómo logra Llama 3.3 70B tales desempeños con menos parámetros?
Este rendimiento se logra gracias a una optimización de los algoritmos y un entrenamiento en un mayor volumen de datos, así como una arquitectura de modelo avanzada.
¿Qué idiomas son soportados por Llama 3.3 70B?
Llama 3.3 70B admite 8 idiomas, incluidos alemán, español, francés, hindi, italiano, portugués y tailandés.
¿Cómo se ha preentrenado Llama 3.3 70B?
El modelo ha sido preentrenado en aproximadamente 15 000 mil millones de tokens provenientes de fuentes disponibles públicamente, así como en un conjunto de datos de instrucciones.
¿Qué tipos de aplicaciones pueden beneficiarse de Llama 3.3 70B?
Llama 3.3 70B es ideal para aplicaciones de diálogo multilingüe, chatbots y diversas tareas de generación de texto en un contexto comercial y de investigación.
¿Cuál es la capacidad de la ventana contextual de Llama 3.3 70B?
El modelo dispone de una ventana contextual de 128 000 tokens, lo que permite gestionar contextos textuales más largos y complejos.
¿Se recomienda Llama 3.3 70B para idiomas no soportados?
Aunque puede producir texto en otros idiomas, Meta desaconseja su uso sin fine-tuning y controles de seguridad en estos idiomas no soportados.
¿Qué infraestructuras técnicas se utilizaron para el entrenamiento de Llama 3.3 70B?
El preentrenamiento se llevó a cabo en un clúster GPU personalizado de Meta, utilizando un total de 39,3 millones de horas de GPU en hardware de tipo H100-80GB.
¿Llama 3.3 70B sigue siendo un modelo de código abierto?
Sí, Llama 3.3 70B sigue siendo un modelo de código abierto que ofrece una licencia comunitaria que permite una variedad de aplicaciones comerciales y de investigación.