Llama 3.3 70B: Rendimiento equivalente a Llama 3.1 405B, menores costes

Llama 3.3 70B: desempeños comparables a Llama 3.1 405B

El modelo Llama 3.3 70B, recientemente anunciado por Meta, se posiciona estratégicamente en el mercado de modelos de código abierto. Meta destaca que este modelo iguala las prestaciones del Llama 3.1, que posee 405 mil millones de parámetros, al tiempo que presenta un costo significativamente inferior. Un gran atractivo para las empresas que desean integrar la IA mientras controlan sus presupuestos.

Una serie de lanzamientos rápida

Meta no disminuye su ritmo de publicación, habiendo introducido Llama 3.1 en julio, seguido por Llama 3.2 a finales de septiembre, y finalmente, Llama 3.3 la semana pasada. Meta declara que el modelo Llama 3.3 70B permite acceder a una calidad y un rendimiento superiores para las aplicaciones textuales, siempre a un costo reducido.

Preparación y datos de entrenamiento

Para esta versión definitiva, Meta ha preentrenado su modelo en aproximadamente 15 000 mil millones de tokens provenientes de fuentes accesibles al público. El fine-tuning ha integrado conjuntos de datos de instrucciones públicas y más de 25 millones de ejemplos generados de manera sintética. Los investigadores indican que los datos utilizados para el preentrenamiento se extienden hasta diciembre de 2023.

Arquitectura y desarrollo

Llama 3.3 70B se basa en una arquitectura de tipo Transformer y utiliza un modelo autorregresivo. El desarrollo ha implicado un fine-tuning supervisado así como un aprendizaje por refuerzo asistido por retroalimentación humana (RLHF). El modelo ofrece una ventana contextual de 128 000 tokens, optimizando así su uso para instrucciones textuales variadas.

Comparación de desempeños

Los resultados de las pruebas de evaluación muestran que Llama 3.3 70B iguala las prestaciones de Llama 3.1 70B y del modelo Nova Pro de Amazon, que fue presentado recientemente. A través de diversas pruebas, Llama 3.3 70B superaría a sus competidores como Gemini Pro 1.5 y GPT-4o. Se distingue por ofrecer prestaciones comparables a Llama 3.1 405B por un costo un décimo menor.

Multilingüismo y aplicaciones comerciales

El modelo admite ocho idiomas: alemán, español, francés, hindi, italiano, portugués, tailandés e inglés. Llama 3.3 está diseñado para usos comerciales y de investigación, pudiendo funcionar como un asistente tipo chatbot o para tareas de generación de texto. Meta anima a los desarrolladores a aprovechar las capacidades lingüísticas ampliadas del modelo, destacando la importancia de un fine-tuning para los idiomas no soportados.

Infraestructura y recursos

Se ha movilizado un volumen considerable de recursos para el entrenamiento: 39,3 millones de horas de GPU de cálculo en hardware H100-80GB. Las infraestructuras de preentrenamiento, fine-tuning, anotación y evaluación se han integrado en el ecosistema de producción de Meta, permitiendo así optimizar la calidad de los desempeños.

Potencial y recomendaciones

Meta destaca que Llama 3.3 ofrece desempeños rentables con una inferencia realizable en estaciones de trabajo comunes. Aunque el modelo es capaz de producir texto en otros idiomas, Meta desaconseja su uso para conversaciones en idiomas no oficiales sin ajustes previos.

Preguntas frecuentes sobre Llama 3.3 70B

¿Cuál es la principal diferencia entre Llama 3.3 70B y Llama 3.1 405B?
La principal diferencia es que Llama 3.3 70B ofrece desempeños similares a Llama 3.1 405B mientras requiere menos recursos financieros y de cálculo.
¿Qué ventajas financieras ofrece Llama 3.3 70B en comparación con otros modelos?
El modelo Llama 3.3 70B permite a las empresas acceder a una tecnología avanzada de IA a un costo considerablemente reducido, haciendo que la IA sea más accesible.
¿Cómo logra Llama 3.3 70B tales desempeños con menos parámetros?
Este rendimiento se logra gracias a una optimización de los algoritmos y un entrenamiento en un mayor volumen de datos, así como una arquitectura de modelo avanzada.
¿Qué idiomas son soportados por Llama 3.3 70B?
Llama 3.3 70B admite 8 idiomas, incluidos alemán, español, francés, hindi, italiano, portugués y tailandés.
¿Cómo se ha preentrenado Llama 3.3 70B?
El modelo ha sido preentrenado en aproximadamente 15 000 mil millones de tokens provenientes de fuentes disponibles públicamente, así como en un conjunto de datos de instrucciones.
¿Qué tipos de aplicaciones pueden beneficiarse de Llama 3.3 70B?
Llama 3.3 70B es ideal para aplicaciones de diálogo multilingüe, chatbots y diversas tareas de generación de texto en un contexto comercial y de investigación.
¿Cuál es la capacidad de la ventana contextual de Llama 3.3 70B?
El modelo dispone de una ventana contextual de 128 000 tokens, lo que permite gestionar contextos textuales más largos y complejos.
¿Se recomienda Llama 3.3 70B para idiomas no soportados?
Aunque puede producir texto en otros idiomas, Meta desaconseja su uso sin fine-tuning y controles de seguridad en estos idiomas no soportados.
¿Qué infraestructuras técnicas se utilizaron para el entrenamiento de Llama 3.3 70B?
El preentrenamiento se llevó a cabo en un clúster GPU personalizado de Meta, utilizando un total de 39,3 millones de horas de GPU en hardware de tipo H100-80GB.
¿Llama 3.3 70B sigue siendo un modelo de código abierto?
Sí, Llama 3.3 70B sigue siendo un modelo de código abierto que ofrece una licencia comunitaria que permite una variedad de aplicaciones comerciales y de investigación.

Llama 3.3 70B : Meta anuncia un rendimiento comparable al de Llama 3.1 405B, pero a un costo considerablemente reducido

Llama 3.3 70B: desempeños comparables a Llama 3.1 405B

Una serie de lanzamientos rápida

Preparación y datos de entrenamiento

Arquitectura y desarrollo

Comparación de desempeños

Multilingüismo y aplicaciones comerciales

Infraestructura y recursos

Potencial y recomendaciones

Preguntas frecuentes sobre Llama 3.3 70B

La ascensión del término ‘clanker’: el grito de unión de la generación Z contra la IA

Los agentes de IA: Promesas de ciencia ficción aún por perfeccionar antes de brillar en el escenario principal

Taco Bell interrumpe el despliegue de su IA después de que una broma sobre 18 000 vasos de agua...

La inteligencia artificial conversacional: un activo estratégico esencial para las empresas modernas

Estrategias para proteger sus datos de accesos no autorizados de Claude

Un drama familiar: padres estadounidenses demandan a OpenAI, alegando que ChatGPT incitó a su hijo al suicidio

Llama 3.3 70B : Meta anuncia un rendimiento comparable al de Llama 3.1 405B, pero a un costo considerablemente reducido

Llama 3.3 70B: desempeños comparables a Llama 3.1 405B

Una serie de lanzamientos rápida

Preparación y datos de entrenamiento

Arquitectura y desarrollo

Comparación de desempeños

Multilingüismo y aplicaciones comerciales

Infraestructura y recursos

Potencial y recomendaciones

Preguntas frecuentes sobre Llama 3.3 70B

.tdi_114{z-index:84546!important}Los agentes de IA: Promesas de ciencia ficción aún por perfeccionar antes de brillar en el escenario principal

.tdi_133{z-index:84546!important}Taco Bell interrumpe el despliegue de su IA después de que una broma sobre 18 000 vasos de agua...

.tdi_152{z-index:84546!important}La inteligencia artificial conversacional: un activo estratégico esencial para las empresas modernas

.tdi_171{z-index:84546!important}Estrategias para proteger sus datos de accesos no autorizados de Claude

.tdi_190{z-index:84546!important}Un drama familiar: padres estadounidenses demandan a OpenAI, alegando que ChatGPT incitó a su hijo al suicidio

Los agentes de IA: Promesas de ciencia ficción aún por perfeccionar antes de brillar en el escenario principal

Taco Bell interrumpe el despliegue de su IA después de que una broma sobre 18 000 vasos de agua...

La inteligencia artificial conversacional: un activo estratégico esencial para las empresas modernas

Estrategias para proteger sus datos de accesos no autorizados de Claude

Un drama familiar: padres estadounidenses demandan a OpenAI, alegando que ChatGPT incitó a su hijo al suicidio