un sistema de ia identifica categorías visuales mientras se adapta a nuevos contextos

Publié le 7 agosto 2025 à 09h32
modifié le 7 agosto 2025 à 09h33

La inteligencia artificial revoluciona la forma en que se interpretan las imágenes, deconstruyendo las categorizaciones fijas. Este paradigma innovador de adaptación contextual permite a los sistemas de IA redefinir su enfoque según las expectativas específicas. Gracias a la categorización abierta ad-hoc (OAK), la identificación visual se vuelve dinámica y decididamente contextual, trascendiendo las limitaciones habituales del reconocimiento de imágenes.

Sistema de IA revolucionario

Un nuevo sistema de IA, basado en el método de categorización abierta ad-hoc (OAK), identifica categorías visuales mientras se adapta a contextos variados. Este modelo ha sido elaborado por un equipo de investigadores de la Universidad de Míchigan, con contribuciones del Centro Bosch para la IA y otras instituciones académicas. El principio de OAK se basa en una interpretación dinámica de las imágenes, dejando de lado las categorías rígidas tradicionales.

Principio de OAK

OAK detecta las diferentes interpretaciones de una imagen según diversos contextos. Por ejemplo, una imagen de zapatos podría resonar de manera diferente en un entorno de venta de garaje donde el término «zapatos» podría incluir también gorras o equipaje. La flexibilidad de este sistema representa un salto cualitativo respecto a las anticipaciones anteriores, donde cada imagen tenía un significado fijo.

Desarrollo y metodología

Los investigadores han ampliado el modelo CLIP, un sistema de visión y lenguaje, integrando tokens contextuales. Estos elementos de instrucción aprenden tanto de datos etiquetados como no etiquetados. La IA puede así extraer características visuales específicas según el contexto, dirigiendo su atención hacia áreas relevantes sin directrices explícitas.

Descubrimiento de nuevas categorías

Una de las características impresionantes de OAK radica en su capacidad para descubrir categorías inéditas. Por ejemplo, al identificar objetos a la venta en un mercado de pulgas, el sistema aprende a reconocer artículos como bolsas o sombreros, sin haber tenido ejemplos previos. Esta facultad surge de un método innovador que combina enfoques de guiado semántico y agrupamiento visual.

Interacciones entre enfoques

Los métodos de guiado semántico orientan al sistema hacia propuestas relevantes. Cuando el modelo detecta zapatos, sugiere la posibilidad de sombreros basándose en asociaciones lingüísticas. Al mismo tiempo, la detección de patrones visuales en datos no etiquetados ayuda a identificar categorías relevantes por descubrimiento. Ambos enfoques colaboran durante el entrenamiento, creando una sinergia.

Rendimiento del sistema

Las pruebas realizadas en bases de datos como Stanford y Clevr-4 revelan un rendimiento impresionante de OAK en cuanto a precisión y descubrimiento de conceptos. Ha alcanzado un 87.4 % de precisión al identificar emociones en el conjunto de datos de Stanford, superando considerablemente a modelos anteriores como CLIP.

Aplicaciones futuras

El método OAK promete tener aplicaciones esenciales en diversos campos, incluida la robótica. La capacidad de percibir un mismo entorno desde diferentes ángulos, según la tarea, abre horizontes inéditos. En un mundo donde la flexibilidad y la adaptabilidad de los sistemas son primordiales, este tipo de desarrollo tecnológico podría volverse indispensable.

Para obtener más información sobre innovaciones en IA, el lector puede consultar este enlace: Estudios sobre la percepción de la IA. Otras investigaciones sobre sistemas coordinados complejos pueden ser consultadas a través de este sitio.

Para preocupaciones sobre el uso de imágenes con connotaciones racistas generadas por la IA, la situación está documentada aquí: Queja italiana.

La evaluación de la capacidad de la IA para resolver enigmas visuales se discute en este artículo: Enigmas y razonamiento.

Preguntas frecuentes comunes

¿Cómo funciona el proceso de identificación de categorías visuales por el sistema de IA?
El sistema de IA utiliza un enfoque de Categorización Abierta Ad-hoc (OAK) que le permite interpretar dinámicamente las imágenes según el contexto dado, basándose en datos etiquetados y no etiquetados para identificar tanto conceptos conocidos como desconocidos.

¿Cuáles son las diferencias entre los métodos de categorización tradicionales y OAK?
A diferencia de los métodos tradicionales que utilizan categorías fijas como «silla» o «perro», OAK permite reformular la interpretación de las imágenes según el contexto, permitiendo por ejemplo categorizar una imagen de una persona bebiendo como «acción de beber» o «situación de compra» según la necesidad.

¿Cómo descubre OAK nuevas categorías no vistas durante el entrenamiento?
OAK combina enfoques descendentes y ascendentes. Utiliza un guiado semántico para proponer categorías potenciales basadas en conocimientos lingüísticos, mientras identifica patrones en los datos visuales no etiquetados.

¿Qué tipos de datos son necesarios para entrenar el sistema OAK?
El sistema puede ser entrenado tanto con datos etiquetados como no etiquetados, lo que le permite adaptarse a diferentes contextos sin necesitar una gran cantidad de ejemplos específicos.

¿Qué aplicaciones prácticas pueden beneficiarse del enfoque OAK?
El enfoque OAK puede aplicarse en campos como la robótica, donde los sistemas deben percibir e interpretar su entorno de manera flexible, según las tareas que realicen en un momento dado.

¿Cuáles son las prestaciones de OAK en comparación con otros modelos de categorización de imágenes?
OAK ha demostrado un rendimiento de vanguardia, alcanzando por ejemplo un 87.4 % de precisión en el reconocimiento de emociones, superando modelos como CLIP y GCD por más del 50 % en diversos conjuntos de datos de imágenes.

¿Necesita OAK ajustes frecuentes después del entrenamiento inicial?
No, OAK está diseñado para adaptarse a nuevos contextos sin perder el conocimiento existente, lo que significa que puede funcionar de manera eficiente incluso después del entrenamiento inicial con pocos ajustes necesarios.

¿Cómo asegura OAK una atención adecuada a las partes correctas de la imagen?
El modelo aprende a concentrarse en las áreas relevantes de las imágenes gracias a mecanismos de formación que utilizan datos contextuales, lo que permite ofrecer resultados flexibles e interpretables.

¿Los sistemas de IA como OAK pueden inventar categorías completamente nuevas?
Sí, OAK es capaz de proponer y validar nuevas categorías al identificar patrones en imágenes no etiquetadas que no han sido específicamente enseñadas durante el entrenamiento, permitiendo así un descubrimiento dinámico de nuevas clasificaciones.

actu.iaNon classéun sistema de ia identifica categorías visuales mientras se adapta a nuevos...

el programador de un pueblo que ahora lidera la revolución de la IA en China

découvrez l'incroyable parcours d'un programmeur originaire d'un petit village, devenu pionnier de la révolution de l'intelligence artificielle en chine. explorez comment sa détermination et son expertise transforment le paysage technologique du pays.
découvrez comment garantir la sécurité de vos systèmes mainframe face aux menaces internes et aux vulnérabilités de conformité. apprenez également à maîtriser l'impact de l'intelligence artificielle sur votre infrastructure pour un renouvellement efficace de votre stratégie de sécurité.

Modificar el tono de las burbujas de conversación en ChatGPT

découvrez comment personnaliser l'apparence de vos conversations dans chatgpt en modifiant la teinte des bulles de dialogue. améliorez votre expérience utilisateur grâce à des astuces simples et adaptées à vos préférences.

OpenAI revela GPT-5, la última edición de su software avanzado de procesamiento del lenguaje

découvrez gpt-5, la dernière innovation d'openai en matière de traitement du langage. ce logiciel avancé révolutionne la compréhension et la génération de texte, ouvrant de nouvelles perspectives pour les développeurs et les entreprises. plongez dans les fonctionnalités, les améliorations et les applications de cette technologie de pointe.

La IA de Elon Musk acusada de producir videos explícitos de Taylor Swift