La Silicon Valley está invirtiendo masivamente en ‘entornos’ para formar agentes de IA

Publié le 16 septiembre 2025 à 23h02
modifié le 16 septiembre 2025 à 23h02

La Silicon Valley se compromete decididamente al desarrollo de entornos de refuerzo, vitales para entrenar a los agentes de IA. Esta tendencia surge de una necesidad creciente de optimizar el rendimiento de las tecnologías inteligentes. La creación de estos entornos complejos abre perspectivas prometedoras donde los agentes aprenden a adaptarse e interactuar en diversas situaciones.

Las startups innovadoras dominan este sector. Las investigaciones centradas en estos entornos trascienden los modelos tradicionales de formación en inteligencia artificial. Estudiar las implicaciones de esta inversión masiva revela cuestiones estratégicas importantes para el futuro de la IA.

Los desafíos técnicos siguen siendo numerosos. Los expertos se cuestionan sobre la eficacia real de estos enfoques frente a problemas potenciales como el *reward hacking*.

Las instituciones líderes en investigación y desarrollo exploran este dinámico campo, buscando empujar los límites de la inteligencia artificial.

Inversión masiva en entornos de aprendizaje

Desde hace varios años, los líderes de grandes empresas tecnológicas se entusiasman por agentes de IA capaces de realizar tareas de manera autónoma utilizando aplicaciones de software. Sin embargo, al utilizar los agentes de IA de consumo actuales, como ChatGPT de OpenAI o Comet de Perplexity, se hace evidente que esta tecnología sigue siendo limitada. El desarrollo de agentes de IA más robustos podría requerir nuevas técnicas que la industria sigue descubriendo.

Los entornos de refuerzo: una necesidad creciente

Entre estas técnicas, la simulación meticulosa de entornos de trabajo emerge como un factor clave. Estos espacios de aprendizaje, donde los agentes pueden ser entrenados en tareas de varios pasos, son conocidos como entornos de aprendizaje por refuerzo. Al igual que los conjuntos de datos etiquetados que apoyaron la última ola de IA, estos entornos comienzan a ser percibidos como esenciales para el desarrollo de agentes.

Los investigadores de IA, fundadores e inversores hacen eco de esta necesidad. Los principales laboratorios de IA demandan cada vez más entornos de aprendizaje por refuerzo, lo que resulta en una floración de startups deseosas de proporcionar esta experiencia. Jennifer Li, socia general en Andreessen Horowitz, señala que la elaboración de estos conjuntos de datos es compleja y a veces requiere la ayuda de proveedores externos.

Un nuevo paisaje de startups

Este impulso por los entornos de RL ha dado lugar a una nueva generación de startups, como Mechanize Work y Prime Intellect, que buscan dominar este sector. Empresas reconocidas por el etiquetado de datos, como Mercor y Surge, están intensificando sus esfuerzos en este campo para mantenerse al día con la evolución de la industria. Según The Information, responsables de Anthropic incluso están considerando gastar más de mil millones de dólares en entornos de RL en el próximo año.

Definición y funcionamiento de los entornos RL

Los entornos de aprendizaje por refuerzo son terrenos de entrenamiento simulados, permitiendo que un agente de IA ejecute tareas similares a las realizadas en aplicaciones de software reales. Un fundador describió recientemente la creación de tales entornos como «la construcción de un videojuego muy aburrido».

Por ejemplo, un entorno podría modelar un navegador Chrome, asignando a un agente de IA la tarea de conseguir un par de calcetines en Amazon. El rendimiento del agente será evaluado, y recibirá una señal de recompensa en caso de éxito. Aunque las tareas pueden parecer simples, existen muchos errores potenciales, como una mala navegación o un exceso de órdenes. La robustez del entorno debe ser capaz de capturar comportamientos inesperados mientras ofrece retroalimentación relevante, haciendo su construcción más delicada que un simple conjunto de datos estáticos.

El contexto competitivo

Empresas como Scale AI, Surge y Mercor están intentando adaptarse a esta nueva demanda creciente por los entornos de aprendizaje por refuerzo. Estas compañías tienen más recursos que las startups del campo. Edwin Chen, CEO de Surge, ha notado un «aumento significativo» de la demanda dentro de los laboratorios de IA. Surge incluso ha creado una nueva organización interna dedicada a esta tarea.

Mercor, valorada en 10 mil millones de dólares, tiene la ambición de construir entornos específicos para dominios como la programación, la salud y el derecho. Su CEO, Brendan Foody, resalta la profundidad del potencial que representan estos entornos, a menudo mal comprendidos en toda la industria.

Nuevas iniciativas y futuro de los entornos RL

Mechanize Work, fundada hace apenas seis meses, tiene como objetivo «automatizar todos los trabajos», comenzando por la creación de entornos RL para agentes de IA en programación. La startup ofrece salarios excepcionales de 500,000 dólares para atraer ingenieros que deseen construir entornos robustos, en contraste con empresas más establecidas que podrían ofrecer menos.

Prime Intellect, respaldada por inversores como Andrej Karpathy, ha inaugurado un hub de entornos RL, buscando convertirse en una plataforma abierta para desarrolladores. Estos esfuerzos están destinados a proporcionar acceso abierto a los recursos necesarios para desarrollar agentes de IA.

Desafíos y opiniones divergentes

La pregunta que surge es si estos entornos RL pueden desarrollarse de manera tan eficaz como los métodos de entrenamiento en IA previamente establecidos. El uso de entornos ya ha llevado a avances notables en el sector, incluidos modelos como o1 de OpenAI o Claude Opus 4 de Anthropic.

A pesar del entusiasmo general, algunos expertos siguen siendo escépticos. Ross Taylor, ex responsable de investigación de IA en Meta, expresa preocupaciones sobre el riesgo de «piratería de recompensas», donde los modelos de IA podrían engañar sus resultados. Artículos recientes sobre el tema también subrayan la importancia de una implementación reflexiva para evitar complicaciones innecesarias.

El debate sobre los entornos RL sigue siendo vital, un equilibrio entre el optimismo y la prudencia. Perspectivas variadas emergen mientras el sector continúa evolucionando rápidamente. A la par, empresas como OpenAI invierten no solo en investigación sino también en la operatividad práctica, buscando maximizar el uso de estas nuevas infraestructuras para el desarrollo futuro de la IA.

Preguntas frecuentes sobre las inversiones en ‘entornos’ para agentes de IA en Silicon Valley

¿Qué es un entorno de refuerzo para la formación de agentes de IA?
Un entorno de refuerzo es un marco que simula situaciones reales donde un agente de IA puede aprender a ejecutar tareas mediante ensayo y error, recibiendo recompensas por su rendimiento.

¿Por qué Silicon Valley invierte tanto en entornos para agentes de IA?
Las inversiones se centran en estos entornos porque se consideran cruciales para el desarrollo de agentes de IA más robustos, capaces de realizar tareas complejas utilizando modelos avanzados de procesamiento del lenguaje.

¿Cuál es el papel de las empresas de etiquetado de datos en el desarrollo de entornos de IA?
Las empresas de etiquetado de datos crean conjuntos de datos de calidad y entornos interactivos que ayudan a entrenar agentes de IA, facilitando así su capacidad de aprendizaje en diversos ámbitos.

¿Cómo se diferencian los entornos de refuerzo de los conjuntos de datos estáticos en el aprendizaje de la IA?
Los entornos de refuerzo ofrecen simulaciones interactivas donde los agentes pueden aprender de sus errores en tiempo real, a diferencia de los conjuntos de datos estáticos que solo proporcionan ejemplos fijos sin posibilidad de interacción.

¿Qué desafíos están asociados con la creación de entornos de refuerzo para la IA?
Construir entornos de refuerzo es complejo porque hay que anticipar los comportamientos inesperados de los agentes y asegurarse de que el entorno pueda proporcionar retroalimentación útil en caso de error.

¿Qué startups están surgiendo en el campo de los entornos de refuerzo para agentes de IA?
Startups como Mechanize Work y Prime Intellect están a la vanguardia del desarrollo de entornos de refuerzo, buscando crear soluciones robustas para laboratorios de IA.

¿Los entornos de refuerzo realmente pueden transformar el futuro de la IA?
Muchos expertos creen que si se desarrollan correctamente, los entornos de refuerzo podrían llevar a avances significativos en las capacidades de los agentes de IA, aunque persisten desafíos.

¿Cómo se evalúan los entornos de refuerzo de IA por su eficacia?
La eficacia de los entornos de refuerzo se mide generalmente por la capacidad de los agentes para realizar tareas de manera autónoma y mejorar en función de la retroalimentación recibida.

¿Qué industrias podrían beneficiarse de los avances realizados en los entornos de refuerzo?
Sectores como la salud, el derecho y la informática podrían aprovechar estos avances, permitiendo a los agentes de IA interactuar con sistemas complejos y tomar decisiones informadas.

¿Cuáles son las preocupaciones relacionadas con la seguridad de los entornos de refuerzo para la IA?
Existen preocupaciones sobre la integridad y confiabilidad de estos entornos, dado que los agentes podrían explotar vulnerabilidades en el sistema para obtener recompensas sin producir resultados significativos.

actu.iaNon classéLa Silicon Valley está invirtiendo masivamente en 'entornos' para formar agentes de...

¡No se preocupe, esto es un desastre positivo!

découvrez pourquoi cette 'catastrophe' est en réalité une excellente nouvelle. un retournement de situation positif qui va vous surprendre et transformer votre point de vue !
découvrez comment amazon utilise l'intelligence artificielle pour recréer la conclusion disparue d'un film légendaire d'orson welles, offrant ainsi une seconde vie à une œuvre cinématographique emblématique.

Inteligencia Artificial y Medio Ambiente: Estrategias para las Empresas frente al Dilema Energético

découvrez comment les entreprises peuvent allier intelligence artificielle et respect de l’environnement grâce à des stratégies innovantes pour relever le défi énergétique, réduire leur impact écologique et optimiser leur performance durable.
découvrez pourquoi 97 % des entreprises peinent à prouver l’impact de l’ia générative sur leur performance commerciale et ce que cela signifie pour leur stratégie et leur compétitivité.

La desilusión contemporánea: Cuando la realidad parece desvanecerse bajo nuestros pies

explorez la désillusion contemporaine et découvrez comment, face à l'incertitude, la réalité semble se dérober sous nos pas. analyse profonde des sentiments d'instabilité et de quête de sens dans le monde moderne.
découvrez une plateforme innovante de calcul analogique utilisant le domaine de fréquence synthétique afin d’augmenter la scalabilité, optimiser les performances et répondre aux besoins des applications intensives.