Estados Los robots aleatorios son más confiables

MADRID, 2 (EUROPA PRESS)

Llamado aprendizaje por refuerzo de máxima difusión (MaxDiff RL), el éxito del algoritmo radica en su capacidad de alentar a los robots a explorar sus entornos de la manera más aleatoria posible para obtener un conjunto diverso de experiencias. Esta "aleatoriedad diseñada" mejora la calidad de los datos que los robots recopilan sobre su propio entorno. Y, al utilizar datos de mayor calidad, los robots simulados demostraron un aprendizaje más rápido y eficiente, mejorando su confiabilidad y rendimiento generales.

Cuando se probaron con otras plataformas de IA, los robots simulados que utilizaban el nuevo algoritmo de Northwestern superaron consistentemente a los modelos de última generación. De hecho, el nuevo algoritmo funciona tan bien que los robots aprendieron nuevas tareas y luego las realizaron con éxito en un solo intento, haciéndolo bien a la primera. Esto contrasta marcadamente con los modelos de IA actuales, que permiten un aprendizaje más lento mediante prueba y error.

"Otros marcos de IA pueden ser algo poco confiables", explica Thomas Berrueta de Northwestern , quien dirigió el estudio. "A veces logran concretar una tarea, pero otras veces fracasan por completo. Con nuestro marco, siempre que el robot sea capaz de resolver la tarea, cada vez que encienda su robot puede esperar que haga exactamente lo que se le pidió que hiciera. Esto hace que sea más fácil interpretar los éxitos y fracasos de los robots, lo cual es crucial en un mundo cada vez más dependiente de la IA".

Para probar el nuevo algoritmo, los investigadores lo compararon con modelos actuales de última generación. Utilizando simulaciones por computadora, los investigadores pidieron a robots simulados que realizaran una serie de tareas estándar. En general, los robots que utilizan MaxDiff RL aprendieron más rápido que los otros modelos. También realizaron tareas correctamente de manera mucho más consistente y confiable que otros.

Quizás aún más impresionante: los robots que utilizan el método MaxDiff RL a menudo logran realizar correctamente una tarea en un solo intento. Y eso fue incluso cuando empezaron sin conocimiento.

"Nuestros robots eran más rápidos y ágiles, capaces de generalizar eficazmente lo que aprendieron y aplicarlo a nuevas situaciones", explica Berrueta. "Para aplicaciones del mundo real donde los robots no pueden permitirse un tiempo interminable de prueba y error, esto es un gran beneficio".

Dado que MaxDiff RL es un algoritmo general, se puede utilizar para una variedad de aplicaciones. Los investigadores esperan que aborde cuestiones fundamentales que frenan el campo y, en última instancia, allane el camino para una toma de decisiones confiable en robótica inteligente. "Esto no tiene por qué usarse sólo para vehículos robóticos que se mueven", matizan los investigadores.

"También podría usarse para robots estacionarios, como un brazo robótico en una cocina que aprende a cargar el lavavajillas. A medida que las tareas y los entornos físicos se vuelven más complicados, el papel de la encarnación se vuelve aún más crucial a considerar durante el proceso de aprendizaje. Este es un paso importante hacia sistemas reales que realizan tareas más complicadas e interesantes", concluyen.

Estados Los robots aleatorios son más confiables

Tags

Lo Último