Se le dijo que optimizara la velocidad mientras corría por una pista en un juego de computadora, un automóvil empuja el pedal hacia el metal ... y procede a girar en un pequeño círculo apretado. Nada en las instrucciones le dijo al automóvil que conduzca derecho, yasí que improvisó
Este ejemplo, divertido en un juego de computadora pero no tanto en la vida, es uno de los que motivó a los investigadores de la Universidad de Stanford a construir una mejor manera de establecer metas para los sistemas autónomos.
Dorsa Sadigh, profesora asistente de ciencias de la computación y de ingeniería eléctrica, y su laboratorio han combinado dos formas diferentes de establecer objetivos para los robots en un solo proceso, que funcionó mejor que cualquiera de sus partes solo en simulaciones y experimentos del mundo realLos investigadores presentaron el trabajo el 24 de junio en la conferencia Robótica: Ciencia y Sistemas.
"En el futuro, espero que haya más sistemas autónomos en el mundo y van a necesitar algún concepto de lo que es bueno y lo que es malo", dijo Andy Palan, estudiante graduado en ciencias de la computación y codirectorautor del artículo: "Es crucial, si queremos implementar estos sistemas autónomos en el futuro, que lo hagamos bien".
El nuevo sistema del equipo para proporcionar instrucciones a los robots, conocido como funciones de recompensa, combina demostraciones en las que los humanos muestran al robot qué hacer y encuestas de preferencias de los usuarios, en las que las personas responden preguntas sobre cómo quieren que se comporte el robot.
"Las demostraciones son informativas pero pueden ser ruidosas. Por otro lado, las preferencias proporcionan, a lo sumo, un poco de información, pero son mucho más precisas", dijo Sadigh. "Nuestro objetivo es obtener lo mejor de ambos mundos,y combine datos provenientes de ambas fuentes de manera más inteligente para conocer mejor la función de recompensa preferida de los humanos "
Demostraciones y encuestas
En trabajos anteriores, Sadigh se había centrado solo en encuestas de preferencias. Piden a las personas que comparen escenarios, como dos trayectorias para un automóvil autónomo. Este método es eficiente, pero podría tomar hasta tres minutos para generar la siguiente pregunta, queaún es lento para crear instrucciones para sistemas complejos como un automóvil.
Para acelerar eso, el grupo más tarde desarrolló una forma de producir múltiples preguntas a la vez, que podrían ser respondidas en rápida sucesión por una persona o distribuidas entre varias personas. Esta actualización aceleró el proceso de 15 a 50 veces en comparación con la producción de preguntas una-por uno.
El nuevo sistema de combinación comienza con una persona que demuestra un comportamiento al robot. Eso puede dar mucha información a los robots autónomos, pero el robot a menudo lucha por determinar qué partes de la demostración son importantes. Las personas tampoco siempre quieren unrobot para comportarse como el humano que lo entrenó.
"No siempre podemos dar demostraciones, e incluso cuando podemos, a menudo no podemos confiar en la información que la gente da", dijo Erdem Biyik, un estudiante graduado en ingeniería eléctrica que dirigió el trabajo de desarrollo de las encuestas de preguntas múltiples"Por ejemplo, estudios anteriores han demostrado que las personas quieren que los autos autónomos conduzcan de manera menos agresiva que ellos mismos".
Ahí es donde entran las encuestas, dándole al robot una forma de preguntar, por ejemplo, si el usuario prefiere que mueva su brazo hacia el suelo o hacia el techo. Para este estudio, el grupo usó el método más lento de una sola pregunta, pero planean integrar encuestas de preguntas múltiples en trabajos posteriores.
En las pruebas, el equipo descubrió que combinar demostraciones y encuestas era más rápido que solo especificar preferencias y, en comparación con solo las demostraciones, aproximadamente el 80 por ciento de las personas preferían cómo se comportaba el robot cuando se entrenaba con el sistema combinado.
"Este es un paso para comprender mejor lo que la gente quiere o espera de un robot", dijo Sadigh. "Nuestro trabajo está haciendo que sea más fácil y más eficiente para los humanos interactuar y enseñar robots, y estoy entusiasmado por llevar este trabajo más allá, particularmente al estudiar cómo los robots y los humanos pueden aprender unos de otros ".
Mejor, más rápido, más inteligente
Las personas que utilizaron el método combinado informaron dificultades para comprender a qué se refería el sistema con algunas de sus preguntas, que a veces les pedían que seleccionaran entre dos escenarios que parecían iguales o parecían irrelevantes para la tarea, un problema común de preferenciaaprendizaje basado. Los investigadores esperan abordar esta deficiencia con encuestas más fáciles que también funcionan más rápidamente.
"Mirando hacia el futuro, no es 100 por ciento obvio para mí cuál es la forma correcta de realizar funciones de recompensa, pero de manera realista tendrá algún tipo de combinación que pueda abordar situaciones complejas con aportes humanos", dijo Palan."Ser capaz de diseñar funciones de recompensa para sistemas autónomos es un problema grande e importante que no ha recibido tanta atención en la academia como merece".
El equipo también está interesado en una variación en su sistema, lo que permitiría a las personas crear simultáneamente funciones de recompensa para diferentes escenarios. Por ejemplo, una persona puede querer que su automóvil conduzca de manera más conservadora en tráfico lento y más agresivo cuando hay poco tráfico.
Los coautores del artículo RSS 2019 incluyen al estudiante universitario Gleb Shevchuk y al estudiante graduado Nicholas C. Landolfi, ambos de Stanford.
Esta investigación fue financiada por el Toyota Research Institute y el Future of Life Institute.
Fuente de la historia :
Materiales proporcionado por Universidad de Stanford . Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :