De unos años a esta parte se ha normalizado la presencia de robots en las casas y cada vez son más frecuentes, ya sean para cocinar, limpiar, para llevarnos la agenda, etc. El siguiente paso que quieren dar los ingenieros del MIT es crear robots ayudantes del hogar, capaces de seguir comandos de un nivel más elevados, y que sean capaces de recibir y ejecutar órdenes del tipo “Ve a la cocina y tráeme un café”.
Para llevar a cabo estas tareas de alto nivel, los investigadores creen que los robots tendrán que ser capaces de percibir su entorno físico como lo hacen los humanos.
“Para tomar cualquier decisión en el mundo, necesitas tener un modelo mental del entorno que te rodea”, explica Luca Carlone, profesor asistente de aeronáutica y astronáutica en el Massachusetts Institute of Technology (MIT). “Esto que parece sencillo para los humanos, es un problema para los robots, pues tienen que transformar los valores de los píxeles que ven a través de una cámara, en una comprensión del mundo”.
Carlone y sus estudiantes han desarrollado una representación de la percepción espacial para los robots que está modelada según la forma en que los humanos perciben y navegan el mundo.
El nuevo modelo de percepción espacial de Carlone y Rosinol es el primero en generar un mapa 3D del entorno en tiempo real
El nuevo modelo, al que llaman Gráficos Dinámicos de Escena 3D, permite a un robot generar rápidamente un mapa 3D de su entorno que también incluye objetos y sus etiquetas semánticas (una silla frente a una mesa, por ejemplo), así como personas, habitaciones, paredes y otras estructuras que el robot probablemente esté viendo en su entorno. Además, también permite que el robot extraiga información relevante del mapa 3D, para consultar la ubicación de los objetos y las habitaciones, o el movimiento de las personas en su camino.
“Esta representación comprimida del entorno es útil porque permite a nuestro robot tomar decisiones rápidamente y planificar su camino”, comenta Carlone. “Esto no está muy lejos de lo que hacemos como humanos. Si necesitas planear un camino desde tu casa hasta el MIT, no planeas cada una de las posiciones que necesitas tomar. Sólo piensas en las calles y puntos de referencia, lo que te ayuda a planear tu ruta más rápido.”
“El modelo Gráficos Dinámicos de Escena 3D, permite a nuestro robot tomar decisiones rápidamente y planificar su camino”.
Más allá de la ayuda doméstica, Carlone dice que los robots que adoptan este nuevo tipo de modelo mental del entorno también pueden ser adecuados para otros trabajos de alto nivel, como trabajar codo con codo con la gente en una fábrica o explorar un lugar de desastre para los supervivientes.
“Esencialmente estamos permitiendo a los robots tener modelos mentales similares a los que usan los humanos”, dice Carlone. “Esto puede impactar en muchas aplicaciones, incluyendo autos auto-conducción, búsqueda y rescate, manufactura colaborativa y robótica doméstica.
Una mezcla de mapeo
Por el momento, la visión y la navegación robótica ha avanzado principalmente a lo largo de dos rutas: la cartografía 3D, que permite a los robots reconstruir su entorno en tres dimensiones a medida que exploran en tiempo real; y la segmentación semántica, que ayuda a un robot a clasificar las características de su entorno como objetos semánticos, como un coche frente a una bicicleta, lo que hasta ahora se ha hecho principalmente con imágenes 2D.
El nuevo modelo de percepción espacial de Carlone y Rosinol es el primero en generar un mapa 3D del entorno en tiempo real, a la vez que etiqueta los objetos, las personas (que son dinámicas, al contrario que los objetos) y las estructuras dentro de ese mapa 3D.
El componente clave del nuevo modelo del equipo es Kimera, una biblioteca de código abierto que el equipo desarrolló previamente para construir simultáneamente un modelo geométrico 3D de un entorno, mientras codifica la probabilidad de que un objeto sea, por ejemplo, una silla frente a un escritorio. “Como la criatura mítica que es una mezcla de diferentes animales, queríamos que Kimera fuera una mezcla de mapeo y comprensión semántica en 3D”, explica Carlone.
Kimera trabaja tomando imágenes de la cámara de un robot, así como mediciones inerciales de los sensores a bordo, para estimar la trayectoria del robot o de la cámara y para reconstruir la escena como una malla 3D, todo en tiempo real.