" />
Brújula
ZOOM
GALERÍA
0 COMENTARIOS

Un algoritmo permite que los robots midan la profundidad y orientación de los objetos en una escena

La orientación (correcta) de los robots

Para los seres humanos es relativamente natural orientarnos. Independientemente de la mayor o menor habilidad de cada uno para ubicarse en un lugar nuevo, sabemos localizar puntos de referencia, como un edificio alto o una montaña determinada, y podemos volver a reconocer ese referente después de haberlo perdido de vista unos minutos mientras avanzamos en nuestro camino. Es más, podemos incluso saber cómo nos hemos desplazado respecto a ese punto de referencia. Para las máquinas esto no es tan sencillo, requiere programaciones mucho más complejas, y no siempre son efectivas.

El próximo mes de junio se celebra la Conferencia en visión por ordenador y reconocimiento de patrones que organiza el IEEE (Instituto de Ingenieros Eléctricos y Electrónicos). A la misma acudirán investigadores del MIT para presentar un algoritmo que parece dar solución a los problemas de orientación de los robots desde dos vertientes: la identificación de las principales direcciones en un entorno 3D y la comprensión de los distintos escenarios.

El algoritmo está pensado tanto para ayudar a los robots a orientarse por edificios desconocidos como para los peatones que caminan por una ciudad que no conocen. En ambos casos el principio es el mismo. Funciona identificando las orientaciones sobre un sistema de ejes denominados “Manhattan frames” incrustados en una esfera. Mientras el robot se mueve sólo tendría que observar la rotación de los ejes dentro de la esfera para comprobar su orientación respecto a los ejes. Para reorientarse sólo tiene que saber hacia qué cara de su punto de referencia tiene que dirigirse.

Manhattan frames. Manhattan frames. El algoritmo primero estima las orientaciones de los puntos individuales en una escena (flechas de color naranja), correspondientes con puntos en la superficie de la esfera. Por medio de un proceso iterativo se localiza el conjunto de ejes que mejor se adapta al grupo de puntos (rojos, azules, verdes y las barras), que se vuelven a identificar con los puntos de la escena. Imagen cortesía de los investigadores.  

El mismo algoritmo también simplifica la segmentación del plano, y permite decidir a qué profundidad se encuentran los objetos que hay en un plano. Con esto, los ordenadores pueden construir modelos 3D rectangulares de los objetos de un entorno, e ir almacenando los modelos 3D de los objetos conocidos. El algoritmo trabaja sobre modelos 3D como los capturados por Kinect de Microsoft o los telémetros láser, y lo que hace es usar procedimientos predefinidos para calcular las orientaciones de un gran número de puntos individuales de una escena determinada, que son representados igualmente como puntos en la superficie de una esfera. Cada uno de esos puntos define un ángulo específico y único en relación al centro de la esfera.

La estimación inicial de las direcciones es irregular, y los puntos de la esfera son como racimos sueltos que no son fáciles de identificar. Gracias al uso de información estadística sobre la incertidumbre de esas estimaciones iniciales, el algoritmo intentan encajar todos esos datos y pasarlos del Manhattan frame a los puntos de la esfera.

Según los investigadores, la idea básica es similar al análisis de regresión (la regresión estadística o regresión a la media, por ejemplo, es la tendencia de una medición extrema a estar más cerca de la media en una segunda medición). Sin embargo, al esfera complica todo esto, ya que la estadística clásica se basa en modelos lineales y en las distancias de Euclides, por lo que sólo tiene que sumar dos puntos y dividirlos por dos para obtener la media, pero al entrar en espacios no lineales, al sacar las medias se puede quedar fuera del espacio. Por ejemplo, si una persona está en Tokio y otra en Nueva York, la media dará como resultado algún punto en el centro de la Tierra. Lo que se quiere, sin embargo, es obtener una referencia en la superficie. El nuevo algoritmo trabaja en ese sentido.

Inicialmente se puede aproximar los datos de los puntos de forma bastante precisa sobre cientos de Manhattan frames diferentes, pero el resultado es un modelo tan complejo que deja de ser útil. Aquí el algoritmo aporta la posibilidad de valorar la función que sopesa con exactitud la aproximación sobre el número de frames. El algoritmo comienza con un número fijo de frames, en el rango comprendido entre tres y diez, dependiendo de la complejidad que se espere de la escena. Luego trata de comparar ese número sin comprometer la valoración de la función total. 

El modelo no necesita realizar un trazado exacto de los objetos desalineados, Al navegar por una habitación no se construye un mapa preciso del entorno. Las capturas sueltas sumadas a la aplicación de las estadísticas permiten que un robot complete la tarea sin tropezar con una silla u otro objeto. Una vez que se establecen los Manhattan frames el problema de la segmentación del plano se vuelve mucho más sencillo. Los objetos pequeños, distantes u ocultos, que no ocupan la mayor parte del campo visual crean problemas a los algoritmos de segmentación del plano existentes, porque ofrecen poca información sobre la distancia y la profundidad, y sus orientación no es fiable. Pero si el problema, en lugar de ser muchas se hace una selección de unas pocas de las posibles orientaciones, todo se vuelve más manejable.

El desarrollo de este algoritmo puede suponer un avance considerable en la creación de sistema robóticos cada vez más autónomos. Es el caso de los vehículos autoconducidos o de los drones, que pueden llegar a ser capaces de orientarse por sí mismos en entornos desconocidos.

Fuente: MIT sobre un desarrollo liderado por Julian Straub, estudiante graduado en ingeniería eléctrica y ciencias de la computación, con la asesoría de John Fisher, científico senior de investigación en el MIT de Ciencia Computacional e Inteligencia Artificial, John Leonard, profesor de ingeniería mecánica y oceánica, y Oren Freifeld y Guy Rosman, ambos investigadores postdoctorales en percepción y aprendizaje.

Imagen: Wikimedia Commons. Autor: Manuel M. Vicente, de España

No comments yet.

Deja un comentario