Investigadores crean técnica de visión que permite a los ordenadores mejorar su comprensión 3D a partir de imágenes en 2D

Resulta asombrosa las capacidades que posee el ojo humano, especialmente cuando se trata de percibir la profundidad en imágenes 2D. Sin embargo, hacer que los ordenadores puedan replicar esta característica ha significado un verdadero desafío.

La razón tras esto es que una buena parte de la información presente en una escena 3D se pierde al ser esta transferida al formato 2D, haciendo que resulte difícil para un ordenador reconocer y procesar cada elemento bajo esta dimensión.

De hecho, aunque existen métodos que pueden resultar de utilidad para procesar una serie de imágenes en 2D para generar información en 3D, estas tienen algunas limitantes que dificultan este proceso.

Sin embargo, hace poco se dio a conocer la creación de algo llamado correspondencia virtual por parte de un grupo de investigadores del MIT, con la cual esperan poder corregir las deficiencias presentes en este proceso para obtener un mayor margen de éxito respecto a la metodología tradicional.

Para ello, han implementado los principios presentes dentro de algo llamado «estructura a partir del movimiento».

Un ejemplo para entender este concepto sería aquel donde tomamos dos imágenes de un objeto: una desde el lado izquierdo y la otra desde el derecho. Luego ambas imágenes son contrastadas con el fin de encontrar puntos o pixeles en común. Con base en esta información un investigador podría establecer el ángulo desde el cual cada cámara tomo la foto, así como la dirección en la que apuntaban.

De esa manera sería posible posteriormente llevar a cabo una triangulación, donde se calcule la distancia hacia un punto especifico del objeto capturado en la imagen.

Sin embargo, para que el enfoque pueda resultar efectivo es necesario que el nivel de solapamiento sea grande, ya que de existir pocos puntos en común entre las imágenes tomadas, el sistema falla.

Por tanto, la estructura a partir del movimiento requiere que dos imágenes tengan puntos en común para poder establecer un triángulo que permita conectar las cámaras con el punto en común y determinar con ello la profundidad.

Cómo funciona el nuevo sistema

En el caso de la correspondencia virtual esta va un paso más allá. Si por ejemplo a un gato se le toma una foto desde el lado izquierdo y otra desde el lado derecho, es posible que en la primera foto sea notoria una mancha en la pata izquierda delantera.

Tomando en cuenta que la luz se proyecta en línea recta, se podría recurrir al conocimiento general que se tiene de la anatomía del gato para determinar el punto donde saldría el rayo de luz proveniente de la cámara hacia la pata en el otro lado del gato.

En caso de que ese punto fuese visible en la foto tomada desde el lado derecho, entonces se podría utilizar la triangulación para calcular distancias en la tercera dimensión.

Al final, el equipo involucrado en esta investigación espera conseguir que los ordenadores lleguen a interpretar el mundo tridimensional de la misma manera en que lo hacen los humanos.

Para ello, será necesario fabricar sistemas que no solo sean capaces de interpretar imágenes fijas, sino también que puedan comprender videoclips y películas enteras.

Fuente info
Autor: Alexander Alvarado

Investigadores crean técnica de visión que permite a los ordenadores mejorar su comprensión 3D a partir de imágenes en 2D

Cómo funciona el nuevo sistema

Entradas recientes

Categorías