ZOOM
GALERÍA
0 COMENTARIOS

Cómo enseñar a las máquinas a asociar imágenes con sonidos

El pájaro hace pío pío y el perro guau guau

El pájaro hace pío pío, el gatito miau miau, el perrito guau guau y la vaca hace muuuuu. Desde pequeños aprendemos a relacionar la imagen de los animales, los vehículos o los instrumentos, con sus correspondientes sonidos. Es más, podemos asociar una imagen no real (dibujo) con un sonido, y luego reconocer ese objeto y su sonido al ver la figura real. Realmente, hasta que no nos ha tocado enseñar a las máquinas a desarrollar una inteligencia artificial no nos hemos dado cuenta de lo increíblemente complejos que son los procesos neuronales y mentales.

Investigadores de Disney Research y ETH Zurich se han visto en la necesidad de usar diversas técnicas de Inteligencia Artificial, para crear un sistema que permita a las máquinas aprender automáticamente a asociar imágenes y sonidos. La cosa no es tan sencilla como señalar una foto de un tren y relacionarlo con el “chuuu chuuu”. si lo que se busca es una respuesta ante situaciones reales, lo habitual es que el sonido del tren esté entremezclado con los sonidos de personas hablando, coches que pasan, maletas de ruedas, teléfonos móviles, silbatos, etc. En una película habrá voces en off, música, efectos de sonido, etc. Esto último es importante porque el trabajo de los investigadores se centró en conseguir que dada una imagen, el sistema pudiera devolver automáticamente el sonido correspondiente, y para ello se aprovecharon los datos de las grandes colecciones de vídeo existentes.

Usar vídeos como sistema de entrenamiento tiene su sentido, ya que los archivos incluyen las pistas de audio ya sincronizadas con los fotogramas. Sin embargo, como decíamos antes, en un vídeo puede que no esté claro que sonido es el que corresponde a la imagen, debido a la infinidad de sonidos que se añaden a cada secuencia. Para el oído humano es fácil distinguirlos, pero no lo es tanto para una máquina. Así que lo que han hecho es filtrar los sonidos extraños, de manera que si hay una colección de vídeo de coches, los vídeos que cuentan son sonidos reales de motores de coches tendrán un sonido característico que se repetirá en los distintos vídeos, según explican los investigadores de este trabajo.

Al probar el sistema vieron que al mostrar una imagen lo habitual era que el sistema identificara correctamente el sonido adecuado para cada objeto, y los resultados fueron mejores en los sistemas entrenados con el vídeo filtrado que con los que no contaban con filtro.

Fuente: TechXplore

No comments yet.

Deja un comentario