" />
ZOOM
GALERÍA
0 COMENTARIOS

La organización ha subido a la cuenta unos 14 millones de fotos de libros de entre 1500 y 1922

Internet Archive sube a Flickr millones de imágenes históricas

Hace casi un año, uno de los edificios de la sede central de Internet Archive, situada en la localidad californiana de San Francisco, sufrió un incendio. En concreto, un centro de escaneado de la organización quedó destruido, pero esto no ha sido un obstáculo para que, apenas nueve meses después, la potencia de la organización a la hora de escanear imágenes y documentos esté a pleno rendimiento. La prueba es la publicación, en la cuenta de Flickr de Internet Archive, de aproximadamente 14 millones de imágenes históricas, procedentes de los libros dominio público con los que cuenta la organización, y que los internautas pueden utilizar libremente.

Como es evidente, la publicación de dichas imágenes se está llevando a cabo de forma progresiva, y en la actualidad ya están disponibles para su búsqueda y descarga unos 2,6 millones de archivos. El encargado del escaneado y publicación de las imágenes es un becario de tecnología y comunicaciones de Internet Archive, Kalev Leetaru. Para llevar a cabo el proceso, tuvo que enfrentarse a un escollo: los libros en los que se encuentran las imágenes ya estaban escaneados, pero el software de OCR empleado para su digitalización en el momento en que los libros se pasaron a formato digital, se centraba en hacer que el texto no sólo fuese comprensible, sino en que también se pudiesen hacer búsquedas en él. Como consecuencia, las imágenes no habían recibido toda la atención necesaria, y el programa empleado para el reconocimiento del texto había descartado todo lo que no reconocía como caracteres. Por tanto, las imágenes se habían quedado fuera.

Para resolver el problema, y poder subir las imágenes de dichos libros, cuya fecha de publicación está comprendida entre 1500 y 1922, Leetaru desarrolló una aplicación para sacar más partido al software de reconocimiento en cuestión, encargado de escanear de nuevo los libros en busca de las partes que el OCR había descartado, que eran todo imágenes. Cuando el nuevo programa encontraba una zona descartada, la convertía automáticamente al formato JPG y la publicaba en Flickr. Además, el software también copiaba el pie de foto de cada imagen, y los párrafos del libro inmediatamente anteriores y posteriores a la fotografía.

El proceso no está exento de fallos y problemas, ya que, por ejemplo, el etiquetado de las fotos es bastante impreciso, aunque el potencial de uso de esta aplicación desarrollada por Leetaru es muy amplio. Con él, cualquier biblioteca u organismo que cuente con un importante fondo de libros puede escanearlos por completo, sin tener que olvidarse de las imágenes en el proceso.

Foto: Internet Archive

No comments yet.

Deja un comentario