Google y la indexación automática de las imágenes

El lunes 17 de noviembre Google publicaba un nuevo post en su Research Blog titulado  “A picture is worth a thousand (coherent) words: building a natural description of images”. En él se resumían las principales mejoras de un equipo de investigación en el campo de la indexación automática del contenido de las imágenes.

LOS ANTECEDENTES

Para entender estos resultados es necesario contextualizarlos en el tiempo. La historia de las aplicaciones de identificación visual empiezan en 1957 cuando Frank Rosenblat desarrolló Perceptrón, un modelo de red neuronal que podía reconocer patrones gráficos. En 1986 Robert Hecht-Nielsen llevó adelante el sistema Counter-propagation  especializado en la comprensión de imágenes y en 1989 Kunihito Fukusima creó el sistema Neocognitrón. Ya en los 90 apareció el sistema Quality Plus, creado por la empresa HNC, destinado al ámbito de la inspección de calidad de productos basada en la imagen y el buscador SIMPLicity (Semantics-sensitive Integrated Matching for Picture Libraries) de la Stanford University, capaz de encontrar imágenes similares por internet. En 2002 surgió RetrievalWare Image Server, elaborado por Excalibur Technologies, que usando técnicas de redes neuronales era capaz de indexar y recuperar imágenes mediante colores, figuras y texturas. A su vez se puso en marcha QBIC (Query by Image Content), una plataforma mixta desarrollada por IBM, combina el sistema visual puro integrado en un sistema lingüístico que se aplicó al fondo de imágenes del State Hermitage Museum

El salto más destacado lo encontramos con Riya, empresa creadora de un software capaz de identificar formas geométricas, tonos y rostros humanos que en 2010 era considerada una de las compañías pioneras en el reconocimiento facial poseedora, además, de varias patentes en este campo, en análisis fotográfico y búsqueda visual desde dispositivos móviles.

riya
Google, por su parte, consciente de la enorme extensión social de la fotografía digital y la sobreabundancia de fotografías, no obvió los avances en el software destinado al tratamiento de la imagen y en 2004 compró Picasa. En 2005 trató de comprar Riya pero no lo consiguió hasta 2010. Justo en el año anterior, 2009, lanzó Google Similar Images, una herramienta que permite realizar búsquedas por similaridad visual.  Al año siguiente compró Like.com, propiedad de Riya, un buscador de productos comerciales basado en un sistema visual puro o sistema CBIR (Content-Based Image Retrieval), es decir, un sistema que permite realizar consultas y recuperaciones de información a partir, sobre todo, de los atributos formales de las imágenes. Like.com se convirtió así en Google Shopping. Todo apuntaba a un mejoramiento de las funcionalidades de Picasa, de las búsquedas de Google Image Search y de las oportunidades que se avizoraban en Android. No tardaron en aparecer avances relacionados como la aplicación Google Goggles.

 

HACIA LA INDEXACIÓN AUTOMÁTICA DEL CONTENIDO DE LAS IMÁGENES

Si algo podíamos criticar de todas estas herramientas era que existían importantes márgenes de error y de que se trataban de sistemas muy restringidos debido a la complejidad que significa la extracción de temáticas en imágenes que presentan un alto grado de abstracción. La reciente investigación, consultable de forma detallada en este artículo científico, es un avance importante y permite un grado de descripción en escenas complejas, bastante preciso. Además de la identificación de objetos es capaz de establecer relaciones entre ellos.

El avance en general es sorprendente no solo por la enorme cantidad de objetos reconocibles sino también por su combinación con los avances en  la traducción automática. Aquí ya no traducimos del castellano al inglés o viceversa sino de la imagen, del lenguaje visual puro, a un lenguaje textual en el que no sólo se clasifica sino que, además, se construyen frases que proponen un título que recoge el contenido de las fotografías. A pesar de que el sistema todavía es experimental y tiene obvias limitaciones, se han mejorado las probabilidades de acierto y es previsible que la calidad de los resultados y la precisión en las descripciones seguirán mejorando.

Sin título-1

¿EL FUTURO?

En este escenario de mejora del rendimiento en la indexación automática, la cuestión, también está en el futuro. Es previsible un contexto tecnológico en el que, la cada vez más creciente, navegación móvil tenga porcentajes muy elevados y esté basada en búsquedas realizadas a partir de atributos visuales. Las acciones comerciales de las empresas en los entornos digitales podría estar centrada en interficies con diseños muy intuitivos con ecuaciones de búsquedas visuales que permitan seleccionar tipo de producto, color, forma, atacando las bases de datos desde interrogaciones puramente visuales y con índices de pertinencia y relevancia muy elevados. Crecerían así la tipología de SARI (Sistema Automatizado de Recuperación de Imágenes) que son CBIR (Content-Based Image Retrieval), es decir sistemas visuales puros en los que la recuperación y la consulta se basan, sobretodo, en los atributos formales de las imágenes.

En este escenario, ¿sería necesaria la traducción de lo visual a lo textual o quizá sería más realista pensar en una traducción de lo textual a lo visual? Evidentemente, podemos afirmar que por largo tiempo existirán espacios de abstracción en las que estos sistemas no tengan total cabida o se deban combinar (sistemas de representación lingüística y recuperación visual, sistemas de representación visual y recuperación lingüística o sistemas mixtos). Por ejemplo: ¿serán capaces las máquinas de catalogar emociones? ¿y de hacer selecciones? seguramente sí, ya que el software de muchas cámaras compactas ya identifican sonrisas, ojos abiertos, entre otros aspectos y a su vez, son capaces de identificar escenas sobreexpuestas, subexpuestas, trepidadas o con otros supuestos errores técnicos. En todo caso, en niveles de abstracción muy altos dónde la intencionalidad del autor esté por encima de la capacidad de comprensión del software, las plataformas de indexación automática únicamente podrán ser un complemento. Aquí es dónde adquieren sentido las palabras de Roland Barthes cuando dice que  “percibir el significante fotográfico no es imposible […], pero exige un acto secundario de saber o reflexión”.

Share on Google+Tweet about this on TwitterShare on FacebookShare on LinkedInPin on PinterestShare on TumblrEmail this to someone
 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *