Como el tema es muy complejo voy a empezar por lo simple, es decir, por cómo se han descrito las imágenes de manera tradicional. El proceso comenzaba por transcribir el lenguaje visual al verbal mediante palabras claves, que pueden ser libres o controlados:
- el Art and Architecture Thesaurus (AAT),
- el Thesaurus for Graphic Materials (TGM) de la Biblioteca del Congreso de los Estados Unidos o
- el ICONCLASS, sistema de clasificación decimal muy orientado a las representaciones artísticas desde una vertiente iconológica.
- o el Thesaurus Iconographique de Garnier (en francés), son ejemplos claros
Como se mencionó en un post enterior, los indizadores suelen ser humanos, lo que hace que el proceso que sea complejo, caro e irregular. Una solución sobre la que se ha estado investigando son los sistemas automaticos. De momento están lejos de ser tan eficientes como el humano, pero hay varias experiencias interesantes al respecto y muchísima información en red.
Estos sistemas evitan el cambio de lenguaje (o utilizan el lenguaje verbal como complemento) y hablan en los mismos términos que las propias imagenes, por ello se basan normalmente en caracteristicas como el Color, Textura, Formas genéricas, Segmentación e identificación de formas individuales y Disposición espacial relativa de objetos (*)
A estos sistemas genericamente se les suele denominar CBIR: content based image retrieval, es decir,Sistemas de Recuperación de Imágenes por Contenido.
Esta página enlaza experimentos muy interesantes relacionados con imágenes de distintos ámbitos: generales( a-lip: Automatic Linguistic Indexing of Pictures); relacionadas con estudios militares o geograficos Satellite Imagery (Semantics-sensitive Integrated Matching for Picture LIbraries); imágenes del mundo del arte, médicas…
Técnicas como feedback (retroalimentación por relevancia), clustering (análisis de conglomerados), fuzzy (lógica difusa),etc son muy utilizadas. Estos sistemas y sus aplicaciones son muy importantes principalmente cuando no es importante la descripción denotativa de la imagen (imaginemos una fotografia de guerra con un niño llorando, en la que la denotación sería fundamental), y por ello se ha primado el estudio de CBIR en campos como la medicina, el arte, el militar, la meteorología, etc. Pero en estos campos este concepto, por lo que he podido ver, se sustituye por el pattern recognition o procesamiento digital de imágenes (PDI) , un equivalente al datamining en las imágenes (definición mia a grosso modo), pues como dice una definicion bastante clara es q procesamiento digital de imágenes, es una disciplina que desarrolla las bases teóricas y algorítmicas mediante las cuales pued a extraerse información del mundo real, de manera automática a partir de una imagen observada, de un conjunto de imágenes o de una secuencia.
Otra aplicación de los sistemas CBIR es su utilización para incluir las palabras clave obtenidas como metadatos. Así lo he visto en la presentación de este producto ViA2 Platform, un gestor de activos media especializado en la indexación y
anotación de contenidos, incorpora herramientas de análisis avanzado para facilitar la compilación de metadata y con ello el acceso a los vídeos, audios e imágenes almacenados. (pdf de este producto y más info sobre otros desarrollados por la misma empresa).
Otros ejemplos: SIMPLIcity: Semantics-sensitive Integrated Matching for Picture LIbraries. Parecido al anterior: Unified Feature Matching Scheme. Y otros: blobworld; ikona ;
Por último, mencionar las técnicas de Intentos de standarización del etiquetado de imágenes: MPEG-7 del que se puede leer una sencilla explicación: aquí, que pueden ser un importante componente
Comentarios recientes