UIMA: busca por conceptos, no por palabras clave
09 de agosto, 2005 por Catuxa
IBM apuesta por la búsqueda basada en conceptos, en lugar de las tradicionales palabras clave, recuperar los datos en las redes corporativas.
El director de tecnologías de búsquedas de IBM Research, Arthur Ciccolo, resaltó la ausencia de investigación en este camino por parte de las grandes compañías de búsquedas en Internet, como Google, Yahoo y Microsoft se sigueen centradas en la Web pública, dejando a un lado la recuperación de información en la Intranets, y dado el volumen de datos que cada día generan, intercambian y almacenan las esmepresas, no debe ser, en absoluto, un tema para dejar en el olvido.
IBM, que recientemente presentó el proyecto de la nueva arquitectura de información de su Intranet, apostando por las folksonomías, pondrá a disposición del público Unstructured Information Management Architecture (UIMA), una tecnología que promete analizar textos, entre documentos y otros medios, para entender contenidos latentes, relaciones y hechos.
Según informan en El Navegante, IBM ya está ofreciendo su ‘software’ WebSphere OmniFind, que ayuda a los usuarios a realizar búsquedas de datos sin estructura en una variedad de formatos o lenguajes, ser localizados en bases de datos, archivos de correo electrónico, grabaciones de sonido, imágenes o video.
Los resultados que finalmente vean la luz y de los que podremos aprovecharnos, son parte de un trabajo de más de 4 años de IBM Search en colaboración con la Agencia de Proyectos de Búsqueda Avanzados de la Defensa de Estados Unidos.
Por el momento ya podemos descargarnos un kit de prueba y conocer un poco más del proyecto en IBMs alphaWorks Site.
- Nota de prensa desde IBM acerca de UIMA: IBM to Open Source Technology for Analysis of Unstructured Information
No se hasta que punto la búsqueda de datos sin estructurar puede ser realizada de manera más o menos lógica por una máquina (me lio mucho con estos términos la verdad), aunque en el gráfico parece que lo que hace el software es precisamente estructurar los datos “sobre la marcha” (seguramente estoy equivocado). Este proyecto de IBM me resulta bastante confuso, sobre todo porque dicen que se basa en “conceptos” y no en palabras clave. Pero no todo el mundo utiliza un concepto en el mismo sentido no? Para unificar sentidos, ¿no necesitaríamos…las palabras clave? Por otra parte, siendo un proyecto en el que está metido el Departamento de Defensa americano, seguro que se guardan lo mejor para ellos.
Hombre, el proyecto tiene muy buena pinta. He estado revisando la página de IBM y se puede descargar “algo que funciona”, no sé si es todo el toolkit y una versión reducida y se guardan algo para ellos.
De todas formas, Google News es un claro ejemplo de lo que se puede llegar a hacer para obtener algo estructurado a partir de miles de fuentes, todas ellas distintas entre sí.
Guillermo tan solo conozco del proyecto lo que he leído en su web y he resumido en el post, tampoco puedo comentar nadamás de la parte técnica y del intringulis de cómo funciona UIMA puesto que me faltan conocimientos técnicos y especícos de procesamiento de conceptos por medio de robots, pero Fernando creo que está trabajando en ese campo y quizás nos ilumine un poco.
Y al menos, como apunta Fernando nos permiten acceder a una demostración de su proyecto (sin duda se guardan muchas cosas para ellos!!!).
Mi comentario anterior tan sólo eran unas reflexiones hechas tras una primera lectura del artículo (no quería dar la impresión de estar en contra). Lo cierto es que yo tampoco creo tener los suficientes conocimientos técnicos sobre cómo funciona esto. Esperaremos a que Fernando nos pueda iluminar algo más porque parece interesante.
Jejeje, pues el iluminador de momento dice que ha de instalar el Java en su portátil. Sin embargo prometo comentar alguna cosilla pronto.
Guillermo, entendí tu comentario como unas reflexiones, disculpa si mi constestación parecía decir otra cosa. Esperaremos al “iluminador”… seguro que logramos aprender algo del asunto, a ver esas clases, Fernando…
Pues llevo dos días pegándome con el Java en Linux y no hay forma. Le tendré que robar el ordenador a mi hermana para poder utilizarlo en Windows :S
¿La tiranía de Windows? Te seguimos la pista Fernando a ver si nos puedes contar más sobre el tema