Tagging de autor versus tagging de lector: profesionales y consumidores
05 de junio, 2007 por Catuxa
Erica Menchen plantea en The trouble with folksonomy (the term) la carencia de términos que diferencien entre el tagging hecho por los autores de los recursos y el realizado por el lector común de éstos:
The trouble is that folksonomy is used to describe systems that allow users to tag their own content, and systems that allow users to tag the content of others (i.e. delicious).
Y considero que como ella apunta sería importante diferenciar ambas actividades, seguro que las tags que utiliza uno y otro para describir el mismo recurso son completamente diferentes y bajo distintos puntos de vista, el analisis de estas diferencias nos aportaría datos para acercar los sistemas de clasificacion a los usuarios y diseñar los vocabularios controlados pensado en ellos, como lectores, y no sólo como expertos en lenguajes documentales.
Al hilo de ésto, y tras los comentarios al post del Social bookmarking en los registros catalográficos, retomo una de las cuestiones que más discusión origina cuando hablas entre colegas de la posibilidad de implantar nuevos tipos de catálogos más sociales y usables, como ya vienen haciendo empresas como Amazon, las reticencias siempre se resumen en una palabra: desconfianza o cómo fiarse de las descripciones y etiquetas que los usuarios/clientes/consumidores añadan de nuestros recursos/productos/objetos.
Pero ¿por qué rechazar y no aprovechar el saber colectivo para mejorar nuestros catálogos, directorios y servicios?
Y es que el tema no es baladí y echa por tierra, en parte, el trabajo (tiempo y dinero) de decenas de años de profesionales catalogadores, clasificadores y arquitectos de información. Además una de los puntos negativos que se les achaca a estos sistemas colaborativos es que podríamos estar generando una amalgama de términos controlados y palabras vacías de contenidos, junto a términos sin sentido, etc, etc, la solución: diferenciar el etiquetado del autor – creador o del profesional del etiquetado del lector – consumidor.
Dicen que 4 ojos ven más que 2, y esa es la filosofía del tagging social y los sistemas basados en folksonomías. Y ahí reside la base del exitoso Del.icio.us. En la idea del poder del saber colectivo, la sabiduría de la muchedumbre la llaman, el Opac Social o Catálogo 2.0 además de enriquecer los registros catalográficos con información útil para el usuario, posibilita que sean los propios lectores los que añadan las etiquetas, comentarios y valoraciones a la información contenida en los registros, emulando lo que hacemos al describir los recursos en el del.icio.us o en furl.
Y automáticamente conseguiremos:
- Una taxonomía generada por los usuarios y para los usuarios
- Una navegación alternativa, por los conceptos generales
- Una nube de etiquetas (tag cloud)
Tres puntos de acceso a la información contenida en los tradicionales sistemas de catalogación y clasificación, que ahora posibilidan no ya sólo el localizar la información que se está buscando sino el encontrar aquello que no sabemos que queríamos; porque no podemos pasar la oportunidad de “captar” todas esas demandas tipo browse frente a las tipo search, porque mientras en las primeras el usuario – consumidor peleará ante las adversidades para encotrar lo que quiere; en las segundas, desistirá en seguir navegando para “ver que hay”.
Hola, enhorabuena por el magnífico contenido de vuestra web.
Yo también creo que es importante diferenciar entre los tags de autor y los tags de lector. Los primeros, a mi ver, tan solo pueden considerarse como herramientas organizadoras del conjunto de “elementos de información” del autor, mientras que el resultado del tagging social de un elemento por los lectores puede dar con una descripción bastante correcta del contenido… y casi del significado. Los ejemplos en la Web crecen continuamente, y es todavía más visible cuando sistemas automáticos son capaces de catalogar elementos no textuales, como imagen o sonido, tan solo por los tags que les dan los lectores.
Y en contra de las taxonomías universales (utópicas a mi ver) como camino a la Web Semántica deberíamos encaminarnos hacia la información universalmente taggeada, un sistema mucho más factible, efectivo y abierto a los cambios inesperados que sin duda nos traerá Internet en los años venideros.
Un saludo.
La tecnologia actual permite compatibilizar todos los sistemas de recuperacion de informacion. Es cuestion de que el usuario… lector, creador, experto utilice el que mas le convenga.
Sinceramente: no veo donde está el problema.
Yo creo que se podría utilizar una “doble contabilidad”: la profesional, bajo un protocolo estricto, bien jerarquizada, bien definida, que nos dé una información “controlada” y, muy importante, que nos dejaría tranquilos como profesionales (porque, ¿qué se han creido estos usuarios, acaso saben más que yo que soy profesional de la cosa?) y otra más informal, subjetiva, de andar por casa…a la medida del esquema mental de quien la quiere utilizar. Para rematar la faena una API bien colocadita en los SIGB que permitan visualizar ambas opciones sin estropear el trabajo de lo profesionales pero dando la frescura de los usuarios
Y luego el libre albedrío de cada cual…
Un saludo
El término ‘tagging’ (al igual que los tags) es naturalmente polisémico, dónde lo único que parecen tener en común todas las actividades enmarcadas bajo esta etiqueta es que se realizan en lenguaje natural (no conozco, ni creo que tenga ningún sentido, el tagging controlado).
Desde luego que habría que diferenciar entre tipos de tagging, porque ofrecen resultados completamente diferentes (subjetividad-intersubjetividad, exhaustividad,…). Así, de lo que deberíamos estar hablando los profesionales de la información, a mi entender, es de indización de autor y de indización social (consumidores).
Cuando un autor ‘taggea’ sus posts o sus fotos en flickr, está realizando indización de autor. Este tipo de indización no tiene nada de nuevo, ni siquiera en la web 1.0. En el caso de del.icio.us, la indización es social, y es la única que puede representar alguna ‘novedad’ en el panorama de la gestión y recuperación de información (el google bombing puede ser, también, entendido como un proceso de indización social).
Yo lo veo como una vía de acceso a la información añadida que en ningún caso puede sustituir a la clasificación/catalogación tradicional en sistemas con un mínimo de complejidad. Los viejos problemas de la polisemia y la homonimia, o la subetividad “incontrolada” no pueden obviarse. Tagging sí, pero como complemento en mi opinión.
Yo me planteo una duda, si utilizamos un sistema doble, indización social e indización profesional/autor. ¿Los usuarios no se encontrarán más comodos con la social que con la profesional o de autor?
Considero que se podría estudiar la opción de permitir a los usuarios la indización social y a su vez otra opción de indicar o señalar un sinonimo en lenguaje controlado que se le ofrezca. Esto viene porque el idioma es polisémico como ha indicado Yussef, y sería una forma u opción de refinar la indización social.
Por otro lado no le veo relación a la web semantica y los tag actuales. La web semántica no solo busca describir y permitir la recuperación del contenido de forma correcta, sino también buscar información muy concreta dentro de la misma, autor, topónicmos, nombres personales del documento, etc…
Los taggs los veo más como una indización muy generalizada, yo al menos no he utiliza más de 5 o 6, y siempre muy generales porque no sabía muy bien como describir el contenido, no me he parado en los datos concretos donde la web semántica será más util.
Un saludo
oskar
La indizacion de autor no es sinonimo de indizacion profesional. Un autor, por muy autor que sea de una obra, no nos garantiza un tag acertado. Sobre todo cuando desconocemos quienes van a ser los usuarios y cuales van a ser sus necesiddes de informacion.
Gracias por vuestos comentarios son realmente provechosos para todos.
Kronoss has hablado de algo que pasé por alto en el post: la importancia del etiquetado social, indización como dice Yusef, para ciertos objetos informacionales como son las imágenes y los audiovisuales. Un tipo de información muy poco favorecida en los resultados de las búsquedas si no está convenientemente analizada y descrita.
Y como apuntas, esta práctica colaborativo de describir y asignar palabras claves a los recursos, es la mejor forma de llegar a ese sueño dorado de la Web semántica.
Fernando tu apuesta es para mi la mejor opción, mantenemos nuestro sistema organizado, limpito y sujeto a un esquema prestablecido controlado, pero también enriquecemos esa información con los comentarios y las aportaciones de nuestros usuarios: los consumidores que tengan que tragarse con patatitas lo que los profesionales hacen.
Como dice Ictineo la tecnologia actual permite compatibilizar ambos sistemas, y nosotros debemos trabajar para ofrecer eso y que cada uno elija.
Yussef, AMEN, lo bueno sería que de una vez por todas, supieramos aprovechar esa novedad y predisposición de los usuarios con su indización social y sacarle partido en nuestra gestión y recuperación de información, también la presentación y difusión.
Luis, sí y sí, por supuesto que no hablamos de echar por tierra el trabajo intelectural de un profesional y que reine el libre albedrio, pero trabajar de cara a un sistema complementario es por supuesto la mejor opción.
Oskar, y si se encuentran más cómodos ¿qué?, dejemosles que naveguen o recuperen información por el vocabulario social y para no ponernos nerviosos mantengamos nuestra profesional vocabulario controlado.
Acerca de tu propuesta, no llego a entenderla del todo, si partimos de una estructura controlada en donde yo como profesional indizo un articulo de coches por AUTOMOVILES, y lueg el usuario lo etiqueta como COCHES, CARROS, BUGAS, etc, estaríamos hablando de un sistema que complementa la indización profesional con la social.
… Y felicidad para todos
Y por que creo que contribuye a la Web semántica?, porque los tags dotan de significado semántico a las cosas, objetos, y demás, se forma un campo semántico propio.
Una alternativa para el problema de cuantificar la incertidumbre de la informacion es la logica difusa.
Asi el Articulo de coches de Catuxa seria por ejemplo
Automoviles p(1) donde podriamos cuantificar la incertidumbre con un valor de 0 a 1.
Asi si por ejemplo el articulo trataba sobre “Automoviles” pero tambien sobre deportes y algo sobre viajes podriamos asignar:
Automoviles p(1)
Deportes p(0,7)
Viajes p(0,5)
Yusef olvida mencionar otros sitios de indización social. No todo se reduce a delicius, señores!! Por fabor no seamos reduccionistas…
Martinez: mslgr. tienes toda la razón del mundo. AMEN.
Ictineo: Aunque sería una posible solución, para ponderar el grado con el que un tag describe un recurso no es imprescindible usar lógica difusa. La técnica más sencilla sería usando la más que conocida función tf·idf. En el caso de la indización social, su cálculo más simple sería dividir el número de usuarios que han asignado X tag al recurso Y, por el número de veces que ha sido usado el tag X en el conjunto de los recursos.
Respecto a la relación entre web semántica e indización social que comentan Oskar y Catuxa, aprovecho para recomendar el paper “Ontologies are us” de Mika.
http://www.cs.vu.nl/~pmika/research/papers/ISWC-folksonomy.pdf
¿que es MSLGR? no me falten el respecto oygan
Yussef: Es otro concepto distinto al de los modelos de espacio vectorial, que tienen desventajas que todos sufrimos en la recuperacion de informacion porque no siempre la frecuencia de un termino en un documento nos avisa de la relevancia del contenido del documento. Por otra parte cuando disminuimos el peso de un termino por la frecuencia de aparicion de ese termino en los demas documentos algo chirria, no nos queda la conciencia tranquila.
Si consideramos los tag (sociales o profesionales) como partes de los documentos a los que van asociados, podriamos en efecto utilizar la misma funcion (frecuencia de términos /(frecuencia inversa de Documento).
Pero seguiriamos teniendo los mismos problemas. Al fin y al cabo estariamos haciendo algo parecido a lo del concurso ¿Quien quiere ser millonario? cuando los concursantes utilizan el comodin del publico, la ayuda consiste en el % de personas que eligen una respuesta:
¿Quien descubrio America?
A Emilio Butragueño 2%
B Flemming 3%
C Cristobal Colon 80 %
D Julian Muñoz 15%
Por otra parte la funcion tf/idf solo seria aplicable al tag social pero cuando el profesional asigana un TAG no puede utilizar “el comodin del publico” ni establecer frecuencias de aparicion en los documentos es aqui tambien donde pienso que la logica difusa nos podria ayudar.
Es solo una opinion, que por supuesto no es mia. Lotfi A. Zadeh lo explica muy bien (casi mejor que yo ¡me cachis!)
La lógica difusa o borrosa parte del principio de que las cosas no son blanco o negro, tal como establece la lógica clásica, sino con tonalidades y con múltiples valores, lo cual se adapta mejor al comportamiento humano.
A riesgo de ser un poco plasta…
subconjunto difuso
Desde los mas profundos pliegues de sus maltratados corazones de documentalistas diganme ¿No es esto lo que andamos buscando?
Por lo tanto, una parte borrosa equivale, en concepto de información, a una familia infinita no enumerable de partes clásicas. La teoría de los subconjuntos difusos es por lo tanto muy distinta y mucho más compleja que la teoría de los conjuntos usuales
http://es.wikipedia.org/wiki/Subconjunto_difuso
Hola Ictineo,
Primero decirte que la lógica difusa aplicada a la IR me parece un tema de gran interés, pero a día de hoy la mayoría de buscadores en entornos reales de usuarios basan su lógica sobre el modelo espacio vectorial. Y debe haber alguna razón.
La función tf·idf referenciada es la más básica de todas. Existen muchas más variantes que ofrecen mejores resultados. Por supuesto el sistema de IR no debería basarse únicamente en la aplicación de esta sencilla función.
Además de los tags, habría que ponderar los recursos. Google lo hace mediante PageRank. En el caso de la indización social tenemos ya un ‘pagerank’ implícito. Recursos con muchos usuarios son más relevantes que recursos con pocos usuarios.
Además, se podría ponderar a los usuarios, para que el voto de un usuario X no valga lo mismo que el del usuario Y. Por ejemplo, si el recurso a taggear trata sobre ‘usabilidad’, tendrían más valor los tags asignados por usuarios que almacenen muchos recursos sobre la misma temática, que aquellos asignados por usuarios cuyos recursos asociados traten generalmente sobre otro tema. Además se podría premiar a los usuarios que indicen generalmente de forma más exhaustiva frente a los que normalmente asignan muy pocos tags por recurso.
En mi opinión, si la indización social es susceptible de ser modelada mediante otro que no sea el espacio-vectorial, sería probablemente mediante modelos basados en semántica latente.
Y por supuesto, en todo momento me refiero a indización social y no a indización de autor, dónde el hecho de que no exista frecuencia de asignación conlleva la (casi) imposibilidad de ponderar mediante algoritmos automatizados.
un saludo!
Yussef, al fin y al cabo solo son modelos de interpretacion de la realidad unos se adaptan mejor que otros y unos son mas complejos que otros.
La “semantica latente” va mas alla en cuanto pretende extraer conceptos semanticos de los documentos y compararlos con los conceptos que los usuarios desearian recuperar, se da un gran paso, pero no deja de ser una estructura algebraica que se compara con una estructura mental. Se sigue utilizando la logica clasica, no se, pero la logica difusa me parece mas compatible con la subjetividad humana.
Como siempre se terminara eligiendo lo mejor de cada metodo, mientras tanto seguimos teniendo “documentos” por un lado y “personas” por otro que son incapaces de comprenderse.
Saludos cordiales.
Con comentarios como estos… es un lujazo postear.
Los sistemas más inteligentes van a coger las informaciones semánticas de los textos sin la necesidad de que los textos originales sean modificados. O sea, podrán usar las paginas web como ellos ya están estructurados hoy