Yahoo y las superunits
21 de abril, 2005 por Catuxa
Mucho se ha hablado acerca de la patente y el famoso Sandbox de Google, y ahora, el que se está convirtiendo en su rival directo, Yahoo, nos deja entreveer en la patente Systems and methods for search processing using superunits, las investigaciones que están llevando a cabo para mejorar la potencia de sus búsquedas.
De la lectura de la patente (de la que se nos advierte en Search Engine Roundtable if you thought the Google patent was hard to read, the language in the Yahoo patent is way worse, and reads like a good VCR manual from China) se puede deducir en que está pensando Yahoo para mejorar su sistema de recuperación de información.
Introduce nuevos conceptos y términos como las superunits, y hace especial hincapié en estudiar la relación entre los términos de la consulta para conocer las semejanzas y conexiones que puedan existir entre ellos y no lanzar las búsquedas por conceptos aislados.
Se trataría de establecer relaciones lógicas entre las palabras que componen la sentencia de búsqueda y ofrecer una resultados de acuerdo a una idea conceptual, ampliando el campo semántico de las palabras, tal y como hace la mente humana, no sólo como resultado de la unión de una secuencia de palabras.
What human beings think in terms of are natural concepts. For example, “hawaii” and “new york city” are vastly different queries in terms of length as measured by number of words but for a human being they share one important characteristic: they are each made up of one concept. In contrast, a person regards the query “new york city law enforcement” as fundamentally different because it is made up of two distinct concepts: “new york city” and “law enforcement. Human beings also think in terms of logical relationships between concepts. For example, “law enforcement” and “police” are related concepts since the police are an important agency of law enforcement; a user who types in one of these concepts may be interested in sites related to the other concept even if those sites do not contain the particular word or phrase the user happened to type. As a result of such thinking patterns, human beings by nature build queries by entering one or more natural concepts, not simply a variably long sequence of single words, and the query generally does not include all of the related concepts that the user might be aware of.
Se da importancia también a la co-ocurrencia, la aparición simultánea de palabras o frases en un texto cuyo análisis automático permite determinar la frecuencia y la distancia entre dos o más palabras o frases que ayudaría a Yahoo a elaborar un tesauro con los términos interrelacionados.
[0069] For example, consider a case where users search for information about their favorite musical performers. Typically, these users would construct a query that includes the name of the performer (e.g., “Avril Lavigne” or “Celine Dion” or “Matchbox Twenty”) and also some other words reflecting the type of information sought, such as “lyrics”, “mp3″, “guitar tabs”, “discography”, and so on; these other words are neighbor units that would tend to appear with names of different performers. Based on the occurrence of similar neighbor units, superunit seed module 412 groups the performer names into a cluster.
Aplicando lo contenido en la patente podría resolverse el problema de la ambigüedad y sinonimia de los términos, evitar errores de significado, establecer búsquedas relacionadas… sin duda podría suponer un acercamiento a la famosa web semántica…
Siempre la misma dualidad. El desarrollo de una nueva tecnología orientada a donde está el futuro, en la localización y recuperación de la información. Me temo una lucha por el control de la información entre los dos grandes, y en cambio, el hecho realmente destacble, que es el del desarrollo de un nuevo tipo de algoritmo, de indudable utilidad para múltiples aplicaciones, quede inaccesible para la Sociedad, tras el cerrojazo de la patente. Patente que por lo que veo, puede llegar a alcanzar a un “concepto” y no sólo a una tecnología, con lo cual ya tenemos un nuevo intento de no sólo monopolizar si no al mismo tiempo impedir futuras competencias.
Espero que la Comunidad de Software Abierto pueda desarrollar algo semejante para evitarlo.
La pregunta es: ¿Está ya hecho o es un futurible?
El mundo de las patentes debería ser un mundo a parte a estudiar. El problema que se patenta el futuro sin que halla un desarrollo previo (Sony patenta matrix) o incluso el pasado (Microsoft patenta el clic y el doble clic).
Demencial.
No se yo, para que tanta preocupacion en buscar informacion mas eficiente, sino luego no se lee.
El problema de las patentes viene de antiguo, el monopolio de una compañía sobre una tecnología, y ahora también sobre los conceptos, podría descalabrar el mercado, si no conllevan una mejora en la velocidad de desarrollo de nuevos productos y cuando además ocasionan daños en los pequeños innovadores, nos encontramos con una estupenda idea, patentada, registrada y que no nos aporta nada.
Lo estamos sufriendo con el tema de las patentes y software, el monopolio de una tecnología no solo impide en parte el desarrollo tecnológico sino que ademas afecta a la economía.
Hablando de patentes Demandan a Microsoft por violar la patente de archivos JPG