Inicio » Notas ThinkEPI 2007 » Cuando la búsqueda se vuelve semántica: SWoogle

Cuando la búsqueda se vuelve semántica: SWoogle

Cómo citar este artículo:
Méndez, Eva. “Cuando la búsqueda se vuelve semántica: SWoogle“. Anuario ThinkEPI, 2007, v. 1, pp. 65-68.

Cuando la búsqueda se vuelve semántica: SWoogle

Hablar de buscadores

En estos días en que todo el mundo, para bien o para mal, habla de Google, yo voy a hablar de Swoogle1, algo así como un Google para la Web semántica.

Todos los días se usa Google, pero no todos los días se habla tanto de EL BUSCADOR con mayúsculas como en las últimas semanas. Desde el Herald Tribune2 hasta El País3 toda la prensa internacional ha hecho eco de la noticia de la competencia europea a Google, noticia que además ha sido “bloggeada” y comentada por doquier4.

Hasta ahora, Quaero es una compañía de marketing de Charlotte, Carolina del Norte (USA), que no la debió de ver más gorda en su vida:

  • por la cantidad de accesos que ha tenido en las últimas semanas (quién más quien menos, deseosos de ver cuál es la promesa Europea de la recuperación de información en la Web, hemos tecleado esa dirección, ya que la buena5 se cerró al público a la espera de la estelar aparición)
  • y por la “pasta” que le van a pagar los de Thomson o los franceses o los alemanes o Chirac o Merkel o quien sea, por la compra del dominio.

Mientras la vieja Europa trata de dar forma a su política de información a través de i2010 (donde las bibliotecas tendrán mucho que decir, por cierto) y de hacer frente al dominio cultural electrónico anglosajón, particularmente al norteamericano, en Estados Unidos se siguen haciendo buscadores en las Universidades (que quién te dice que no coticen un día en bolsa).

En 1994 fueron Filo y Yang y crearon Yahoo!, en 1998, fueron Brin y Page y crearon Google. En el caso de SWoogle [1], el buscador no sale de las aulas de Stanford, sino de los laboratorios de investigación de la Universidad de Maryland en Baltimore en el seno del grupo eBiquity6 y de un proyecto financiado, desde 2004, con todos los honores (y el dinero que suele dar tan preciada institución para el fomento de la investigación en USA) por la Nacional Science Foundation. El grupo eBiquity está dirigido por Tim Finin (otro Tim que añadir a la historia de la Web, desde mi punto de vista, junto a Tim Berners Lee, Tim O’Reilly y Tim Bray) y trabaja, entre otros temas, todas las tecnologías relacionadas con la Web Semántica, sobre todo metadatos, ontologías y redes sociales basadas en FOAF7.

Yo voy a hablar de Swoogle en primer lugar porque es un compromiso que tácitamente adquirí en una nota anterior de Thinkepi8, y porque el jueves pasado se ha lanzado la nueva versión 2006 del proyecto con grandes mejoras que lo hacen muy prometedor y cuanto menos, interesante.

La Web Semántica: un contexto tecnológico que necesita herramientas (y buscadores)

Si los buscadores son el tema más en boga en los últimos días, la Web Semántica es uno de los temas más boga en los últimos años y cobra especial interés si correlacionamos ese conjunto de tecnologías y siglas (RDF, XML, OWL, etc. etc.) con los buscadores.

Uno de los grandes problemas de la Web Semántica –que he comentado ya en otras ocasiones9–, es que las herramientas y aplicaciones pertenecen aún, a la nebulosa del middleware, difícil de hincarle el diente por ajenos a la programación. Sin embargo el gran problema es que no existen buscadores de carácter global que permitan búsquedas all-the-web basándose en RDF10 o en metadatos DC, que eternizan la situación pescadilla que se muerde la cola destacada en 1997 en los estudios, workshops, y demás eventos reflexivos en torno a la validez o no de los metadatos y a la búsqueda de masa crítica en contexto de información Web-global11: los creadores de contenidos Web no usan metadatos, porque los buscadores no indizan en función de esos metadatos y los buscadores no indizan en función de los metadatos, porque los creadores de información no los usan o lo hacen de una manera errónea y/o capciosa.

Hasta ahora, los buscadores de carácter general (ni Google, ni Quaero supongo) no indizan RDF, ni metadatos, ni basan su recuperación por materias en ontologías, con lo cual la Web Semántica queda reducida a:

  • Un conjunto de sitios (islas semánticas) que utilizan sus ontologías ad-hoc o desarrollan sus motores de búsqueda aplicados a su metainfomación en RDF o OWL, dentro de un sitio o dominio informativo particular, como por ejemplo SWED12, un portal semántico para información de medio ambiente.
  • Un conjunto de aplicaciones que entienden algunas notaciones semánticas (RSS, FOAF, basadas en programación relativamente sencilla (Ruby, Ajax), que permiten agregar y difundir contenidos en un contexto de información dirigido al usuario (a un usuario cooperativo), a las que denominamos de una forma intuitiva, y no menos afortunada, Web 2.0.

Entretanto la Web Semántica definida como una base de datos enlazada globalmente que permita búsquedas precisas y fiables13 o el motor de búsqueda inteligente que vaticinaba Tim Berners Lee, el motor de búsqueda del I want to buy a pair of shoes14 es algo completamente parcial todavía.

SWoogle2006

Swoogle es un sistema de indización y recuperación para Documentos de la Web Semántica, lo que se denomina en SWoogle (SWDs, Semantic Web Documents), o lo que es lo mismo documentos escritos básicamente en RDF y OWL, aunque también DAML en algunos casos. Este buscador recupera, procesa, analiza e indiza documentos SW que estén disponibles online, pero lo más curioso es que lo hace a través de un sistema de búsqueda y resultados de interfaz Web similar a Google.

El grupo de trabajo de la Universidad de Maryland que ha desarrollado este proyecto eBiquity6, parte de la base de que Google ha cambiado la forma en que accedemos a la información Web y que se ha convertido en una tecnología clave para la búsqueda de información. Por ello, SWoogle, en vez de crear una alternativa –semántica– a Google, crea un Google para la Web Semántica, lo cual me parece, tanto desde un punto de vista estratégico, como operativo en términos de funcionamiento y aceptación, brillante.

La nueva versión de SWoogle tiene un modelo y una base más simple que la anterior, y hasta un diseño mucho más claro. Recoge más de 850K de documentos Web semánticos recolectados de la Web, bien buscando directamente en ficheros RDF y OWL o a través de páginas Web (HTML) que pueden contener documentos SW. Más de 10.000 ontologías disponibles en la Web (1.0, y 2.0), almacenadas (de momento, no en triples) en una base de datos MySQL en forma de URIs, pero también permite buscar en los términos de cada vocabulario/esquema/ontología. Por ejemplo, podemos buscar todos los esquemas que contienen la propiedad “title”.

Ahora mismo, SWoogle es una herramienta utilísima para los desarrolladores de la Web semántica y para los agentes de software basado en estas tecnologías:

  • Para estudiar la magnitud y el crecimiento de la Web semántica
  • Para recopilar y buscar clases y propiedades (términos de la Web Semántica, SWTs) o las ontologías en que se conforman.
  • Para apoyar herramientas de carácter semántico.

Hasta hace muy poco tiempo las herramientas semánticas, me refiero a editores de ontologías o herramientas para la creación de esquemas de metadatos, habían sido de acceso libre como Protégé15 o las aplicaciones de MindSWap (SWOOP y SMORE)16 y/o pertenecientes a proyectos en desarrollo. Sin embargo, también a principios de este año, la famosa compañía Altova (los creadores de XMLSpy) han lanzado SemanticWorks17 un editor de vocabularios que trabaja tanto con RDF y XML como con N-triples.

SWoogle es una herramienta para medir, controlar y analizar los vocabularios de la Web semántica u Ontologías (A efectos de SWoogle tenemos que considerar el Dublin Core o FOAF como una Ontología -que a mí particularmente me parece erróneo y no me gusta nada, pero…-). Aún no es un buscador dirigido al usuario final para encontrar recursos Web, sino que es más bien un “parabuscador” para buscar, clasificar e incluso validar documentos y vocabularios de la Web Semántica.

Otros buscadores de la Web Semántica y el Futuro de la búsqueda semántica

SWoogle no es la única iniciativa de un buscador para la Web Semántica, existen otros parabuscadores (me he inventado la palabra, pero me gusta, refleja la misión de estas herramientas de buscar ontologías y vocabularios dirigidos a los agentes de software para que éstos mejoren las búsquedas):

  • SemanticWeb Search18, que tiene pinta, y para mi gusto vocación, comercial que sí que busca, en este caso no sólo vocabularios sino recursos basados en ellos según el parámetro de query: “busca un recurso que sea de un tipo de vocabulario con alguna propiedad que contenga el término x, donde el “vocabulario” puede ser RDF, RSS, FOAF, DOAP19 o calendarios y otras aplicaciones sencillas RDF y “x” es una propiedad específica de ese tipo de vocabulario.
  • Existen asimismo tentativas, más o menos exhaustivas de inventariar las ontologías existentes en la Web Semántica, pero en ningún caso con las opciones de búsqueda que ofrece SWoogle. Algunas de estas iniciativas son Ontology Library (de SemanticWeb Central)20 o el propio proyecto del Consorcio (W3C) en este sentido: Ontaria21, que lleva un tiempo en revisión, esperemos que para mejorar sus resultados, que nunca han sido como los de SWoogle.
  • También la investigación europea a hechos sus pinitos en buscadores semánticos como el caso del proyecto del INRIA (Institut National de Recherche en Informatique et en Automatique), la primera casa europea del W3C, que ha desarrollado CORESE (Conceptual Resource Search Engine)22, un motor de búsqueda basado en gráficos conceptuales, que no he tenido tiempo de instalarme, pero que entiendo que se centra en la visualización de la Web Semántica.

A pesar de todos estos proyectos de búsqueda de ontologías y vocabularios para la Web Semántica, aún no podemos hablar de una búsqueda global basada en RDF, solo de búsquedas globales de y en RDF.

La clave de la recuperación de información en esa gran base de datos enlazada a la que nos referíamos antes13, quizás tenga que ver con el desarrollo de un lenguaje de consultas que dote a esa “especie de base de datos” de la Web Semántica, de la misma consistencia que SQL da a las bases de datos relacionales reales. SPARQL23 es ese lenguaje de consulta donde definitivamente se darán la mano SW y Web 2.0. permitiendo un lenguaje de interrogación preciso para RDF y un protocolo de recuperación que permita aunar los recursos distribuidos. La existencia del lenguaje y del protocolo SPARQL, junto a otras tecnologías como los microformatos, hacen cada vez más válida mi idea de que la Web 2.0 es (como todo) una actitud… Pero si queréis de esto hablamos otro día (¡Vaya! Acabo de adquirir otro compromiso con el profesional de la información que piensa –Thinkepi–)

Más información sobre SWOOGLE:

Notas:

  1. SWoogle
  2. Europeans Weigh Plan on Google ChallengeInternational Herald Tribune, 18 de enero de 2006.
  3. Europa desafía el poder de GoogleEl País, 15 de enero de 2006 y “Quaero: los ojos de Europa en la Red: análisis español al buscador franco-alemán que se presenta en febreroEl País, 27 de enero de 2006.
  4. Véase, sin ir más lejos, la estupenda nota de Thinkepi de Ernest Abadal y Lluis Codina sobre la excepción cultural y la polémica de Quaero, publicada el pasado 23 de enero.
  5. Thomson, el líder del consorcio europeo de Quaero, cerró la página de pruebas del buscador el pasado 12 de enero.
  6. eBiquity (University of Maryland).
  7. FOAF (Friend of A Friend) es un vocabulario RDF para describir personas y relaciones entre personas que fundamenta algunas de las Redes sociales de hoy en día como LiveJournal o MyOpera. Más información sobre FOAF.
  8. http://www.thinkepi.net/repositorio/10-anos-de-dublin-core-y-muchos-mas-de-vocabularios/
  9. “La Web Semántica: una Web más bibliotecaria”. Boletín CLIP, nº 41.
  10. RDF (Resource Description Framework)
  11. Metadata Workshop: Report of the Workshop Held in Luxembourg, 1 and 2 December, 1997. [s.l.]: European Commission, Directorate General XIII – E/4, February 1998, pp. 9-10, 13.
  12. SWED (Semantic Web Enviromental Directory).
  13. Esta es la definición de Web semántica que encabeza los trabajos del ILRT (Institute for Learning & Research Technologies de la Universidad de Bristol) en este sentido.
  14. Tim B. Lee. Weaving the Web: the original design and ultimate destiny of the World Wide Web by its inventor. San Francisco: HarperCollins, 1999, p. 133.
  15. Protégé
  16. SMORE y SWOOP son aplicaciones Opensource desarrolladas también en la Universidad de Maryland, en este caso en el laboratorio MindSWap para editar ontologías.
  17. SemanticWorks
  18. SemanticWeb Search
  19. DOAP: Description of a Project es un vocabulario RDF, similar a FOAF en cuanto al tipo de propiedades que maneja, para describir proyectos de software opensource.
  20. Proyecto de inventario o repositorio de ontologías de SemWebCentral.
  21. Ontaria (W3C)
  22. CORESE
  23. SPARQL: Query Language and Data Access Protocol for the Semantic Web. El lenguaje de consultas es un borrador del W3C y el último borrador del Protocolo de acceso SPARQL es del 25 de enero.