miércoles, junio 26, 2013

DAFO de la Web Semántica


Para estudiar la problemática de la tecnología de la Web actual y compararla con la Web Semántica vamos a utilizar una metodología (muy popular en el campo de la economía) denominada DAFO. Esta metodología consiste en el estudio de la situación competitiva de una empresa dentro de su mercado, así como de las características internas de la misma para  determinar sus debilidades, amenazas, fortalezas y oportunidades. Realizaremos, por lo tanto, un análisis DAFO adaptado a la tecnología Web. Esta adaptación la definimos de la siguiente manera:

  1. Debilidades: Son aspectos que limitan o reducen la capacidad de desarrollo efectivo de la tecnología, constituyen una amenaza para la consolidación de su implantación y deben, por tanto, ser controladas y superadas.
  2. Fortalezas: Son ventajas competitivas que deben y pueden servir para competir con otras tecnologías alternativas. 
  3. Amenazas: Son las circunstancias de futuro que pueden impedir o reducir el uso de una tecnología. 
  4. Oportunidades: Son las circunstancias de futuro que pueden favorecer el uso de la tecnología.

   La gran ventaja que tiene la Web hoy en día es lo fácil que resulta diseñar un sitio web. Sin duda esto es su gran fortaleza. Además, en el futuro, la Web será cada vez más utilizada porque se ha convertido en el medio más popular para el acceso a la información desde cualquier dispositivo. El problema es que esta popularidad que hoy ya existe está afectando negativamente a la eficacia de las búsquedas: cada vez los buscadores proporcionan más información de peor calidad, es decir, devuelven más páginas de información que no está buscando el usuario, de manera que éste pierde cada vez más tiempo en encontrar lo que verdaderamente necesita, o simplemente se conforma con un contenido de peor calidad. En definitiva, se ha alcanzado un punto de inflexión donde las ventajas se convierten en desventajas. Desde mi punto de vista, posiblemente me deje algo, el  DAFO de la Web es algo así:

  1. Debilidades: Dependencia del rendimiento en función del incremento exponencial del volumen de páginas web
  2. Fortalezas: Descentralizado, muy participativo (foros, blogs, wikis, redes sociales, etc..), facilidad para generar páginas web, accesibilidad y actualización constante de contenidos
  3. Amenazas: El crecimiento exponencial de la Web, implica la pérdida de eficiencia/calidad de los buscadores (mayor dedicación del usuario para encontrar lo que realmente necesita).
  4. Oportunidades: Popularidad

Afortunadamente se han desarrollado una serie de estándares que permitirán que las búsquedas de información se optimicen. En realidad, cuando estos estándares en los que se basa la Web Semántica (RDF, RDFa, OWL y SPARQL) se incorporen a la Web, las búsquedas serán mucho más eficaces. El problema es que estos estándares no son sencillos y requieren personas especializadas. Se identifican, por tanto, dos grupos de problemas en la implantación de la Web Semántica. Un primer problema, en esta visión de la Web, es la definición de ontologías. Toda la Web Semántica  se basa en la existencia de ontologías, y estas han de ser miles (seguramente expresados en varios idiomas). Además, deben desarrollarse ontologías nuevas a medida que se necesiten, por lo que constantemente será necesario añadir ontologías nuevas en la Web Semántica. Como es inviable que los usuarios utilicen directamente el lenguaje de etiquetado de estos estándares, debido a la dificultad, se requieren herramientas que faciliten esta tarea, esto sin tener en cuenta la dificultad que supone diseñar una ontología. Un segundo problema, probablemente más importante, ya que condiciona el éxito de la Web Semántica, es el problema de la anotación semántica, es decir, cómo los usuarios activos (responsables de mantener contenidos; páginas webs, blogs, foros, wikis, redes sociales, etc… ) pueden expresar su información en los lenguajes de etiquetado de estándares que propone el Consorcio de la W3C.

La oportunidad principal para implantar la Web Semántica, es en realidad, la debilidad de la Web actual, pero esto no será posible si no se logra suavizar la complejidad de la tecnología para que los usuarios activos puedan adaptarse a ella. Hay que tener muy en cuenta que realizar un proceso de implantación implica una transformación de las páginas actuales a páginas semánticas, es decir, se debe realizar un proceso de migración y de mantenimiento. Seguidamente presentamos un posible DAFO de la Web Semántica.

  1. Debilidades: Tecnología complicada. Se requiere el desarrollo de una gestión eficaz y escalable de enormes cantidades de metadatos.
  2. Fortalezas: Descentralizado, mejora importante en la calidad de datos, accesibilidad a los datos en bruto directamente, mejora de eficiencia/calidad de los buscadores (menor dedicación del usuario para encontrar lo que realmente necesita).
  3. Amenazas: Mentalidad de no compartir datos. Escased de procedimientos/herramientas para que los usuarios activos publiquen y mantengan datos con semántica
  4. Oportunidades: Crecimiento exponencial de la Web.

REFERENCIA: 
Luis Criado-Fernández. Nosotros los constructores de la Web Semántica. Cimientos: Linked Data y Open Data. ISBN: 978-84-616-0515-6

domingo, junio 02, 2013

Indice definitivo: Nosotros, los constructores de la Web Semántica


Capítulo 1 Qué es la Web Semántica y hacia dónde nos lleva.
1.1. Qué es
1.2. Semántica y búsquedas
1.3. Para qué puede servir.
1.4. Breve historia del mayor repositorio de información de la humanidad.
1.5. La Web, la nueva Biblioteca de Alejandría.
1.6. Inteligencia Artificial y Web Semántica
1.7. DAFO de la Web Semántica
1.8. El problema para implantar la Web Semántica

Capítulo 2 Diseño y utilización de ontologías.
2.1. Qué es una ontología en el ámbito de la Web Semántica.
2.2. ESTANDARES DE REPRESENTACIÓN.
2.2.1 XML
2.2.2 Semántica sobre XML
2.2.3 Semántica sobre RDF/RDFS
2.2.4 OWL 1
2.2.5 Semántica con OWL 1
2.2.6 OWL 2
2.2.7 RDFa
2.2.8 SPARQL
2.3. HERRAMIENTA PARA DEFINIR ONTOLOGÍAS: PROTÉGÉ
2.3.1. Instalando y probando Protégé.
2.3.2. Clases y propiedades (LT).
2.3.3. Instancias (LT).
2.4. Recapitulando.

Capítulo 3 Conceptos fundamentales de la Web Semántica.
3.1 Qué es la anotación semántica.
3.2. La sutil diferencia entre anotar y poblar ontologías.
3.3. Quién anota, quién puebla, quién explota.
3.4. Hacia datos abiertos; accesibles y reutilizables. Open Data.
3.5. Enlazado de Datos.
3.6. Reglas de Linked Data
3.7. Excelencia tecnológica en datos abiertos. Las cinco estrellas.
3.8 Reflexión sobre coherencia en el contenido de la Web Semántica.
3.8.1 ¿Por qué la anotación no embebida garantiza la coherencia? (LT)
3.8.2 Ventajas de la anotación no embebida (LT)
3.9 Reflexión sobre la actualización de instancias de la Web Semántica.
3.10 Clave para el nuevo paradigma Web
3.11 ¿Cómo podemos empezar a participar?.

Capítulo 4¿Cómo formalizamos datos semánticos?.
4.1. ¿Por qué la anotación no puede plantearse de forma manual?
4.2. Hacia una anotación lo más automáticamente posible.
4.2.1 Anotación semi-automatizada y el lenguaje.
4.2.2 Tipos de herramientas de anotación.
4.2.3 Herramientas de anotación.
4.2.3.1 OntoMat-Annotizer.
4.2.3.2 DBpedia Spotlight.
4.2.3.2.1 Integración con DBpedia Spotlight (LT)
4.2.3.3 FRED.
4.2.4.4 Snippet para GoodRelations.
4.2.4.5 Sw2sws
4.2.4.5.1 Detalle sobre los conceptos de Página Semántica y Vista Semántica (LT)
4.2.4.5.2 Arquitectura de Sw2sws (LT)
4.2.4.5.3 Control sobre las Vistas Semánticas (LT)
4.2.4 Anotación en Gestores de Contenidos.
4.3 Cómo volcamos datos de una Base de Datos Relacional al mundo de la Web Semántica (RDF)

Capítulo 5 Explotar los datos de la Web Semántica.
5.1. Manejando datos con semántica.
5.1.1 Twinkle.
5.1.2 Introducción a SPARQL (LT).
5.1.2.1. OPTIONAL (LT).
5.1.2.2. SPARQL y OWL (LT).
5.1.2.3. DISTINCT (LT).
5.1.2.4. Subclases de una clase
5.1.2.5. Instancias
5.1.2.6. ORDEN BY
5.1.2.7. Varios FROMs
5.1.3 EndPoint (LT)
5.1.4 LIMIT (LT).
5.1.5 Filtros (LT).
5.2. Buscadores semánticos.

Capítulo 6 El desarrollador y la Web Semántica.
6.1. Programación en el entorno de la Web Semántica.
6.1.1 Sesame.
6.1.2 Jena.
EJEMPLO cap6example1.java
EJEMPLO cap6example2.java
6.2. BBDD, repositorios de tripetas.
6.2.1 Manejo de repositorios de tripletas con Jena.
6.2.1.1 TDB y Fuseki (LT).
Arrancar Fuseki con un Dataset de tripletas vacio no persistente.
Arrancar Fuseki con un Dataset de tripletas vacio, pero persistente.
Arrancar Fuseki con un Dataset de tripletas persistente.
6.2.1.2 SDB y Joseki (LT).
Instalando Joseki
Creando un almacen de tripletas con SDB-MySql 5
Arrancamos Joseki con soporte SDB-MySql
6.2.2. Virtuoso
6.2.3. Allegro
6.2.3.1. Jena y Allegro (LT)
1.- AGGraphMaker conectamosRepositorio(boolean close)
2.- AGGraphMaker borramosRepositorio()
3.- AGModel modeloDelRepositorio(boolean close) throws Exception {
4.- void ejecutarSparql() throws Exception {
5.- AGGraphMaker importarTripletas() throws Exception {
6.- void exportarTripletas() throws Exception {
6.2.4. Selección de un repositorio de tripletas
6.3. Herramientas de interés.
6.3.1 Formatear la salida de SPARQL con LODSPeaKr
6.3.2 Establecer Linked Data con Sameas4j

Capítulo 7¿Quiénes se interesan por la Web Semántica?.
7.1 Introducción.
7.2 Grupos de investigación.
7.3. Redes Sociales.
7.4. Empresas.
7.5. Posibilidad de negocio.
7.6. Relexión final.

jueves, agosto 16, 2012

Nosotros, los constructores de la Web Semántica.


El asunto de la Web Semántica comienza a ser un tema cada vez más popular y las técnicas y/o procedimientos necesarios para su construcción comienzan a madurar. La proliferación de la red de datos enlazados conocido como “Linked Data” impulsada por el mismísimo Tim Berners-Lee ha avanzado muchísimo y el ritmo es cada vez más rápido.

En enero de este año me propuse escribir un libro (con el título de esta entrada) orientado a todo tipo de público y en español. Durante estos meses, he dedicado muchas tardes a este proyecto personal, y ya tengo terminado tres capítulos.

Este es el contenido que estoy desarrollando:

CAPÍTULO 1: QUÉ ES LA WEB SEMÁNTICA Y HACIA DONDE NOS LLEVA

CAPÍTULO 2: DISEÑO Y UTILIZACIÓN DE ONTOLOGÍAS.   

CAPÍTULO 3: Construyendo la Web Semántica

CAPÍTULO 4: CÓMO FORMALIZAMOS DATOS SEMÁNTICOS.   

CAPÍTULO 5: EXPLOTAR LOS DATOS DE LA WEB SEMANTICA. SPARQL

CAPÍTULO 6: EL DESARROLLADOR.

CAPITULO 7: QUIEN SE INTERESA YA POR LA WEB SEMANTICA.

miércoles, febrero 08, 2012

La Comunidad STI

En diciembre del 2010, comenté que el Instituto de Tecnología Semántica de Innsbruck (STI Innsbruck) estaba confeccionando una lista de empresas que operan con tecnologías semánticas.

Hoy, me ha dado por ver el estado en que se encontraba y bueno, veo que se ha convertido en la Comunidad STI, plataforma abierta para recoger información sobre las entidades que actúan en el campo de las tecnologías semánticas, basado en las ideas de Crowdsourcing. Este término viene del inglés; crowd (masa) y sourcing (fuente o búsqueda de fuente). Entiendo, que con este concepto, se trata de definir la colaboración masiva habilitada por las tecnologías Web. El ejemplo más famoso de crowdsourcing es Wikipedia.

Pues bien, esta idea de colaboración para la construcción de la Web Semántica es, desde mi punto de vista, la única forma de alcanzar la realidad de la Web Semántica. Es algo que siempre he mantenido y, que desde luego, puede leerse en mi tesis. Celebro que esta iniciativa prosperase.

En la página de la Comunidad STI cuentan que los datos están disponibles al público, y que se pueden consultar mediante un buscador orientado a usuarios finales o mediante consultas SPARQL

http://semantic-technology-companies.sti2.at/

Una visita muy recomendable.

viernes, junio 03, 2011

Congreso #iwinac2011 en La Palma

Ayer, 2 de junio, estuve en el congreso IWINAC 2011 y tuve la oportunidad de hablar y reflexionar sobre Linked Data. La ponencia se titula “Proposal for extending new Linked Data rules for the Semantic Web”.

En esta ocasión he intentado que la presentación sea algo más que una guía, para que quien no estuvo en el congreso pueda seguir la exposición sólo con la presentación. Espero haberlo conseguido. En cualquier caso, podéis plantearme dudas en esta entrada. Para acceder a una versión en español en esta URL:

http://www.slideshare.net/lcriadof/proposal-for-extending-new-linked-data-rules-for-the-semantic-web

domingo, enero 30, 2011

sobre Linked Data

Mucho han mejorado las cosas desde aquellas entradas del 2008 en este blog en relación con los buscadores semánticos:

Situación de los buscadores semánticos a principios del 2008

Buscadores semánticos a finales del 2008

En junio del 2009, antes de terminar mi tesis, participe en el congreso IWINAC (International Work-conference on the Interplay between Natural and Artificial Computation), en el que decía, que para plantear la búsqueda semántica necesitábamos antes disponer de suficiente masa crítica, suficientes anotaciones. Es decir, de datos semánticos sobre los cuales buscar. Por eso no funcionaban bien los buscadores semánticos. No basta con utilizar en el buscador sólo procesado de lenguaje natural (PLN). Desde mi punto tanto PLN como datos formalmente representados (datos semánticos, anotación semántica) son imprescindibles para que un buscador semántico sea realmente competitivo.

Afortunadamente el concepto de enlazado de datos (Linked Data) ha impulsado muchísimo la construcción de estos datos semánticos. Tim, acuño el término en el 2006. El proyecto Linked Data cada vez atrae a más gente que enlaza sus datos semánticos, y creo yo, que hoy, ya no se puede decir lo que decía. Ahora hay masa crítica, por lo menos para empezar a plantear prototipos que mejoren los buscadores tradicionales en algunos ámbitos de conocimiento.

Pero, ¿que es esto del Linked Data?, ¿cómo se relaciona con el concepto de Web Semántica?. Bueno la Web Semántica es una extensión de la web actual, que incorpora “significado” para los sistemas informáticos. De forma que Linked Data es una propuesta para ayudar a construir la Web Semántica. Básicamente viene a decir que las anotaciones semánticas de nuestros contenidos no es suficiente para construir la Web Semántica, hace falta, según Tim, establecer enlaces entre estos datos, al igual que en la web tradicional. De forma que el señor Berners-Lee establecio cuatro reglas:

1. Utiliza URIs como nombres para objetos

2. Utiliza URIs HTTP para que las personas pueda buscar esos nombres.

3. Cuando alguien busque un URI, proporciona información útil, utilizando las normas (RDF*, SPARQL)

4. Incluye enlaces a otras URI. para que pueden descubrir más cosas.

La primera regla, identificar cosas con URIs y la segunda regla, utilizar URIs HTTP, ambas son cuestiones muy conocidas en la Web Semántica.

La tercera regla, dice que se debe proporcionar información semántica en la web contra un URI. Esto en realidad se refiera a datos semánticos formalizados mediante ontologías RDF, RDFS y OWL incluyendo las relaciones entre los términos de la ontología. Estamos hablando de ontologías, de anotaciones semánticas, pero también, en esta regla se habla de la explotación de datos semánticos, ya que se incluye SPARQL.

La cuarta regla es la que da nombre al conjunto, es realmente el enlazado de datos.

Para entender como se hace el enlazado de datos, Tim utiliza un ejemplo muy fácil de entender que puedes encontrar en el epígrafe “Basic web look-up” de esta URL:

http://www.w3.org/DesignIssues/LinkedData.html

martes, diciembre 21, 2010

Empresas y la tecnología semántica

Acabo de enterarme de una interesante iniciativa del Instituto de Tecnología Semántica de Innsbruck (STI Innsbruck) que pretende confeccionar una lista de empresas que operan con tecnología semántica.

Lógicamente el listado aún está incompleto, de forma que se ha pedido ayuda en la lista de correo especializada en Web Semántica de la W3C. Si se desea añadir o completar información hay que dirigirse a Dieter Fensel (dieter.fensel@sti2.at)

Puede verse el primer borrador en la siguiente URL:
http://semantic-technology-companies.sti2.at/