SlideShare a Scribd company logo
1 of 26
Download to read offline
UNIVERSITA’ DEGLI STUDI DI TRENTO
                    FACOLTA’ DI ECONOMIA




Corso di LS in “Net Economy: Tecnologia e Management dell’informazione e della
                                 conoscenza”


                         Anno Accademico 2008-2009


        Corso di “Modelli di rappresentazione della conoscenza”



       DBpedia nel contesto Linked Data




                                                       Docente: Dott. Paolo Bouquet
                                                Studente: Andrea Casagrande 133393
Sommario
1     Introduzione .................................................................................................................................. 3

2     Linked Data .................................................................................................................................. 4

    2.1      Principi del Linked Data........................................................................................................ 6

    2.2      Il progetto “Linking Open Data” ........................................................................................... 7

3     DBpedia ........................................................................................................................................ 9

    3.1      Base di conoscenza di DBpedia .......................................................................................... 10

    3.2      Estrazione di informazioni strutturate da Wikipedia ........................................................... 16

    3.3      Accesso al set di dati di DBpedia sul Web .......................................................................... 17

    3.4      Interfacce utente .................................................................................................................. 18

    3.5      DBpedia all’interno del progetto comunitario “W3C Linking Open Data” ........................ 22

4     Lavori collegati ........................................................................................................................... 23

5     Conclusioni ................................................................................................................................. 24

FONTI ................................................................................................................................................ 26
1 Introduzione

    E’ ormai quasi universalmente riconosciuto il fatto che tenere insieme l’informazione
strutturata e la conoscenza del mondo per rispondere semanticamente alle interrogazioni è una delle
principali sfide della scienza informatica e una delle cose che in futuro potrebbe avere enormi
ripercussioni sul mondo intero. Ciò ha portato a quasi 30 anni di ricerca sull’integrazione delle
informazioni e recentemente sul Semantic Web e le tecnologie correlate. Tali sforzi hanno in genere
ricevuto attenzione solo in domini relativamente piccoli e specializzati, dove potrebbero essere
utilizzati un’ontologia chiusa, un vocabolario o uno schema. Tuttavia, la più ampia visione del
Semantic Web non è ancora stata realizzata, e una delle maggiori sfide affrontando questi sforzi è
stata quella di capire come rendere abbastanza interessante e largamente utilizzabile l’informazione
nel sistema, rendendola utile e accessibile ad un pubblico generale.

Un problema da risolvere è quello che il tradizionale modello “top-down” di progettazione di uno
schema o un’ontologia crolla rispetto alla scala del Web, ancora prima di iniziare sviluppare i dati:
sia i dati che i metadati dovrebbero infatti evolvere costantemente e servire a molte comunità
diverse. Per risolvere questo problema c’è stato un movimento recente per costruire uno stile di base
per il Semantic Web, usando approcci collaborativi ispirati al Web 2.0. Si sta studiando un nuovo
modello di rappresentazione e gestione strutturata delle informazioni: si deve innanzitutto gestire in
modo uniforme inconsistenza, ambiguità, incertezza, provenienza dei dati e conoscenza implicita.

Forse il modo più efficace per spingere la ricerca sinergica lungo queste direzioni è quello di fornire
un ricco corpus di dati diversi. Ciò consentirebbe ai ricercatori di sviluppare, confrontare e valutare
differenti estrazioni, ragionamenti e tecniche di gestione dell’incertezza, e distribuire sistemi
operazionali sul Web.

All’interno dello sforzo della comunità “W3C Linking Open Data1” (LOD), un numero crescente di
provider di dati ha iniziato a pubblicare e connettere dati sul Web secondo i principi “Linked Data 2”
di Tim Berners-Lee. Il risultante Web dei dati3 consiste attualmente di diversi miliardi di triple RDF
e include domini come informazioni geografiche, persone, società, comunità on-line, film, musica,
libri e pubblicazioni scientifiche. In aggiunta alla pubblicazione e alla connessione di set di dati, c’è




1
  http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData
2
  http://www.w3.org/DesignIssues/LinkedData.html
3
  Traduzione di “Web of Data”
anche un continuo lavoro su browser Linked Data, crawler4 Linked Data, motori di ricerca per il
Web dei dati e altre applicazioni che utilizzano i Linked Data dal Web.

Un esempio di applicazione che opera in questo Web dei dati e secondo i principi Linked Data è
DBpedia. La base di conoscenza di DBpedia è utile come Linked Data sul Web. Come DBpedia
definisce URI Linked Data per milioni di concetti, vari provider di dati hanno iniziato a collocare
collegamenti RDF dai loro set di dati a DBpedia, rendendo DBpedia uno dei centri di connessione5
centrali dell’emergente Web dei dati.

Di seguito verrà presentato il Web dei dati e i principi Linked Data su cui si basa e successivamente
una delle principali applicazioni che maggiormente fa uso di questi nuovi dati: DBpedia. Infine
verranno presentati i progetti correlati e le conclusioni con i possibili sviluppi futuri che potranno
avvenire in questo ambito.



2 Linked Data

     In questo momento il Web si sta trasformando da un medium per pubblicare e condividere
documenti testuali a un medium per pubblicare e condividere dati. Questa transizione è facilitata
dalle idee provenienti dalla comunità del Semantic Web e da iniziative come il progetto “W3C
Linking Open Data”.

Linked Data è un metodo per pubblicare dati RDF sul Web e per connettere dati tra fonti di dati
differenti. Si può accedere ai Linked Data sul Web usando un browser del Semantic Web, proprio
come ai documenti del Web tradizionale si può accedere usando un browser HTML. Comunque,
invece di seguire collegamenti tra pagine HTML, i browser del Semantic Web permettono agli
utenti di navigare tra diverse fonti di dati seguendo link RDF. Ciò permette all’utente di accedere ad
una data risorsa, e poi di muoversi attraverso un Web di fonti di dati connessi attraverso link RDF
potenzialmente infiniti. Ciò permette inoltre ai robot dei motori di ricerca del Semantic Web di
seguire questi link per eseguire la scansione del Semantic Web.

Il World Wide Web ha radicalmente alterato il modo di condividere la conoscenza, abbassando le
barriere per pubblicare e accedere a documenti come parte di uno spazio informatico globale. I link
ipertestuali consentono all’utente di attraversare questo spazio informativo usando i browser Web,
mentre i motori di ricerca indicizzano i documenti e analizzano la struttura dei collegamenti tra essi

4
  Software che analizzano i contenuti di una rete (o di un database) in un modo metodico e automatizzato, in genere per
conto di un motore di ricerca
5
  Interlinking-hub
per dedurre una potenziale rilevanza con la ricerca effettuata dall’utente. Questa funzionalità è stata
permessa dalla natura generica, aperta ed estensibile del Web, la quale è anche vista come una
caratteristica chiave nella libera crescita del Web.

Nonostante i vantaggi indiscutibili che offre il Web, fino a poco tempo fa gli stessi principi che
consentivano al Web dei documenti di prosperare non erano applicate ai dati. Tradizionalmente i
dati pubblicati sul Web erano resi disponibili come dati grezzi, in formati come file CSV o XML, o
contrassegnati come tabelle HTML, sacrificando gran parte della loro struttura e della loro
semantica. Nel convenzionale ipertesto Web, la natura delle relazioni tra due documenti collegati è
implicita, come il formato dei dati, per esempio HTML, e non è sufficientemente espressiva per
permettere a singole entità descritte in un particolare documento di essere connesse alle relative
entità attraverso link. Mentre le unità primarie dell’ipertesto Web sono i documenti HTML connessi
da iperlink non tipizzati, Linked Data si basa su documenti contenenti dati in formato RDF
(Resource Description Framework). Ma, piuttosto che connettendo semplicemente questi
documenti, Linked Data usa RDF per fare dichiarazioni scritte che collegano arbitrariamente le cose
nel mondo. Il risultato, il cosiddetto Web of Data, può essere descritto più accuratamente come un
web di cose nel mondo, descritte dai dati sul Web.

Tuttavia, negli ultimi anni il Web si è evoluto da uno spazio di informazione globale di documenti
collegati ad uno spazio in cui sia i documenti sia i dati sono collegati tra loro. Alla base di questa
evoluzione vi è un insieme di best practice6 per la pubblicazione e la connessione di strutture dati
sul Web. L’adozione delle best practice Linked Data ha condotto all’estensione del Web ad uno
spazio di dati globale dove sia possibile la connessione tra dati provenienti da differenti domini
come persone, società, libri, pubblicazioni scientifiche, film, musica, programmi televisivi e
radiofonici, geni, proteine, farmaci e sperimentazioni cliniche, comunità on-line, dati statistici e
scientifici, recensioni, ecc. Questo Web of Data permette nuovi tipi di applicazioni. Ci sono generici
browser Linked Data che consentono agli utenti di iniziare a navigare in una fonte di dati e poi
passare per mezzo di link in fonti di dati collegate. Ci sono motori di ricerca Linked Data che
scansionano il Web of Data seguendo link tra fonti di dati e forniscono capacità di interrogazioni
espressive su dati aggregati, in modo simile a come al giorno d’oggi vengono interrogati i database
locali. Il Web dei dati si apre anche a nuove possibilità per applicazioni di specifici domini. A
differenza dei mashup7 Web 2.0 che lavorano su un gruppo fisso di fonti di dati, le applicazioni



6
  tecnica, metodo, processo o attività, più efficacie nel raggiungere un particolare risultato, di qualunque altra tecnica,
  metodo, processo, ecc
7
  sito o applicazione web di tipo ibrido, cioè tale da includere dinamicamente informazioni o contenuti provenienti da
  più fonti
Linked Data operano sulla cima di uno spazio di dati illimitato e globale. Ciò permette loro di
fornire risposte più complete man mano che nuove fonti di dati appaiono sul Web.

In sintesi, Linked Data riguarda semplicemente l’utilizzo del Web per creare collegamenti tra dati
provenienti da diverse fonti. Questi possono essere diversi quanto i database mantenuti da due
organizzazioni situate in diverse locazioni geografiche, o semplicemente sistemi eterogenei in una
sola organizzazione che, storicamente, non sono semplicemente interoperabili a livello di dati.

Tecnicamente, Linked Data si riferisce a dati pubblicati sul Web che siano leggibili dalle macchine
(machine-readable), il cui significato sia definito esplicitamente, che siano collegati ad altri set di
dati esterni e che possano essere a loro volta collegati a fonti esterne di set di dati.



2.1 Principi del Linked Data
Tim Barners-Lee (nel 2006) ha delineato una serie di regole per la pubblicazione di dati sul Web in
modo che tutti i dati pubblicati diventino parte di un unico spazio globale dei dati:

    1. Usare URI come nomi per le cose.
    2. Usare URI HTTP in modo che le persone possano cercare questi nomi.
    3. Quando qualcuno cerca un URI fornire informazioni utili, usando gli standard (RDF,
        SPQRQL).
    4. Includere link ad altre URI, in modo che si possano scoprire più cose.

Questi sono conosciuti come i principi del Linked Data, e forniscono una ricetta di base per
pubblicare e connettere dati usando l’infrastruttura del Web, pur rispettando la sua architettura e i
suoi standard.

Impiegando URI HTTP per identificare le risorse, il protocollo HTTP come meccanismo di
recupero e il modello dati RDF per rappresentare descrizioni di risorse, Linked Data si basa
direttamente sull’architettura generale del Web. Il Web of Data può quindi essere visto come un
ulteriore livello che è strettamente intrecciato con il classico documento Web e ha molte delle stesse
proprietà:

       Il “Web of Data” è generico e può contenere ogni tipo di dati.
       Chiunque può pubblicare dati sul Web of Data.
       Chi pubblica i dati non è vincolato nella scelta dei vocabolari con i quali rappresentare i dati.
       Le entità sono connesse da link RDF, creando un grafo globale dei dati che abbraccia e
        consente la scoperta di nuove fonti di dati.
Dalla prospettiva dello sviluppo di un’applicazione il Web of Data ha le seguenti caratteristiche:

         I dati sono rigorosamente separati da aspetti di formattazione e presentazione.
         I dati sono auto-descrittivi. Se un’applicazione che utilizza Linked Data incontra dati
          descritti con un vocabolario sconosciuto, l’applicazione può dereferenziare le URI che
          identificano i termini del vocabolario per trovare la loro definizione.
         L’uso di HTTP come un meccanismo standardizzato di accesso ai dati e RDF come un
          modello standardizzato di dati semplifica l’accesso ai dati in confronto alle Web API, le
          quali si basano sui modelli di dati eterogenei e sulle interfacce di accesso.
         Il Web of Data è aperto, nel senso che le applicazioni non devono essere implementate
          rispetto ad un fissato insieme di fonti di dati, ma può scoprire nuove fonti di dati nel tempo
          di esecuzione seguendo link RDF.



2.2 Il progetto “Linking Open Data”
L’esempio più visibile di adozione e applicazione dei principi Linked Data è il progetto “Linking
Open Data”, uno sforzo di base della comunità fondata nel gennaio 2007 e supportata dal W3C
Semantic Web Education and Outreach Group8. L’obiettivo originale e ancora in corso del progetto
è di popolare il Web dei dati, individuando insiemi di dati esistenti che sono disponibili sotto
licenze open, convertendo questi in RDF in accordo coi principi Linked Data, e pubblicandoli sul
Web.

Il progetto è cresciuto considerevolmente: all’inizio i partecipanti erano solo sviluppatori,
ricercatori universitari, piccole aziende, ora sono coinvolti grandi aziende come la BBC, la
Thomson Reuters e la Library of Congress. Questa crescita è stata possibile dalla natura open del
progetto, dove ognuno può partecipare semplicemente pubblicando un insieme di dati in accordo
con i principi del Linked Data e connettendoli con i set di dati esistenti. Un’indicazione del range e
della grandezza del Web of Data originato dal progetto “Linking Open Data” è fornito in Figura 1.
Ogni nodo in questo diagramma a nuvola rappresenta un insieme di dati distinto pubblicato come
Linked Data, alla data di Marzo 2009.




8
    http://www.w3.org/2001/sw/sweo/
Figura 1. Diagramma a nuvola Linking Open Data (LOD) che da una visione d’insieme dei set di
                               dati pubblicati e delle loro relazioni di connessione.



Gli archi in Figura 1 indicano che esistono collegamenti tra oggetti tra due set di dati connessi. Gli
archi più spessi corrispondono approssimativamente ad un numero di link tra due set di dati più
grande. Il contenuto della nuvola è di diversa natura: comprende dati su locazioni geografiche,
persone, società, libri, pubblicazioni scientifiche, film, musica, programmi televisivi e radiofonici,
geni, proteine, farmaci e sperimentazioni cliniche, comunità online, dati statistici, risultati di
censimenti e recensioni.

Calcolare l’esatta dimensione del Web of Data rappresenta una sfida dovuta al fatto che gran parte
dei dati vengono generati da involucri intorno ai database relazionali esistenti o alle API e pertanto
necessitano innanzitutto di essere sottoposti a scansione prima di essere inclusi o analizzati. In
alternativa, la dimensione del Web of Data può venire stimata sulla base delle statistiche sui set di
dati che vengono raccolti dalla comunità LOD nel wiki ESW9. In base a tali statistiche il Web of


9
    http://esw.w3.org/topic/
Data consiste attualmente di 4.7 miliardi di triple RDF, le quali sono connesse da circa 142 milioni
di link RDF (Maggio 2009).

La Figura 1 mostra come alcuni set di dati servano come collegamento tra hub nel Web of Data.
Per esempio il set di dati di DBpedia consiste di triple RDF estratte dagli “infobox” comunemente
presenti sul lato destro degli articoli presenti su Wikipedia, mentre Geonames fornisce descrizioni
RDF di milioni di locazioni geografiche in tutto il mondo. Dal momento che questi due insiemi di
dati forniscono URI e descrizioni RDF per molte entità e concetti comuni, essi sono spesso citati in
altri set di dati maggiormente specializzati e hanno quindi sviluppato al loro interno hub ai quali
sono collegati un numero crescente di altri insiemi di dati.



3 DBpedia

Il progetto DBpedia ha ricavato un corpus di dati dall’enciclopedia Wikipedia. Wikipedia è molto
visitata e in costante revisione (ad esempio, secondo alexa.com, Wikipedia è stato il 6° sito più
visitato nel corso del 200910). Le edizioni di Wikipedia sono disponibili in oltre 250 lingue, con
quella inglese che contiene più di 3 milioni di articoli. Come molte altre applicazioni web,
Wikipedia ha il problema che le sue capacità di ricerca sono limitate alla ricerca full-text, che
permette solo un accesso limitato a questa preziosa base di conoscenza. Come è stato ampiamente
pubblicizzato, Wikipedia presenta anche molte delle impegnative e allo stesso tempo ambiziose
proprietà di poter editare i dati in modo collaborativo: dispone di conseguenza di dati contradditori,
di convenzioni tassonomiche incoerenti, di errori e anche di spam.

Il progetto DBpedia si concentra sul compito di convertire i contenuti di Wikipedia in conoscenza
strutturata, in modo che le tecniche di Semantic Web possano essere impiegate rispetto a tali
informazioni. In sintesi DBpedia è uno sforzo della comunità di estrarre informazioni strutturate da
Wikipedia e di rendere queste informazioni disponibili sul Web. DBpedia permette di effettuare
sofisticate interrogazioni da Wikipedia e di collegare altri set di dati presenti sul Web ai dati stessi
di Wikipedia. Il fine ultimo è rendere più facile l’utilizzo dell’incredibile quantità di informazioni di
Wikipedia in modi nuovi e interessanti, che potrebbero ispirare nuovi meccanismi per la
navigazione, collegando e migliorando l'enciclopedia stessa.

Gli autori di DBpedia hanno fornito i seguenti contributi:



10
     http://www.alexa.com/topsites/global
 Hanno sviluppato un quadro di estrazione delle informazioni, che converte il contenuto di
       Wikipedia in file RDF. Gli elementi di base formano un fondamento su cui la ricerca in
       materia di estrazione di informazioni, il clustering, la gestione dell’incertezza e i processi di
       interrogazione possono essere effettuati.
    Hanno fornito al contenuto di Wikipedia un grande set di dati RDF multidominio, che può
       essere utilizzato in una varietà di applicazioni del Semantic Web. Il set di dati di DBpedia
       consiste in 103 milioni di triple RDF.
    Hanno sviluppato una serie di interfacce e moduli di accesso, in modo tale che il set di dati
       possa essere accessibile tramite Web Services e collegato ad altri siti.

Il set di dati di DBpedia può anche essere importato in applicazioni di terze parti oppure è possibile
accedervi online usando varie interfacce utente di DBpedia.

La Figura 2 fornisce una panoramica sul processo di estrazione delle informazioni di DBpedia e
mostra come i dati estratti sono pubblicati sul Web. Queste principali interfacce di DBpedia
attualmente usano Virtuoso e MySQL come depositi back-end.




                      Figura 2 : visione d’insieme dei componenti di DBpedia


3.1 Base di conoscenza di DBpedia
Le basi di conoscenza stanno giocando sempre più un importante ruolo nell’accrescere
l’intelligenza del Web e nel supportare l’integrazione delle informazioni. Al giorno d’oggi molte
basi di conoscenza includono solo specifici domini, sono create da gruppi relativamente piccoli di
specialisti della conoscenza ed è molto costoso tenerle aggiornate ai cambi di dominio. Allo stesso
tempo, Wikipedia è diventata una delle sorgenti di conoscenza centrale per il genere umano,
mantenuta da migliaia di partecipanti. Il progetto DBpedia usa abilmente questa gigantesca risorsa
di conoscenza estraendo informazioni strutturate da Wikipedia e rendendo queste informazioni
accessibili sul Web alle condizioni della “Creative Commons Attribution-Share Alike 3.0 License”
e della “GNU Free Documentation License”.

La base di conoscenza di DBpedia descrive correntemente più di 2,9 milioni di “cose”, inclusi
almeno 282.000 persone, 339.000 luoghi (inclusi 241.000 luoghi popolati), 88.000 album musicali,
44.000 film, 15.000 videogames, 119.000 organizzazioni (incluse 20.000 società e 29.000
istituzioni educative), 130.000 specie e 4.400 malattie. La base di conoscenza di DBpedia distingue
etichette e abstract per questi argomenti in 91 linguaggi differenti (le 13 lingue principali
corrispondenti ad altrettante versioni di Wikipedia sono inglese, tedesco, francese, spagnolo,
italiano, portoghese, polacco, svedese, olandese, giapponese, cinese, russo, finlandese e norvegese);
807.000 collegamenti ad immagini e 3.840.000 collegamenti a pagine web esterne; 4.878.100
collegamenti esterni in altri set di dati esterni, 415.000 categorie di Wikipedia, e 75.000 categorie di
YAGO. La base di conoscenza è composta di 479 milioni di pezzi di informazioni (triple RDF), di
cui 190 milioni sono stati ricavati dall’edizione inglese di Wikipedia e 289 milioni sono stati estratti
dalle edizioni in altri linguaggi. Il set di dati è organizzato per il download come un insieme di files
RDF più piccoli. La Tabella 1 fornisce una panoramica su questi files.

    Set di dati                                         Descrizione                                  Triple

      Articoli          Descrizione di tutti i 3.2 milioni di concetti all’interno della versione    7.6 M
                        inglese di Wikipedia, compresi titoli, brevi abstract, miniature e
                        collegamenti agli articoli corrispondenti.

   Abstract estesi      Abstract estesi supplementari.                                               2.1 M

     Linguaggi          Titoli aggiuntivi, brevi abstract e collegamenti ad articoli di Wikipedia    5.7 M
                        in tedesco, francese, spagnolo, italiano, portoghese, polacco, svedese,
                        olandese, giapponese, cinese, russo, finlandese e norvegese.

 Linguaggi abstract     Abstract estesi in 13 lingue.                                                1.9 M

      Infobox           Attributi dei dati per i concetti che sono stati estratti dagli infobox di   15.5 M
                        Wikipedia.

    Link esterni        Collegamenti a pagine web esterne riguardanti un concetto.                   1.6 M

Categorie di articoli   Collegamenti da concetti a categorie usando SKOS.                            5.2 M
Categorie          Informazione il cui concetto è una categoria e le cui categorie sono       1M
                         collegate.

    Tipi YAGO            Set di dati contenente la dichiarazione rdf:type per tutte le istanze di   1.9 M
                         DBpedia usando la classificazione di YAGO.

       Persone           Informazioni riguardanti 80.000 persone (date e luogo di nascita, etc.)    0.5 M
                         rappresentate usando il vocabolario FOAF.

   Link a pagine         Collegamenti interni tra le istanze di DBpedia derivate dai link alle      62 M
                         pagine interne tra gli articoli di Wikipedia.

 Collegamenti RDF        Collegamenti tra DBpedia e GeoNames, US Census, Musicbrainz,               180 K

                         Progetto Gutenberg, la bibliografia DBLP e l’RDF Book Mash-up.



                                      Tabella 1: Il set di dati di DBpedia

Alcune serie di dati (come ad esempio le Persone o il set di dati Infobox) sono semanticamente
ricche, nel senso che contengono informazioni molto specifiche. Altre (come il seti di dati dei Link
a pagine) contengono meta-dati (come ad esempio collegamenti tra articoli) senza una semantica
specifica. Tuttavia, queste ultime possono risultare utili ad esempio per le misure di vicinanza tra
concetti o di rilevanza nei risultati di ricerca.

Ciascuna delle 2.9 milioni di risorse descritte nel set di dati di DBpedia è identificata da un’URI di
riferimento della forma http://dbpedia.org/resource/Name, dove Name è preso dall’URL
dell’articolo di sorgente di Wikipedia, che ha la forma http://en.wikipedia.org/wiki/Name. Così ogni
risorsa è legata direttamente ad un articolo in lingua inglese di Wikipedia. Questo produce
certamente proprietà benefiche agli identificatori di DBpedia:

     Essi coprono una vasta gamma di argomenti dell’enciclopedia.
     Essi sono definiti dal consenso della comunità.
     Ci sono chiare politiche in atto per la loro gestione.
     Un’ampia definizione testuale dei concetti è disponibile in una zona ben conosciuta del web
        (la pagina di Wikipedia).

Quindi la base di conoscenza di DBpedia ha numerosi vantaggi rispetto alle basi di conoscenza
esistenti: essa include molti domini; essa rappresenta accordi reali tra comunità; essa evolve
automaticamente con i cambiamenti di Wikipedia, ed è perfettamente multilingue.
La base di conoscenza di DBpedia permette inoltre di effettuare abbastanza sorprendenti
interrogazioni da Wikipedia, per esempio “Dimmi tutte le città nel New Jersey con più di 10.000
abitanti” o “Dimmi tutti i musicisti italiani del XIIX secolo”. Complessivamente, i casi d’uso della
base di conoscenza di DBpedia sono diffusi e variano dalla gestione della conoscenza d’impresa,
fino alla ricerca Web, rivoluzionando la ricerca su Wikipedia.

Il set di dati di DBpedia funziona come Linked Data, nel senso che tutte le URI di DBpedia sono
dereferenziabili. Ciò permette di navigare il set di dati di DBpedia con browser del Semantic Web
come DISCO, Marbles, Objectviewer, OpenLink Data Explorer, Tabulator o Zitgist Data Viewer.

Al fine di consentire agli utenti di DBpedia di scoprire ulteriori informazioni, il set di dati di
DBpedia è interconnesso con varie altre fonti di dati sul Web tramite collegamenti RDF. I link RDF
consentono ai navigatori del web di navigare da dati all’interno di una fonte a dati collegati
all’interno di altre fonti utilizzando un browser web semantico. I link RDF possono anche essere
seguiti dai crawler dei motori di ricerca del Semantic Web, i quali possono offrire ricerche
sofisticate e funzionalità di interrogazione sui dati scansionati.

Lo sforzo di interconnessione di DBpedia è parte del progetto della comunità Linking Open Data 11
del gruppo di interesse W3C Semantic Web Education and Outreach (SWEO). Con questo progetto
la comunità si è impegnata a fare enormi dataset e ontologie, come il censimento degli Stati Unitn
(US Census), GeoNames, MusicBraiz, la bibliografia DBLP, WordNet, Cyc e molti altri,
interoperabili sul Semantic Web. DBpedia, con la sua ampia copertura di argomenti, si interseca
praticamente con tutti questi set di dati e, pertanto, rappresenta un eccellente “linking hub” per tali
sforzi. In Figura 3 è fornita una panoramica sui set di dati attualmente interconnessi con DBpedia.

Complessivamente questo Web of Data ammonta a quasi 5 miliardi di triple RDF. Utilizzando
questi link RDF, i navigatori possono per esempio navigare in DBpedia passando da un esperto di
informatica alle sue pubblicazioni nel database DBLP, da un libro alla recensione e alle offerte di
vendita per questo libro fornite dal RDF Book Mashup, o da una band musicale a una lista delle
loro canzoni fornite da Musicbrainz o DBtune.




11
     http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData
Figura 3: Principali fonti di dati interconnesse con DBpedia



Nella seguente tabella vengono descritte maggiormente nel dettaglio le principali fonti di dati
interconnesse con DBpedia:

                                                                    Numero di    Esempi di Link
  Set di dati                      Descrizione
                                                                      link        (owl:sameAs)

                Fornisce informazioni riguardanti caratteristiche
  Geonames                                                           85.000        Cambridge
                geografiche.

                Fornisce informazioni riguardanti artisti e
 MusicBrainz                                                         23.000        Portishead
                musica.

                Rappresentazione         W3C         RDF/OWL
   WordNet                                                           330.000       Air France
                dell’ontologia Word Net.

    World
                Fornisce informazioni riguardanti le nazioni.          200           France
   Factbook

                Fornisce informazioni riguardanti gli Stati e le
   EuroStat                                                            200           France
                regioni europee.
Book Mashup Fornisce informazioni riguardanti i libri.                 7.000

   DBLP          Fornisce informazioni riguardanti pubblicazioni
                                                                        200       Tim Berners-Lee
Bibliography scientifiche.

   Project       Fornisce informazioni riguardanti autori e
                                                                       2.500        John Bunyan
 Gutenberg       accessi aperti ai loro lavori.

                 Un involucro attorno a flickr che cerca di
flickr wrappr generare una raccolta di foto per ogni concetto 1.950.000           Brandenburg Gate
                 di DBpedia.

                 Un database a licenza open riguardante milioni
  Freebase                                                            2.400.000         Tetris
                 ci cose di vari domini.

  OpenCyc        Una versione a licenza open dell’ontologia Cyc.       60.000       Woody Allen

                 Una struttura di riferimento per concetti derivati
  UMBEL                                                                20.000           Place
                 da Cyc.

                 Fornisce dati “US Census” sul censimento delle
 US Census                                                             12.000       Los Angeles
                 città americane.

                                                                                      Eli Lilly
  Dailymed       Fornisce informazioni riguardanti le medicine.          50
                                                                                    and Company

                 Fornisce informazioni riguardanti le malattie e i
 Diseasome                                                              2000           Asthma
                 geni.

                 Fornisce informazioni riguardanti le droghe e i
 Drugbank                                                               700             ZNF3
                 geni.

                 Fornisce informazioni riguardanti gli effetti
    Sider                                                               750         Claudication
                 collaterali delle droghe.



            Tabella 2: Descrizione delle principali fonti di dati a cui è connesso DBpedia
3.2 Estrazione di informazioni strutturate da Wikipedia
Gli articoli di Wikipedia sono composti prevalentemente da testo libero, ma contengono anche
differenti tipi di informazioni strutturate, come template infobox, informazioni categorizzate,
immagini, coordinate geografiche, collegamenti a pagine Web esterne e link tra le edizioni in lingue
diverse di Wikipedia.

MediaWiki è il software utilizzato per l’esecuzione di Wikipedia. A causa della natura di questo
sistema Wiki, sostanzialmente tutte le modifiche, i collegamenti, le annotazioni con metadati sono
effettuate all’interno del testo dell’articolo con l’aggiunta di speciali costrutti sintattici.

Poiché MediaWiki sfrutta alcune di queste stesse informazioni per rendere l’interfaccia utente,
alcune informazioni vengono memorizzate nella cache in tabelle di database relazionali. Il
riversamento delle cruciali tabelle dei database relazionali (compresi quelli che contengono i testi
degli articoli) per differenti versioni linguistiche di Wikipedia è pubblicato sul Web in una base
regolare. Sulla base di questi riversamenti di database, attualmente si usano due differenti metodi di
estrazione delle relazioni semantiche: (1) vengono mappate le relazioni che sono già memorizzate
in tabelle di database relazionali su RDF e (2) vengono estratte informazioni addizionali
direttamente dai testi dell’articolo e dai template dell’infobox all’interno dell’articolo.

Di seguito viene illustrata l’estrazione della semantica dal testo di un articolo con un esempio di
template infobox di Wikipedia. La Figura 4 mostra il template dell’infobox (codificato all’interno
di un articolo di Wikipedia) e l’uscita resa della città sud coreana Busan. L’algoritmo di estrazione
dell’infobox rileva i template e riconosce la loro struttura utilizzando le tecniche di matching dei
pattern. Vengono selezionati i template significativi, i quali vengono poi analizzati e trasformati in
triple RDF. L’algoritmo utilizza tecniche di post-processing per incrementare la qualità
dell’estrazione. I collegamenti MediaWiki vengono riconosciuti e trasformati in URI appropriate,
unità comuni vengono rilevate e trasformate per i tipi di dati. Inoltre, l’algoritmo è in grado di
rilevare elenchi di oggetti che vengono trasformati in liste RDF. Tutti gli algoritmi di estrazione
sono implementati usando PHP e sono disponibili sotto licenza open source.
Figura 4: Esempio di template Wikipedia e resa dell’uscita (estratto)



3.3 Accesso al set di dati di DBpedia sul Web
Vengono messi a disposizione tre meccanismi di accesso al dataset di DBpedia: Linked Data, il
protocollo SPARQL e il riversamento RDF scaricabile. L’accesso a queste interfacce secondo diritti
d’autore liberi è concesso nel rispetto dei termini della GNU Free Documentation License.

  1. Linked Data. Linked Data è un metodo di pubblicazione di dati RDF sul Web che si basa su
     URI http:// come identificatori di risorsa e il protocollo HTTP per recuperare le descrizioni
     delle risorse. Le URI sono configurate per restituire le informazioni significative sulla risorsa,
     tipicamente una descrizione RDF contenente tutto ciò che è noto su di essa. Una tale
     descrizione cita generalmente risorse collegate da URI, alle quali una alla volta si può avere
     accesso ai campi delle loro descrizioni. Ciò costituisce una fitta rete di descrizioni di risorse
     accessibili dal web in grado di attraversare i server ed i confini dell’organizzazione. Gli
     identificatori di risorse di DBpedia, come http://dbpedia.org/resource/Busan, sono configurati
     per restituire descrizioni RDF quando vi si accede da agenti web semantici, e una semplice
     visualizzazione HTML delle stesse informazioni quando vi si accede da tradizionali browser
Web. La negoziazione del contenuto HTTP viene utilizzata per fornire un formato
        appropriato.
        Agenti Web che possono accedere a Linked Data includono: 1) browser web semantici, come
        Disco12, Tabulator o il browser web OpenLink Data13; 2) crawler web semantici, come
        SWSE14 e Swoogle15; 3) agenti di interrogazione web semantici come la Semantic Web Client
        Library16 e il client Semantic Web per SWI prolog17.
     2. Endpoint SPARQL. Viene fornito un endpoint SPARQL per interrogare il dataset di dBpedia.
        Le applicazioni client possono inviare interrogazioni tramite il protocollo SPARQL a questo
        endpoint al sito http://dbpedia.org/sparql. L’endpoint è fornito usando OpenLink Virtuoso
        come motore database back-end. Questa interfaccia è appropriata quando lo sviluppatore
        dell’applicazione client conosce in anticipo esattamente di quali informazioni ha bisogno. In
        aggiunta allo standard SPARQL, l’endpoint supporta diverse estensioni del linguaggio di
        interrogazione che si sono rivelate utili per lo sviluppo delle interfacce utente: ricerca di testo
        completo sui predicati RDF selezionati e funzioni di aggregazione, in particolare COUNT.
        Per proteggere il servizio dal sovraccarico, sono messi in atto limiti ai costi di interrogazione
        e alla grandezza dei risultati. Ad esempio, una query che interroga l’intero contenuto del
        negozio è respinta perché troppo costosa. I risultati di SELECT sono troncati alle millesima
        riga.
        Va notato che non tutti i set di dati di DBpedia sono caricati nell’endpoint SPARQL. In
        particolare, solo il set di dati dell’infobox inglese è caricato mentre il set di dati dell’infobox
        negli altri linguaggi non è caricato per evitare confusione.
     3. Riversamento RDF. Le serializzazioni di N-Triple dei dataset sono disponibili per il
        download sul sito di DBpedia e possono essere usate da siti che sono interessati a parti più
        grandi del set di dati.



3.4 Interfacce utente
Le interface utente per DBpedia possono variare da una semplice tabella all’interno di una classica
pagina web fino a interfacce di navigazione per differenti tipi di interrogazione. Questa sezione
fornisce una panoramica sulle diverse interfacce utente che sono state finora realizzate.


12
   http://www4.wiwiss.fu-berlin.de/bizer/ng4j/disco/
13
   http://demo.openlinksw.com/DAV/JS/rdfbrowser/index.html
14
   http://swse.org/
15
   http://swoogle.umbc.edu/
16
   http://www4.wiwiss.fu-berlin.de/bizer/ng4j/semwebclient/
17
   http://moustaki.org/swic/
     Semplice integrazione dei dati di DBpedia all’interno di pagine Web
       DBpedia è una preziosa fonte di dati per fini generali che può essere utilizzata all’interno di
       pagine web. Pertanto, se si desidera una tabella contenente ad esempio capitali della Germania,
       musicisti africani, giochi per computer Amiga o qualsiasi altra cosa sul vostro sito, è possibile
       generare questa tabella utilizzando una query SPARQL verso l’endpoint DBpedia. Wikipedia è
       tenuta aggiornata da una comunità di grandi dimensioni e una bella caratteristica di tali tabelle
       è che anche esse rimarranno aggiornate con le modifiche di Wikipedia, e quindi anche di
       DBpedia. Tali tabelle possono essere implementate utilizzando Javascript sul client o con un
       linguaggio di scripting come PHP sul server.
      Search DBpedia.org

       “Search DBpedia.org” è una semplice applicazione che permette agli utenti di esplorare il
       dataset di DBpedia insieme con le informazioni provenienti da set di dati interconnessi, come
       ad esempio GeoNames, l’RDF Book Mashup o la bibliografia DBLP. In contrasto con ricerche
       basate su parola chiave full-text (solamente testuali) che si trovano comunemente sul Web, la
       ricerca su dati strutturati offre l’opportunità di fare un uso produttivo delle relazioni tra i dati,
       consentendo un graduale restringimento dei risultati della ricerca in diverse dimensioni. Questo
       aggiunge un componente di navigazione per l’attività di ricerca e può ridurre il comune
       problema del decidere o no se cliccare su un risultato trovato (“keyword-hit-or-not-hit”).

       Una sessione di”Search DBpedia” inizia con una ricerca per parola chiave. Una prima serie di
       risultati è calcolato dalla corrispondenza diretta della parola chiave. Le corrispondenze
       collegate vengono aggiunte utilizzando le relazioni tra le entità fino ad una profondità di due
       nodi. Così, ad esempio una ricerca per la parola chiave “Scorsese” includerà il regista Martin
       Scorsese così come tutti i suoi film e gli attori di questi film.

       Il passo successivo è classificare il risultato. Gli esperimenti effettuati hanno dimostrato che
       articoli importanti ricevono maggiori link di pagine in entrata da altri articoli. Viene utilizzata
       una combinazione di conteggio dei link in entrata, rilevante ai fini della fonte del link, e della
       profondità della relazione per calcolare una graduatoria di pertinenza.

       Dopo aver inserito un termine di ricerca, all’utente sono presentati una lista di risultati
       classificati, e un insieme di tag costruiti dalle classi trovate nei risultati, utilizzando una
       combinazione delle classificazioni di DBpedia e di YAGO18. Il peso di ogni classe è calcolato
       dalla somma dei pesi dei risultati associati e dalla frequenza dell’occorrenza. L’insieme di tag

18
     http://www.mpi-inf.mpg.de/yago-naga/yago/
permette all’utente di restringere i risultati ad un tipo specifico di entità, come ad esempio
    “Attore”, anche se una semplice ricerca per parole chiave può non avere portato a nessun
    attore.

    Quando una risorsa viene selezionata da una serie di risultati, all’utente è presentata una visione
    dettagliata di tutte le informazioni che sono conosciuti su quella risorsa (Figura 5). Etichetta,
    immagine e descrizione sono riportati in alto. Le proprietà dei singoli e dei multi valori sono
    mostrate separatamente. I dati provenienti da set di dati interconnessi sono automaticamente
    recuperati seguendo i link RDF all’interno dei dataset e i dati recuperati da set di dati
    interconnessi sono mostrati assieme con i dati di DBpedia.




                  Figura 5: Risultati della ricerca e visione dettagliata per Busan


   Interrogazione dei dati di Wikipedia

    Rispetto alla maggior parte delle altre basi di conoscenza del Semantic Web attualmente
    disponibili, per l’estrazione dell’RDF da Wikipedia si ha a che fare con un diverso tipo di
    conoscenza strutturata, si ha uno schema di informazione molto grande e una notevole quantità
    di dati che si attengono a questo schema.

    Se si ha un voluminoso set di dati o un schema di dati di grandi dimensioni, il deposito degli
    RDF elaborati con motori di interrogazione integrati da solo non è molto utile. A causa delle
    grandi dimensioni dello schema di dati, gli utenti possono difficilmente conoscere quali
proprietà e identificatori sono usati nella base di conoscenza e quindi possono utilizzare per
l’esecuzione di interrogazioni. Di conseguenza, gli utenti devono essere guidati quando
costruiscono le interrogazioni e gli si dovrebbero suggerire ragionevoli alternative.

E’ stato appositamente sviluppato un generatore di pattern grafici per interrogare i contenuti
estratti da Wikipedia. Gli utenti interrogano la base di conoscenza per mezzo di un pattern
grafico che consiste di molteplici modelli di triple. Per ogni modello di triple tre campi
catturano variabili, identificatori o filtri per il soggetto, predicato e oggetto di una tripla. Mentre
gli utenti digitano i nomi degli identificatori in un campo del form, una ricerca “look-ahead”
(che guarda avanti) propone opzioni adatte. Queste sono ottenute non solo con la ricerca di
identificatori corrispondenti ma eseguendo la query che si sta costruendo e iniziando subito il
matching con la stringa di ricerca fornita dall’utente. Questo metodo assicura che
l’identificatore proposto sia davvero usato in congiunzione con il modello grafico in
costruzione e che la query restituisca effettivamente dei risultati. Inoltre, i risultati della ricerca
di identificatori sono classificati in ordine di numero di utilizzo, mostrando prima gli
identificatori comunemente usati. Tutto questo viene eseguito in background, usando la
tecnologia Web 2.0 AJAX e quindi è tutto completamente invisibile per l’utente. La Figura 6
mostra uno screenshot del costruttore di pattern grafici.




                          Figura 6: form basato sul costruttore di query
     Interfacce utente di terze parti

Il progetto DBpedia mira a fornire un focolaio per le applicazioni e i mashup basati su informazioni
di Wikipedia. Anche se DBpedia non è stata lanciata da moltissimo, c’è già un certo numero di
applicazioni di terze parti che utilizzano i dataset.

Alcuni esempi inludono:

        Un installazione SemanticMediaWiki eseguita dall’università di Karlsruhe, la quale ha
           importato il dataset di DBpedia insieme con l’edizione inglese di Wikipedia.
        WikiStory, che consente agli utenti di sfogliare gli articoli di Wikipedia riguardanti persone
           lungo una linea temporale di grandi dimensioni.
        L’ambiente di dati visivi Objectsheet JavaScript, che consente calcoli su fogli elettronici
           basati su dati di DBpedia.



3.5 DBpedia all’interno del progetto comunitario “W3C Linking Open Data”
DBpedia fa parte del progetto comunitario “W3C Linking Open Data”, uno sforzo per pubblicare e
connettere varie fonti di dati open. Nel novembre 2009 questo sforzo è sfociato nella costruzione di
un Web di fonti di dati interconnesse che ammontano a più di 6 miliardi di triple RDF.

Il Linking Open Data è un progetto del W3C SWEO che ha lo scopo di estendere il Web creando
una rete di dati aperti e disponibili a tutti – offerti dall’ Open Data Movement – pubblicando in
formato RDF insiemi di dati provenienti da diverse sorgenti e connettendone gli elementi definendo
le relazioni che esistono tra questi, in modo da poter passare da un informazione ad un’altra a questa
legata anche se appartengono a due sorgenti diverse; questa possibilità vale anche per i crawler dei
motori di ricerca, facilitando il recupero delle informazioni. Questo progetto copre diversi domini di
riferimento delle risorse ed è un esempio di evoluzione verso il data-web globale, che può essere
sfruttato dalle applicazioni semantiche.

In questo modo DBpedia può essere anche vista come un’ontologia multi dominio (caratteristica
che la differenzia notevolmente dalla maggior parte delle ontologie che trattano un dominio
singolo) che definisce univocamente – tramite le URI – diverse entità che possono essere riusate, ad
esempio, in un profilo FOAF19 personale per descrivere un certo interesse che altrimenti non
sarebbe identificabile, oppure per definire tag in maniera strutturata con Faviki20. Le risorse
catalogate in DBpedia possiedono inoltre delle proprietà che le definiscono, come un abstract (nelle

19
     http://www.foaf-project.org/
20
     http://www.faviki.com/pages/welcome/
lingue per cui è disponibile) che le descrive, la categoria di appartenenza, le informazioni della
relativa Infobox, collegamenti a pagine HTML con dbpedia:resource o foaf:homepage o a
documenti RDF con owl:sameAs, coordinate geografiche. Al di là dell’enorme quantità di dati che
rende disponibile sul web, il progetto DBpedia è di grande importanza poiché permette il
collegamento di queste risorse con altre provenienti da sorgenti diverse, come ad esempio gli
85.000 link con il database geografico Geonames. La pubblicazione dei dati in formato RDF ne
rende possibile il riuso e fa sì che possano essere effettuate delle query SPARQL complesse sugli
articoli di Wikipedia, che invece supporta solo la ricerca basata sulle parole chiave, utilizzando
tools come ad esempio SNORQL Query Explorer.



4 Lavori collegati

Un secondo progetto che funziona anch’esso sull’estrazione delle informazioni strutturate è il
progetto YAGO. YAGO estrae solo 14 tipi di relazioni, come subClassOf, type, familyNameOf,
locatedIn da differenti fonti di informazione su Wikipedia. Una fonte è il sistema di categorie di
Wikipedia (per subClassOf, locatedIn, diedInYear, bornInYear) e un’altra sono i reindirizzamenti di
Wikipedia. YAGO non esegue un’estrazione dell’infobox come nell’approccio di DBpedia. Per la
determinazione delle relazioni di sottoclasse, YAGO non usa pienamente la gerarchia di categoria
di Wikipedia, ma le categorie di collegamenti a foglia della gerarchia di WordNet.

Il progetto Semantic MediaWiki mira anch’esso a permettere il riutilizzo delle informazioni
all’interno dei Wiki, nonché a migliorare la ricerca e a facilitare la navigazione. Semantic
MediaWiki è un’estensione del software MediaWiki che consente di aggiungere dati strutturati
all’interno di Wiki usando una sintassi specifica. In definitiva, DBpedia e Semantic Wiki hanno
obiettivi simili: entrambi vogliono offrire i vantaggi delle informazioni strutturate di Wikipedia per
gli utenti, ma usano differenti approcci per raggiungere questo scopo. Semantic MediaWiki richiede
agli autori di affrontare una nuova sintassi, ma includere tutte le informazioni strutturate all’interno
di Wikipedia richiede di conseguenza di convertire tutte le informazioni in questa sintassi. DBpedia,
invece, sfrutta la struttura che già esiste all’interno di Wikipedia e quindi non necessita di profonde
modifiche di carattere tecnico o metodologico. Tuttavia, DBpedia non è strettamente integrata in
Wikipedia come è previsto per Semantic MediaWiki e quindi è limitata nelle restrizioni degli autori
di Wikipedia per quanto riguarda la coerenza sintattica e strutturale e l’omogeneità.
Un altro approccio interessante è seguito da Freebase21. Il progetto mira a costruire un enorme
database online che gli utenti possano modificare in maniera simile a come essi fanno attualmente
per gli articoli di Wikipedia. La comunità di DBpedia collabora con Metaweb e presto collegherà i
dati proveniente da entrambe le fonti, Freebase e Metaweb.



5 Conclusioni

DBpedia è una delle più grandi ontologie multi dominio che esistono al giorno d’oggi. In confronto
ad altre ontologie che solitamente includono solo domini specifici, sono create per gruppi
relativamente piccoli di ingegneri della conoscenza, e sono molto costose da tenere aggiornate ai
cambiamenti di dominio, DBpedia ha il vantaggio che:

       1. include molti domini e contiene molte istanze;
       2. rappresenta autentici accordi tra comunità;
       3. evolve automaticamente seguendo i cambiamenti di Wikipedia.

Gli svantaggi di DBpedia confrontati con ontologie artigianali come SUMO, Open Cyc o WordNet
sono che:

       1. DBpedia è meno strutturata formalmente;
       2. la qualità dei dati è inferiore e ci sono incongruenze all’interno di DBpedia.

Un approccio per combinare i vantaggi di entrambi i mondi è connettere DBpedia con le ontologie
artigianali, in modo da consentire alle applicazioni di usare la conoscenza formale da queste
ontologie assieme con le istanze dati da DBpedia. Connettendo DBpedia con queste ontologie si
potrebbe estendere ulteriormente le potenzialità delle interrogazioni. Ma estraendo dati strutturai da
tutte le 251 versioni di DBpedia e collegando questi dati con il contesto di conoscenza derivante da
ontologie come Open Cyc, SUMO, o WordNet, sono necessari differenti tipi di controlli di
coerenza. Perciò, una direzione promettente verso cui muoversi in futuro è usare la conoscenza di
DBpedia per controlli di coerenza e per sviluppare strumenti che supportino gli autori di Wikipedia
nell’offrire suggerimenti correttivi.

Come obiettivi futuri ci si dovrà concentrerà in primo luogo sul miglioramento della qualità del
dataset di DBpedia. Dovrà essere automatizzato ulteriormente il processo di estrazione dei dati al
fine di aumentare la ricorrenza del set di dati di DBpedia e sincronizzarla con le modifiche di
Wikipedia. In parallelo, bisognerà continuerà ad esplorare differenti tipi di interfacce utente e casi

21
     http://www.freebase.com/
d’uso per l’insieme di dati di DBpedia. All’interno della comunità del progetto W3C Linkin Open
Data sono interconnessi il set di dati di DBpedia con ulteriori set di dati che man mano che vengono
pubblicati come Linked Data sul Web. Si è intenzionati anche a sfruttare le sinergie tra le versioni
di Wikipedia nelle varie lingue al fine di incrementare ulteriormente la copertura di DBpedia e
fornire strumenti di garanzia della qualità per la comunità di Wikipedia. Un tale strumento potrebbe,
ad esempio, informare un autore di Wikipedia riguardo a contraddizioni tra il contenuto degli
infobox contenuti nelle varie versioni linguistiche di un articolo. L’interconnessione di DBpedia
con altre basi di dati come ad esempio Cyc (e il loro utilizzo come conoscenza di background)
potrebbe portare ad ulteriori metodi per il semi-automatico controllo della coerenza per il contenuto
di Wikipedia.

DBpedia è una delle principali fonti di dati open e royalty-free sul Web. Ci si augura che
l’interconnessione di DBpedia con ulteriori fonti di dati potrebbe costituire un nucleo per
l’emergere definitivo del Web of Data.
FONTI

 [1] C. Bizer, T.Heath, Tim Barners-Lee; “Linked Data - The Story So Far”; International
    Journal on Semantic Web and Information Systems (IJSWIS) (2009)
    <http://tomheath.com/papers/bizer-heath-berners-lee-ijswis-linked-data.pdf>



 [2] C.Bizer, T.Heath, D.Ayers, Y.Raimond; “Interlinking Open Data on the Web”
    <http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkingOpenData.pdf>


 [3] C.Bizer, T.Heath, K.Idehen, Tim Berners-Lee; “Linked Data on the Web (LDOW2008)”.
    Workshop Summary; April 21-25, 2008, Beijing, China.
    <http://www2008.org/papers/pdf/p1265-bizer.pdf>



 [4] Linked Data Web architecture note by Tim Berners-Lee
    < http://www.w3.org/DesignIssues/LinkedData.html>


 [5] Sito web del progetto DBpedia
    <http://dbpedia.org/About>



 [6] S.Auer, C.Bizer, G.Kobilarov, J.Lehmann, R.Cyganiak, Z.Ives; “DBpedia: A Nucleus for a
    Web of Open Data”. In Proceedings of the 6th International Semantic Web Conference and
    2nd Asian Semantic Web Conference (ISWC/ASWC2007)
    <http://www.cis.upenn.edu/~zives/research/dbpedia.pdf>



 [7] C.Bizer, S.Auer, G.Kobilarov, J.Lehmann, C.Becker, S.Hellmann; “Querying Wikipedia
    like a database and an interlinking-hub in the Web of Data”
    <http://www4.wiwiss.fu-berlin.de/bizer/pub/WikiMediaDevMeeting-DBpedia-Talk.pdf>

More Related Content

What's hot

Vectorization In NLP.pptx
Vectorization In NLP.pptxVectorization In NLP.pptx
Vectorization In NLP.pptxChode Amarnath
 
Relational Databases
Relational DatabasesRelational Databases
Relational DatabasesJason Hando
 
Back to Basics 1: Thinking in documents
Back to Basics 1: Thinking in documentsBack to Basics 1: Thinking in documents
Back to Basics 1: Thinking in documentsMongoDB
 
Introduction to column oriented databases
Introduction to column oriented databasesIntroduction to column oriented databases
Introduction to column oriented databasesArangoDB Database
 
Base de datos
Base de datosBase de datos
Base de datoscaoxman
 
A load balancing model based on cloud partitioning for the public cloud. ppt
A  load balancing model based on cloud partitioning for the public cloud. ppt A  load balancing model based on cloud partitioning for the public cloud. ppt
A load balancing model based on cloud partitioning for the public cloud. ppt Lavanya Vigrahala
 
Importance of Normalization
Importance of NormalizationImportance of Normalization
Importance of NormalizationShwe Yee
 
Object relational database management system
Object relational database management systemObject relational database management system
Object relational database management systemSaibee Alam
 
Software Architecture Document Final
Software Architecture Document FinalSoftware Architecture Document Final
Software Architecture Document FinalAli Ahmed
 
Jak na disertaci
Jak na disertaciJak na disertaci
Jak na disertaciAles Neusar
 
System interconnect architecture
System interconnect architectureSystem interconnect architecture
System interconnect architectureGagan Kumar
 
Características MONGO DB
Características MONGO DBCaracterísticas MONGO DB
Características MONGO DBmaxfontana90
 
Data flow oriented modeling
Data flow oriented modelingData flow oriented modeling
Data flow oriented modelingKavithaGowri
 
Database assignment
Database assignmentDatabase assignment
Database assignmentHudiKhatib
 
Buffer management --database buffering
Buffer management --database buffering Buffer management --database buffering
Buffer management --database buffering julia121214
 

What's hot (20)

Vectorization In NLP.pptx
Vectorization In NLP.pptxVectorization In NLP.pptx
Vectorization In NLP.pptx
 
Relational Databases
Relational DatabasesRelational Databases
Relational Databases
 
Database concepts
Database conceptsDatabase concepts
Database concepts
 
Back to Basics 1: Thinking in documents
Back to Basics 1: Thinking in documentsBack to Basics 1: Thinking in documents
Back to Basics 1: Thinking in documents
 
Introduction to column oriented databases
Introduction to column oriented databasesIntroduction to column oriented databases
Introduction to column oriented databases
 
Base de datos
Base de datosBase de datos
Base de datos
 
Temporal databases
Temporal databasesTemporal databases
Temporal databases
 
A load balancing model based on cloud partitioning for the public cloud. ppt
A  load balancing model based on cloud partitioning for the public cloud. ppt A  load balancing model based on cloud partitioning for the public cloud. ppt
A load balancing model based on cloud partitioning for the public cloud. ppt
 
Importance of Normalization
Importance of NormalizationImportance of Normalization
Importance of Normalization
 
Data Models.ppt
Data Models.pptData Models.ppt
Data Models.ppt
 
Database Keys
Database KeysDatabase Keys
Database Keys
 
Object relational database management system
Object relational database management systemObject relational database management system
Object relational database management system
 
Software Architecture Document Final
Software Architecture Document FinalSoftware Architecture Document Final
Software Architecture Document Final
 
Jak na disertaci
Jak na disertaciJak na disertaci
Jak na disertaci
 
Diagrama de secuencias
Diagrama de secuenciasDiagrama de secuencias
Diagrama de secuencias
 
System interconnect architecture
System interconnect architectureSystem interconnect architecture
System interconnect architecture
 
Características MONGO DB
Características MONGO DBCaracterísticas MONGO DB
Características MONGO DB
 
Data flow oriented modeling
Data flow oriented modelingData flow oriented modeling
Data flow oriented modeling
 
Database assignment
Database assignmentDatabase assignment
Database assignment
 
Buffer management --database buffering
Buffer management --database buffering Buffer management --database buffering
Buffer management --database buffering
 

Similar to DBpedia nel contesto Linked Data

Introduzione a Linked Open data e Web semantico / Antonella Iacono
Introduzione a Linked Open data e Web semantico / Antonella IaconoIntroduzione a Linked Open data e Web semantico / Antonella Iacono
Introduzione a Linked Open data e Web semantico / Antonella Iaconolibriedocumenti
 
Linked Open Data di Vittorio Di Tomaso
Linked Open Data di Vittorio Di TomasoLinked Open Data di Vittorio Di Tomaso
Linked Open Data di Vittorio Di TomasoCELI
 
Formez Opendata Inps - webinar 29 marzo 2012
Formez Opendata Inps - webinar 29 marzo 2012Formez Opendata Inps - webinar 29 marzo 2012
Formez Opendata Inps - webinar 29 marzo 2012INPSDG
 
Brochure: Linked Open Data PILLS
Brochure: Linked Open Data PILLSBrochure: Linked Open Data PILLS
Brochure: Linked Open Data PILLS@CULT Srl
 
Biblioteche 2.0
Biblioteche 2.0Biblioteche 2.0
Biblioteche 2.0nomenick
 
La Semantica e il Web dei Dati
La Semantica e il Web dei DatiLa Semantica e il Web dei Dati
La Semantica e il Web dei DatiIrene Celino
 
SKOS, Nuovo Soggettario e Wikidata
SKOS, Nuovo Soggettario e Wikidata  SKOS, Nuovo Soggettario e Wikidata
SKOS, Nuovo Soggettario e Wikidata KohaGruppoItaliano
 
3b WEB SEMANTICO: struttura e organizzazione dei dati
3b WEB SEMANTICO: struttura e organizzazione dei dati3b WEB SEMANTICO: struttura e organizzazione dei dati
3b WEB SEMANTICO: struttura e organizzazione dei datiMau-Messenger
 
Dandelion API e Atoka: due strumenti utili al Data Journalism
Dandelion API e Atoka: due strumenti utili al Data JournalismDandelion API e Atoka: due strumenti utili al Data Journalism
Dandelion API e Atoka: due strumenti utili al Data JournalismSpazioDati
 
Opendata per l'eLeadership
Opendata per l'eLeadershipOpendata per l'eLeadership
Opendata per l'eLeadershipGianluigi Cogo
 
Lodlive - browsing the web of data
Lodlive - browsing the web of dataLodlive - browsing the web of data
Lodlive - browsing the web of dataLodlive
 
OntoPiA e il knowledge graph della pubblica amministrazione italiana
OntoPiA e il knowledge graph della pubblica amministrazione italianaOntoPiA e il knowledge graph della pubblica amministrazione italiana
OntoPiA e il knowledge graph della pubblica amministrazione italianaGiorgia Lodi
 
Open Data fra Potenzialità e Retorica
Open Data fra Potenzialità e RetoricaOpen Data fra Potenzialità e Retorica
Open Data fra Potenzialità e RetoricaLudovico Ristori
 
Open Data Confindustria Padova
Open Data Confindustria PadovaOpen Data Confindustria Padova
Open Data Confindustria PadovaGianluigi Cogo
 
Il web 2.0: dal web informativo al web emozionale
Il web 2.0: dal web informativo al web emozionaleIl web 2.0: dal web informativo al web emozionale
Il web 2.0: dal web informativo al web emozionaleAldo Torrebruno
 

Similar to DBpedia nel contesto Linked Data (20)

Introduzione a Linked Open data e Web semantico / Antonella Iacono
Introduzione a Linked Open data e Web semantico / Antonella IaconoIntroduzione a Linked Open data e Web semantico / Antonella Iacono
Introduzione a Linked Open data e Web semantico / Antonella Iacono
 
Linked Open Data di Vittorio Di Tomaso
Linked Open Data di Vittorio Di TomasoLinked Open Data di Vittorio Di Tomaso
Linked Open Data di Vittorio Di Tomaso
 
5a. Linked Data
5a. Linked Data5a. Linked Data
5a. Linked Data
 
9. Il Web semantico
9. Il Web semantico9. Il Web semantico
9. Il Web semantico
 
Formez Opendata Inps - webinar 29 marzo 2012
Formez Opendata Inps - webinar 29 marzo 2012Formez Opendata Inps - webinar 29 marzo 2012
Formez Opendata Inps - webinar 29 marzo 2012
 
TESIPOLI
TESIPOLITESIPOLI
TESIPOLI
 
Brochure: Linked Open Data PILLS
Brochure: Linked Open Data PILLSBrochure: Linked Open Data PILLS
Brochure: Linked Open Data PILLS
 
Biblioteche 2.0
Biblioteche 2.0Biblioteche 2.0
Biblioteche 2.0
 
La Semantica e il Web dei Dati
La Semantica e il Web dei DatiLa Semantica e il Web dei Dati
La Semantica e il Web dei Dati
 
SKOS, Nuovo Soggettario e Wikidata
SKOS, Nuovo Soggettario e Wikidata  SKOS, Nuovo Soggettario e Wikidata
SKOS, Nuovo Soggettario e Wikidata
 
3b WEB SEMANTICO: struttura e organizzazione dei dati
3b WEB SEMANTICO: struttura e organizzazione dei dati3b WEB SEMANTICO: struttura e organizzazione dei dati
3b WEB SEMANTICO: struttura e organizzazione dei dati
 
Dandelion API e Atoka: due strumenti utili al Data Journalism
Dandelion API e Atoka: due strumenti utili al Data JournalismDandelion API e Atoka: due strumenti utili al Data Journalism
Dandelion API e Atoka: due strumenti utili al Data Journalism
 
Opendata per l'eLeadership
Opendata per l'eLeadershipOpendata per l'eLeadership
Opendata per l'eLeadership
 
Enterprise 2.0 Framework
Enterprise 2.0 FrameworkEnterprise 2.0 Framework
Enterprise 2.0 Framework
 
Lodlive - browsing the web of data
Lodlive - browsing the web of dataLodlive - browsing the web of data
Lodlive - browsing the web of data
 
OntoPiA e il knowledge graph della pubblica amministrazione italiana
OntoPiA e il knowledge graph della pubblica amministrazione italianaOntoPiA e il knowledge graph della pubblica amministrazione italiana
OntoPiA e il knowledge graph della pubblica amministrazione italiana
 
Open Data fra Potenzialità e Retorica
Open Data fra Potenzialità e RetoricaOpen Data fra Potenzialità e Retorica
Open Data fra Potenzialità e Retorica
 
Open Data Confindustria Padova
Open Data Confindustria PadovaOpen Data Confindustria Padova
Open Data Confindustria Padova
 
Enel Opencompany
Enel OpencompanyEnel Opencompany
Enel Opencompany
 
Il web 2.0: dal web informativo al web emozionale
Il web 2.0: dal web informativo al web emozionaleIl web 2.0: dal web informativo al web emozionale
Il web 2.0: dal web informativo al web emozionale
 

DBpedia nel contesto Linked Data

  • 1. UNIVERSITA’ DEGLI STUDI DI TRENTO FACOLTA’ DI ECONOMIA Corso di LS in “Net Economy: Tecnologia e Management dell’informazione e della conoscenza” Anno Accademico 2008-2009 Corso di “Modelli di rappresentazione della conoscenza” DBpedia nel contesto Linked Data Docente: Dott. Paolo Bouquet Studente: Andrea Casagrande 133393
  • 2. Sommario 1 Introduzione .................................................................................................................................. 3 2 Linked Data .................................................................................................................................. 4 2.1 Principi del Linked Data........................................................................................................ 6 2.2 Il progetto “Linking Open Data” ........................................................................................... 7 3 DBpedia ........................................................................................................................................ 9 3.1 Base di conoscenza di DBpedia .......................................................................................... 10 3.2 Estrazione di informazioni strutturate da Wikipedia ........................................................... 16 3.3 Accesso al set di dati di DBpedia sul Web .......................................................................... 17 3.4 Interfacce utente .................................................................................................................. 18 3.5 DBpedia all’interno del progetto comunitario “W3C Linking Open Data” ........................ 22 4 Lavori collegati ........................................................................................................................... 23 5 Conclusioni ................................................................................................................................. 24 FONTI ................................................................................................................................................ 26
  • 3. 1 Introduzione E’ ormai quasi universalmente riconosciuto il fatto che tenere insieme l’informazione strutturata e la conoscenza del mondo per rispondere semanticamente alle interrogazioni è una delle principali sfide della scienza informatica e una delle cose che in futuro potrebbe avere enormi ripercussioni sul mondo intero. Ciò ha portato a quasi 30 anni di ricerca sull’integrazione delle informazioni e recentemente sul Semantic Web e le tecnologie correlate. Tali sforzi hanno in genere ricevuto attenzione solo in domini relativamente piccoli e specializzati, dove potrebbero essere utilizzati un’ontologia chiusa, un vocabolario o uno schema. Tuttavia, la più ampia visione del Semantic Web non è ancora stata realizzata, e una delle maggiori sfide affrontando questi sforzi è stata quella di capire come rendere abbastanza interessante e largamente utilizzabile l’informazione nel sistema, rendendola utile e accessibile ad un pubblico generale. Un problema da risolvere è quello che il tradizionale modello “top-down” di progettazione di uno schema o un’ontologia crolla rispetto alla scala del Web, ancora prima di iniziare sviluppare i dati: sia i dati che i metadati dovrebbero infatti evolvere costantemente e servire a molte comunità diverse. Per risolvere questo problema c’è stato un movimento recente per costruire uno stile di base per il Semantic Web, usando approcci collaborativi ispirati al Web 2.0. Si sta studiando un nuovo modello di rappresentazione e gestione strutturata delle informazioni: si deve innanzitutto gestire in modo uniforme inconsistenza, ambiguità, incertezza, provenienza dei dati e conoscenza implicita. Forse il modo più efficace per spingere la ricerca sinergica lungo queste direzioni è quello di fornire un ricco corpus di dati diversi. Ciò consentirebbe ai ricercatori di sviluppare, confrontare e valutare differenti estrazioni, ragionamenti e tecniche di gestione dell’incertezza, e distribuire sistemi operazionali sul Web. All’interno dello sforzo della comunità “W3C Linking Open Data1” (LOD), un numero crescente di provider di dati ha iniziato a pubblicare e connettere dati sul Web secondo i principi “Linked Data 2” di Tim Berners-Lee. Il risultante Web dei dati3 consiste attualmente di diversi miliardi di triple RDF e include domini come informazioni geografiche, persone, società, comunità on-line, film, musica, libri e pubblicazioni scientifiche. In aggiunta alla pubblicazione e alla connessione di set di dati, c’è 1 http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData 2 http://www.w3.org/DesignIssues/LinkedData.html 3 Traduzione di “Web of Data”
  • 4. anche un continuo lavoro su browser Linked Data, crawler4 Linked Data, motori di ricerca per il Web dei dati e altre applicazioni che utilizzano i Linked Data dal Web. Un esempio di applicazione che opera in questo Web dei dati e secondo i principi Linked Data è DBpedia. La base di conoscenza di DBpedia è utile come Linked Data sul Web. Come DBpedia definisce URI Linked Data per milioni di concetti, vari provider di dati hanno iniziato a collocare collegamenti RDF dai loro set di dati a DBpedia, rendendo DBpedia uno dei centri di connessione5 centrali dell’emergente Web dei dati. Di seguito verrà presentato il Web dei dati e i principi Linked Data su cui si basa e successivamente una delle principali applicazioni che maggiormente fa uso di questi nuovi dati: DBpedia. Infine verranno presentati i progetti correlati e le conclusioni con i possibili sviluppi futuri che potranno avvenire in questo ambito. 2 Linked Data In questo momento il Web si sta trasformando da un medium per pubblicare e condividere documenti testuali a un medium per pubblicare e condividere dati. Questa transizione è facilitata dalle idee provenienti dalla comunità del Semantic Web e da iniziative come il progetto “W3C Linking Open Data”. Linked Data è un metodo per pubblicare dati RDF sul Web e per connettere dati tra fonti di dati differenti. Si può accedere ai Linked Data sul Web usando un browser del Semantic Web, proprio come ai documenti del Web tradizionale si può accedere usando un browser HTML. Comunque, invece di seguire collegamenti tra pagine HTML, i browser del Semantic Web permettono agli utenti di navigare tra diverse fonti di dati seguendo link RDF. Ciò permette all’utente di accedere ad una data risorsa, e poi di muoversi attraverso un Web di fonti di dati connessi attraverso link RDF potenzialmente infiniti. Ciò permette inoltre ai robot dei motori di ricerca del Semantic Web di seguire questi link per eseguire la scansione del Semantic Web. Il World Wide Web ha radicalmente alterato il modo di condividere la conoscenza, abbassando le barriere per pubblicare e accedere a documenti come parte di uno spazio informatico globale. I link ipertestuali consentono all’utente di attraversare questo spazio informativo usando i browser Web, mentre i motori di ricerca indicizzano i documenti e analizzano la struttura dei collegamenti tra essi 4 Software che analizzano i contenuti di una rete (o di un database) in un modo metodico e automatizzato, in genere per conto di un motore di ricerca 5 Interlinking-hub
  • 5. per dedurre una potenziale rilevanza con la ricerca effettuata dall’utente. Questa funzionalità è stata permessa dalla natura generica, aperta ed estensibile del Web, la quale è anche vista come una caratteristica chiave nella libera crescita del Web. Nonostante i vantaggi indiscutibili che offre il Web, fino a poco tempo fa gli stessi principi che consentivano al Web dei documenti di prosperare non erano applicate ai dati. Tradizionalmente i dati pubblicati sul Web erano resi disponibili come dati grezzi, in formati come file CSV o XML, o contrassegnati come tabelle HTML, sacrificando gran parte della loro struttura e della loro semantica. Nel convenzionale ipertesto Web, la natura delle relazioni tra due documenti collegati è implicita, come il formato dei dati, per esempio HTML, e non è sufficientemente espressiva per permettere a singole entità descritte in un particolare documento di essere connesse alle relative entità attraverso link. Mentre le unità primarie dell’ipertesto Web sono i documenti HTML connessi da iperlink non tipizzati, Linked Data si basa su documenti contenenti dati in formato RDF (Resource Description Framework). Ma, piuttosto che connettendo semplicemente questi documenti, Linked Data usa RDF per fare dichiarazioni scritte che collegano arbitrariamente le cose nel mondo. Il risultato, il cosiddetto Web of Data, può essere descritto più accuratamente come un web di cose nel mondo, descritte dai dati sul Web. Tuttavia, negli ultimi anni il Web si è evoluto da uno spazio di informazione globale di documenti collegati ad uno spazio in cui sia i documenti sia i dati sono collegati tra loro. Alla base di questa evoluzione vi è un insieme di best practice6 per la pubblicazione e la connessione di strutture dati sul Web. L’adozione delle best practice Linked Data ha condotto all’estensione del Web ad uno spazio di dati globale dove sia possibile la connessione tra dati provenienti da differenti domini come persone, società, libri, pubblicazioni scientifiche, film, musica, programmi televisivi e radiofonici, geni, proteine, farmaci e sperimentazioni cliniche, comunità on-line, dati statistici e scientifici, recensioni, ecc. Questo Web of Data permette nuovi tipi di applicazioni. Ci sono generici browser Linked Data che consentono agli utenti di iniziare a navigare in una fonte di dati e poi passare per mezzo di link in fonti di dati collegate. Ci sono motori di ricerca Linked Data che scansionano il Web of Data seguendo link tra fonti di dati e forniscono capacità di interrogazioni espressive su dati aggregati, in modo simile a come al giorno d’oggi vengono interrogati i database locali. Il Web dei dati si apre anche a nuove possibilità per applicazioni di specifici domini. A differenza dei mashup7 Web 2.0 che lavorano su un gruppo fisso di fonti di dati, le applicazioni 6 tecnica, metodo, processo o attività, più efficacie nel raggiungere un particolare risultato, di qualunque altra tecnica, metodo, processo, ecc 7 sito o applicazione web di tipo ibrido, cioè tale da includere dinamicamente informazioni o contenuti provenienti da più fonti
  • 6. Linked Data operano sulla cima di uno spazio di dati illimitato e globale. Ciò permette loro di fornire risposte più complete man mano che nuove fonti di dati appaiono sul Web. In sintesi, Linked Data riguarda semplicemente l’utilizzo del Web per creare collegamenti tra dati provenienti da diverse fonti. Questi possono essere diversi quanto i database mantenuti da due organizzazioni situate in diverse locazioni geografiche, o semplicemente sistemi eterogenei in una sola organizzazione che, storicamente, non sono semplicemente interoperabili a livello di dati. Tecnicamente, Linked Data si riferisce a dati pubblicati sul Web che siano leggibili dalle macchine (machine-readable), il cui significato sia definito esplicitamente, che siano collegati ad altri set di dati esterni e che possano essere a loro volta collegati a fonti esterne di set di dati. 2.1 Principi del Linked Data Tim Barners-Lee (nel 2006) ha delineato una serie di regole per la pubblicazione di dati sul Web in modo che tutti i dati pubblicati diventino parte di un unico spazio globale dei dati: 1. Usare URI come nomi per le cose. 2. Usare URI HTTP in modo che le persone possano cercare questi nomi. 3. Quando qualcuno cerca un URI fornire informazioni utili, usando gli standard (RDF, SPQRQL). 4. Includere link ad altre URI, in modo che si possano scoprire più cose. Questi sono conosciuti come i principi del Linked Data, e forniscono una ricetta di base per pubblicare e connettere dati usando l’infrastruttura del Web, pur rispettando la sua architettura e i suoi standard. Impiegando URI HTTP per identificare le risorse, il protocollo HTTP come meccanismo di recupero e il modello dati RDF per rappresentare descrizioni di risorse, Linked Data si basa direttamente sull’architettura generale del Web. Il Web of Data può quindi essere visto come un ulteriore livello che è strettamente intrecciato con il classico documento Web e ha molte delle stesse proprietà:  Il “Web of Data” è generico e può contenere ogni tipo di dati.  Chiunque può pubblicare dati sul Web of Data.  Chi pubblica i dati non è vincolato nella scelta dei vocabolari con i quali rappresentare i dati.  Le entità sono connesse da link RDF, creando un grafo globale dei dati che abbraccia e consente la scoperta di nuove fonti di dati.
  • 7. Dalla prospettiva dello sviluppo di un’applicazione il Web of Data ha le seguenti caratteristiche:  I dati sono rigorosamente separati da aspetti di formattazione e presentazione.  I dati sono auto-descrittivi. Se un’applicazione che utilizza Linked Data incontra dati descritti con un vocabolario sconosciuto, l’applicazione può dereferenziare le URI che identificano i termini del vocabolario per trovare la loro definizione.  L’uso di HTTP come un meccanismo standardizzato di accesso ai dati e RDF come un modello standardizzato di dati semplifica l’accesso ai dati in confronto alle Web API, le quali si basano sui modelli di dati eterogenei e sulle interfacce di accesso.  Il Web of Data è aperto, nel senso che le applicazioni non devono essere implementate rispetto ad un fissato insieme di fonti di dati, ma può scoprire nuove fonti di dati nel tempo di esecuzione seguendo link RDF. 2.2 Il progetto “Linking Open Data” L’esempio più visibile di adozione e applicazione dei principi Linked Data è il progetto “Linking Open Data”, uno sforzo di base della comunità fondata nel gennaio 2007 e supportata dal W3C Semantic Web Education and Outreach Group8. L’obiettivo originale e ancora in corso del progetto è di popolare il Web dei dati, individuando insiemi di dati esistenti che sono disponibili sotto licenze open, convertendo questi in RDF in accordo coi principi Linked Data, e pubblicandoli sul Web. Il progetto è cresciuto considerevolmente: all’inizio i partecipanti erano solo sviluppatori, ricercatori universitari, piccole aziende, ora sono coinvolti grandi aziende come la BBC, la Thomson Reuters e la Library of Congress. Questa crescita è stata possibile dalla natura open del progetto, dove ognuno può partecipare semplicemente pubblicando un insieme di dati in accordo con i principi del Linked Data e connettendoli con i set di dati esistenti. Un’indicazione del range e della grandezza del Web of Data originato dal progetto “Linking Open Data” è fornito in Figura 1. Ogni nodo in questo diagramma a nuvola rappresenta un insieme di dati distinto pubblicato come Linked Data, alla data di Marzo 2009. 8 http://www.w3.org/2001/sw/sweo/
  • 8. Figura 1. Diagramma a nuvola Linking Open Data (LOD) che da una visione d’insieme dei set di dati pubblicati e delle loro relazioni di connessione. Gli archi in Figura 1 indicano che esistono collegamenti tra oggetti tra due set di dati connessi. Gli archi più spessi corrispondono approssimativamente ad un numero di link tra due set di dati più grande. Il contenuto della nuvola è di diversa natura: comprende dati su locazioni geografiche, persone, società, libri, pubblicazioni scientifiche, film, musica, programmi televisivi e radiofonici, geni, proteine, farmaci e sperimentazioni cliniche, comunità online, dati statistici, risultati di censimenti e recensioni. Calcolare l’esatta dimensione del Web of Data rappresenta una sfida dovuta al fatto che gran parte dei dati vengono generati da involucri intorno ai database relazionali esistenti o alle API e pertanto necessitano innanzitutto di essere sottoposti a scansione prima di essere inclusi o analizzati. In alternativa, la dimensione del Web of Data può venire stimata sulla base delle statistiche sui set di dati che vengono raccolti dalla comunità LOD nel wiki ESW9. In base a tali statistiche il Web of 9 http://esw.w3.org/topic/
  • 9. Data consiste attualmente di 4.7 miliardi di triple RDF, le quali sono connesse da circa 142 milioni di link RDF (Maggio 2009). La Figura 1 mostra come alcuni set di dati servano come collegamento tra hub nel Web of Data. Per esempio il set di dati di DBpedia consiste di triple RDF estratte dagli “infobox” comunemente presenti sul lato destro degli articoli presenti su Wikipedia, mentre Geonames fornisce descrizioni RDF di milioni di locazioni geografiche in tutto il mondo. Dal momento che questi due insiemi di dati forniscono URI e descrizioni RDF per molte entità e concetti comuni, essi sono spesso citati in altri set di dati maggiormente specializzati e hanno quindi sviluppato al loro interno hub ai quali sono collegati un numero crescente di altri insiemi di dati. 3 DBpedia Il progetto DBpedia ha ricavato un corpus di dati dall’enciclopedia Wikipedia. Wikipedia è molto visitata e in costante revisione (ad esempio, secondo alexa.com, Wikipedia è stato il 6° sito più visitato nel corso del 200910). Le edizioni di Wikipedia sono disponibili in oltre 250 lingue, con quella inglese che contiene più di 3 milioni di articoli. Come molte altre applicazioni web, Wikipedia ha il problema che le sue capacità di ricerca sono limitate alla ricerca full-text, che permette solo un accesso limitato a questa preziosa base di conoscenza. Come è stato ampiamente pubblicizzato, Wikipedia presenta anche molte delle impegnative e allo stesso tempo ambiziose proprietà di poter editare i dati in modo collaborativo: dispone di conseguenza di dati contradditori, di convenzioni tassonomiche incoerenti, di errori e anche di spam. Il progetto DBpedia si concentra sul compito di convertire i contenuti di Wikipedia in conoscenza strutturata, in modo che le tecniche di Semantic Web possano essere impiegate rispetto a tali informazioni. In sintesi DBpedia è uno sforzo della comunità di estrarre informazioni strutturate da Wikipedia e di rendere queste informazioni disponibili sul Web. DBpedia permette di effettuare sofisticate interrogazioni da Wikipedia e di collegare altri set di dati presenti sul Web ai dati stessi di Wikipedia. Il fine ultimo è rendere più facile l’utilizzo dell’incredibile quantità di informazioni di Wikipedia in modi nuovi e interessanti, che potrebbero ispirare nuovi meccanismi per la navigazione, collegando e migliorando l'enciclopedia stessa. Gli autori di DBpedia hanno fornito i seguenti contributi: 10 http://www.alexa.com/topsites/global
  • 10.  Hanno sviluppato un quadro di estrazione delle informazioni, che converte il contenuto di Wikipedia in file RDF. Gli elementi di base formano un fondamento su cui la ricerca in materia di estrazione di informazioni, il clustering, la gestione dell’incertezza e i processi di interrogazione possono essere effettuati.  Hanno fornito al contenuto di Wikipedia un grande set di dati RDF multidominio, che può essere utilizzato in una varietà di applicazioni del Semantic Web. Il set di dati di DBpedia consiste in 103 milioni di triple RDF.  Hanno sviluppato una serie di interfacce e moduli di accesso, in modo tale che il set di dati possa essere accessibile tramite Web Services e collegato ad altri siti. Il set di dati di DBpedia può anche essere importato in applicazioni di terze parti oppure è possibile accedervi online usando varie interfacce utente di DBpedia. La Figura 2 fornisce una panoramica sul processo di estrazione delle informazioni di DBpedia e mostra come i dati estratti sono pubblicati sul Web. Queste principali interfacce di DBpedia attualmente usano Virtuoso e MySQL come depositi back-end. Figura 2 : visione d’insieme dei componenti di DBpedia 3.1 Base di conoscenza di DBpedia Le basi di conoscenza stanno giocando sempre più un importante ruolo nell’accrescere l’intelligenza del Web e nel supportare l’integrazione delle informazioni. Al giorno d’oggi molte basi di conoscenza includono solo specifici domini, sono create da gruppi relativamente piccoli di specialisti della conoscenza ed è molto costoso tenerle aggiornate ai cambi di dominio. Allo stesso
  • 11. tempo, Wikipedia è diventata una delle sorgenti di conoscenza centrale per il genere umano, mantenuta da migliaia di partecipanti. Il progetto DBpedia usa abilmente questa gigantesca risorsa di conoscenza estraendo informazioni strutturate da Wikipedia e rendendo queste informazioni accessibili sul Web alle condizioni della “Creative Commons Attribution-Share Alike 3.0 License” e della “GNU Free Documentation License”. La base di conoscenza di DBpedia descrive correntemente più di 2,9 milioni di “cose”, inclusi almeno 282.000 persone, 339.000 luoghi (inclusi 241.000 luoghi popolati), 88.000 album musicali, 44.000 film, 15.000 videogames, 119.000 organizzazioni (incluse 20.000 società e 29.000 istituzioni educative), 130.000 specie e 4.400 malattie. La base di conoscenza di DBpedia distingue etichette e abstract per questi argomenti in 91 linguaggi differenti (le 13 lingue principali corrispondenti ad altrettante versioni di Wikipedia sono inglese, tedesco, francese, spagnolo, italiano, portoghese, polacco, svedese, olandese, giapponese, cinese, russo, finlandese e norvegese); 807.000 collegamenti ad immagini e 3.840.000 collegamenti a pagine web esterne; 4.878.100 collegamenti esterni in altri set di dati esterni, 415.000 categorie di Wikipedia, e 75.000 categorie di YAGO. La base di conoscenza è composta di 479 milioni di pezzi di informazioni (triple RDF), di cui 190 milioni sono stati ricavati dall’edizione inglese di Wikipedia e 289 milioni sono stati estratti dalle edizioni in altri linguaggi. Il set di dati è organizzato per il download come un insieme di files RDF più piccoli. La Tabella 1 fornisce una panoramica su questi files. Set di dati Descrizione Triple Articoli Descrizione di tutti i 3.2 milioni di concetti all’interno della versione 7.6 M inglese di Wikipedia, compresi titoli, brevi abstract, miniature e collegamenti agli articoli corrispondenti. Abstract estesi Abstract estesi supplementari. 2.1 M Linguaggi Titoli aggiuntivi, brevi abstract e collegamenti ad articoli di Wikipedia 5.7 M in tedesco, francese, spagnolo, italiano, portoghese, polacco, svedese, olandese, giapponese, cinese, russo, finlandese e norvegese. Linguaggi abstract Abstract estesi in 13 lingue. 1.9 M Infobox Attributi dei dati per i concetti che sono stati estratti dagli infobox di 15.5 M Wikipedia. Link esterni Collegamenti a pagine web esterne riguardanti un concetto. 1.6 M Categorie di articoli Collegamenti da concetti a categorie usando SKOS. 5.2 M
  • 12. Categorie Informazione il cui concetto è una categoria e le cui categorie sono 1M collegate. Tipi YAGO Set di dati contenente la dichiarazione rdf:type per tutte le istanze di 1.9 M DBpedia usando la classificazione di YAGO. Persone Informazioni riguardanti 80.000 persone (date e luogo di nascita, etc.) 0.5 M rappresentate usando il vocabolario FOAF. Link a pagine Collegamenti interni tra le istanze di DBpedia derivate dai link alle 62 M pagine interne tra gli articoli di Wikipedia. Collegamenti RDF Collegamenti tra DBpedia e GeoNames, US Census, Musicbrainz, 180 K Progetto Gutenberg, la bibliografia DBLP e l’RDF Book Mash-up. Tabella 1: Il set di dati di DBpedia Alcune serie di dati (come ad esempio le Persone o il set di dati Infobox) sono semanticamente ricche, nel senso che contengono informazioni molto specifiche. Altre (come il seti di dati dei Link a pagine) contengono meta-dati (come ad esempio collegamenti tra articoli) senza una semantica specifica. Tuttavia, queste ultime possono risultare utili ad esempio per le misure di vicinanza tra concetti o di rilevanza nei risultati di ricerca. Ciascuna delle 2.9 milioni di risorse descritte nel set di dati di DBpedia è identificata da un’URI di riferimento della forma http://dbpedia.org/resource/Name, dove Name è preso dall’URL dell’articolo di sorgente di Wikipedia, che ha la forma http://en.wikipedia.org/wiki/Name. Così ogni risorsa è legata direttamente ad un articolo in lingua inglese di Wikipedia. Questo produce certamente proprietà benefiche agli identificatori di DBpedia:  Essi coprono una vasta gamma di argomenti dell’enciclopedia.  Essi sono definiti dal consenso della comunità.  Ci sono chiare politiche in atto per la loro gestione.  Un’ampia definizione testuale dei concetti è disponibile in una zona ben conosciuta del web (la pagina di Wikipedia). Quindi la base di conoscenza di DBpedia ha numerosi vantaggi rispetto alle basi di conoscenza esistenti: essa include molti domini; essa rappresenta accordi reali tra comunità; essa evolve automaticamente con i cambiamenti di Wikipedia, ed è perfettamente multilingue.
  • 13. La base di conoscenza di DBpedia permette inoltre di effettuare abbastanza sorprendenti interrogazioni da Wikipedia, per esempio “Dimmi tutte le città nel New Jersey con più di 10.000 abitanti” o “Dimmi tutti i musicisti italiani del XIIX secolo”. Complessivamente, i casi d’uso della base di conoscenza di DBpedia sono diffusi e variano dalla gestione della conoscenza d’impresa, fino alla ricerca Web, rivoluzionando la ricerca su Wikipedia. Il set di dati di DBpedia funziona come Linked Data, nel senso che tutte le URI di DBpedia sono dereferenziabili. Ciò permette di navigare il set di dati di DBpedia con browser del Semantic Web come DISCO, Marbles, Objectviewer, OpenLink Data Explorer, Tabulator o Zitgist Data Viewer. Al fine di consentire agli utenti di DBpedia di scoprire ulteriori informazioni, il set di dati di DBpedia è interconnesso con varie altre fonti di dati sul Web tramite collegamenti RDF. I link RDF consentono ai navigatori del web di navigare da dati all’interno di una fonte a dati collegati all’interno di altre fonti utilizzando un browser web semantico. I link RDF possono anche essere seguiti dai crawler dei motori di ricerca del Semantic Web, i quali possono offrire ricerche sofisticate e funzionalità di interrogazione sui dati scansionati. Lo sforzo di interconnessione di DBpedia è parte del progetto della comunità Linking Open Data 11 del gruppo di interesse W3C Semantic Web Education and Outreach (SWEO). Con questo progetto la comunità si è impegnata a fare enormi dataset e ontologie, come il censimento degli Stati Unitn (US Census), GeoNames, MusicBraiz, la bibliografia DBLP, WordNet, Cyc e molti altri, interoperabili sul Semantic Web. DBpedia, con la sua ampia copertura di argomenti, si interseca praticamente con tutti questi set di dati e, pertanto, rappresenta un eccellente “linking hub” per tali sforzi. In Figura 3 è fornita una panoramica sui set di dati attualmente interconnessi con DBpedia. Complessivamente questo Web of Data ammonta a quasi 5 miliardi di triple RDF. Utilizzando questi link RDF, i navigatori possono per esempio navigare in DBpedia passando da un esperto di informatica alle sue pubblicazioni nel database DBLP, da un libro alla recensione e alle offerte di vendita per questo libro fornite dal RDF Book Mashup, o da una band musicale a una lista delle loro canzoni fornite da Musicbrainz o DBtune. 11 http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData
  • 14. Figura 3: Principali fonti di dati interconnesse con DBpedia Nella seguente tabella vengono descritte maggiormente nel dettaglio le principali fonti di dati interconnesse con DBpedia: Numero di Esempi di Link Set di dati Descrizione link (owl:sameAs) Fornisce informazioni riguardanti caratteristiche Geonames 85.000 Cambridge geografiche. Fornisce informazioni riguardanti artisti e MusicBrainz 23.000 Portishead musica. Rappresentazione W3C RDF/OWL WordNet 330.000 Air France dell’ontologia Word Net. World Fornisce informazioni riguardanti le nazioni. 200 France Factbook Fornisce informazioni riguardanti gli Stati e le EuroStat 200 France regioni europee.
  • 15. Book Mashup Fornisce informazioni riguardanti i libri. 7.000 DBLP Fornisce informazioni riguardanti pubblicazioni 200 Tim Berners-Lee Bibliography scientifiche. Project Fornisce informazioni riguardanti autori e 2.500 John Bunyan Gutenberg accessi aperti ai loro lavori. Un involucro attorno a flickr che cerca di flickr wrappr generare una raccolta di foto per ogni concetto 1.950.000 Brandenburg Gate di DBpedia. Un database a licenza open riguardante milioni Freebase 2.400.000 Tetris ci cose di vari domini. OpenCyc Una versione a licenza open dell’ontologia Cyc. 60.000 Woody Allen Una struttura di riferimento per concetti derivati UMBEL 20.000 Place da Cyc. Fornisce dati “US Census” sul censimento delle US Census 12.000 Los Angeles città americane. Eli Lilly Dailymed Fornisce informazioni riguardanti le medicine. 50 and Company Fornisce informazioni riguardanti le malattie e i Diseasome 2000 Asthma geni. Fornisce informazioni riguardanti le droghe e i Drugbank 700 ZNF3 geni. Fornisce informazioni riguardanti gli effetti Sider 750 Claudication collaterali delle droghe. Tabella 2: Descrizione delle principali fonti di dati a cui è connesso DBpedia
  • 16. 3.2 Estrazione di informazioni strutturate da Wikipedia Gli articoli di Wikipedia sono composti prevalentemente da testo libero, ma contengono anche differenti tipi di informazioni strutturate, come template infobox, informazioni categorizzate, immagini, coordinate geografiche, collegamenti a pagine Web esterne e link tra le edizioni in lingue diverse di Wikipedia. MediaWiki è il software utilizzato per l’esecuzione di Wikipedia. A causa della natura di questo sistema Wiki, sostanzialmente tutte le modifiche, i collegamenti, le annotazioni con metadati sono effettuate all’interno del testo dell’articolo con l’aggiunta di speciali costrutti sintattici. Poiché MediaWiki sfrutta alcune di queste stesse informazioni per rendere l’interfaccia utente, alcune informazioni vengono memorizzate nella cache in tabelle di database relazionali. Il riversamento delle cruciali tabelle dei database relazionali (compresi quelli che contengono i testi degli articoli) per differenti versioni linguistiche di Wikipedia è pubblicato sul Web in una base regolare. Sulla base di questi riversamenti di database, attualmente si usano due differenti metodi di estrazione delle relazioni semantiche: (1) vengono mappate le relazioni che sono già memorizzate in tabelle di database relazionali su RDF e (2) vengono estratte informazioni addizionali direttamente dai testi dell’articolo e dai template dell’infobox all’interno dell’articolo. Di seguito viene illustrata l’estrazione della semantica dal testo di un articolo con un esempio di template infobox di Wikipedia. La Figura 4 mostra il template dell’infobox (codificato all’interno di un articolo di Wikipedia) e l’uscita resa della città sud coreana Busan. L’algoritmo di estrazione dell’infobox rileva i template e riconosce la loro struttura utilizzando le tecniche di matching dei pattern. Vengono selezionati i template significativi, i quali vengono poi analizzati e trasformati in triple RDF. L’algoritmo utilizza tecniche di post-processing per incrementare la qualità dell’estrazione. I collegamenti MediaWiki vengono riconosciuti e trasformati in URI appropriate, unità comuni vengono rilevate e trasformate per i tipi di dati. Inoltre, l’algoritmo è in grado di rilevare elenchi di oggetti che vengono trasformati in liste RDF. Tutti gli algoritmi di estrazione sono implementati usando PHP e sono disponibili sotto licenza open source.
  • 17. Figura 4: Esempio di template Wikipedia e resa dell’uscita (estratto) 3.3 Accesso al set di dati di DBpedia sul Web Vengono messi a disposizione tre meccanismi di accesso al dataset di DBpedia: Linked Data, il protocollo SPARQL e il riversamento RDF scaricabile. L’accesso a queste interfacce secondo diritti d’autore liberi è concesso nel rispetto dei termini della GNU Free Documentation License. 1. Linked Data. Linked Data è un metodo di pubblicazione di dati RDF sul Web che si basa su URI http:// come identificatori di risorsa e il protocollo HTTP per recuperare le descrizioni delle risorse. Le URI sono configurate per restituire le informazioni significative sulla risorsa, tipicamente una descrizione RDF contenente tutto ciò che è noto su di essa. Una tale descrizione cita generalmente risorse collegate da URI, alle quali una alla volta si può avere accesso ai campi delle loro descrizioni. Ciò costituisce una fitta rete di descrizioni di risorse accessibili dal web in grado di attraversare i server ed i confini dell’organizzazione. Gli identificatori di risorse di DBpedia, come http://dbpedia.org/resource/Busan, sono configurati per restituire descrizioni RDF quando vi si accede da agenti web semantici, e una semplice visualizzazione HTML delle stesse informazioni quando vi si accede da tradizionali browser
  • 18. Web. La negoziazione del contenuto HTTP viene utilizzata per fornire un formato appropriato. Agenti Web che possono accedere a Linked Data includono: 1) browser web semantici, come Disco12, Tabulator o il browser web OpenLink Data13; 2) crawler web semantici, come SWSE14 e Swoogle15; 3) agenti di interrogazione web semantici come la Semantic Web Client Library16 e il client Semantic Web per SWI prolog17. 2. Endpoint SPARQL. Viene fornito un endpoint SPARQL per interrogare il dataset di dBpedia. Le applicazioni client possono inviare interrogazioni tramite il protocollo SPARQL a questo endpoint al sito http://dbpedia.org/sparql. L’endpoint è fornito usando OpenLink Virtuoso come motore database back-end. Questa interfaccia è appropriata quando lo sviluppatore dell’applicazione client conosce in anticipo esattamente di quali informazioni ha bisogno. In aggiunta allo standard SPARQL, l’endpoint supporta diverse estensioni del linguaggio di interrogazione che si sono rivelate utili per lo sviluppo delle interfacce utente: ricerca di testo completo sui predicati RDF selezionati e funzioni di aggregazione, in particolare COUNT. Per proteggere il servizio dal sovraccarico, sono messi in atto limiti ai costi di interrogazione e alla grandezza dei risultati. Ad esempio, una query che interroga l’intero contenuto del negozio è respinta perché troppo costosa. I risultati di SELECT sono troncati alle millesima riga. Va notato che non tutti i set di dati di DBpedia sono caricati nell’endpoint SPARQL. In particolare, solo il set di dati dell’infobox inglese è caricato mentre il set di dati dell’infobox negli altri linguaggi non è caricato per evitare confusione. 3. Riversamento RDF. Le serializzazioni di N-Triple dei dataset sono disponibili per il download sul sito di DBpedia e possono essere usate da siti che sono interessati a parti più grandi del set di dati. 3.4 Interfacce utente Le interface utente per DBpedia possono variare da una semplice tabella all’interno di una classica pagina web fino a interfacce di navigazione per differenti tipi di interrogazione. Questa sezione fornisce una panoramica sulle diverse interfacce utente che sono state finora realizzate. 12 http://www4.wiwiss.fu-berlin.de/bizer/ng4j/disco/ 13 http://demo.openlinksw.com/DAV/JS/rdfbrowser/index.html 14 http://swse.org/ 15 http://swoogle.umbc.edu/ 16 http://www4.wiwiss.fu-berlin.de/bizer/ng4j/semwebclient/ 17 http://moustaki.org/swic/
  • 19. Semplice integrazione dei dati di DBpedia all’interno di pagine Web DBpedia è una preziosa fonte di dati per fini generali che può essere utilizzata all’interno di pagine web. Pertanto, se si desidera una tabella contenente ad esempio capitali della Germania, musicisti africani, giochi per computer Amiga o qualsiasi altra cosa sul vostro sito, è possibile generare questa tabella utilizzando una query SPARQL verso l’endpoint DBpedia. Wikipedia è tenuta aggiornata da una comunità di grandi dimensioni e una bella caratteristica di tali tabelle è che anche esse rimarranno aggiornate con le modifiche di Wikipedia, e quindi anche di DBpedia. Tali tabelle possono essere implementate utilizzando Javascript sul client o con un linguaggio di scripting come PHP sul server.  Search DBpedia.org “Search DBpedia.org” è una semplice applicazione che permette agli utenti di esplorare il dataset di DBpedia insieme con le informazioni provenienti da set di dati interconnessi, come ad esempio GeoNames, l’RDF Book Mashup o la bibliografia DBLP. In contrasto con ricerche basate su parola chiave full-text (solamente testuali) che si trovano comunemente sul Web, la ricerca su dati strutturati offre l’opportunità di fare un uso produttivo delle relazioni tra i dati, consentendo un graduale restringimento dei risultati della ricerca in diverse dimensioni. Questo aggiunge un componente di navigazione per l’attività di ricerca e può ridurre il comune problema del decidere o no se cliccare su un risultato trovato (“keyword-hit-or-not-hit”). Una sessione di”Search DBpedia” inizia con una ricerca per parola chiave. Una prima serie di risultati è calcolato dalla corrispondenza diretta della parola chiave. Le corrispondenze collegate vengono aggiunte utilizzando le relazioni tra le entità fino ad una profondità di due nodi. Così, ad esempio una ricerca per la parola chiave “Scorsese” includerà il regista Martin Scorsese così come tutti i suoi film e gli attori di questi film. Il passo successivo è classificare il risultato. Gli esperimenti effettuati hanno dimostrato che articoli importanti ricevono maggiori link di pagine in entrata da altri articoli. Viene utilizzata una combinazione di conteggio dei link in entrata, rilevante ai fini della fonte del link, e della profondità della relazione per calcolare una graduatoria di pertinenza. Dopo aver inserito un termine di ricerca, all’utente sono presentati una lista di risultati classificati, e un insieme di tag costruiti dalle classi trovate nei risultati, utilizzando una combinazione delle classificazioni di DBpedia e di YAGO18. Il peso di ogni classe è calcolato dalla somma dei pesi dei risultati associati e dalla frequenza dell’occorrenza. L’insieme di tag 18 http://www.mpi-inf.mpg.de/yago-naga/yago/
  • 20. permette all’utente di restringere i risultati ad un tipo specifico di entità, come ad esempio “Attore”, anche se una semplice ricerca per parole chiave può non avere portato a nessun attore. Quando una risorsa viene selezionata da una serie di risultati, all’utente è presentata una visione dettagliata di tutte le informazioni che sono conosciuti su quella risorsa (Figura 5). Etichetta, immagine e descrizione sono riportati in alto. Le proprietà dei singoli e dei multi valori sono mostrate separatamente. I dati provenienti da set di dati interconnessi sono automaticamente recuperati seguendo i link RDF all’interno dei dataset e i dati recuperati da set di dati interconnessi sono mostrati assieme con i dati di DBpedia. Figura 5: Risultati della ricerca e visione dettagliata per Busan  Interrogazione dei dati di Wikipedia Rispetto alla maggior parte delle altre basi di conoscenza del Semantic Web attualmente disponibili, per l’estrazione dell’RDF da Wikipedia si ha a che fare con un diverso tipo di conoscenza strutturata, si ha uno schema di informazione molto grande e una notevole quantità di dati che si attengono a questo schema. Se si ha un voluminoso set di dati o un schema di dati di grandi dimensioni, il deposito degli RDF elaborati con motori di interrogazione integrati da solo non è molto utile. A causa delle grandi dimensioni dello schema di dati, gli utenti possono difficilmente conoscere quali
  • 21. proprietà e identificatori sono usati nella base di conoscenza e quindi possono utilizzare per l’esecuzione di interrogazioni. Di conseguenza, gli utenti devono essere guidati quando costruiscono le interrogazioni e gli si dovrebbero suggerire ragionevoli alternative. E’ stato appositamente sviluppato un generatore di pattern grafici per interrogare i contenuti estratti da Wikipedia. Gli utenti interrogano la base di conoscenza per mezzo di un pattern grafico che consiste di molteplici modelli di triple. Per ogni modello di triple tre campi catturano variabili, identificatori o filtri per il soggetto, predicato e oggetto di una tripla. Mentre gli utenti digitano i nomi degli identificatori in un campo del form, una ricerca “look-ahead” (che guarda avanti) propone opzioni adatte. Queste sono ottenute non solo con la ricerca di identificatori corrispondenti ma eseguendo la query che si sta costruendo e iniziando subito il matching con la stringa di ricerca fornita dall’utente. Questo metodo assicura che l’identificatore proposto sia davvero usato in congiunzione con il modello grafico in costruzione e che la query restituisca effettivamente dei risultati. Inoltre, i risultati della ricerca di identificatori sono classificati in ordine di numero di utilizzo, mostrando prima gli identificatori comunemente usati. Tutto questo viene eseguito in background, usando la tecnologia Web 2.0 AJAX e quindi è tutto completamente invisibile per l’utente. La Figura 6 mostra uno screenshot del costruttore di pattern grafici. Figura 6: form basato sul costruttore di query
  • 22. Interfacce utente di terze parti Il progetto DBpedia mira a fornire un focolaio per le applicazioni e i mashup basati su informazioni di Wikipedia. Anche se DBpedia non è stata lanciata da moltissimo, c’è già un certo numero di applicazioni di terze parti che utilizzano i dataset. Alcuni esempi inludono:  Un installazione SemanticMediaWiki eseguita dall’università di Karlsruhe, la quale ha importato il dataset di DBpedia insieme con l’edizione inglese di Wikipedia.  WikiStory, che consente agli utenti di sfogliare gli articoli di Wikipedia riguardanti persone lungo una linea temporale di grandi dimensioni.  L’ambiente di dati visivi Objectsheet JavaScript, che consente calcoli su fogli elettronici basati su dati di DBpedia. 3.5 DBpedia all’interno del progetto comunitario “W3C Linking Open Data” DBpedia fa parte del progetto comunitario “W3C Linking Open Data”, uno sforzo per pubblicare e connettere varie fonti di dati open. Nel novembre 2009 questo sforzo è sfociato nella costruzione di un Web di fonti di dati interconnesse che ammontano a più di 6 miliardi di triple RDF. Il Linking Open Data è un progetto del W3C SWEO che ha lo scopo di estendere il Web creando una rete di dati aperti e disponibili a tutti – offerti dall’ Open Data Movement – pubblicando in formato RDF insiemi di dati provenienti da diverse sorgenti e connettendone gli elementi definendo le relazioni che esistono tra questi, in modo da poter passare da un informazione ad un’altra a questa legata anche se appartengono a due sorgenti diverse; questa possibilità vale anche per i crawler dei motori di ricerca, facilitando il recupero delle informazioni. Questo progetto copre diversi domini di riferimento delle risorse ed è un esempio di evoluzione verso il data-web globale, che può essere sfruttato dalle applicazioni semantiche. In questo modo DBpedia può essere anche vista come un’ontologia multi dominio (caratteristica che la differenzia notevolmente dalla maggior parte delle ontologie che trattano un dominio singolo) che definisce univocamente – tramite le URI – diverse entità che possono essere riusate, ad esempio, in un profilo FOAF19 personale per descrivere un certo interesse che altrimenti non sarebbe identificabile, oppure per definire tag in maniera strutturata con Faviki20. Le risorse catalogate in DBpedia possiedono inoltre delle proprietà che le definiscono, come un abstract (nelle 19 http://www.foaf-project.org/ 20 http://www.faviki.com/pages/welcome/
  • 23. lingue per cui è disponibile) che le descrive, la categoria di appartenenza, le informazioni della relativa Infobox, collegamenti a pagine HTML con dbpedia:resource o foaf:homepage o a documenti RDF con owl:sameAs, coordinate geografiche. Al di là dell’enorme quantità di dati che rende disponibile sul web, il progetto DBpedia è di grande importanza poiché permette il collegamento di queste risorse con altre provenienti da sorgenti diverse, come ad esempio gli 85.000 link con il database geografico Geonames. La pubblicazione dei dati in formato RDF ne rende possibile il riuso e fa sì che possano essere effettuate delle query SPARQL complesse sugli articoli di Wikipedia, che invece supporta solo la ricerca basata sulle parole chiave, utilizzando tools come ad esempio SNORQL Query Explorer. 4 Lavori collegati Un secondo progetto che funziona anch’esso sull’estrazione delle informazioni strutturate è il progetto YAGO. YAGO estrae solo 14 tipi di relazioni, come subClassOf, type, familyNameOf, locatedIn da differenti fonti di informazione su Wikipedia. Una fonte è il sistema di categorie di Wikipedia (per subClassOf, locatedIn, diedInYear, bornInYear) e un’altra sono i reindirizzamenti di Wikipedia. YAGO non esegue un’estrazione dell’infobox come nell’approccio di DBpedia. Per la determinazione delle relazioni di sottoclasse, YAGO non usa pienamente la gerarchia di categoria di Wikipedia, ma le categorie di collegamenti a foglia della gerarchia di WordNet. Il progetto Semantic MediaWiki mira anch’esso a permettere il riutilizzo delle informazioni all’interno dei Wiki, nonché a migliorare la ricerca e a facilitare la navigazione. Semantic MediaWiki è un’estensione del software MediaWiki che consente di aggiungere dati strutturati all’interno di Wiki usando una sintassi specifica. In definitiva, DBpedia e Semantic Wiki hanno obiettivi simili: entrambi vogliono offrire i vantaggi delle informazioni strutturate di Wikipedia per gli utenti, ma usano differenti approcci per raggiungere questo scopo. Semantic MediaWiki richiede agli autori di affrontare una nuova sintassi, ma includere tutte le informazioni strutturate all’interno di Wikipedia richiede di conseguenza di convertire tutte le informazioni in questa sintassi. DBpedia, invece, sfrutta la struttura che già esiste all’interno di Wikipedia e quindi non necessita di profonde modifiche di carattere tecnico o metodologico. Tuttavia, DBpedia non è strettamente integrata in Wikipedia come è previsto per Semantic MediaWiki e quindi è limitata nelle restrizioni degli autori di Wikipedia per quanto riguarda la coerenza sintattica e strutturale e l’omogeneità.
  • 24. Un altro approccio interessante è seguito da Freebase21. Il progetto mira a costruire un enorme database online che gli utenti possano modificare in maniera simile a come essi fanno attualmente per gli articoli di Wikipedia. La comunità di DBpedia collabora con Metaweb e presto collegherà i dati proveniente da entrambe le fonti, Freebase e Metaweb. 5 Conclusioni DBpedia è una delle più grandi ontologie multi dominio che esistono al giorno d’oggi. In confronto ad altre ontologie che solitamente includono solo domini specifici, sono create per gruppi relativamente piccoli di ingegneri della conoscenza, e sono molto costose da tenere aggiornate ai cambiamenti di dominio, DBpedia ha il vantaggio che: 1. include molti domini e contiene molte istanze; 2. rappresenta autentici accordi tra comunità; 3. evolve automaticamente seguendo i cambiamenti di Wikipedia. Gli svantaggi di DBpedia confrontati con ontologie artigianali come SUMO, Open Cyc o WordNet sono che: 1. DBpedia è meno strutturata formalmente; 2. la qualità dei dati è inferiore e ci sono incongruenze all’interno di DBpedia. Un approccio per combinare i vantaggi di entrambi i mondi è connettere DBpedia con le ontologie artigianali, in modo da consentire alle applicazioni di usare la conoscenza formale da queste ontologie assieme con le istanze dati da DBpedia. Connettendo DBpedia con queste ontologie si potrebbe estendere ulteriormente le potenzialità delle interrogazioni. Ma estraendo dati strutturai da tutte le 251 versioni di DBpedia e collegando questi dati con il contesto di conoscenza derivante da ontologie come Open Cyc, SUMO, o WordNet, sono necessari differenti tipi di controlli di coerenza. Perciò, una direzione promettente verso cui muoversi in futuro è usare la conoscenza di DBpedia per controlli di coerenza e per sviluppare strumenti che supportino gli autori di Wikipedia nell’offrire suggerimenti correttivi. Come obiettivi futuri ci si dovrà concentrerà in primo luogo sul miglioramento della qualità del dataset di DBpedia. Dovrà essere automatizzato ulteriormente il processo di estrazione dei dati al fine di aumentare la ricorrenza del set di dati di DBpedia e sincronizzarla con le modifiche di Wikipedia. In parallelo, bisognerà continuerà ad esplorare differenti tipi di interfacce utente e casi 21 http://www.freebase.com/
  • 25. d’uso per l’insieme di dati di DBpedia. All’interno della comunità del progetto W3C Linkin Open Data sono interconnessi il set di dati di DBpedia con ulteriori set di dati che man mano che vengono pubblicati come Linked Data sul Web. Si è intenzionati anche a sfruttare le sinergie tra le versioni di Wikipedia nelle varie lingue al fine di incrementare ulteriormente la copertura di DBpedia e fornire strumenti di garanzia della qualità per la comunità di Wikipedia. Un tale strumento potrebbe, ad esempio, informare un autore di Wikipedia riguardo a contraddizioni tra il contenuto degli infobox contenuti nelle varie versioni linguistiche di un articolo. L’interconnessione di DBpedia con altre basi di dati come ad esempio Cyc (e il loro utilizzo come conoscenza di background) potrebbe portare ad ulteriori metodi per il semi-automatico controllo della coerenza per il contenuto di Wikipedia. DBpedia è una delle principali fonti di dati open e royalty-free sul Web. Ci si augura che l’interconnessione di DBpedia con ulteriori fonti di dati potrebbe costituire un nucleo per l’emergere definitivo del Web of Data.
  • 26. FONTI [1] C. Bizer, T.Heath, Tim Barners-Lee; “Linked Data - The Story So Far”; International Journal on Semantic Web and Information Systems (IJSWIS) (2009) <http://tomheath.com/papers/bizer-heath-berners-lee-ijswis-linked-data.pdf> [2] C.Bizer, T.Heath, D.Ayers, Y.Raimond; “Interlinking Open Data on the Web” <http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkingOpenData.pdf> [3] C.Bizer, T.Heath, K.Idehen, Tim Berners-Lee; “Linked Data on the Web (LDOW2008)”. Workshop Summary; April 21-25, 2008, Beijing, China. <http://www2008.org/papers/pdf/p1265-bizer.pdf> [4] Linked Data Web architecture note by Tim Berners-Lee < http://www.w3.org/DesignIssues/LinkedData.html> [5] Sito web del progetto DBpedia <http://dbpedia.org/About> [6] S.Auer, C.Bizer, G.Kobilarov, J.Lehmann, R.Cyganiak, Z.Ives; “DBpedia: A Nucleus for a Web of Open Data”. In Proceedings of the 6th International Semantic Web Conference and 2nd Asian Semantic Web Conference (ISWC/ASWC2007) <http://www.cis.upenn.edu/~zives/research/dbpedia.pdf> [7] C.Bizer, S.Auer, G.Kobilarov, J.Lehmann, C.Becker, S.Hellmann; “Querying Wikipedia like a database and an interlinking-hub in the Web of Data” <http://www4.wiwiss.fu-berlin.de/bizer/pub/WikiMediaDevMeeting-DBpedia-Talk.pdf>