DBpedia nel contesto Linked Data

  • 1,296 views
Uploaded on

 

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
1,296
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
44
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. UNIVERSITA’ DEGLI STUDI DI TRENTO FACOLTA’ DI ECONOMIACorso di LS in “Net Economy: Tecnologia e Management dell’informazione e della conoscenza” Anno Accademico 2008-2009 Corso di “Modelli di rappresentazione della conoscenza” DBpedia nel contesto Linked Data Docente: Dott. Paolo Bouquet Studente: Andrea Casagrande 133393
  • 2. Sommario1 Introduzione .................................................................................................................................. 32 Linked Data .................................................................................................................................. 4 2.1 Principi del Linked Data........................................................................................................ 6 2.2 Il progetto “Linking Open Data” ........................................................................................... 73 DBpedia ........................................................................................................................................ 9 3.1 Base di conoscenza di DBpedia .......................................................................................... 10 3.2 Estrazione di informazioni strutturate da Wikipedia ........................................................... 16 3.3 Accesso al set di dati di DBpedia sul Web .......................................................................... 17 3.4 Interfacce utente .................................................................................................................. 18 3.5 DBpedia all’interno del progetto comunitario “W3C Linking Open Data” ........................ 224 Lavori collegati ........................................................................................................................... 235 Conclusioni ................................................................................................................................. 24FONTI ................................................................................................................................................ 26
  • 3. 1 Introduzione E’ ormai quasi universalmente riconosciuto il fatto che tenere insieme l’informazionestrutturata e la conoscenza del mondo per rispondere semanticamente alle interrogazioni è una delleprincipali sfide della scienza informatica e una delle cose che in futuro potrebbe avere enormiripercussioni sul mondo intero. Ciò ha portato a quasi 30 anni di ricerca sull’integrazione delleinformazioni e recentemente sul Semantic Web e le tecnologie correlate. Tali sforzi hanno in generericevuto attenzione solo in domini relativamente piccoli e specializzati, dove potrebbero essereutilizzati un’ontologia chiusa, un vocabolario o uno schema. Tuttavia, la più ampia visione delSemantic Web non è ancora stata realizzata, e una delle maggiori sfide affrontando questi sforzi èstata quella di capire come rendere abbastanza interessante e largamente utilizzabile l’informazionenel sistema, rendendola utile e accessibile ad un pubblico generale.Un problema da risolvere è quello che il tradizionale modello “top-down” di progettazione di unoschema o un’ontologia crolla rispetto alla scala del Web, ancora prima di iniziare sviluppare i dati:sia i dati che i metadati dovrebbero infatti evolvere costantemente e servire a molte comunitàdiverse. Per risolvere questo problema c’è stato un movimento recente per costruire uno stile di baseper il Semantic Web, usando approcci collaborativi ispirati al Web 2.0. Si sta studiando un nuovomodello di rappresentazione e gestione strutturata delle informazioni: si deve innanzitutto gestire inmodo uniforme inconsistenza, ambiguità, incertezza, provenienza dei dati e conoscenza implicita.Forse il modo più efficace per spingere la ricerca sinergica lungo queste direzioni è quello di fornireun ricco corpus di dati diversi. Ciò consentirebbe ai ricercatori di sviluppare, confrontare e valutaredifferenti estrazioni, ragionamenti e tecniche di gestione dell’incertezza, e distribuire sistemioperazionali sul Web.All’interno dello sforzo della comunità “W3C Linking Open Data1” (LOD), un numero crescente diprovider di dati ha iniziato a pubblicare e connettere dati sul Web secondo i principi “Linked Data 2”di Tim Berners-Lee. Il risultante Web dei dati3 consiste attualmente di diversi miliardi di triple RDFe include domini come informazioni geografiche, persone, società, comunità on-line, film, musica,libri e pubblicazioni scientifiche. In aggiunta alla pubblicazione e alla connessione di set di dati, c’è1 http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData2 http://www.w3.org/DesignIssues/LinkedData.html3 Traduzione di “Web of Data”
  • 4. anche un continuo lavoro su browser Linked Data, crawler4 Linked Data, motori di ricerca per ilWeb dei dati e altre applicazioni che utilizzano i Linked Data dal Web.Un esempio di applicazione che opera in questo Web dei dati e secondo i principi Linked Data èDBpedia. La base di conoscenza di DBpedia è utile come Linked Data sul Web. Come DBpediadefinisce URI Linked Data per milioni di concetti, vari provider di dati hanno iniziato a collocarecollegamenti RDF dai loro set di dati a DBpedia, rendendo DBpedia uno dei centri di connessione5centrali dell’emergente Web dei dati.Di seguito verrà presentato il Web dei dati e i principi Linked Data su cui si basa e successivamenteuna delle principali applicazioni che maggiormente fa uso di questi nuovi dati: DBpedia. Infineverranno presentati i progetti correlati e le conclusioni con i possibili sviluppi futuri che potrannoavvenire in questo ambito.2 Linked Data In questo momento il Web si sta trasformando da un medium per pubblicare e condivideredocumenti testuali a un medium per pubblicare e condividere dati. Questa transizione è facilitatadalle idee provenienti dalla comunità del Semantic Web e da iniziative come il progetto “W3CLinking Open Data”.Linked Data è un metodo per pubblicare dati RDF sul Web e per connettere dati tra fonti di datidifferenti. Si può accedere ai Linked Data sul Web usando un browser del Semantic Web, propriocome ai documenti del Web tradizionale si può accedere usando un browser HTML. Comunque,invece di seguire collegamenti tra pagine HTML, i browser del Semantic Web permettono agliutenti di navigare tra diverse fonti di dati seguendo link RDF. Ciò permette all’utente di accedere aduna data risorsa, e poi di muoversi attraverso un Web di fonti di dati connessi attraverso link RDFpotenzialmente infiniti. Ciò permette inoltre ai robot dei motori di ricerca del Semantic Web diseguire questi link per eseguire la scansione del Semantic Web.Il World Wide Web ha radicalmente alterato il modo di condividere la conoscenza, abbassando lebarriere per pubblicare e accedere a documenti come parte di uno spazio informatico globale. I linkipertestuali consentono all’utente di attraversare questo spazio informativo usando i browser Web,mentre i motori di ricerca indicizzano i documenti e analizzano la struttura dei collegamenti tra essi4 Software che analizzano i contenuti di una rete (o di un database) in un modo metodico e automatizzato, in genere perconto di un motore di ricerca5 Interlinking-hub
  • 5. per dedurre una potenziale rilevanza con la ricerca effettuata dall’utente. Questa funzionalità è statapermessa dalla natura generica, aperta ed estensibile del Web, la quale è anche vista come unacaratteristica chiave nella libera crescita del Web.Nonostante i vantaggi indiscutibili che offre il Web, fino a poco tempo fa gli stessi principi checonsentivano al Web dei documenti di prosperare non erano applicate ai dati. Tradizionalmente idati pubblicati sul Web erano resi disponibili come dati grezzi, in formati come file CSV o XML, ocontrassegnati come tabelle HTML, sacrificando gran parte della loro struttura e della lorosemantica. Nel convenzionale ipertesto Web, la natura delle relazioni tra due documenti collegati èimplicita, come il formato dei dati, per esempio HTML, e non è sufficientemente espressiva perpermettere a singole entità descritte in un particolare documento di essere connesse alle relativeentità attraverso link. Mentre le unità primarie dell’ipertesto Web sono i documenti HTML connessida iperlink non tipizzati, Linked Data si basa su documenti contenenti dati in formato RDF(Resource Description Framework). Ma, piuttosto che connettendo semplicemente questidocumenti, Linked Data usa RDF per fare dichiarazioni scritte che collegano arbitrariamente le cosenel mondo. Il risultato, il cosiddetto Web of Data, può essere descritto più accuratamente come unweb di cose nel mondo, descritte dai dati sul Web.Tuttavia, negli ultimi anni il Web si è evoluto da uno spazio di informazione globale di documenticollegati ad uno spazio in cui sia i documenti sia i dati sono collegati tra loro. Alla base di questaevoluzione vi è un insieme di best practice6 per la pubblicazione e la connessione di strutture datisul Web. L’adozione delle best practice Linked Data ha condotto all’estensione del Web ad unospazio di dati globale dove sia possibile la connessione tra dati provenienti da differenti dominicome persone, società, libri, pubblicazioni scientifiche, film, musica, programmi televisivi eradiofonici, geni, proteine, farmaci e sperimentazioni cliniche, comunità on-line, dati statistici escientifici, recensioni, ecc. Questo Web of Data permette nuovi tipi di applicazioni. Ci sono genericibrowser Linked Data che consentono agli utenti di iniziare a navigare in una fonte di dati e poipassare per mezzo di link in fonti di dati collegate. Ci sono motori di ricerca Linked Data chescansionano il Web of Data seguendo link tra fonti di dati e forniscono capacità di interrogazioniespressive su dati aggregati, in modo simile a come al giorno d’oggi vengono interrogati i databaselocali. Il Web dei dati si apre anche a nuove possibilità per applicazioni di specifici domini. Adifferenza dei mashup7 Web 2.0 che lavorano su un gruppo fisso di fonti di dati, le applicazioni6 tecnica, metodo, processo o attività, più efficacie nel raggiungere un particolare risultato, di qualunque altra tecnica, metodo, processo, ecc7 sito o applicazione web di tipo ibrido, cioè tale da includere dinamicamente informazioni o contenuti provenienti da più fonti
  • 6. Linked Data operano sulla cima di uno spazio di dati illimitato e globale. Ciò permette loro difornire risposte più complete man mano che nuove fonti di dati appaiono sul Web.In sintesi, Linked Data riguarda semplicemente l’utilizzo del Web per creare collegamenti tra datiprovenienti da diverse fonti. Questi possono essere diversi quanto i database mantenuti da dueorganizzazioni situate in diverse locazioni geografiche, o semplicemente sistemi eterogenei in unasola organizzazione che, storicamente, non sono semplicemente interoperabili a livello di dati.Tecnicamente, Linked Data si riferisce a dati pubblicati sul Web che siano leggibili dalle macchine(machine-readable), il cui significato sia definito esplicitamente, che siano collegati ad altri set didati esterni e che possano essere a loro volta collegati a fonti esterne di set di dati.2.1 Principi del Linked DataTim Barners-Lee (nel 2006) ha delineato una serie di regole per la pubblicazione di dati sul Web inmodo che tutti i dati pubblicati diventino parte di un unico spazio globale dei dati: 1. Usare URI come nomi per le cose. 2. Usare URI HTTP in modo che le persone possano cercare questi nomi. 3. Quando qualcuno cerca un URI fornire informazioni utili, usando gli standard (RDF, SPQRQL). 4. Includere link ad altre URI, in modo che si possano scoprire più cose.Questi sono conosciuti come i principi del Linked Data, e forniscono una ricetta di base perpubblicare e connettere dati usando l’infrastruttura del Web, pur rispettando la sua architettura e isuoi standard.Impiegando URI HTTP per identificare le risorse, il protocollo HTTP come meccanismo direcupero e il modello dati RDF per rappresentare descrizioni di risorse, Linked Data si basadirettamente sull’architettura generale del Web. Il Web of Data può quindi essere visto come unulteriore livello che è strettamente intrecciato con il classico documento Web e ha molte delle stesseproprietà:  Il “Web of Data” è generico e può contenere ogni tipo di dati.  Chiunque può pubblicare dati sul Web of Data.  Chi pubblica i dati non è vincolato nella scelta dei vocabolari con i quali rappresentare i dati.  Le entità sono connesse da link RDF, creando un grafo globale dei dati che abbraccia e consente la scoperta di nuove fonti di dati.
  • 7. Dalla prospettiva dello sviluppo di un’applicazione il Web of Data ha le seguenti caratteristiche:  I dati sono rigorosamente separati da aspetti di formattazione e presentazione.  I dati sono auto-descrittivi. Se un’applicazione che utilizza Linked Data incontra dati descritti con un vocabolario sconosciuto, l’applicazione può dereferenziare le URI che identificano i termini del vocabolario per trovare la loro definizione.  L’uso di HTTP come un meccanismo standardizzato di accesso ai dati e RDF come un modello standardizzato di dati semplifica l’accesso ai dati in confronto alle Web API, le quali si basano sui modelli di dati eterogenei e sulle interfacce di accesso.  Il Web of Data è aperto, nel senso che le applicazioni non devono essere implementate rispetto ad un fissato insieme di fonti di dati, ma può scoprire nuove fonti di dati nel tempo di esecuzione seguendo link RDF.2.2 Il progetto “Linking Open Data”L’esempio più visibile di adozione e applicazione dei principi Linked Data è il progetto “LinkingOpen Data”, uno sforzo di base della comunità fondata nel gennaio 2007 e supportata dal W3CSemantic Web Education and Outreach Group8. L’obiettivo originale e ancora in corso del progettoè di popolare il Web dei dati, individuando insiemi di dati esistenti che sono disponibili sottolicenze open, convertendo questi in RDF in accordo coi principi Linked Data, e pubblicandoli sulWeb.Il progetto è cresciuto considerevolmente: all’inizio i partecipanti erano solo sviluppatori,ricercatori universitari, piccole aziende, ora sono coinvolti grandi aziende come la BBC, laThomson Reuters e la Library of Congress. Questa crescita è stata possibile dalla natura open delprogetto, dove ognuno può partecipare semplicemente pubblicando un insieme di dati in accordocon i principi del Linked Data e connettendoli con i set di dati esistenti. Un’indicazione del range edella grandezza del Web of Data originato dal progetto “Linking Open Data” è fornito in Figura 1.Ogni nodo in questo diagramma a nuvola rappresenta un insieme di dati distinto pubblicato comeLinked Data, alla data di Marzo 2009.8 http://www.w3.org/2001/sw/sweo/
  • 8. Figura 1. Diagramma a nuvola Linking Open Data (LOD) che da una visione d’insieme dei set di dati pubblicati e delle loro relazioni di connessione.Gli archi in Figura 1 indicano che esistono collegamenti tra oggetti tra due set di dati connessi. Gliarchi più spessi corrispondono approssimativamente ad un numero di link tra due set di dati piùgrande. Il contenuto della nuvola è di diversa natura: comprende dati su locazioni geografiche,persone, società, libri, pubblicazioni scientifiche, film, musica, programmi televisivi e radiofonici,geni, proteine, farmaci e sperimentazioni cliniche, comunità online, dati statistici, risultati dicensimenti e recensioni.Calcolare l’esatta dimensione del Web of Data rappresenta una sfida dovuta al fatto che gran partedei dati vengono generati da involucri intorno ai database relazionali esistenti o alle API e pertantonecessitano innanzitutto di essere sottoposti a scansione prima di essere inclusi o analizzati. Inalternativa, la dimensione del Web of Data può venire stimata sulla base delle statistiche sui set didati che vengono raccolti dalla comunità LOD nel wiki ESW9. In base a tali statistiche il Web of9 http://esw.w3.org/topic/
  • 9. Data consiste attualmente di 4.7 miliardi di triple RDF, le quali sono connesse da circa 142 milionidi link RDF (Maggio 2009).La Figura 1 mostra come alcuni set di dati servano come collegamento tra hub nel Web of Data.Per esempio il set di dati di DBpedia consiste di triple RDF estratte dagli “infobox” comunementepresenti sul lato destro degli articoli presenti su Wikipedia, mentre Geonames fornisce descrizioniRDF di milioni di locazioni geografiche in tutto il mondo. Dal momento che questi due insiemi didati forniscono URI e descrizioni RDF per molte entità e concetti comuni, essi sono spesso citati inaltri set di dati maggiormente specializzati e hanno quindi sviluppato al loro interno hub ai qualisono collegati un numero crescente di altri insiemi di dati.3 DBpediaIl progetto DBpedia ha ricavato un corpus di dati dall’enciclopedia Wikipedia. Wikipedia è moltovisitata e in costante revisione (ad esempio, secondo alexa.com, Wikipedia è stato il 6° sito piùvisitato nel corso del 200910). Le edizioni di Wikipedia sono disponibili in oltre 250 lingue, conquella inglese che contiene più di 3 milioni di articoli. Come molte altre applicazioni web,Wikipedia ha il problema che le sue capacità di ricerca sono limitate alla ricerca full-text, chepermette solo un accesso limitato a questa preziosa base di conoscenza. Come è stato ampiamentepubblicizzato, Wikipedia presenta anche molte delle impegnative e allo stesso tempo ambizioseproprietà di poter editare i dati in modo collaborativo: dispone di conseguenza di dati contradditori,di convenzioni tassonomiche incoerenti, di errori e anche di spam.Il progetto DBpedia si concentra sul compito di convertire i contenuti di Wikipedia in conoscenzastrutturata, in modo che le tecniche di Semantic Web possano essere impiegate rispetto a taliinformazioni. In sintesi DBpedia è uno sforzo della comunità di estrarre informazioni strutturate daWikipedia e di rendere queste informazioni disponibili sul Web. DBpedia permette di effettuaresofisticate interrogazioni da Wikipedia e di collegare altri set di dati presenti sul Web ai dati stessidi Wikipedia. Il fine ultimo è rendere più facile l’utilizzo dell’incredibile quantità di informazioni diWikipedia in modi nuovi e interessanti, che potrebbero ispirare nuovi meccanismi per lanavigazione, collegando e migliorando lenciclopedia stessa.Gli autori di DBpedia hanno fornito i seguenti contributi:10 http://www.alexa.com/topsites/global
  • 10.  Hanno sviluppato un quadro di estrazione delle informazioni, che converte il contenuto di Wikipedia in file RDF. Gli elementi di base formano un fondamento su cui la ricerca in materia di estrazione di informazioni, il clustering, la gestione dell’incertezza e i processi di interrogazione possono essere effettuati.  Hanno fornito al contenuto di Wikipedia un grande set di dati RDF multidominio, che può essere utilizzato in una varietà di applicazioni del Semantic Web. Il set di dati di DBpedia consiste in 103 milioni di triple RDF.  Hanno sviluppato una serie di interfacce e moduli di accesso, in modo tale che il set di dati possa essere accessibile tramite Web Services e collegato ad altri siti.Il set di dati di DBpedia può anche essere importato in applicazioni di terze parti oppure è possibileaccedervi online usando varie interfacce utente di DBpedia.La Figura 2 fornisce una panoramica sul processo di estrazione delle informazioni di DBpedia emostra come i dati estratti sono pubblicati sul Web. Queste principali interfacce di DBpediaattualmente usano Virtuoso e MySQL come depositi back-end. Figura 2 : visione d’insieme dei componenti di DBpedia3.1 Base di conoscenza di DBpediaLe basi di conoscenza stanno giocando sempre più un importante ruolo nell’accrescerel’intelligenza del Web e nel supportare l’integrazione delle informazioni. Al giorno d’oggi moltebasi di conoscenza includono solo specifici domini, sono create da gruppi relativamente piccoli dispecialisti della conoscenza ed è molto costoso tenerle aggiornate ai cambi di dominio. Allo stesso
  • 11. tempo, Wikipedia è diventata una delle sorgenti di conoscenza centrale per il genere umano,mantenuta da migliaia di partecipanti. Il progetto DBpedia usa abilmente questa gigantesca risorsadi conoscenza estraendo informazioni strutturate da Wikipedia e rendendo queste informazioniaccessibili sul Web alle condizioni della “Creative Commons Attribution-Share Alike 3.0 License”e della “GNU Free Documentation License”.La base di conoscenza di DBpedia descrive correntemente più di 2,9 milioni di “cose”, inclusialmeno 282.000 persone, 339.000 luoghi (inclusi 241.000 luoghi popolati), 88.000 album musicali,44.000 film, 15.000 videogames, 119.000 organizzazioni (incluse 20.000 società e 29.000istituzioni educative), 130.000 specie e 4.400 malattie. La base di conoscenza di DBpedia distingueetichette e abstract per questi argomenti in 91 linguaggi differenti (le 13 lingue principalicorrispondenti ad altrettante versioni di Wikipedia sono inglese, tedesco, francese, spagnolo,italiano, portoghese, polacco, svedese, olandese, giapponese, cinese, russo, finlandese e norvegese);807.000 collegamenti ad immagini e 3.840.000 collegamenti a pagine web esterne; 4.878.100collegamenti esterni in altri set di dati esterni, 415.000 categorie di Wikipedia, e 75.000 categorie diYAGO. La base di conoscenza è composta di 479 milioni di pezzi di informazioni (triple RDF), dicui 190 milioni sono stati ricavati dall’edizione inglese di Wikipedia e 289 milioni sono stati estrattidalle edizioni in altri linguaggi. Il set di dati è organizzato per il download come un insieme di filesRDF più piccoli. La Tabella 1 fornisce una panoramica su questi files. Set di dati Descrizione Triple Articoli Descrizione di tutti i 3.2 milioni di concetti all’interno della versione 7.6 M inglese di Wikipedia, compresi titoli, brevi abstract, miniature e collegamenti agli articoli corrispondenti. Abstract estesi Abstract estesi supplementari. 2.1 M Linguaggi Titoli aggiuntivi, brevi abstract e collegamenti ad articoli di Wikipedia 5.7 M in tedesco, francese, spagnolo, italiano, portoghese, polacco, svedese, olandese, giapponese, cinese, russo, finlandese e norvegese. Linguaggi abstract Abstract estesi in 13 lingue. 1.9 M Infobox Attributi dei dati per i concetti che sono stati estratti dagli infobox di 15.5 M Wikipedia. Link esterni Collegamenti a pagine web esterne riguardanti un concetto. 1.6 MCategorie di articoli Collegamenti da concetti a categorie usando SKOS. 5.2 M
  • 12. Categorie Informazione il cui concetto è una categoria e le cui categorie sono 1M collegate. Tipi YAGO Set di dati contenente la dichiarazione rdf:type per tutte le istanze di 1.9 M DBpedia usando la classificazione di YAGO. Persone Informazioni riguardanti 80.000 persone (date e luogo di nascita, etc.) 0.5 M rappresentate usando il vocabolario FOAF. Link a pagine Collegamenti interni tra le istanze di DBpedia derivate dai link alle 62 M pagine interne tra gli articoli di Wikipedia. Collegamenti RDF Collegamenti tra DBpedia e GeoNames, US Census, Musicbrainz, 180 K Progetto Gutenberg, la bibliografia DBLP e l’RDF Book Mash-up. Tabella 1: Il set di dati di DBpediaAlcune serie di dati (come ad esempio le Persone o il set di dati Infobox) sono semanticamentericche, nel senso che contengono informazioni molto specifiche. Altre (come il seti di dati dei Linka pagine) contengono meta-dati (come ad esempio collegamenti tra articoli) senza una semanticaspecifica. Tuttavia, queste ultime possono risultare utili ad esempio per le misure di vicinanza traconcetti o di rilevanza nei risultati di ricerca.Ciascuna delle 2.9 milioni di risorse descritte nel set di dati di DBpedia è identificata da un’URI diriferimento della forma http://dbpedia.org/resource/Name, dove Name è preso dall’URLdell’articolo di sorgente di Wikipedia, che ha la forma http://en.wikipedia.org/wiki/Name. Così ognirisorsa è legata direttamente ad un articolo in lingua inglese di Wikipedia. Questo producecertamente proprietà benefiche agli identificatori di DBpedia:  Essi coprono una vasta gamma di argomenti dell’enciclopedia.  Essi sono definiti dal consenso della comunità.  Ci sono chiare politiche in atto per la loro gestione.  Un’ampia definizione testuale dei concetti è disponibile in una zona ben conosciuta del web (la pagina di Wikipedia).Quindi la base di conoscenza di DBpedia ha numerosi vantaggi rispetto alle basi di conoscenzaesistenti: essa include molti domini; essa rappresenta accordi reali tra comunità; essa evolveautomaticamente con i cambiamenti di Wikipedia, ed è perfettamente multilingue.
  • 13. La base di conoscenza di DBpedia permette inoltre di effettuare abbastanza sorprendentiinterrogazioni da Wikipedia, per esempio “Dimmi tutte le città nel New Jersey con più di 10.000abitanti” o “Dimmi tutti i musicisti italiani del XIIX secolo”. Complessivamente, i casi d’uso dellabase di conoscenza di DBpedia sono diffusi e variano dalla gestione della conoscenza d’impresa,fino alla ricerca Web, rivoluzionando la ricerca su Wikipedia.Il set di dati di DBpedia funziona come Linked Data, nel senso che tutte le URI di DBpedia sonodereferenziabili. Ciò permette di navigare il set di dati di DBpedia con browser del Semantic Webcome DISCO, Marbles, Objectviewer, OpenLink Data Explorer, Tabulator o Zitgist Data Viewer.Al fine di consentire agli utenti di DBpedia di scoprire ulteriori informazioni, il set di dati diDBpedia è interconnesso con varie altre fonti di dati sul Web tramite collegamenti RDF. I link RDFconsentono ai navigatori del web di navigare da dati all’interno di una fonte a dati collegatiall’interno di altre fonti utilizzando un browser web semantico. I link RDF possono anche essereseguiti dai crawler dei motori di ricerca del Semantic Web, i quali possono offrire ricerchesofisticate e funzionalità di interrogazione sui dati scansionati.Lo sforzo di interconnessione di DBpedia è parte del progetto della comunità Linking Open Data 11del gruppo di interesse W3C Semantic Web Education and Outreach (SWEO). Con questo progettola comunità si è impegnata a fare enormi dataset e ontologie, come il censimento degli Stati Unitn(US Census), GeoNames, MusicBraiz, la bibliografia DBLP, WordNet, Cyc e molti altri,interoperabili sul Semantic Web. DBpedia, con la sua ampia copertura di argomenti, si intersecapraticamente con tutti questi set di dati e, pertanto, rappresenta un eccellente “linking hub” per talisforzi. In Figura 3 è fornita una panoramica sui set di dati attualmente interconnessi con DBpedia.Complessivamente questo Web of Data ammonta a quasi 5 miliardi di triple RDF. Utilizzandoquesti link RDF, i navigatori possono per esempio navigare in DBpedia passando da un esperto diinformatica alle sue pubblicazioni nel database DBLP, da un libro alla recensione e alle offerte divendita per questo libro fornite dal RDF Book Mashup, o da una band musicale a una lista delleloro canzoni fornite da Musicbrainz o DBtune.11 http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData
  • 14. Figura 3: Principali fonti di dati interconnesse con DBpediaNella seguente tabella vengono descritte maggiormente nel dettaglio le principali fonti di datiinterconnesse con DBpedia: Numero di Esempi di Link Set di dati Descrizione link (owl:sameAs) Fornisce informazioni riguardanti caratteristiche Geonames 85.000 Cambridge geografiche. Fornisce informazioni riguardanti artisti e MusicBrainz 23.000 Portishead musica. Rappresentazione W3C RDF/OWL WordNet 330.000 Air France dell’ontologia Word Net. World Fornisce informazioni riguardanti le nazioni. 200 France Factbook Fornisce informazioni riguardanti gli Stati e le EuroStat 200 France regioni europee.
  • 15. Book Mashup Fornisce informazioni riguardanti i libri. 7.000 DBLP Fornisce informazioni riguardanti pubblicazioni 200 Tim Berners-LeeBibliography scientifiche. Project Fornisce informazioni riguardanti autori e 2.500 John Bunyan Gutenberg accessi aperti ai loro lavori. Un involucro attorno a flickr che cerca diflickr wrappr generare una raccolta di foto per ogni concetto 1.950.000 Brandenburg Gate di DBpedia. Un database a licenza open riguardante milioni Freebase 2.400.000 Tetris ci cose di vari domini. OpenCyc Una versione a licenza open dell’ontologia Cyc. 60.000 Woody Allen Una struttura di riferimento per concetti derivati UMBEL 20.000 Place da Cyc. Fornisce dati “US Census” sul censimento delle US Census 12.000 Los Angeles città americane. Eli Lilly Dailymed Fornisce informazioni riguardanti le medicine. 50 and Company Fornisce informazioni riguardanti le malattie e i Diseasome 2000 Asthma geni. Fornisce informazioni riguardanti le droghe e i Drugbank 700 ZNF3 geni. Fornisce informazioni riguardanti gli effetti Sider 750 Claudication collaterali delle droghe. Tabella 2: Descrizione delle principali fonti di dati a cui è connesso DBpedia
  • 16. 3.2 Estrazione di informazioni strutturate da WikipediaGli articoli di Wikipedia sono composti prevalentemente da testo libero, ma contengono anchedifferenti tipi di informazioni strutturate, come template infobox, informazioni categorizzate,immagini, coordinate geografiche, collegamenti a pagine Web esterne e link tra le edizioni in linguediverse di Wikipedia.MediaWiki è il software utilizzato per l’esecuzione di Wikipedia. A causa della natura di questosistema Wiki, sostanzialmente tutte le modifiche, i collegamenti, le annotazioni con metadati sonoeffettuate all’interno del testo dell’articolo con l’aggiunta di speciali costrutti sintattici.Poiché MediaWiki sfrutta alcune di queste stesse informazioni per rendere l’interfaccia utente,alcune informazioni vengono memorizzate nella cache in tabelle di database relazionali. Ilriversamento delle cruciali tabelle dei database relazionali (compresi quelli che contengono i testidegli articoli) per differenti versioni linguistiche di Wikipedia è pubblicato sul Web in una baseregolare. Sulla base di questi riversamenti di database, attualmente si usano due differenti metodi diestrazione delle relazioni semantiche: (1) vengono mappate le relazioni che sono già memorizzatein tabelle di database relazionali su RDF e (2) vengono estratte informazioni addizionalidirettamente dai testi dell’articolo e dai template dell’infobox all’interno dell’articolo.Di seguito viene illustrata l’estrazione della semantica dal testo di un articolo con un esempio ditemplate infobox di Wikipedia. La Figura 4 mostra il template dell’infobox (codificato all’internodi un articolo di Wikipedia) e l’uscita resa della città sud coreana Busan. L’algoritmo di estrazionedell’infobox rileva i template e riconosce la loro struttura utilizzando le tecniche di matching deipattern. Vengono selezionati i template significativi, i quali vengono poi analizzati e trasformati intriple RDF. L’algoritmo utilizza tecniche di post-processing per incrementare la qualitàdell’estrazione. I collegamenti MediaWiki vengono riconosciuti e trasformati in URI appropriate,unità comuni vengono rilevate e trasformate per i tipi di dati. Inoltre, l’algoritmo è in grado dirilevare elenchi di oggetti che vengono trasformati in liste RDF. Tutti gli algoritmi di estrazionesono implementati usando PHP e sono disponibili sotto licenza open source.
  • 17. Figura 4: Esempio di template Wikipedia e resa dell’uscita (estratto)3.3 Accesso al set di dati di DBpedia sul WebVengono messi a disposizione tre meccanismi di accesso al dataset di DBpedia: Linked Data, ilprotocollo SPARQL e il riversamento RDF scaricabile. L’accesso a queste interfacce secondo dirittid’autore liberi è concesso nel rispetto dei termini della GNU Free Documentation License. 1. Linked Data. Linked Data è un metodo di pubblicazione di dati RDF sul Web che si basa su URI http:// come identificatori di risorsa e il protocollo HTTP per recuperare le descrizioni delle risorse. Le URI sono configurate per restituire le informazioni significative sulla risorsa, tipicamente una descrizione RDF contenente tutto ciò che è noto su di essa. Una tale descrizione cita generalmente risorse collegate da URI, alle quali una alla volta si può avere accesso ai campi delle loro descrizioni. Ciò costituisce una fitta rete di descrizioni di risorse accessibili dal web in grado di attraversare i server ed i confini dell’organizzazione. Gli identificatori di risorse di DBpedia, come http://dbpedia.org/resource/Busan, sono configurati per restituire descrizioni RDF quando vi si accede da agenti web semantici, e una semplice visualizzazione HTML delle stesse informazioni quando vi si accede da tradizionali browser
  • 18. Web. La negoziazione del contenuto HTTP viene utilizzata per fornire un formato appropriato. Agenti Web che possono accedere a Linked Data includono: 1) browser web semantici, come Disco12, Tabulator o il browser web OpenLink Data13; 2) crawler web semantici, come SWSE14 e Swoogle15; 3) agenti di interrogazione web semantici come la Semantic Web Client Library16 e il client Semantic Web per SWI prolog17. 2. Endpoint SPARQL. Viene fornito un endpoint SPARQL per interrogare il dataset di dBpedia. Le applicazioni client possono inviare interrogazioni tramite il protocollo SPARQL a questo endpoint al sito http://dbpedia.org/sparql. L’endpoint è fornito usando OpenLink Virtuoso come motore database back-end. Questa interfaccia è appropriata quando lo sviluppatore dell’applicazione client conosce in anticipo esattamente di quali informazioni ha bisogno. In aggiunta allo standard SPARQL, l’endpoint supporta diverse estensioni del linguaggio di interrogazione che si sono rivelate utili per lo sviluppo delle interfacce utente: ricerca di testo completo sui predicati RDF selezionati e funzioni di aggregazione, in particolare COUNT. Per proteggere il servizio dal sovraccarico, sono messi in atto limiti ai costi di interrogazione e alla grandezza dei risultati. Ad esempio, una query che interroga l’intero contenuto del negozio è respinta perché troppo costosa. I risultati di SELECT sono troncati alle millesima riga. Va notato che non tutti i set di dati di DBpedia sono caricati nell’endpoint SPARQL. In particolare, solo il set di dati dell’infobox inglese è caricato mentre il set di dati dell’infobox negli altri linguaggi non è caricato per evitare confusione. 3. Riversamento RDF. Le serializzazioni di N-Triple dei dataset sono disponibili per il download sul sito di DBpedia e possono essere usate da siti che sono interessati a parti più grandi del set di dati.3.4 Interfacce utenteLe interface utente per DBpedia possono variare da una semplice tabella all’interno di una classicapagina web fino a interfacce di navigazione per differenti tipi di interrogazione. Questa sezionefornisce una panoramica sulle diverse interfacce utente che sono state finora realizzate.12 http://www4.wiwiss.fu-berlin.de/bizer/ng4j/disco/13 http://demo.openlinksw.com/DAV/JS/rdfbrowser/index.html14 http://swse.org/15 http://swoogle.umbc.edu/16 http://www4.wiwiss.fu-berlin.de/bizer/ng4j/semwebclient/17 http://moustaki.org/swic/
  • 19.  Semplice integrazione dei dati di DBpedia all’interno di pagine Web DBpedia è una preziosa fonte di dati per fini generali che può essere utilizzata all’interno di pagine web. Pertanto, se si desidera una tabella contenente ad esempio capitali della Germania, musicisti africani, giochi per computer Amiga o qualsiasi altra cosa sul vostro sito, è possibile generare questa tabella utilizzando una query SPARQL verso l’endpoint DBpedia. Wikipedia è tenuta aggiornata da una comunità di grandi dimensioni e una bella caratteristica di tali tabelle è che anche esse rimarranno aggiornate con le modifiche di Wikipedia, e quindi anche di DBpedia. Tali tabelle possono essere implementate utilizzando Javascript sul client o con un linguaggio di scripting come PHP sul server.  Search DBpedia.org “Search DBpedia.org” è una semplice applicazione che permette agli utenti di esplorare il dataset di DBpedia insieme con le informazioni provenienti da set di dati interconnessi, come ad esempio GeoNames, l’RDF Book Mashup o la bibliografia DBLP. In contrasto con ricerche basate su parola chiave full-text (solamente testuali) che si trovano comunemente sul Web, la ricerca su dati strutturati offre l’opportunità di fare un uso produttivo delle relazioni tra i dati, consentendo un graduale restringimento dei risultati della ricerca in diverse dimensioni. Questo aggiunge un componente di navigazione per l’attività di ricerca e può ridurre il comune problema del decidere o no se cliccare su un risultato trovato (“keyword-hit-or-not-hit”). Una sessione di”Search DBpedia” inizia con una ricerca per parola chiave. Una prima serie di risultati è calcolato dalla corrispondenza diretta della parola chiave. Le corrispondenze collegate vengono aggiunte utilizzando le relazioni tra le entità fino ad una profondità di due nodi. Così, ad esempio una ricerca per la parola chiave “Scorsese” includerà il regista Martin Scorsese così come tutti i suoi film e gli attori di questi film. Il passo successivo è classificare il risultato. Gli esperimenti effettuati hanno dimostrato che articoli importanti ricevono maggiori link di pagine in entrata da altri articoli. Viene utilizzata una combinazione di conteggio dei link in entrata, rilevante ai fini della fonte del link, e della profondità della relazione per calcolare una graduatoria di pertinenza. Dopo aver inserito un termine di ricerca, all’utente sono presentati una lista di risultati classificati, e un insieme di tag costruiti dalle classi trovate nei risultati, utilizzando una combinazione delle classificazioni di DBpedia e di YAGO18. Il peso di ogni classe è calcolato dalla somma dei pesi dei risultati associati e dalla frequenza dell’occorrenza. L’insieme di tag18 http://www.mpi-inf.mpg.de/yago-naga/yago/
  • 20. permette all’utente di restringere i risultati ad un tipo specifico di entità, come ad esempio “Attore”, anche se una semplice ricerca per parole chiave può non avere portato a nessun attore. Quando una risorsa viene selezionata da una serie di risultati, all’utente è presentata una visione dettagliata di tutte le informazioni che sono conosciuti su quella risorsa (Figura 5). Etichetta, immagine e descrizione sono riportati in alto. Le proprietà dei singoli e dei multi valori sono mostrate separatamente. I dati provenienti da set di dati interconnessi sono automaticamente recuperati seguendo i link RDF all’interno dei dataset e i dati recuperati da set di dati interconnessi sono mostrati assieme con i dati di DBpedia. Figura 5: Risultati della ricerca e visione dettagliata per Busan Interrogazione dei dati di Wikipedia Rispetto alla maggior parte delle altre basi di conoscenza del Semantic Web attualmente disponibili, per l’estrazione dell’RDF da Wikipedia si ha a che fare con un diverso tipo di conoscenza strutturata, si ha uno schema di informazione molto grande e una notevole quantità di dati che si attengono a questo schema. Se si ha un voluminoso set di dati o un schema di dati di grandi dimensioni, il deposito degli RDF elaborati con motori di interrogazione integrati da solo non è molto utile. A causa delle grandi dimensioni dello schema di dati, gli utenti possono difficilmente conoscere quali
  • 21. proprietà e identificatori sono usati nella base di conoscenza e quindi possono utilizzare perl’esecuzione di interrogazioni. Di conseguenza, gli utenti devono essere guidati quandocostruiscono le interrogazioni e gli si dovrebbero suggerire ragionevoli alternative.E’ stato appositamente sviluppato un generatore di pattern grafici per interrogare i contenutiestratti da Wikipedia. Gli utenti interrogano la base di conoscenza per mezzo di un patterngrafico che consiste di molteplici modelli di triple. Per ogni modello di triple tre campicatturano variabili, identificatori o filtri per il soggetto, predicato e oggetto di una tripla. Mentregli utenti digitano i nomi degli identificatori in un campo del form, una ricerca “look-ahead”(che guarda avanti) propone opzioni adatte. Queste sono ottenute non solo con la ricerca diidentificatori corrispondenti ma eseguendo la query che si sta costruendo e iniziando subito ilmatching con la stringa di ricerca fornita dall’utente. Questo metodo assicura chel’identificatore proposto sia davvero usato in congiunzione con il modello grafico incostruzione e che la query restituisca effettivamente dei risultati. Inoltre, i risultati della ricercadi identificatori sono classificati in ordine di numero di utilizzo, mostrando prima gliidentificatori comunemente usati. Tutto questo viene eseguito in background, usando latecnologia Web 2.0 AJAX e quindi è tutto completamente invisibile per l’utente. La Figura 6mostra uno screenshot del costruttore di pattern grafici. Figura 6: form basato sul costruttore di query
  • 22.  Interfacce utente di terze partiIl progetto DBpedia mira a fornire un focolaio per le applicazioni e i mashup basati su informazionidi Wikipedia. Anche se DBpedia non è stata lanciata da moltissimo, c’è già un certo numero diapplicazioni di terze parti che utilizzano i dataset.Alcuni esempi inludono:  Un installazione SemanticMediaWiki eseguita dall’università di Karlsruhe, la quale ha importato il dataset di DBpedia insieme con l’edizione inglese di Wikipedia.  WikiStory, che consente agli utenti di sfogliare gli articoli di Wikipedia riguardanti persone lungo una linea temporale di grandi dimensioni.  L’ambiente di dati visivi Objectsheet JavaScript, che consente calcoli su fogli elettronici basati su dati di DBpedia.3.5 DBpedia all’interno del progetto comunitario “W3C Linking Open Data”DBpedia fa parte del progetto comunitario “W3C Linking Open Data”, uno sforzo per pubblicare econnettere varie fonti di dati open. Nel novembre 2009 questo sforzo è sfociato nella costruzione diun Web di fonti di dati interconnesse che ammontano a più di 6 miliardi di triple RDF.Il Linking Open Data è un progetto del W3C SWEO che ha lo scopo di estendere il Web creandouna rete di dati aperti e disponibili a tutti – offerti dall’ Open Data Movement – pubblicando informato RDF insiemi di dati provenienti da diverse sorgenti e connettendone gli elementi definendole relazioni che esistono tra questi, in modo da poter passare da un informazione ad un’altra a questalegata anche se appartengono a due sorgenti diverse; questa possibilità vale anche per i crawler deimotori di ricerca, facilitando il recupero delle informazioni. Questo progetto copre diversi domini diriferimento delle risorse ed è un esempio di evoluzione verso il data-web globale, che può esseresfruttato dalle applicazioni semantiche.In questo modo DBpedia può essere anche vista come un’ontologia multi dominio (caratteristicache la differenzia notevolmente dalla maggior parte delle ontologie che trattano un dominiosingolo) che definisce univocamente – tramite le URI – diverse entità che possono essere riusate, adesempio, in un profilo FOAF19 personale per descrivere un certo interesse che altrimenti nonsarebbe identificabile, oppure per definire tag in maniera strutturata con Faviki20. Le risorsecatalogate in DBpedia possiedono inoltre delle proprietà che le definiscono, come un abstract (nelle19 http://www.foaf-project.org/20 http://www.faviki.com/pages/welcome/
  • 23. lingue per cui è disponibile) che le descrive, la categoria di appartenenza, le informazioni dellarelativa Infobox, collegamenti a pagine HTML con dbpedia:resource o foaf:homepage o adocumenti RDF con owl:sameAs, coordinate geografiche. Al di là dell’enorme quantità di dati cherende disponibile sul web, il progetto DBpedia è di grande importanza poiché permette ilcollegamento di queste risorse con altre provenienti da sorgenti diverse, come ad esempio gli85.000 link con il database geografico Geonames. La pubblicazione dei dati in formato RDF nerende possibile il riuso e fa sì che possano essere effettuate delle query SPARQL complesse sugliarticoli di Wikipedia, che invece supporta solo la ricerca basata sulle parole chiave, utilizzandotools come ad esempio SNORQL Query Explorer.4 Lavori collegatiUn secondo progetto che funziona anch’esso sull’estrazione delle informazioni strutturate è ilprogetto YAGO. YAGO estrae solo 14 tipi di relazioni, come subClassOf, type, familyNameOf,locatedIn da differenti fonti di informazione su Wikipedia. Una fonte è il sistema di categorie diWikipedia (per subClassOf, locatedIn, diedInYear, bornInYear) e un’altra sono i reindirizzamenti diWikipedia. YAGO non esegue un’estrazione dell’infobox come nell’approccio di DBpedia. Per ladeterminazione delle relazioni di sottoclasse, YAGO non usa pienamente la gerarchia di categoriadi Wikipedia, ma le categorie di collegamenti a foglia della gerarchia di WordNet.Il progetto Semantic MediaWiki mira anch’esso a permettere il riutilizzo delle informazioniall’interno dei Wiki, nonché a migliorare la ricerca e a facilitare la navigazione. SemanticMediaWiki è un’estensione del software MediaWiki che consente di aggiungere dati strutturatiall’interno di Wiki usando una sintassi specifica. In definitiva, DBpedia e Semantic Wiki hannoobiettivi simili: entrambi vogliono offrire i vantaggi delle informazioni strutturate di Wikipedia pergli utenti, ma usano differenti approcci per raggiungere questo scopo. Semantic MediaWiki richiedeagli autori di affrontare una nuova sintassi, ma includere tutte le informazioni strutturate all’internodi Wikipedia richiede di conseguenza di convertire tutte le informazioni in questa sintassi. DBpedia,invece, sfrutta la struttura che già esiste all’interno di Wikipedia e quindi non necessita di profondemodifiche di carattere tecnico o metodologico. Tuttavia, DBpedia non è strettamente integrata inWikipedia come è previsto per Semantic MediaWiki e quindi è limitata nelle restrizioni degli autoridi Wikipedia per quanto riguarda la coerenza sintattica e strutturale e l’omogeneità.
  • 24. Un altro approccio interessante è seguito da Freebase21. Il progetto mira a costruire un enormedatabase online che gli utenti possano modificare in maniera simile a come essi fanno attualmenteper gli articoli di Wikipedia. La comunità di DBpedia collabora con Metaweb e presto collegherà idati proveniente da entrambe le fonti, Freebase e Metaweb.5 ConclusioniDBpedia è una delle più grandi ontologie multi dominio che esistono al giorno d’oggi. In confrontoad altre ontologie che solitamente includono solo domini specifici, sono create per gruppirelativamente piccoli di ingegneri della conoscenza, e sono molto costose da tenere aggiornate aicambiamenti di dominio, DBpedia ha il vantaggio che: 1. include molti domini e contiene molte istanze; 2. rappresenta autentici accordi tra comunità; 3. evolve automaticamente seguendo i cambiamenti di Wikipedia.Gli svantaggi di DBpedia confrontati con ontologie artigianali come SUMO, Open Cyc o WordNetsono che: 1. DBpedia è meno strutturata formalmente; 2. la qualità dei dati è inferiore e ci sono incongruenze all’interno di DBpedia.Un approccio per combinare i vantaggi di entrambi i mondi è connettere DBpedia con le ontologieartigianali, in modo da consentire alle applicazioni di usare la conoscenza formale da questeontologie assieme con le istanze dati da DBpedia. Connettendo DBpedia con queste ontologie sipotrebbe estendere ulteriormente le potenzialità delle interrogazioni. Ma estraendo dati strutturai datutte le 251 versioni di DBpedia e collegando questi dati con il contesto di conoscenza derivante daontologie come Open Cyc, SUMO, o WordNet, sono necessari differenti tipi di controlli dicoerenza. Perciò, una direzione promettente verso cui muoversi in futuro è usare la conoscenza diDBpedia per controlli di coerenza e per sviluppare strumenti che supportino gli autori di Wikipedianell’offrire suggerimenti correttivi.Come obiettivi futuri ci si dovrà concentrerà in primo luogo sul miglioramento della qualità deldataset di DBpedia. Dovrà essere automatizzato ulteriormente il processo di estrazione dei dati alfine di aumentare la ricorrenza del set di dati di DBpedia e sincronizzarla con le modifiche diWikipedia. In parallelo, bisognerà continuerà ad esplorare differenti tipi di interfacce utente e casi21 http://www.freebase.com/
  • 25. d’uso per l’insieme di dati di DBpedia. All’interno della comunità del progetto W3C Linkin OpenData sono interconnessi il set di dati di DBpedia con ulteriori set di dati che man mano che vengonopubblicati come Linked Data sul Web. Si è intenzionati anche a sfruttare le sinergie tra le versionidi Wikipedia nelle varie lingue al fine di incrementare ulteriormente la copertura di DBpedia efornire strumenti di garanzia della qualità per la comunità di Wikipedia. Un tale strumento potrebbe,ad esempio, informare un autore di Wikipedia riguardo a contraddizioni tra il contenuto degliinfobox contenuti nelle varie versioni linguistiche di un articolo. L’interconnessione di DBpediacon altre basi di dati come ad esempio Cyc (e il loro utilizzo come conoscenza di background)potrebbe portare ad ulteriori metodi per il semi-automatico controllo della coerenza per il contenutodi Wikipedia.DBpedia è una delle principali fonti di dati open e royalty-free sul Web. Ci si augura chel’interconnessione di DBpedia con ulteriori fonti di dati potrebbe costituire un nucleo perl’emergere definitivo del Web of Data.
  • 26. FONTI [1] C. Bizer, T.Heath, Tim Barners-Lee; “Linked Data - The Story So Far”; International Journal on Semantic Web and Information Systems (IJSWIS) (2009) <http://tomheath.com/papers/bizer-heath-berners-lee-ijswis-linked-data.pdf> [2] C.Bizer, T.Heath, D.Ayers, Y.Raimond; “Interlinking Open Data on the Web” <http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkingOpenData.pdf> [3] C.Bizer, T.Heath, K.Idehen, Tim Berners-Lee; “Linked Data on the Web (LDOW2008)”. Workshop Summary; April 21-25, 2008, Beijing, China. <http://www2008.org/papers/pdf/p1265-bizer.pdf> [4] Linked Data Web architecture note by Tim Berners-Lee < http://www.w3.org/DesignIssues/LinkedData.html> [5] Sito web del progetto DBpedia <http://dbpedia.org/About> [6] S.Auer, C.Bizer, G.Kobilarov, J.Lehmann, R.Cyganiak, Z.Ives; “DBpedia: A Nucleus for a Web of Open Data”. In Proceedings of the 6th International Semantic Web Conference and 2nd Asian Semantic Web Conference (ISWC/ASWC2007) <http://www.cis.upenn.edu/~zives/research/dbpedia.pdf> [7] C.Bizer, S.Auer, G.Kobilarov, J.Lehmann, C.Becker, S.Hellmann; “Querying Wikipedia like a database and an interlinking-hub in the Web of Data” <http://www4.wiwiss.fu-berlin.de/bizer/pub/WikiMediaDevMeeting-DBpedia-Talk.pdf>