Vittorio Di Tomaso CBDIG
Semantica:
condividere significati
tra archivi digitali
Vittorio Di Tomaso
CBDIG
Vittorio Di Tomaso CBDIG
Perché le biblioteche digitali
non sono “sexy” come quelle
analogiche?
Perché le biblioteche digitali
non sono “sexy” come quelle
analogiche?
Vittorio Di Tomaso CBDIG
Perché si può fare di più: ricerca
Le ricerche su
Banche Dati in
ambito culturale
richiedono una
conoscenza
pregressa
dell’argomento
Le ricerche su
Banche Dati in
ambito culturale
richiedono una
conoscenza
pregressa
dell’argomento
Bisogna già
conoscere
quello che si
sta cercando
Bisogna già
conoscere
quello che si
sta cercando
Vittorio Di Tomaso CBDIG
Perché si può fare di più: correlazioni
Classificazioni
precise e rigorose
limitano la
possibilità di
associazioni e
collegamenti
Classificazioni
precise e rigorose
limitano la
possibilità di
associazioni e
collegamenti
Tendenza a
proporre
percorsi
“specialistici”
Tendenza a
proporre
percorsi
“specialistici”
Vittorio Di Tomaso CBDIG
Perché si può fare di più: orizzonti
L’arte e la cultura
sono, di natura,
“liberi” nello
spazio e nel
tempo, mentre
musei ed archivi
sono mondi
“chiusi”
L’arte e la cultura
sono, di natura,
“liberi” nello
spazio e nel
tempo, mentre
musei ed archivi
sono mondi
“chiusi”
Ogni archivio offre
una visione
“parziale” (ma le
visioni possono
essere federate)
Ogni archivio offre
una visione
“parziale” (ma le
visioni possono
essere federate)
Vittorio Di Tomaso CBDIG
Perché si può fare di più: coinvolgimento
Anche quando
disponibili via web,
molti archivi
culturali adottano un
approccio poco
orientato alla
fruizione
Anche quando
disponibili via web,
molti archivi
culturali adottano un
approccio poco
orientato alla
fruizione
User experience
poco coinvolgente
User experience
poco coinvolgente
Vittorio Di Tomaso CBDIG
Quali sono gli obiettivi
Vittorio Di Tomaso CBDIG
Su quali aspetti bisogna lavorare
Vittorio Di Tomaso CBDIG
Che cosa vogliamo fare….
Ricerche federate
Integrare patrimoni e fonti informative differenti
Ricerche intelligenti
Comprendere meglio il significato della richiesta dell’utente (per
dare risultati più soddisfacenti)
Navigazione dinamica
Identificare e rendere disponibili relazioni e correlazioni tra
elementi appartenti a patrimoni informativi diversi
Vittorio Di Tomaso CBDIG
Accesso ai contenuti tramite search
•Ricerca 
semantica di 
contenuti  a testo 
libero che, 
attraverso la 
correlazione di 
fonti dati, 
consente di 
trovare risultati 
accedendo a più
patrimoni 
infomativi
•Abilita lettura 
trasversale e 
cross‐mediale  dei 
fenomeni di 
interesse
•Ricerca 
semantica di 
contenuti  a testo 
libero che, 
attraverso la 
correlazione di 
fonti dati, 
consente di 
trovare risultati 
accedendo a più
patrimoni 
infomativi
•Abilita lettura 
trasversale e 
cross‐mediale  dei 
fenomeni di 
interesse
• Archivi
storici
digitalizzati
di quotidiani
• Archivi
storici
digitalizzati
di quotidiani
• Siti web
storicizzati
• Siti web
storicizzati
• Foto,
Immagini
ed
Illustrazioni
• Foto,
Immagini
ed
Illustrazioni
• Materiale
correlato
disponibil
e su altri
siti
• Materiale
correlato
disponibil
e su altri
siti
• Libri, riviste,
articoli con
link diretto a
siti di
eCommerce
• Libri, riviste,
articoli con
link diretto a
siti di
eCommerce
• Ricerca full-text con individuazione
semantica dei concetti ricercati
• Ricerca full-text con individuazione
semantica dei concetti ricercati
Caso d’uso: trove.nla.gov.auCaso d’uso: trove.nla.gov.au
Il contenuto culturale può essere “espanso” e collegato  ad elementi di 
contesto che  lo rendono in grado di “raccontare” una storia 
Il contenuto culturale può essere “espanso” e collegato  ad elementi di 
contesto che  lo rendono in grado di “raccontare” una storia 
Vittorio Di Tomaso CBDIG
Caso d’uso: Museo TorinoCaso d’uso: Museo Torino
Accesso ai contenuti tramite logiche di experience
Progetto del Comune di Torino che consente la
consultazione di un archivio dei beni artistici della
città attraverso una rich-interface web che integra
contenuti testuali, immagini e logiche di
georeferenziazione
•Fruizione dei
contenuti
attraverso
interfacce che
garantiscono una
user-experience
intuitiva e
coinvolgente
•Logiche di
erogazione
compatibili con
device innovativi
(es. smartphone
e tablet)
•Fruizione dei
contenuti
attraverso
interfacce che
garantiscono una
user-experience
intuitiva e
coinvolgente
•Logiche di
erogazione
compatibili con
device innovativi
(es. smartphone
e tablet) La “contaminazione” degli archivi di beni culturali con
logiche di fruizione tipiche dell’info-tainment può
ampliare il bacino di utenza di contenuti culturali
La “contaminazione” degli archivi di beni culturali con
logiche di fruizione tipiche dell’info-tainment può
ampliare il bacino di utenza di contenuti culturali
Vittorio Di Tomaso CBDIG
Caso d’uso: Dati PubbliciCaso d’uso: Dati Pubblici
Accesso ai contenuti tramite api
• Interfacciamento dei
contenuti attraverso API
standard che
consentano
l’interoperabilità con altri
servizi attivando
correlazioni per:
‐ Creare servizi /
applicazioni arricchite
con contenuti esterni
legati ai medesimi
concetti
‐ Esporre i propri
contenuti in modo
universale ad altri
servizi che li possono
integrare e diffondere
• Interfacciamento dei
contenuti attraverso API
standard che
consentano
l’interoperabilità con altri
servizi attivando
correlazioni per:
‐ Creare servizi /
applicazioni arricchite
con contenuti esterni
legati ai medesimi
concetti
‐ Esporre i propri
contenuti in modo
universale ad altri
servizi che li possono
integrare e diffondere
API
Basi Dati
pubbliche
Basi Dati
pubbliche
Servizi di
Localizzaizone
Servizi di
Localizzaizone
Rich Internet Application che rende fruibili i dati ad
un pubblico più vasto rispetto al bacino originario
Rich Internet Application che rende fruibili i dati ad
un pubblico più vasto rispetto al bacino originario
In ambito culturale questa logica può favorire
l’integrazione tra i patrimoni suddivisi tra enti,
associazioni e fondazioni diverse offrendo un’esperienza
digitale di fruizione integrata dei patrimoni
In ambito culturale questa logica può favorire
l’integrazione tra i patrimoni suddivisi tra enti,
associazioni e fondazioni diverse offrendo un’esperienza
digitale di fruizione integrata dei patrimoni
La logica dell’interoperabilità tramite API è alla base dei principi Open
Data per la diffusione dei dati pubblici
API
Vittorio Di Tomaso CBDIG
L’ecosistema cultura / Piemonte
Ontologia dei beni culturaliOntologia dei beni culturali
Ricerche federate, interoperabilitàRicerche federate, interoperabilità
Motore di
ricerca
Motore di
ricerca
API e
servizi
API e
servizi
Vittorio Di Tomaso CBDIG
Modello di riferimento
ExperienceExperience APIAPI
Ontologia
• Digitalizzazione /
Creazione
• Arricchimento semantico
Digital
Library
Modalità di
erogazione
Casi d’uso
Strumenti di ricerca
testuale per
semplificare
l’accesso a contenuti
documentali
Interfacce multimediali
per la fruizione dei
contenuti tramite user
experience coinvolgente
Interoperabilità con
altri servizi per
arricchire i contenuti
con info da altre fonti
SearchSearch
Contenuti
Tradizionali
CrowdsourcingCrowdsourcing
Utente
Recepimento di
contenuti e
commenti da
parte dell’utenza
•Facilità di
integrazione
tra i contenuti
•User
experience
“infotainment-
like”
•Bacino di
fruizione più
ampio
•Possibilità di
abilitare
logiche di
eCommerce
dei contenuti
•Facilità di
integrazione
tra i contenuti
•User
experience
“infotainment-
like”
•Bacino di
fruizione più
ampio
•Possibilità di
abilitare
logiche di
eCommerce
dei contenuti
Vittorio Di Tomaso CBDIG
Il risultato…
Vittorio Di Tomaso CBDIG
Obiettivo 1: ricerca federata su repository differenti
Vittorio Di Tomaso CBDIG
Motore Attuale
(Logica
tradizionale
per keyword)
Motore Attuale
(Logica
tradizionale
per keyword)
Obiettivo 2: ricerche più intelligenti
Approccio
Semantico
(identificazione
dei concetti
cercati)
Approccio
Semantico
(identificazione
dei concetti
cercati) • Trova 30 risultati relativi a Basiliche, Santuari e
Chiese , …
• Esempio: documenti relativi alla Basilica di
Superga, perchè
‐ La Basilica di Superga è un edificio religioso
‐ La Basilica di Superga è del 1731
• Trova 30 risultati relativi a Basiliche, Santuari e
Chiese , …
• Esempio: documenti relativi alla Basilica di
Superga, perchè
‐ La Basilica di Superga è un edificio religioso
‐ La Basilica di Superga è del 1731
Propone collegamenti con le
tendenze artistiche sviluppatesi
nel periodo e con altre eminenti
opere contemporanee
Propone collegamenti con le
tendenze artistiche sviluppatesi
nel periodo e con altre eminenti
opere contemporanee
Edificio
religioso del
settecento
Edificio
religioso del
settecento
Trova 1 solo risultato
contenente la keyword
“Edificio Religioso”
Trova 1 solo risultato
contenente la keyword
“Edificio Religioso”
Vittorio Di Tomaso CBDIG
Obiettivo 3: scoperta e navigazione di relazioni
La comprensione della semantica di 
una ricerca consente di “attivare”
logiche di navigazione  basate sulle 
relazioni tra i concetti
La comprensione della semantica di 
una ricerca consente di “attivare”
logiche di navigazione  basate sulle 
relazioni tra i concetti
Vittorio Di Tomaso CBDIG
Ontologia: come fare? Una scelta pragmatica
Progettazione dell’ontologia
sulla base dei metadati di
catalogazione (ma in funzione
delle esigenze della ricerca delle
informazioni)
Progettazione dell’ontologia
sulla base degli elementi di
significato che si trovano nei
testi del corpus
GUARINI:
TOP DOWN
LA STAMPA:
BOTTOM UP
Vittorio Di Tomaso CBDIG
Guarini: progetto top down dell’ontologia
OBAC Piemonte è la knowledge base ottenuta istanziando le classi di OBAC nei
principali concetti individuali presenti nelle Schede F (fototipi) dell’Archivio
Guarini.
Il metodo quantitativo è basato sull’estrazione delle stringhe del campo “soggetto”
di tali schede, arrestandosi sotto un numero prestabilito di occorrenze del
soggetto.
OBAC Piemonte è la knowledge base ottenuta istanziando le classi di OBAC nei
principali concetti individuali presenti nelle Schede F (fototipi) dell’Archivio
Guarini.
Il metodo quantitativo è basato sull’estrazione delle stringhe del campo “soggetto”
di tali schede, arrestandosi sotto un numero prestabilito di occorrenze del
soggetto.
Vittorio Di Tomaso CBDIG
OBAC – Classi di base
Vittorio Di Tomaso CBDIG
OBAC – Alcune relazioni di esempio
Vittorio Di Tomaso CBDIG
Uso di tecnologie semantiche per estrarre informazioni a valore aggiunto
Microfilm Copia digitale OCR Indicizzazione full text Analisi semantica Smart search
11 22 33 44
La stampa: identificazione bottom-up di elementi semantici
Vittorio Di Tomaso CBDIG
La stampa: estrazione di entità nominate
Arricchimento
semantico dei
documenti tramite
il riconoscimento
delle entità
nominate
("Named
Entities"), cioè le
persone, i luoghi
e le
organizzazioni
menzionate negli
articoli.
Un es. di articolo:
La Stampa 03-02-1965
Arricchimento
semantico dei
documenti tramite
il riconoscimento
delle entità
nominate
("Named
Entities"), cioè le
persone, i luoghi
e le
organizzazioni
menzionate negli
articoli.
Un es. di articolo:
La Stampa 03-02-1965
Vittorio Di Tomaso CBDIG
La stampa: estrazione di entità nominate
Annotazione
manuale
effettuata su un
corpus di 1800
articoli, dal 1910
al 2005,
selezionati
prevalentemente
dalle prime
pagine (582.477
token)
Annotazione
manuale
effettuata su un
corpus di 1800
articoli, dal 1910
al 2005,
selezionati
prevalentemente
dalle prime
pagine (582.477
token)
Vittorio Di Tomaso CBDIG
La stampa: estrazione di entità nominate
Training di un
Classificatore
automatico SVM
(Support Vector
Machine)
Integrazione di
Regole manuali
di identificazione
e
disambiguazione,
in particolare per
il riconoscimento
degli Autori
Training di un
Classificatore
automatico SVM
(Support Vector
Machine)
Integrazione di
Regole manuali
di identificazione
e
disambiguazione,
in particolare per
il riconoscimento
degli Autori
Vittorio Di Tomaso CBDIG
Una sfida complessa….
Estensione temporale
L’archivio storico de La Stampa comprende articoli su un periodo
temporale di quasi 150 anni (dal 1867 al 2004): non esistono casi
analoghi in Italia di analisi semantica di testi su un intervallo
diacronico così ampio. Abbiamo dovuto definire una metodologia
senza poter fare affidamento su best practice consolidate
Digitalizzazione
La digitalizzazione di un corpus con queste caratteristiche è
molto complessa. Gli inevitabili errori di segmentazione e di
estrazione del testo (OCR) hanno un effetto talvolta
sostanziale su un successivo strato di analisi linguistica
Vittorio Di Tomaso CBDIG
Panna o Fanna?
Vittorio Di Tomaso CBDIG
I risultati dell’analisi
4.8000.0000 Articoli analizzati
110.000 Nomi di persona riconosciuti freq > 10
10.000 Nomi di luoghi riconosciuti freq > 10
6.000 Nomi di organizzazioni riconosciuti freq > 10
oltre
oltre
oltre
oltre
80% di precisione del risultatooltre
Vittorio Di Tomaso CBDIG
Siamo soltanto all’inizio…
Vittorio Di Tomaso CBDIG
La vision futura in 4 passi (2012 – 2013)
Realizzare un motore di ricerca sull’intero patrimonio di conoscenza
(Cultura k-Search)
Realizzare un motore di ricerca sull’intero patrimonio di conoscenza
(Cultura k-Search)
Estendere il modello metodologico per coprire repository diversiEstendere il modello metodologico per coprire repository diversi
Creare una ontologia ombrello (OntoPiemonteCultura) in
grado di collegare gli archivi in modalità Open (Cultura
LinkedData)
Creare una ontologia ombrello (OntoPiemonteCultura) in
grado di collegare gli archivi in modalità Open (Cultura
LinkedData)
Realizzare API di ricerca HTTP / REST che consentano l’accesso
libero a terze parti a Cultura k-Search (APPS)
Realizzare API di ricerca HTTP / REST che consentano l’accesso
libero a terze parti a Cultura k-Search (APPS)
1.1.
2.2.
3.3.
4.4.
20122012
20132013
Vittorio Di Tomaso CBDIG
Sappiamo cosa fare….
1 http://web.cnr.it/commesse/CommessaDescr.html?id_comm=1411
2 http://web.cnr.it/commesse/ModuloPrev.html?id_mod=2059
L'aspetto più critico riguarda
la necessità di acquisire
persone con la competenza e
le motivazioni necessarie per
fare da ponte tra ricerca e
applicazioni2
Le ontologie rappresentano
oggi la tecnologia chiave per
risolvere i problemi di
integrazione e interoperabilità
semantica di dati e
conoscenze1
Vittorio Di Tomaso CBDIG
Ma in questo momento manca qualcosa….
Vittorio Di Tomaso CBDIG
Vogliamo costruire cattedrali….
Vittorio Di Tomaso CBDIG
Semantica:
condividere significati
tra archivi digitali
Vittorio Di Tomaso
CBDIG
Grazie per l’attenzione!
Vittorio Di Tomaso
Hanno collaborato al progetto: Andrea Bolioli,
Roberto Franchini, Raffaella Ventaglio, Federico
Fissore, Mauro Cappelli, Federico Cairo
Ringraziamo: Andrea Muraca, Francesco Cerchio,
Cristina Mollis, Alessandro Stefani

Celi_Di Tomaso presentazione futurodigitale_csipiemonte

  • 1.
    Vittorio Di TomasoCBDIG Semantica: condividere significati tra archivi digitali Vittorio Di Tomaso CBDIG
  • 2.
    Vittorio Di TomasoCBDIG Perché le biblioteche digitali non sono “sexy” come quelle analogiche? Perché le biblioteche digitali non sono “sexy” come quelle analogiche?
  • 3.
    Vittorio Di TomasoCBDIG Perché si può fare di più: ricerca Le ricerche su Banche Dati in ambito culturale richiedono una conoscenza pregressa dell’argomento Le ricerche su Banche Dati in ambito culturale richiedono una conoscenza pregressa dell’argomento Bisogna già conoscere quello che si sta cercando Bisogna già conoscere quello che si sta cercando
  • 4.
    Vittorio Di TomasoCBDIG Perché si può fare di più: correlazioni Classificazioni precise e rigorose limitano la possibilità di associazioni e collegamenti Classificazioni precise e rigorose limitano la possibilità di associazioni e collegamenti Tendenza a proporre percorsi “specialistici” Tendenza a proporre percorsi “specialistici”
  • 5.
    Vittorio Di TomasoCBDIG Perché si può fare di più: orizzonti L’arte e la cultura sono, di natura, “liberi” nello spazio e nel tempo, mentre musei ed archivi sono mondi “chiusi” L’arte e la cultura sono, di natura, “liberi” nello spazio e nel tempo, mentre musei ed archivi sono mondi “chiusi” Ogni archivio offre una visione “parziale” (ma le visioni possono essere federate) Ogni archivio offre una visione “parziale” (ma le visioni possono essere federate)
  • 6.
    Vittorio Di TomasoCBDIG Perché si può fare di più: coinvolgimento Anche quando disponibili via web, molti archivi culturali adottano un approccio poco orientato alla fruizione Anche quando disponibili via web, molti archivi culturali adottano un approccio poco orientato alla fruizione User experience poco coinvolgente User experience poco coinvolgente
  • 7.
    Vittorio Di TomasoCBDIG Quali sono gli obiettivi
  • 8.
    Vittorio Di TomasoCBDIG Su quali aspetti bisogna lavorare
  • 9.
    Vittorio Di TomasoCBDIG Che cosa vogliamo fare…. Ricerche federate Integrare patrimoni e fonti informative differenti Ricerche intelligenti Comprendere meglio il significato della richiesta dell’utente (per dare risultati più soddisfacenti) Navigazione dinamica Identificare e rendere disponibili relazioni e correlazioni tra elementi appartenti a patrimoni informativi diversi
  • 10.
    Vittorio Di TomasoCBDIG Accesso ai contenuti tramite search •Ricerca  semantica di  contenuti  a testo  libero che,  attraverso la  correlazione di  fonti dati,  consente di  trovare risultati  accedendo a più patrimoni  infomativi •Abilita lettura  trasversale e  cross‐mediale  dei  fenomeni di  interesse •Ricerca  semantica di  contenuti  a testo  libero che,  attraverso la  correlazione di  fonti dati,  consente di  trovare risultati  accedendo a più patrimoni  infomativi •Abilita lettura  trasversale e  cross‐mediale  dei  fenomeni di  interesse • Archivi storici digitalizzati di quotidiani • Archivi storici digitalizzati di quotidiani • Siti web storicizzati • Siti web storicizzati • Foto, Immagini ed Illustrazioni • Foto, Immagini ed Illustrazioni • Materiale correlato disponibil e su altri siti • Materiale correlato disponibil e su altri siti • Libri, riviste, articoli con link diretto a siti di eCommerce • Libri, riviste, articoli con link diretto a siti di eCommerce • Ricerca full-text con individuazione semantica dei concetti ricercati • Ricerca full-text con individuazione semantica dei concetti ricercati Caso d’uso: trove.nla.gov.auCaso d’uso: trove.nla.gov.au Il contenuto culturale può essere “espanso” e collegato  ad elementi di  contesto che  lo rendono in grado di “raccontare” una storia  Il contenuto culturale può essere “espanso” e collegato  ad elementi di  contesto che  lo rendono in grado di “raccontare” una storia 
  • 11.
    Vittorio Di TomasoCBDIG Caso d’uso: Museo TorinoCaso d’uso: Museo Torino Accesso ai contenuti tramite logiche di experience Progetto del Comune di Torino che consente la consultazione di un archivio dei beni artistici della città attraverso una rich-interface web che integra contenuti testuali, immagini e logiche di georeferenziazione •Fruizione dei contenuti attraverso interfacce che garantiscono una user-experience intuitiva e coinvolgente •Logiche di erogazione compatibili con device innovativi (es. smartphone e tablet) •Fruizione dei contenuti attraverso interfacce che garantiscono una user-experience intuitiva e coinvolgente •Logiche di erogazione compatibili con device innovativi (es. smartphone e tablet) La “contaminazione” degli archivi di beni culturali con logiche di fruizione tipiche dell’info-tainment può ampliare il bacino di utenza di contenuti culturali La “contaminazione” degli archivi di beni culturali con logiche di fruizione tipiche dell’info-tainment può ampliare il bacino di utenza di contenuti culturali
  • 12.
    Vittorio Di TomasoCBDIG Caso d’uso: Dati PubbliciCaso d’uso: Dati Pubblici Accesso ai contenuti tramite api • Interfacciamento dei contenuti attraverso API standard che consentano l’interoperabilità con altri servizi attivando correlazioni per: ‐ Creare servizi / applicazioni arricchite con contenuti esterni legati ai medesimi concetti ‐ Esporre i propri contenuti in modo universale ad altri servizi che li possono integrare e diffondere • Interfacciamento dei contenuti attraverso API standard che consentano l’interoperabilità con altri servizi attivando correlazioni per: ‐ Creare servizi / applicazioni arricchite con contenuti esterni legati ai medesimi concetti ‐ Esporre i propri contenuti in modo universale ad altri servizi che li possono integrare e diffondere API Basi Dati pubbliche Basi Dati pubbliche Servizi di Localizzaizone Servizi di Localizzaizone Rich Internet Application che rende fruibili i dati ad un pubblico più vasto rispetto al bacino originario Rich Internet Application che rende fruibili i dati ad un pubblico più vasto rispetto al bacino originario In ambito culturale questa logica può favorire l’integrazione tra i patrimoni suddivisi tra enti, associazioni e fondazioni diverse offrendo un’esperienza digitale di fruizione integrata dei patrimoni In ambito culturale questa logica può favorire l’integrazione tra i patrimoni suddivisi tra enti, associazioni e fondazioni diverse offrendo un’esperienza digitale di fruizione integrata dei patrimoni La logica dell’interoperabilità tramite API è alla base dei principi Open Data per la diffusione dei dati pubblici API
  • 13.
    Vittorio Di TomasoCBDIG L’ecosistema cultura / Piemonte Ontologia dei beni culturaliOntologia dei beni culturali Ricerche federate, interoperabilitàRicerche federate, interoperabilità Motore di ricerca Motore di ricerca API e servizi API e servizi
  • 14.
    Vittorio Di TomasoCBDIG Modello di riferimento ExperienceExperience APIAPI Ontologia • Digitalizzazione / Creazione • Arricchimento semantico Digital Library Modalità di erogazione Casi d’uso Strumenti di ricerca testuale per semplificare l’accesso a contenuti documentali Interfacce multimediali per la fruizione dei contenuti tramite user experience coinvolgente Interoperabilità con altri servizi per arricchire i contenuti con info da altre fonti SearchSearch Contenuti Tradizionali CrowdsourcingCrowdsourcing Utente Recepimento di contenuti e commenti da parte dell’utenza •Facilità di integrazione tra i contenuti •User experience “infotainment- like” •Bacino di fruizione più ampio •Possibilità di abilitare logiche di eCommerce dei contenuti •Facilità di integrazione tra i contenuti •User experience “infotainment- like” •Bacino di fruizione più ampio •Possibilità di abilitare logiche di eCommerce dei contenuti
  • 15.
    Vittorio Di TomasoCBDIG Il risultato…
  • 16.
    Vittorio Di TomasoCBDIG Obiettivo 1: ricerca federata su repository differenti
  • 17.
    Vittorio Di TomasoCBDIG Motore Attuale (Logica tradizionale per keyword) Motore Attuale (Logica tradizionale per keyword) Obiettivo 2: ricerche più intelligenti Approccio Semantico (identificazione dei concetti cercati) Approccio Semantico (identificazione dei concetti cercati) • Trova 30 risultati relativi a Basiliche, Santuari e Chiese , … • Esempio: documenti relativi alla Basilica di Superga, perchè ‐ La Basilica di Superga è un edificio religioso ‐ La Basilica di Superga è del 1731 • Trova 30 risultati relativi a Basiliche, Santuari e Chiese , … • Esempio: documenti relativi alla Basilica di Superga, perchè ‐ La Basilica di Superga è un edificio religioso ‐ La Basilica di Superga è del 1731 Propone collegamenti con le tendenze artistiche sviluppatesi nel periodo e con altre eminenti opere contemporanee Propone collegamenti con le tendenze artistiche sviluppatesi nel periodo e con altre eminenti opere contemporanee Edificio religioso del settecento Edificio religioso del settecento Trova 1 solo risultato contenente la keyword “Edificio Religioso” Trova 1 solo risultato contenente la keyword “Edificio Religioso”
  • 18.
    Vittorio Di TomasoCBDIG Obiettivo 3: scoperta e navigazione di relazioni La comprensione della semantica di  una ricerca consente di “attivare” logiche di navigazione  basate sulle  relazioni tra i concetti La comprensione della semantica di  una ricerca consente di “attivare” logiche di navigazione  basate sulle  relazioni tra i concetti
  • 19.
    Vittorio Di TomasoCBDIG Ontologia: come fare? Una scelta pragmatica Progettazione dell’ontologia sulla base dei metadati di catalogazione (ma in funzione delle esigenze della ricerca delle informazioni) Progettazione dell’ontologia sulla base degli elementi di significato che si trovano nei testi del corpus GUARINI: TOP DOWN LA STAMPA: BOTTOM UP
  • 20.
    Vittorio Di TomasoCBDIG Guarini: progetto top down dell’ontologia OBAC Piemonte è la knowledge base ottenuta istanziando le classi di OBAC nei principali concetti individuali presenti nelle Schede F (fototipi) dell’Archivio Guarini. Il metodo quantitativo è basato sull’estrazione delle stringhe del campo “soggetto” di tali schede, arrestandosi sotto un numero prestabilito di occorrenze del soggetto. OBAC Piemonte è la knowledge base ottenuta istanziando le classi di OBAC nei principali concetti individuali presenti nelle Schede F (fototipi) dell’Archivio Guarini. Il metodo quantitativo è basato sull’estrazione delle stringhe del campo “soggetto” di tali schede, arrestandosi sotto un numero prestabilito di occorrenze del soggetto.
  • 21.
    Vittorio Di TomasoCBDIG OBAC – Classi di base
  • 22.
    Vittorio Di TomasoCBDIG OBAC – Alcune relazioni di esempio
  • 23.
    Vittorio Di TomasoCBDIG Uso di tecnologie semantiche per estrarre informazioni a valore aggiunto Microfilm Copia digitale OCR Indicizzazione full text Analisi semantica Smart search 11 22 33 44 La stampa: identificazione bottom-up di elementi semantici
  • 24.
    Vittorio Di TomasoCBDIG La stampa: estrazione di entità nominate Arricchimento semantico dei documenti tramite il riconoscimento delle entità nominate ("Named Entities"), cioè le persone, i luoghi e le organizzazioni menzionate negli articoli. Un es. di articolo: La Stampa 03-02-1965 Arricchimento semantico dei documenti tramite il riconoscimento delle entità nominate ("Named Entities"), cioè le persone, i luoghi e le organizzazioni menzionate negli articoli. Un es. di articolo: La Stampa 03-02-1965
  • 25.
    Vittorio Di TomasoCBDIG La stampa: estrazione di entità nominate Annotazione manuale effettuata su un corpus di 1800 articoli, dal 1910 al 2005, selezionati prevalentemente dalle prime pagine (582.477 token) Annotazione manuale effettuata su un corpus di 1800 articoli, dal 1910 al 2005, selezionati prevalentemente dalle prime pagine (582.477 token)
  • 26.
    Vittorio Di TomasoCBDIG La stampa: estrazione di entità nominate Training di un Classificatore automatico SVM (Support Vector Machine) Integrazione di Regole manuali di identificazione e disambiguazione, in particolare per il riconoscimento degli Autori Training di un Classificatore automatico SVM (Support Vector Machine) Integrazione di Regole manuali di identificazione e disambiguazione, in particolare per il riconoscimento degli Autori
  • 27.
    Vittorio Di TomasoCBDIG Una sfida complessa…. Estensione temporale L’archivio storico de La Stampa comprende articoli su un periodo temporale di quasi 150 anni (dal 1867 al 2004): non esistono casi analoghi in Italia di analisi semantica di testi su un intervallo diacronico così ampio. Abbiamo dovuto definire una metodologia senza poter fare affidamento su best practice consolidate Digitalizzazione La digitalizzazione di un corpus con queste caratteristiche è molto complessa. Gli inevitabili errori di segmentazione e di estrazione del testo (OCR) hanno un effetto talvolta sostanziale su un successivo strato di analisi linguistica
  • 28.
    Vittorio Di TomasoCBDIG Panna o Fanna?
  • 29.
    Vittorio Di TomasoCBDIG I risultati dell’analisi 4.8000.0000 Articoli analizzati 110.000 Nomi di persona riconosciuti freq > 10 10.000 Nomi di luoghi riconosciuti freq > 10 6.000 Nomi di organizzazioni riconosciuti freq > 10 oltre oltre oltre oltre 80% di precisione del risultatooltre
  • 30.
    Vittorio Di TomasoCBDIG Siamo soltanto all’inizio…
  • 31.
    Vittorio Di TomasoCBDIG La vision futura in 4 passi (2012 – 2013) Realizzare un motore di ricerca sull’intero patrimonio di conoscenza (Cultura k-Search) Realizzare un motore di ricerca sull’intero patrimonio di conoscenza (Cultura k-Search) Estendere il modello metodologico per coprire repository diversiEstendere il modello metodologico per coprire repository diversi Creare una ontologia ombrello (OntoPiemonteCultura) in grado di collegare gli archivi in modalità Open (Cultura LinkedData) Creare una ontologia ombrello (OntoPiemonteCultura) in grado di collegare gli archivi in modalità Open (Cultura LinkedData) Realizzare API di ricerca HTTP / REST che consentano l’accesso libero a terze parti a Cultura k-Search (APPS) Realizzare API di ricerca HTTP / REST che consentano l’accesso libero a terze parti a Cultura k-Search (APPS) 1.1. 2.2. 3.3. 4.4. 20122012 20132013
  • 32.
    Vittorio Di TomasoCBDIG Sappiamo cosa fare…. 1 http://web.cnr.it/commesse/CommessaDescr.html?id_comm=1411 2 http://web.cnr.it/commesse/ModuloPrev.html?id_mod=2059 L'aspetto più critico riguarda la necessità di acquisire persone con la competenza e le motivazioni necessarie per fare da ponte tra ricerca e applicazioni2 Le ontologie rappresentano oggi la tecnologia chiave per risolvere i problemi di integrazione e interoperabilità semantica di dati e conoscenze1
  • 33.
    Vittorio Di TomasoCBDIG Ma in questo momento manca qualcosa….
  • 34.
    Vittorio Di TomasoCBDIG Vogliamo costruire cattedrali….
  • 35.
    Vittorio Di TomasoCBDIG Semantica: condividere significati tra archivi digitali Vittorio Di Tomaso CBDIG Grazie per l’attenzione! Vittorio Di Tomaso Hanno collaborato al progetto: Andrea Bolioli, Roberto Franchini, Raffaella Ventaglio, Federico Fissore, Mauro Cappelli, Federico Cairo Ringraziamo: Andrea Muraca, Francesco Cerchio, Cristina Mollis, Alessandro Stefani