SlideShare a Scribd company logo
Il Mulino
A ciascuno il suo: archi, frecce e
interfacce per servizi editoriali B2B e
B2C
IA Summit - Dall’ascolto alla progettazione - 24 ottobre 2015
Trattare i testi:
strutture, dati, metadati
Fabio Vitali
Università di Bologna
• Dati
– Una quantificazione dell'informazione perchè
possa essere manipolata dai computer
• Strutture dati
– L'organizzazione del dato in modo da rendere il
dato comprensibile e manipolabile
• Collezioni di dati
– Grandi quantità di dati connessi e più o meno
omogenei, la cui manipolazione rappresenta in
realtà l'obiettivo reale delle applicazioni
Dati
• Record
– Strutture che descrivono entità elencandone le
proprietà
• Tabelle
– Collezioni di dati descritte come elenchi di record
omogenei tra loro
• Alberi
– Gerarchie di dati o di collezioni
• Grafi
– Reti di strutture informative più o meno
strettamente interconnesse
E i testi?
• I testi sono difficili.
• I testi preesistono ai dati che contengono, ma
contengono dati potenzialmente interessanti.
• Non sono dati strutturati. Non sono collezioni.
• Non sono neanche organizzati in record,
tabelle, alberi, grafi.
I testi
• I testi hanno ordine
– Ne "Nel mezzo del cammin di nostra vita", è
importante che "Nel" venga prima di "mezzo"
• I testi hanno struttura
– Cantiche, canti, terzine, versi
– Scene e transizioni
– Periodi, proposizioni, soggetti, predicati, complementi
• I testi hanno parti di rilevanza diversa
– A seconda dell'uso che se ne vuole fare e
dell'applicazione che li prende in considerazione
I testi
• Per la teoria del markup i testi sono alberi
ordinati ed etichettati.
– Una cosa molto più complessa da gestire di un
albero. Ad esempio JSON non ce la fa.
• Una cosa tipica e peculiare dei testi è la
coesistenza di strutture che contengono sia
frammenti di testo sia altre sottostrutture.
– Questo viene chiamato Contenuto Misto, ed è
difficile da gestire con strutture dati semplici.
Tecnologie per le strutture dati
• Tabelle relazionali
• JSON
• XML
• HTML5
• RDF
Energia / Informazione
Perchè è interessante XML?
RDF per i testi
• In principio si può esprimere qualunque cosa con RDF,
incluso i testi e le relazioni tra frammenti di un testo.
• Ma RDF richiede che uno esprima tutte le relazioni esistenti
tra testi in maniera esplicita:
– Le sequenze di caratteri
– Il meccanismo di contenimento
– L'identificazione di caratterizzazioni semantiche particolari.
• Esistono ontologie per esprimere queste relazioni. Ad
esempio Earmark (2008).
• Sono complete e funzionano benissimo. Ma belle non sono.
http://www.essepuntato.it/2008/12/earmark
Va bene XML, ma quale?
La situazione nel 2006 è complessa:
• XHTML per il web
• DocBook per l'editoria
• Text Encoding Initiative per i testi letterari
• I formati interni di OpenOffice e MS Word
Servono tutti, e sono tutti diversi. Eppure i testi
sono gli stessi.
E' possibile identificare delle regolarità sfruttabili?
I design pattern
• Una delle più importanti innovazioni multi-
culturali degli ultimi vent'anni.
• Scoperti (inventati?) da un architetto, Cristopher
Alexander, alla fine degli anni 70, ed utilizzati in
architettura, urbanistica e informatica.
• "Forme riutilizzabili di soluzioni a problemi di
design"
– Modelli di soluzione applicabili a problemi
apparentemente diversissimi ma sotto-sotto simili
Regolarità
nel design dei documenti
• Esistono delle regolarità in come sono stati
progettati questi modelli di documenti?
• E' possibile ricondurre tutte queste diversità
in un modello comune e comprensibile che
faciliti la conversione e la riespressione di
documenti da un formato all'altro?
• Esistono dei pattern strutturali condivisi da
tutti questi formati che noi possiamo scovare
e istituzionalizzare in un linguaggio comune?
Verso una teoria dei pattern
Ci sono due fenomeni da valutare:
– Cosa può contenere un elemento (il content model)
– Dove può essere posto un elemento (il context)
Il content model determina
– Se un elemento può contenere testo o no
– Se un elemento può contenere altri elementi o no
Pattern di content model
Non può
contenere testo
Può contenere
testo
Non può
contenere
elementi
Elemento vuoto
Marker
Contiene solo testo
Flat
Può contenere
elementi
Contiene solo
elementi
Bucket
Contiene sia
elementi sia testo
Mixed
Pattern di contesto
Marker Flat Bucket Mixed
Marker - - - -
Flat - - - -
Bucket Meta Field Container Block
Mixed Milestone Atom Popup Inline
Verso una teoria dei pattern
• Con un semplice calcolo combinatorio,
abbiamo scoperto che "servono" solo otto tipi
di elementi, e che con questi otto riusciamo a
gestire tutte le situazioni che si presentano
nella progettazione dei documenti.
• Ma quante grammatiche XML sono
compatibili con la teoria dei pattern?
Zero
Una scoperta interessante
• Le grammatiche dei linguaggi sono molto più aperte
e flessibili dei documenti che vi si basano
concretamente.
• Le regolarità, se esistono, esistono nei documenti, e
non nelle loro grammatiche
• I pattern non esistono a livello di grammatica (di
DTD, o di XML Schema, o di Relax NG), ma a livello
di istanza (i documenti XML veri e propri).
• Più del 90% per cento dei documenti che abbiamo
considerato era concretamente aderente ai pattern,
anche se la grammatica non lo è.
Ad esempio
Questi sono frammenti HTML corretti secondo la
grammatica del linguaggio:
<body>
Un po' di testo.
<p>Un paragrafo</p>
</body>
oppure:
<p>testo e a seguire <table> <tr>
<td>una tabella</td> </tr> </table>
</p>
Ma in realtà sono rarissimi nei documenti veri. Gli autori si
accorgono dell'incongruenza e li evitano (per lo più).
Intermediate Markup Language
• Un primo esperimento di linguaggi basati su
pattern (2006)
• Una semplificazione radicale di HTML
• Creiamo una sottogrammatica di HTML
compatibile coi pattern
• Ogni documento IML è un documento HTML, ma
molto ma molto più regolare.
– Nessuna eccezione
– Nessun caso strano
– Pienamente espressivo
Intermediate Markup Language
• La creazione di un formato basato su pattern
ci ha permesso di creare strumenti di
conversione automatica da e per formati più
noti
– Da MS Word a IML
– Da IML a DocBook
– Da IML a HTML
– Da IML a PDF
E ora RASH
• Da allora abbiamo imparato molte cose, e
alcune si sono semplificate.
– Abbiamo imparato dell'importanza dei metadati
– Abbiamo imparato dell'importanza dell'embedding di
statement semantici all'interno dei documenti
– OOXML è molto più controllato e semplice del primo
XML di MS Word
– XHTML è diventato HTML5, per certi versi più
semplice.
http://cs.unibo.it/save-sd/rash
Research Articles in Simplified HTML
http://cs.unibo.it/save-sd/rash
• Proposto nel 2014 alla comunità del Semantic Publishing.
• Pensato prevalentemente per l'editoria scientifica e
accademica
• Un formato HTML5 molto semplificato (25 elementi)
• Contiene la possibilità di aggiungere annotazioni RDF in
RDFa oppure Turtle oppure JSON-LD
– Totalmente compatibile con gli standard LOD
– Facilmente visualizzabile su qualunque browser
– Facilmente convertibile in qualunque formato editoriale
– Numerose conferenze scientifiche ammettono sottomissioni di
paper in RASH
SPAR Ontologies
http://www.sparontologies.net/
• Un modello di descrizione del processo
editoriale (soprattutto di quello accademico)
molto apprezzato nell'editoria scientifica
• Otto ontologie per descrivere dalla natura alla
struttura dei documenti allo step del processo
editoriale in cui esistono, ecc.
• Grande attenzione al modello citazionale
sottostante, criterio fondamentale per la
valutazione della qualità della ricerca

More Related Content

Similar to A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2C | Prof. Fabio Vitali #IIAS15

Ontologie per i linked open data / Stefano De Luca, Paola De Caro, Claudia C...
Ontologie per i linked open  data / Stefano De Luca, Paola De Caro, Claudia C...Ontologie per i linked open  data / Stefano De Luca, Paola De Caro, Claudia C...
Ontologie per i linked open data / Stefano De Luca, Paola De Caro, Claudia C...
libriedocumenti
 
Strategie Per Un Lor Federato
Strategie Per Un Lor FederatoStrategie Per Un Lor Federato
Strategie Per Un Lor Federato
Marcello Giacomantonio
 
Modelli concettuali e architetture Object-Oriented per la progettazione e lo ...
Modelli concettuali e architetture Object-Oriented per la progettazione e lo ...Modelli concettuali e architetture Object-Oriented per la progettazione e lo ...
Modelli concettuali e architetture Object-Oriented per la progettazione e lo ...
Laboratorio di Cultura Digitale, Università di Pisa
 
ArCo Project - Meetup Marzo 2018
ArCo Project - Meetup Marzo 2018ArCo Project - Meetup Marzo 2018
ArCo Project - Meetup Marzo 2018
ArcoProject
 
Ricostruire le famiglie editoriali: FRBR per la storia delle case editrici at...
Ricostruire le famiglie editoriali: FRBR per la storia delle case editrici at...Ricostruire le famiglie editoriali: FRBR per la storia delle case editrici at...
Ricostruire le famiglie editoriali: FRBR per la storia delle case editrici at...
Salvatore Vassallo
 
La semantica per automatizzare una redazione web: l’esperienza di Innolabspl...
La semantica per automatizzare una redazione web: l’esperienza di Innolabspl...La semantica per automatizzare una redazione web: l’esperienza di Innolabspl...
La semantica per automatizzare una redazione web: l’esperienza di Innolabspl...
Net7
 
La semantica per automatizzare una redazione web: l'esperienza di Innolabplus.eu
La semantica per automatizzare una redazione web: l'esperienza di Innolabplus.euLa semantica per automatizzare una redazione web: l'esperienza di Innolabplus.eu
La semantica per automatizzare una redazione web: l'esperienza di Innolabplus.eu
DrupalDay
 
Linked Open Data di Vittorio Di Tomaso
Linked Open Data di Vittorio Di TomasoLinked Open Data di Vittorio Di Tomaso
Linked Open Data di Vittorio Di Tomaso
CELI
 
Okoa2016long v2
Okoa2016long v2Okoa2016long v2
Okoa2016long v2
Riccardo Grosso
 
Il "Knowledge Graph" della Pubblica Amministrazione Italiana
Il "Knowledge Graph" della Pubblica Amministrazione ItalianaIl "Knowledge Graph" della Pubblica Amministrazione Italiana
Il "Knowledge Graph" della Pubblica Amministrazione Italiana
GraphRM
 
Knowledge Management embraces the World Wide Web using the new XML "lingua-fr...
Knowledge Management embraces the World Wide Web using the new XML "lingua-fr...Knowledge Management embraces the World Wide Web using the new XML "lingua-fr...
Knowledge Management embraces the World Wide Web using the new XML "lingua-fr...
Paolo Diomede
 
9a. Il web semantico
9a. Il web semantico 9a. Il web semantico
9a. Il web semantico
Maurizio Caminito
 
3a Il documento in biblioteca in ambiente elettronico. Il modello FRBR
3a Il documento in biblioteca in ambiente elettronico. Il modello FRBR3a Il documento in biblioteca in ambiente elettronico. Il modello FRBR
3a Il documento in biblioteca in ambiente elettronico. Il modello FRBR
Mau-Messenger
 
Introduction to HTML
Introduction to HTMLIntroduction to HTML
Introduction to HTML
Roberto Dadda
 
3b WEB SEMANTICO: struttura e organizzazione dei dati
3b WEB SEMANTICO: struttura e organizzazione dei dati3b WEB SEMANTICO: struttura e organizzazione dei dati
3b WEB SEMANTICO: struttura e organizzazione dei dati
Mau-Messenger
 
1a. La digitalizzazione/ test
1a. La digitalizzazione/ test1a. La digitalizzazione/ test
1a. La digitalizzazione/ test
Maurizio Caminito
 
Linked data parliamo di semantica del web - v3
Linked data   parliamo di semantica del web - v3Linked data   parliamo di semantica del web - v3
Linked data parliamo di semantica del web - v3
Riccardo Grosso
 
Presentazione Xml
Presentazione XmlPresentazione Xml
Presentazione Xmltave10
 
3c WEB SEMANTICO. Ontologie e RDF
3c WEB SEMANTICO. Ontologie e RDF3c WEB SEMANTICO. Ontologie e RDF
3c WEB SEMANTICO. Ontologie e RDF
Mau-Messenger
 
9. Il Web semantico
9. Il Web semantico9. Il Web semantico
9. Il Web semantico
Maurizio Caminito
 

Similar to A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2C | Prof. Fabio Vitali #IIAS15 (20)

Ontologie per i linked open data / Stefano De Luca, Paola De Caro, Claudia C...
Ontologie per i linked open  data / Stefano De Luca, Paola De Caro, Claudia C...Ontologie per i linked open  data / Stefano De Luca, Paola De Caro, Claudia C...
Ontologie per i linked open data / Stefano De Luca, Paola De Caro, Claudia C...
 
Strategie Per Un Lor Federato
Strategie Per Un Lor FederatoStrategie Per Un Lor Federato
Strategie Per Un Lor Federato
 
Modelli concettuali e architetture Object-Oriented per la progettazione e lo ...
Modelli concettuali e architetture Object-Oriented per la progettazione e lo ...Modelli concettuali e architetture Object-Oriented per la progettazione e lo ...
Modelli concettuali e architetture Object-Oriented per la progettazione e lo ...
 
ArCo Project - Meetup Marzo 2018
ArCo Project - Meetup Marzo 2018ArCo Project - Meetup Marzo 2018
ArCo Project - Meetup Marzo 2018
 
Ricostruire le famiglie editoriali: FRBR per la storia delle case editrici at...
Ricostruire le famiglie editoriali: FRBR per la storia delle case editrici at...Ricostruire le famiglie editoriali: FRBR per la storia delle case editrici at...
Ricostruire le famiglie editoriali: FRBR per la storia delle case editrici at...
 
La semantica per automatizzare una redazione web: l’esperienza di Innolabspl...
La semantica per automatizzare una redazione web: l’esperienza di Innolabspl...La semantica per automatizzare una redazione web: l’esperienza di Innolabspl...
La semantica per automatizzare una redazione web: l’esperienza di Innolabspl...
 
La semantica per automatizzare una redazione web: l'esperienza di Innolabplus.eu
La semantica per automatizzare una redazione web: l'esperienza di Innolabplus.euLa semantica per automatizzare una redazione web: l'esperienza di Innolabplus.eu
La semantica per automatizzare una redazione web: l'esperienza di Innolabplus.eu
 
Linked Open Data di Vittorio Di Tomaso
Linked Open Data di Vittorio Di TomasoLinked Open Data di Vittorio Di Tomaso
Linked Open Data di Vittorio Di Tomaso
 
Okoa2016long v2
Okoa2016long v2Okoa2016long v2
Okoa2016long v2
 
Il "Knowledge Graph" della Pubblica Amministrazione Italiana
Il "Knowledge Graph" della Pubblica Amministrazione ItalianaIl "Knowledge Graph" della Pubblica Amministrazione Italiana
Il "Knowledge Graph" della Pubblica Amministrazione Italiana
 
Knowledge Management embraces the World Wide Web using the new XML "lingua-fr...
Knowledge Management embraces the World Wide Web using the new XML "lingua-fr...Knowledge Management embraces the World Wide Web using the new XML "lingua-fr...
Knowledge Management embraces the World Wide Web using the new XML "lingua-fr...
 
9a. Il web semantico
9a. Il web semantico 9a. Il web semantico
9a. Il web semantico
 
3a Il documento in biblioteca in ambiente elettronico. Il modello FRBR
3a Il documento in biblioteca in ambiente elettronico. Il modello FRBR3a Il documento in biblioteca in ambiente elettronico. Il modello FRBR
3a Il documento in biblioteca in ambiente elettronico. Il modello FRBR
 
Introduction to HTML
Introduction to HTMLIntroduction to HTML
Introduction to HTML
 
3b WEB SEMANTICO: struttura e organizzazione dei dati
3b WEB SEMANTICO: struttura e organizzazione dei dati3b WEB SEMANTICO: struttura e organizzazione dei dati
3b WEB SEMANTICO: struttura e organizzazione dei dati
 
1a. La digitalizzazione/ test
1a. La digitalizzazione/ test1a. La digitalizzazione/ test
1a. La digitalizzazione/ test
 
Linked data parliamo di semantica del web - v3
Linked data   parliamo di semantica del web - v3Linked data   parliamo di semantica del web - v3
Linked data parliamo di semantica del web - v3
 
Presentazione Xml
Presentazione XmlPresentazione Xml
Presentazione Xml
 
3c WEB SEMANTICO. Ontologie e RDF
3c WEB SEMANTICO. Ontologie e RDF3c WEB SEMANTICO. Ontologie e RDF
3c WEB SEMANTICO. Ontologie e RDF
 
9. Il Web semantico
9. Il Web semantico9. Il Web semantico
9. Il Web semantico
 

More from Architecta | Società Italiana di Architettura dell'Informazione

X IA Italian Summit 2016 | An Undesigned World - Jason Ulaszek
X IA Italian Summit 2016 | An Undesigned World - Jason UlaszekX IA Italian Summit 2016 | An Undesigned World - Jason Ulaszek
X IA Italian Summit 2016 | An Undesigned World - Jason Ulaszek
Architecta | Società Italiana di Architettura dell'Informazione
 
X Summit Architecta | lasciare il segno | Roma 12 Novembre 2016
X Summit Architecta | lasciare il segno | Roma 12 Novembre 2016 X Summit Architecta | lasciare il segno | Roma 12 Novembre 2016
X Summit Architecta | lasciare il segno | Roma 12 Novembre 2016
Architecta | Società Italiana di Architettura dell'Informazione
 
IX Summit Architecta | Dall'ascolto alla progettazione | Bologna 24 Ottobre 2015
IX Summit Architecta | Dall'ascolto alla progettazione | Bologna 24 Ottobre 2015IX Summit Architecta | Dall'ascolto alla progettazione | Bologna 24 Ottobre 2015
IX Summit Architecta | Dall'ascolto alla progettazione | Bologna 24 Ottobre 2015
Architecta | Società Italiana di Architettura dell'Informazione
 
Design sistemico: implicazioni etiche e socio-comportamentali della progettaz...
Design sistemico: implicazioni etiche e socio-comportamentali della progettaz...Design sistemico: implicazioni etiche e socio-comportamentali della progettaz...
Design sistemico: implicazioni etiche e socio-comportamentali della progettaz...
Architecta | Società Italiana di Architettura dell'Informazione
 
Summit architecta AGID Design.Italia
Summit architecta AGID Design.ItaliaSummit architecta AGID Design.Italia
Ux Book Club Brescia_iasummit2016
Ux Book Club Brescia_iasummit2016Ux Book Club Brescia_iasummit2016
Architecta APS Assemblea soci 2015 | 11 gennaio 2016
Architecta APS Assemblea soci 2015 | 11 gennaio 2016Architecta APS Assemblea soci 2015 | 11 gennaio 2016
Architecta APS Assemblea soci 2015 | 11 gennaio 2016
Architecta | Società Italiana di Architettura dell'Informazione
 
La Group Intranet di Unicredit: una questione di UX | Fabio Delton #IIAS15
La Group Intranet di Unicredit: una questione di UX | Fabio Delton  #IIAS15La Group Intranet di Unicredit: una questione di UX | Fabio Delton  #IIAS15
La Group Intranet di Unicredit: una questione di UX | Fabio Delton #IIAS15
Architecta | Società Italiana di Architettura dell'Informazione
 
A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2...
A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2...A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2...
A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2...
Architecta | Società Italiana di Architettura dell'Informazione
 
Verum Factum: making the world with language | Andrew Hinton #IIAS15
Verum Factum: making the world with language | Andrew Hinton #IIAS15Verum Factum: making the world with language | Andrew Hinton #IIAS15
Verum Factum: making the world with language | Andrew Hinton #IIAS15
Architecta | Società Italiana di Architettura dell'Informazione
 
Strategy & Structure: doing it right and how you'd know | Dan Klyn #IIAS15
Strategy & Structure: doing it right and how you'd know | Dan Klyn #IIAS15Strategy & Structure: doing it right and how you'd know | Dan Klyn #IIAS15
Strategy & Structure: doing it right and how you'd know | Dan Klyn #IIAS15
Architecta | Società Italiana di Architettura dell'Informazione
 
Ascoltare per co-progettare i servizi insieme ai cittadini | Daniela Selloni ...
Ascoltare per co-progettare i servizi insieme ai cittadini | Daniela Selloni ...Ascoltare per co-progettare i servizi insieme ai cittadini | Daniela Selloni ...
Ascoltare per co-progettare i servizi insieme ai cittadini | Daniela Selloni ...
Architecta | Società Italiana di Architettura dell'Informazione
 
Curare l'Ascolto per salvare il Progetto | Massimo Crucitti #IIAS15
Curare l'Ascolto per salvare il Progetto | Massimo Crucitti #IIAS15 Curare l'Ascolto per salvare il Progetto | Massimo Crucitti #IIAS15
Curare l'Ascolto per salvare il Progetto | Massimo Crucitti #IIAS15
Architecta | Società Italiana di Architettura dell'Informazione
 
Scrivere per fasi Ascoltare | Luisa Carrada #IIAS15
Scrivere per fasi Ascoltare | Luisa Carrada #IIAS15Scrivere per fasi Ascoltare | Luisa Carrada #IIAS15
Scrivere per fasi Ascoltare | Luisa Carrada #IIAS15
Architecta | Società Italiana di Architettura dell'Informazione
 
Data Driven UX
Data Driven UX Data Driven UX
UsabilitABC
UsabilitABCUsabilitABC
Come diventare un web marketing manager migliore, grazie allo UXd
Come diventare un web marketing manager migliore, grazie allo UXd  Come diventare un web marketing manager migliore, grazie allo UXd
Come diventare un web marketing manager migliore, grazie allo UXd
Architecta | Società Italiana di Architettura dell'Informazione
 
Responsive content strategy
Responsive content strategyResponsive content strategy

More from Architecta | Società Italiana di Architettura dell'Informazione (18)

X IA Italian Summit 2016 | An Undesigned World - Jason Ulaszek
X IA Italian Summit 2016 | An Undesigned World - Jason UlaszekX IA Italian Summit 2016 | An Undesigned World - Jason Ulaszek
X IA Italian Summit 2016 | An Undesigned World - Jason Ulaszek
 
X Summit Architecta | lasciare il segno | Roma 12 Novembre 2016
X Summit Architecta | lasciare il segno | Roma 12 Novembre 2016 X Summit Architecta | lasciare il segno | Roma 12 Novembre 2016
X Summit Architecta | lasciare il segno | Roma 12 Novembre 2016
 
IX Summit Architecta | Dall'ascolto alla progettazione | Bologna 24 Ottobre 2015
IX Summit Architecta | Dall'ascolto alla progettazione | Bologna 24 Ottobre 2015IX Summit Architecta | Dall'ascolto alla progettazione | Bologna 24 Ottobre 2015
IX Summit Architecta | Dall'ascolto alla progettazione | Bologna 24 Ottobre 2015
 
Design sistemico: implicazioni etiche e socio-comportamentali della progettaz...
Design sistemico: implicazioni etiche e socio-comportamentali della progettaz...Design sistemico: implicazioni etiche e socio-comportamentali della progettaz...
Design sistemico: implicazioni etiche e socio-comportamentali della progettaz...
 
Summit architecta AGID Design.Italia
Summit architecta AGID Design.ItaliaSummit architecta AGID Design.Italia
Summit architecta AGID Design.Italia
 
Ux Book Club Brescia_iasummit2016
Ux Book Club Brescia_iasummit2016Ux Book Club Brescia_iasummit2016
Ux Book Club Brescia_iasummit2016
 
Architecta APS Assemblea soci 2015 | 11 gennaio 2016
Architecta APS Assemblea soci 2015 | 11 gennaio 2016Architecta APS Assemblea soci 2015 | 11 gennaio 2016
Architecta APS Assemblea soci 2015 | 11 gennaio 2016
 
La Group Intranet di Unicredit: una questione di UX | Fabio Delton #IIAS15
La Group Intranet di Unicredit: una questione di UX | Fabio Delton  #IIAS15La Group Intranet di Unicredit: una questione di UX | Fabio Delton  #IIAS15
La Group Intranet di Unicredit: una questione di UX | Fabio Delton #IIAS15
 
A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2...
A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2...A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2...
A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2...
 
Verum Factum: making the world with language | Andrew Hinton #IIAS15
Verum Factum: making the world with language | Andrew Hinton #IIAS15Verum Factum: making the world with language | Andrew Hinton #IIAS15
Verum Factum: making the world with language | Andrew Hinton #IIAS15
 
Strategy & Structure: doing it right and how you'd know | Dan Klyn #IIAS15
Strategy & Structure: doing it right and how you'd know | Dan Klyn #IIAS15Strategy & Structure: doing it right and how you'd know | Dan Klyn #IIAS15
Strategy & Structure: doing it right and how you'd know | Dan Klyn #IIAS15
 
Ascoltare per co-progettare i servizi insieme ai cittadini | Daniela Selloni ...
Ascoltare per co-progettare i servizi insieme ai cittadini | Daniela Selloni ...Ascoltare per co-progettare i servizi insieme ai cittadini | Daniela Selloni ...
Ascoltare per co-progettare i servizi insieme ai cittadini | Daniela Selloni ...
 
Curare l'Ascolto per salvare il Progetto | Massimo Crucitti #IIAS15
Curare l'Ascolto per salvare il Progetto | Massimo Crucitti #IIAS15 Curare l'Ascolto per salvare il Progetto | Massimo Crucitti #IIAS15
Curare l'Ascolto per salvare il Progetto | Massimo Crucitti #IIAS15
 
Scrivere per fasi Ascoltare | Luisa Carrada #IIAS15
Scrivere per fasi Ascoltare | Luisa Carrada #IIAS15Scrivere per fasi Ascoltare | Luisa Carrada #IIAS15
Scrivere per fasi Ascoltare | Luisa Carrada #IIAS15
 
Data Driven UX
Data Driven UX Data Driven UX
Data Driven UX
 
UsabilitABC
UsabilitABCUsabilitABC
UsabilitABC
 
Come diventare un web marketing manager migliore, grazie allo UXd
Come diventare un web marketing manager migliore, grazie allo UXd  Come diventare un web marketing manager migliore, grazie allo UXd
Come diventare un web marketing manager migliore, grazie allo UXd
 
Responsive content strategy
Responsive content strategyResponsive content strategy
Responsive content strategy
 

A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2C | Prof. Fabio Vitali #IIAS15

  • 1. Il Mulino A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2C IA Summit - Dall’ascolto alla progettazione - 24 ottobre 2015
  • 2. Trattare i testi: strutture, dati, metadati Fabio Vitali Università di Bologna
  • 3. • Dati – Una quantificazione dell'informazione perchè possa essere manipolata dai computer • Strutture dati – L'organizzazione del dato in modo da rendere il dato comprensibile e manipolabile • Collezioni di dati – Grandi quantità di dati connessi e più o meno omogenei, la cui manipolazione rappresenta in realtà l'obiettivo reale delle applicazioni
  • 4. Dati • Record – Strutture che descrivono entità elencandone le proprietà • Tabelle – Collezioni di dati descritte come elenchi di record omogenei tra loro • Alberi – Gerarchie di dati o di collezioni • Grafi – Reti di strutture informative più o meno strettamente interconnesse
  • 5. E i testi? • I testi sono difficili. • I testi preesistono ai dati che contengono, ma contengono dati potenzialmente interessanti. • Non sono dati strutturati. Non sono collezioni. • Non sono neanche organizzati in record, tabelle, alberi, grafi.
  • 6. I testi • I testi hanno ordine – Ne "Nel mezzo del cammin di nostra vita", è importante che "Nel" venga prima di "mezzo" • I testi hanno struttura – Cantiche, canti, terzine, versi – Scene e transizioni – Periodi, proposizioni, soggetti, predicati, complementi • I testi hanno parti di rilevanza diversa – A seconda dell'uso che se ne vuole fare e dell'applicazione che li prende in considerazione
  • 7. I testi • Per la teoria del markup i testi sono alberi ordinati ed etichettati. – Una cosa molto più complessa da gestire di un albero. Ad esempio JSON non ce la fa. • Una cosa tipica e peculiare dei testi è la coesistenza di strutture che contengono sia frammenti di testo sia altre sottostrutture. – Questo viene chiamato Contenuto Misto, ed è difficile da gestire con strutture dati semplici.
  • 8. Tecnologie per le strutture dati • Tabelle relazionali • JSON • XML • HTML5 • RDF
  • 9. Energia / Informazione Perchè è interessante XML?
  • 10. RDF per i testi • In principio si può esprimere qualunque cosa con RDF, incluso i testi e le relazioni tra frammenti di un testo. • Ma RDF richiede che uno esprima tutte le relazioni esistenti tra testi in maniera esplicita: – Le sequenze di caratteri – Il meccanismo di contenimento – L'identificazione di caratterizzazioni semantiche particolari. • Esistono ontologie per esprimere queste relazioni. Ad esempio Earmark (2008). • Sono complete e funzionano benissimo. Ma belle non sono. http://www.essepuntato.it/2008/12/earmark
  • 11. Va bene XML, ma quale? La situazione nel 2006 è complessa: • XHTML per il web • DocBook per l'editoria • Text Encoding Initiative per i testi letterari • I formati interni di OpenOffice e MS Word Servono tutti, e sono tutti diversi. Eppure i testi sono gli stessi. E' possibile identificare delle regolarità sfruttabili?
  • 12. I design pattern • Una delle più importanti innovazioni multi- culturali degli ultimi vent'anni. • Scoperti (inventati?) da un architetto, Cristopher Alexander, alla fine degli anni 70, ed utilizzati in architettura, urbanistica e informatica. • "Forme riutilizzabili di soluzioni a problemi di design" – Modelli di soluzione applicabili a problemi apparentemente diversissimi ma sotto-sotto simili
  • 13. Regolarità nel design dei documenti • Esistono delle regolarità in come sono stati progettati questi modelli di documenti? • E' possibile ricondurre tutte queste diversità in un modello comune e comprensibile che faciliti la conversione e la riespressione di documenti da un formato all'altro? • Esistono dei pattern strutturali condivisi da tutti questi formati che noi possiamo scovare e istituzionalizzare in un linguaggio comune?
  • 14. Verso una teoria dei pattern Ci sono due fenomeni da valutare: – Cosa può contenere un elemento (il content model) – Dove può essere posto un elemento (il context) Il content model determina – Se un elemento può contenere testo o no – Se un elemento può contenere altri elementi o no
  • 15. Pattern di content model Non può contenere testo Può contenere testo Non può contenere elementi Elemento vuoto Marker Contiene solo testo Flat Può contenere elementi Contiene solo elementi Bucket Contiene sia elementi sia testo Mixed
  • 16. Pattern di contesto Marker Flat Bucket Mixed Marker - - - - Flat - - - - Bucket Meta Field Container Block Mixed Milestone Atom Popup Inline
  • 17. Verso una teoria dei pattern • Con un semplice calcolo combinatorio, abbiamo scoperto che "servono" solo otto tipi di elementi, e che con questi otto riusciamo a gestire tutte le situazioni che si presentano nella progettazione dei documenti. • Ma quante grammatiche XML sono compatibili con la teoria dei pattern? Zero
  • 18. Una scoperta interessante • Le grammatiche dei linguaggi sono molto più aperte e flessibili dei documenti che vi si basano concretamente. • Le regolarità, se esistono, esistono nei documenti, e non nelle loro grammatiche • I pattern non esistono a livello di grammatica (di DTD, o di XML Schema, o di Relax NG), ma a livello di istanza (i documenti XML veri e propri). • Più del 90% per cento dei documenti che abbiamo considerato era concretamente aderente ai pattern, anche se la grammatica non lo è.
  • 19. Ad esempio Questi sono frammenti HTML corretti secondo la grammatica del linguaggio: <body> Un po' di testo. <p>Un paragrafo</p> </body> oppure: <p>testo e a seguire <table> <tr> <td>una tabella</td> </tr> </table> </p> Ma in realtà sono rarissimi nei documenti veri. Gli autori si accorgono dell'incongruenza e li evitano (per lo più).
  • 20. Intermediate Markup Language • Un primo esperimento di linguaggi basati su pattern (2006) • Una semplificazione radicale di HTML • Creiamo una sottogrammatica di HTML compatibile coi pattern • Ogni documento IML è un documento HTML, ma molto ma molto più regolare. – Nessuna eccezione – Nessun caso strano – Pienamente espressivo
  • 21. Intermediate Markup Language • La creazione di un formato basato su pattern ci ha permesso di creare strumenti di conversione automatica da e per formati più noti – Da MS Word a IML – Da IML a DocBook – Da IML a HTML – Da IML a PDF
  • 22. E ora RASH • Da allora abbiamo imparato molte cose, e alcune si sono semplificate. – Abbiamo imparato dell'importanza dei metadati – Abbiamo imparato dell'importanza dell'embedding di statement semantici all'interno dei documenti – OOXML è molto più controllato e semplice del primo XML di MS Word – XHTML è diventato HTML5, per certi versi più semplice. http://cs.unibo.it/save-sd/rash
  • 23. Research Articles in Simplified HTML http://cs.unibo.it/save-sd/rash • Proposto nel 2014 alla comunità del Semantic Publishing. • Pensato prevalentemente per l'editoria scientifica e accademica • Un formato HTML5 molto semplificato (25 elementi) • Contiene la possibilità di aggiungere annotazioni RDF in RDFa oppure Turtle oppure JSON-LD – Totalmente compatibile con gli standard LOD – Facilmente visualizzabile su qualunque browser – Facilmente convertibile in qualunque formato editoriale – Numerose conferenze scientifiche ammettono sottomissioni di paper in RASH
  • 24. SPAR Ontologies http://www.sparontologies.net/ • Un modello di descrizione del processo editoriale (soprattutto di quello accademico) molto apprezzato nell'editoria scientifica • Otto ontologie per descrivere dalla natura alla struttura dei documenti allo step del processo editoriale in cui esistono, ecc. • Grande attenzione al modello citazionale sottostante, criterio fondamentale per la valutazione della qualità della ricerca