DaCENA
Upcoming SlideShare
Loading in...5
×
 

DaCENA

on

  • 237 views

Tesi di Laurea Magistrale in Teoria e Tecnologia della comunicazione, Unimib - Valeria Gennari. Presentazione progetto. ...

Tesi di Laurea Magistrale in Teoria e Tecnologia della comunicazione, Unimib - Valeria Gennari. Presentazione progetto.

DaCENA (Data Context Extraction for New Articles), strumento che fornisce agli utenti approfondimenti contestuali alle notizie giornalistiche, è un progetto che si situa nell'ambito del Data-driven journalism. DaCENA estrae da articoli giornalistici di testate online collegamenti semantici relativi al testo, tali percorsi estratti costituiscono un approfondimento contestuale di articoli giornalistici, sulla base dei dati della LOD cloud, ovvero l’insieme dei dataset pubblicati in formato Linked.

Statistics

Views

Total Views
237
Views on SlideShare
237
Embed Views
0

Actions

Likes
2
Downloads
1
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

DaCENA DaCENA Presentation Transcript

  • Università degli studi di Milano-Bicocca Corso di Laurea in Teoria e Tecnologia della Comunicazione Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA Relatore Dott. Palmonari Correlatore Dott. Cremaschi Tesi di Valeria Gennari Matricola 758677AA 2012/2013
  • TEMATICHE TRATTATE Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 2 IL DATA-DRIVEN JOURNALISM IL PROGETTO DACENA L’APPROFONDIMENTO NEL DATA-DRIVEN JOURNALISM L’APPROFONDIMENTO CONTESTUALE DI DACENA 2.0 DACENA 2.0 CONCLUSIONI E SVILUPPI FUTURI 1 2 3 4 5
  • IL DATA-DRIVEN JOURNALISM Le caratteristiche proprie del Web 2.0 applicate alle nuove frontiere dell’informazione digitale veicolano una quantità di dati impressionante. Saperli trattare, comprendere, elaborare e comunicare sta diventando sempre più importante. Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 3 Il Data-Driven Journalism •  Disciplina a cavallo tra ricerca e inchiesta •  Utilizzo di fonti aperte e disponibili nel web •  Uso intensivo di tecnologie a supporto dell’analisi/manipolazione/visualizzazione dati •  Approccio collaborativo, processo trasparente, fonti sono più autorevoli
  • IL DATA-DRIVEN JOURNALISM Le caratteristiche proprie del Web 2.0 applicate alle nuove frontiere dell’informazione digitale veicolano una quantità di dati impressionante. Saperli trattare, comprendere, elaborare e comunicare sta diventando sempre più importante. Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 3 Impiego di tecnologie che sfruttano il modello reticolare di Internet User generated content Trionfo della dimensione social dei contenuti Il Data-Driven Journalism •  Disciplina a cavallo tra ricerca e inchiesta •  Utilizzo di fonti aperte e disponibili nel web •  Uso intensivo di tecnologie a supporto dell’analisi/manipolazione/visualizzazione dati •  Approccio collaborativo, processo trasparente, fonti sono più autorevoli
  • IL DATA-DRIVEN JOURNALISM Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 4 DATI FILTRAGGIO PRESENTAZIONE PUBBLICAZIONE
  • IL DATA-DRIVEN JOURNALISM Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 4 DATI FILTRAGGIO PRESENTAZIONE PUBBLICAZIONE La prima fase è quella della ricerca: reperimento dei dati e loro trasposizione in formati coerenti con i formati di utilizzo definiti
  • IL DATA-DRIVEN JOURNALISM Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 4 DATI FILTRAGGIO PRESENTAZIONE PUBBLICAZIONE La prima fase è quella della ricerca: reperimento dei dati e loro trasposizione in formati coerenti con i formati di utilizzo definiti La seconda fase è quella del filtraggio: l’elaborazione dei dati raccolti, resi processabili attraverso diverse sottofasi di raffinamento, analisi e elaborazione
  • IL DATA-DRIVEN JOURNALISM Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 4 DATI FILTRAGGIO PRESENTAZIONE PUBBLICAZIONE La prima fase è quella della ricerca: reperimento dei dati e loro trasposizione in formati coerenti con i formati di utilizzo definiti La seconda fase è quella del filtraggio: l’elaborazione dei dati raccolti, resi processabili attraverso diverse sottofasi di raffinamento, analisi e elaborazione La terza fase è quella della presentazione: vengono rese visivamente le informazioni processate. L’output sono i dati analizzati, ripuliti, organizzati e manipolati
  • IL DATA-DRIVEN JOURNALISM Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 4 DATI FILTRAGGIO PRESENTAZIONE PUBBLICAZIONE La prima fase è quella della ricerca: reperimento dei dati e loro trasposizione in formati coerenti con i formati di utilizzo definiti La seconda fase è quella del filtraggio: l’elaborazione dei dati raccolti, resi processabili attraverso diverse sottofasi di raffinamento, analisi e elaborazione La terza fase è quella della presentazione: vengono rese visivamente le informazioni processate. L’output sono i dati analizzati, ripuliti, organizzati e manipolati L’ultima fase consiste nella pubblicazione: la costruzione di una narrazione basata sui dati ricavati h a c o m e o b i e t t i vo i l ra g g i u n g i m e n t o d i un’informazione approfondita
  • IL PROGETTO DACENA Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 5 DaCENA - Data Context Extraction for News Articles è un software che associa a un articolo giornalistico il contesto fattuale estratto da sorgenti di conoscenza aperta disponibili nel web (Linked Open Data cloud). Le informazioni sul contesto sono dati strutturati che costituiscono fatti d’interesse riguardanti entità rilevanti nell'articolo. Questi fatti rappresentano relazioni tra le entità in oggetto dalla semantica ben definita. L’approccio* si basa su un processo caratterizzato da 3 passaggi: Scraping e annotazione semantica della base documentale INPUT: testo dell’articolo OUTPUT: entità rilevanti estratte dall’articolo e identificate con URI http://dbpedia.org/resource/Barack_Obama http://dbpedia.org/resource/Election http://dbpedia.org/resource/John_Boehner L’annotazione è realizzata con il sistema di Data Linking Dbpedia Spotlight, che annota le menzioni di entità di Dbpedia all’interno di testi, collegando dati non strutturati ai repository di Dbpedia. Realizzato in Tecniche di annotazione di news mediante dati fattuali estratti dall’Open Data Cloud (A.Polidoro) Gli esempi utilizzati nella sperimentazione del software DaCENA sono tratti dal NYTimes, utilizzato come sorgente di riferimento. La sorgente Linked Open Data è invece Dbpedia (en). 1 *
  • IL PROGETTO DACENA Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 6 Estrazione del grafo RDF, che rappresenta l’insieme di tutte le associazioni semantiche relative all’articolo INPUT: URI delle entità estratte OUTPUT: percorsi tra entità estratte da Dbpedia 2 3 Valutazione dei percorsi estratti e selezione delle associazioni rilevanti tramite lo sviluppo di un ranking dei percorsi. INPUT: totalità dei percorsi OUTPUT: percorsi semantici ridotti   ENTITÀ ESTRATTE
  • IL PROGETTO DACENA Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 6 Estrazione del grafo RDF, che rappresenta l’insieme di tutte le associazioni semantiche relative all’articolo INPUT: URI delle entità estratte OUTPUT: percorsi tra entità estratte da Dbpedia 2 3 Valutazione dei percorsi estratti e selezione delle associazioni rilevanti tramite lo sviluppo di un ranking dei percorsi. INPUT: totalità dei percorsi OUTPUT: percorsi semantici ridotti   PERCORSI SEMANTICI
  • IL PROGETTO DACENA Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 6 Estrazione del grafo RDF, che rappresenta l’insieme di tutte le associazioni semantiche relative all’articolo INPUT: URI delle entità estratte OUTPUT: percorsi tra entità estratte da Dbpedia 2 3 Valutazione dei percorsi estratti e selezione delle associazioni rilevanti tramite lo sviluppo di un ranking dei percorsi. INPUT: totalità dei percorsi OUTPUT: percorsi semantici ridotti   PERCORSI SEMANTICI RILEVANTI
  • DACENA DACENA 2.0 Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 7 Valutazione dell’approccio sulla qualità dei percorsi semantici estratti (5 articoli del NYTimes) Non è stato considerato un modulo preposto alla visualizzazione dei percorsi semantici DACENA 2.0 1 2 Nella prima fase sperimentale di DaCENA La seconda fase nasce per approfondire il contesto dello strumento e le basi teoriche a cui fa riferimento: •  Consolidamento obiettivi •  Comparazione con lavori analoghi •  Definizione del target •  Interfaccia per rendere l’applicazione fruibile agli utenti finali •  Valutazione dell’efficacia del progetto nella sua totalità
  • DACENA DACENA 2.0 Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 7 Valutazione dell’approccio sulla qualità dei percorsi semantici estratti (5 articoli del NYTimes) Non è stato considerato un modulo preposto alla visualizzazione dei percorsi semantici DACENA 2.0 1 2 Nella prima fase sperimentale di DaCENA La seconda fase nasce per approfondire il contesto dello strumento e le basi teoriche a cui fa riferimento: •  Consolidamento obiettivi •  Comparazione con lavori analoghi •  Definizione del target •  Interfaccia per rendere l’applicazione fruibile agli utenti finali •  Valutazione dell’efficacia del progetto nella sua totalità
  • ANALISI COMPARATIVA – LAVORI DI DATA DRIVEN JOURNALISM Il framework di analisi/comparazione di lavori di DDJ ha portato alla luce un quadro significativo di obiettivi, funzionalità, metodi e tecniche da cui è emerso che: •  I lavori in ambito DDJ si dividono in inchieste giornalistiche, applicazioni web-based e data tool •  I team sono variegati e composti da giornalisti, esperti di dati e fonti, sviluppatori, grafici. La collaborazione tra diverse discipline è un tratto comune e fondamentale Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 8 1 - Progetto 2 - Overview 7 - N. Fonti The Pulse of Oakland Progetto di Brittany Lynn Shell, Berekley Graduate School of Journalism - 2013. Sei storie, mappe interattive, foto e un breve video per analizzare la correlazione tra disuguaglianze, reddito e salute in Oakland. 2 10 Years of Murders and Shootings Progetto di Casey Thomas e Daniel Denvir, AXIS PHILLY - 2013. Una mappa interattiva per esplorare dieci anni di omicidi a Philadelphia, tra le città più violente al mondo. 1 The Guardian interactive map showing Gay right Progetto del The Guardian US interactive team - 2012. Un’analisi radiale stato per stato della situazione attuale dei diritti concessi agli omosessuali negli Stati Uniti. 3 I 20 anni dell'era Berlusconi Inchiesta di R. Mastrolonardo e G. Romeo, Data Wired - 2013. Sullo stampo del Datablog del Guardian, Wired racconta attraverso 15 grafici il ventennio italiano che passerà alla storia come l'età berlusconiana. 5 La mappa degli obiettori di coscienza in Italia Inchiesta di J. Ottaviani, lfattoquotidiano.it - 2012. Grafici e mappe per valutare la situazione delle regioni italiane in materia di interruzione volontaria di gravidanza. 1 Message Machine Progetto di ProPublica – 2012 che raccoglie, analizza e mostra un’ampia raccolta di mail inviate a scopo propagandistico durante la campagna elettorale delle ultime elezioni americane. Gli utenti hanno partecipato attivamente alla creazione dell'infografica inviando le …………………………………. 1 CONFERENZE/AWARDS/PAPER INTERNAZIONALI E ITALIANI 20 PROGETTI SELEZIONATI PER L’ANALISI COMPARATIVA 14 PARAMETRI DI CLASSIFICAZIONE
  • L’APPROFONDIMENTO NEL DATA JOURNALISM E IN DACENA 2.0 Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 9 L’approfondimento è alla base di qualsiasi lavoro di DDJ e si declina in: •  Approfondimento quantitativo - dati aggregati al fine di indagare in maniera analitica un fenomeno •  Approfondimento relazionale – dati volti ad approfondire contestualmente i fenomeni Nei lavori che abbracciano il principio dell’approfondimento contestuale i dati utilizzati ed elaborati permettono di accedere al contesto del fenomeno esaminato. DaCENA 2.0 appartiene alla classe di progetti che forniscono approfondimenti contestuali sulla base dell’analisi relazionale. 1 - Progetto 5 - Principio 6 - Tecniche The Pulse of Oakland Analisi quantitativa Integrazione di dati quantitativi, su base (unità di aggregazione principale del/i fenomeno/i) spaziale 10 Years of Murders and Shootings Analisi quantitativa Integrazione di dati quantitativi, su base spaziale e temporale The Guardian interactive map showing Gay right Analisi quantitativa Integrazione di dati quantitativi, su base spaziale Argentina’s Senate Expenses, 2004-2013 Analisi quantitativa Presentazione tramite grafici e testo Connected China Analisi quantitativa e relazionale Integrazione di dati quantitativi su base temporale e di entità altre + network analysis Le Pariteur Analisi quantitativa e relazionale Integrazione quantitativa su base di entità altre + esplorazione relazione del fenomeno Muckety ……………….. Analisi relazionale ……………………….. Network analysis …………………………………………
  • L’APPROFONDIMENTO CONTESTUALE IN DACENA 2.0 Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 10 Problematiche GIORNALISMO DIGITALE Questioni sollevate dalle tecnologie emergenti in relazione all’informazione: qualità, attendibilità e accuratezza dell’informazione •  Notizie fruite sempre più tramite i social network* •  Rapidità, casualità e scarsa attenzione nell’acquisizione delle informazioni* •  Infobesità* •  Notizie parziali, decontestualizzate e non verificate •  Quando al lettore mancano elementi per valutare l’origine e l’ampiezza di un fatto, il fatto viene elaborato in maniera più superficiale e quindi parziale* Pew Research Center’s Journalism Project: The role of news on Facebook, common yet incidential Massachusetts Inst. of Technology: Infobesity: Exploring the cognitive and physical impacts of information Overconsumption Watts, Shankaranarayanan, Even: Data quality assessment in context: A cognitive perspective * Obiettivi •  Presentare in modo efficace il contesto dell’articolo •  Gli approfondimenti incrementano l’accuratezza della notizia, arricchiscono l’informazione, permettono di elaborare il contenuto della notizia in modo più dettagliato e approfondito.
  • DACENA 2.0 Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 11 La creazione del prototipo DaCENA 2.0* (in via di sviluppo) è volta a fornire allo strumento un’interfaccia che •  Realizzi gli obiettivi analizzati e definiti nella loro totalità •  Renda evidenti e fruibili le potenzialità delle informazioni fornite dall’applicazione *In collaborazione con Density Design – Dipartimento di Design, Politecnico di Milano L’interfaccia prevede due modalità di visualizzazione, a partire dalla homepage:  
  • DACENA 2.0 Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 12 A GRAFO   1 Entità principale estratta Selezione da parte dell’utente dell’entità target e personalizzazione Percorsi semantici nel grafo: Entity name Link Type Giallo entità nell’articolo Grigio entità esterne
  • DACENA 2.0 Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 13     VISUALIZZAZIONE GLOBALE2 Esplorazione di tutta la rete dei percorsi disponibili Funzionalità come nella prima tipologia Zoom e interazione diretta
  • CONCLUSIONI E SVILUPPI FUTURI Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 14 •  DaCENA Da proof of concept con funzionalità di base, a prototipo (in sviluppo) •  La valutazione dei percorsi estratti: i miglioramenti dovranno riguardare le tecniche di individuazione di percorsi semantici più rilevanti •  Lo studio della letteratura e la realizzazione del framework di analisi ha permesso la riqualificazione dell’applicazione: l’inserimento nello scenario del Data Driven Journalism, lo sviluppo del quadro di riferimento, la valutazione dei competitors, la definizione di obiettivi e target. •  Il prototipo non è concluso: non fruibile su un numero di articoli minimo per garantire un’interazione completa Conclusioni Sviluppi Futuri •  Realizzare una fase di test con utenti allo scopo di valutare meglio il grado di efficacia (aspetti cognitivi e di usabilità) dell’applicazione •  Dbpedia (en) Dbpedia (it) •  Applicazione a domini diversi dal giornalismo
  • Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 15 GRAZIE