Associazioni semantiche per il Computational Journalism

880 views
800 views

Published on

Progetto finale per il corso di Intelligenza Artificiale - prof. Palmonari, Unimib

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
880
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
10
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Associazioni semantiche per il Computational Journalism

  1. 1. Relazione  Finale  del  Progetto  svolto  per  il  corso  di  Intelligenza  ArtificialeA.A.  2012/2013Professoressa  BandiniProfessor  PalmonariAssociazioni  semantiche  per  il  Computational  Journalism:  l’importanza  delle  valutazioni  di  esperti  di  dominioValeria  Gennari  [758677]Riccardo  Pietra  [720918]
  2. 2. 2INDICE1  Descrizione  del  dominio..................................................................................................................41.1  Computational  journalism.............................................................................................................41.2  Linked  open  data...........................................................................................................................61.3  Dbpedia  .........................................................................................................................................61.4  Dbpedia  spotlight..........................................................................................................................72  Descrizione  del  lavoro  di  tesi.........................................................................................................8  2.1  Introduzione  –  spiegazione  generale...........................................................................................82.2  Estrazione  della  base  documentale.............................................................................................82.3  Annotazione  della  base  documentale.........................................................................................92.4  Estrazione  del  grafo  massimale...................................................................................................92.5  Valutazione  dei  percorsi  e  selezione  del  grafo  ridotto...............................................................93  Descrizione  del  nostro  lavoro  di  valutazione...............................................................................113.1  Dataset  e  metriche  di  valutazione...............................................................................................113.2  Analisi  dei  risultati........................................................................................................................124  Conclusioni  personali  sul  lavoro  svolto........................................................................................174.1  Le  nostre  valutazioni  a  confronto  e  parametri  utilizzati............................................................174.2  Valutazione  generale  dei  risultati  prodotti  dall’algoritmo........................................................194.3  Possibili  usi  futuri  del  Computational  journalism........................................................................214.4  Oltre  il  Computational  journalism,  possibili  usi  delle  associazioni  semantiche........................224.5  La  visualizzazione  grafica  delle  associazioni  semantiche.........................................................27Note  e  bibliografia  ..........................................................................................................................32
  3. 3. 3INDICE  DELLE  FIGUREFigura  1.  Guida  grafica  al  Data  journalism..........................................................................................5Figura  2.  Tabella  riassuntiva  dell’articolo  di  sport............................................................................12Figura  3.  Tabella  riassuntiva  dell’articolo  di  tecnologia...................................................................12Figura  4.  Tabella  riassuntiva  dell’articolo  di  politica........................................................................12Figura  5.  Precisione  +@K%  Articolo  sport........................................................................................13Figura  6.  Precisione  -­‐@K%  Articolo  sport.........................................................................................13Figura  7.  Precisione  +@K%  Articolo  politica.....................................................................................14Figura  8.  Precisione  -­‐@k%  Articolo  politica......................................................................................14Figura  9.  Precisione  +@K%  Articolo  tecnologia...............................................................................15Figura  10.  Precisione  +@K%  Articolo  tecnologia.............................................................................15Figura  11.  Tabella  dell’articolo  Obama  Campaign  Endgame:  grunt  Work  and  Cold  Math.................17Figura  12.  Tabella  dell’articolo  Romney  is  Upbeat,  but  Math  is  the  Same........................................18Figura  13.  Tabella  dell’articolo  Efforts  to  Curb  Social  Spending  Face  Resistance..............................18Figura  14.  Infografica  coi  dati  estratti  dal  portale  Rimozione  Macerie..........................................24Figura  15:  Risultati  della  ricerca  “Bacon”  su  Google.......................................................................26Figura  16:  Ricerca  successiva  su  Google  -­‐    Sommario  delle  informazioni  sul  personaggio  d’interesse  e  ricerche  correlate.......................................................................................................26Figura  17:  Alcune  associazioni  semantiche  su  Excel........................................................................28Figura  18:  Esempio  di  proprietà  estratte,  su  Excel..........................................................................29
  4. 4. 41  Descrizione  del  dominio1.1  Computational  Journalism  o  Data-­‐driven  JournalismData-­‐driven  journalism  is  a  journalistic  process  based  on  analyzing  and  filtering  large  data  sets  for  the  purpose  of  creating  a  new  story.  [1]  Il  Computational  journalism  consiste  in  un’attività  giornalistica  basata  sull’analisi  e  sul  filtraggio  di  grandi  quantità  di  dati,  liberamente  disponibili  online,  per   la  creazione   di  una  nuova  storia  giornalistica;   prevede   l’applicazione   di   software   e   tecnologie   nelle   attività   riguardanti   il  giornalismo.  Il  processo  si  divide  in  quattro  fasi  fondamentali:• Ricerca,  recupero  dati  dal  web• Filtraggio  dei  dati  recuperati  e  trasformazione  delle  informazioni  in  dati  strutturati• Visualizzazione  attraverso  particolari  tool  grafici  (interfaccia  per  il  giornalista)• Pubblicazione   di   una   nuova   storia   giornalistica,   sulla   base   dei   dati  precedentemente  selezionati.Per   quanto   riguarda   le   due   fasi   iniziali,   esistono   diverse   tecniche   per   portarle   a   termine,  metodologie   legate   alle   scienze   sociali   e   a   quelle   informatiche   –   tecniche   statistiche,   di  correlazione,   di   visualizzazione   mashup,   di   parsing   e   di   co-­‐creazione   –   che   permettono   il  recupero  di  informazioni  rilevanti  secondo  diverse  metriche  e  giudizi.La  diffusione  del  Computational  journalism  permetterebbe  un  miglioramento  delle  qualità  delle  notizie   giornalistiche   e   delle   notizie   digitali,   un   utilizzo   più   efficace   dei   dati   pubblicamente  disponibili  sul  web  e  una  riduzione  dei  tempi  di  ricerca  delle  informazioni  d’interesse.Il  Data-­‐driven  journalism  (DDJ)   è  un  approccio  innovativo  e  come  tale  deve  ancora  percorrere  molta  strada  per  essere  migliorato.  [2]   È  importante  sottolineare  come  esso  non  automatizzi  ogni  compito   fondamentale   del   lavoro   giornalistico  e   quindi   non  sostituisca   i  giornalisti   che  lavorano  per  una  particolare  testata.  Esso,  infatti,  è  incentrato  sull’importanza  del  giornalista,  ma  consente  di  semplificare  alcune  attività,  permettendo  un  risparmio  di  tempo  e  un  aumento  delle  qualità  di  nuove  storie  giornalistiche  prodotte.
  5. 5. 5Figura  1.  Guida  grafica  al  Data  journalismL’immagine   è   tratta   dalla   presentazione   [3]   del   libro   The  Data   Journalism  Handbook  [4]   che  nasce   come   progetto   collettivo   e   open   source   al   Mozfest   2011   di   Londra.     Co-­‐creato   da  moltissimi   personaggi   influenti   nel   settore   -­‐   membri   dell’Open   knowledge   Foundation,  giornalisti  del  Guardian,  della  BBC,  ricercatori  ecc.  -­‐  il  libro,  che  in  Italia  è  stato  presentato  al  
  6. 6. 6Festival   del   Giornalismo  di   Perugia,   è   una   guida   tascabile   e   alla   portata   di   tutti   per   il   Data  journalism:  fornisce  consigli  utili,  strumenti  e  dritte  su  come  iniziare,  cosa  fare,  dove  trovare  i  dati  e  come  sfruttarli.  La  figura  riassume  brevemente  gli  attori  principali,  i  loro  ruoli  e  i  passaggi  cruciali  per  creare  una  storia  giornalistica  con  i  Linked  Data.  1.2  Linked  Open  DataLinked   data  describes  a  method   of  publishing  structured   data  so   that   it   can   be  interlinked  and  become  more  useful.  [5]Il  termine  Linked  Open  Data  (LOD)  si  riferisce  a  un  insieme  di  pratiche  per  la  pubblicazione  e  il  collegamento  di  dati  strutturati  sul   web,  che   sono   state   adottate   nel   tempo  da  un  numero  crescente  di  fornitori  di  dati.  Ciò  ha  portato  alla  nascita  del  Web  of  Data,  uno  spazio  dati  globale  all’interno   del   web.   La   particolarità   dell’approccio   LOD   sta   nel   formato   con  cui   i  dati   sono  descritti,  ovvero  il  Resource  Description  Framework  (RDF),  che  è  caratterizzato  da  una  codifica  dei  dati  sotto  forma  di  triple  costituite  da  soggetto,  predicato  e  oggetto.  Il  soggetto  e  l’oggetto  possono  essere   descritti   da   Uniform   Resource  Identifier   (URI),   oppure   l’oggetto   può   essere  descritto  da   un  letterale,   il  predicato  risulta  caratterizzato   da   un  URI   e   permette   di  definire  come  sono  relazionati  tra  loro  soggetto  e  oggetto.  Ciò  permette  di  svolgere  una  relazione  tra  diverse  entità  appartenenti  a  diverse  fonti  dati,  poiché  ogni  entità  è  descritta  in  termini  simili  e  confrontabili   (in   accordo   con   determinati   principi,   conosciuti   e   condivisi).   Per   usare   una  metafora,  è  come  se  la  stessa  lingua  fosse  espressa  diversamente.  Ad  esempio  Ontology  Web  Language  (OWL)  -­‐  e  le  sue  molteplici  versioni,  molto  differenti  tra  loro  (OWL  DL,  OWL  lite,  OWL  Full,   OWL   2DL)   -­‐   è   un   linguaggio   di   markup   per   rappresentare   esplicitamente   significato   e  semantica  di  termini  con  vocabolari  e  relazioni  tra  gli  stessi.  È  quindi  in  grado  di  fornire  diversi  gradi  di  espressività  nella  modellazione  d’interesse.  Grazie  a  linguaggi  come  questo  chiunque  può  pubblicare  vocabolari  appositamente  creati  ed  essi  a  loro  volta  possono  essere  collegati  ad  altri  già  esistenti.1.3  DbpediaDbpedia  è  un  progetto  che  mira  all’estrazione  dei  dati  presenti  in  Wikipedia  e  alla  conversione  di  questi   in  dati  strutturati,   in  modo  tale   che  le   tecniche   del   Semantic   Web   possano  essere  impiegate  sulla  base  di  conoscenza  strutturata.  Per  raggiungere  questo  scopo,  sono  necessari  i  seguenti  passi:• Sviluppo  di  un  framework  per  l’estrazione  delle  informazioni,  conversione  del  contenuto  di  Wikipedia  in  RDF• Il  dataset  RDF  multi  dominio  che  viene  creato,  rappresentante  il  contenuto  informativo  di  Wikipedia,  potrà  essere  utilizzato  da  diverse  applicazioni  del  Semantic  web• Il  dataset  Dbpedia  verrà  interconnesso  con  altri  dataset,  realizzando  una  visione  globale  del  Semantic  web• Una  serie  di  interfacce  e  moduli  d’accesso,  renderanno  i  dati  accessibili  tramite  servizi  web.
  7. 7. 7Ognuna  delle  entità  contenute  nel  dataset  risulta  identificata  univocamente  da  un  URI,  il  quale  rappresenta  l’indirizzo  della  risorsa.  Esistono  tre  modi  per  poter  accedere  al  dataset  di  Dbpedia:  • Linked  Data  • il  protocollo  SPARQL  (SPARQL  Protocol  and  RDF  Query  Language)• il  download  dei  dump  RDF.Poiché  le  informazioni  all’interno  di  Dbpedia  sono  in  continuo  aggiornamento  (o  almeno  parte  di  esse),  è  stato  realizzato  Dbpedia  Live,  il  quale  ha  il  compito  di  eseguire  una  sincronizzazione  di  Dbpedia  con  Wikipedia.1.4  Dbpedia  SpotlightDbpedia  spotlight  è   un  progetto  che  mira  a  collegare   documenti  testuali  con  LOD.  In  questa  direzione   è   stato   realizzato   Namer   Entity   Recognizer   (NER),   un   sistema   che   permette   di  annotare  automaticamente  documenti  testuali  sulla  base  di  URI  presenti  in  Dbpedia.  Questo  approccio  si  può  dividere  fondamentalmente  in  tre  fasi:• Individuazione   delle   frasi   nel   testo   che   potrebbero   contenere   delle   entità   presenti  all’interno  di  Dbpedia• Definizione  di  un  mapping  fra  le  entità  contenute  nelle  frasi  e  i  loro  candidati  selezionati,  i  quali  permetteranno  di  disambiguare  il  loro  significato• Utilizzo   del   contesto   delle   frasi   per   la   scelta   dei   migliori   candidati,   i   quali   verranno  selezionati   anche   sulla   base   dei   parametri   definiti   in   precedenza   e   specificati  inizialmente  dall’utente.Dbpedia  Spotlight  risulta  molto  flessibile  in  quanto  permette  di  selezionare  in  base  alle  proprie  esigenze  i  valori  dei  seguenti  parametri:  • Importanza  (numero  di  volte  in  cui  l’entità  è  menzionata  in  Wikipedia)• Disambiguazione  (basata  sul  contesto  del  documento  testuale)  • Annotazione  (scelta  dei  tipi  di  termini  grammaticali  da  selezionare)• Ambiguità  contestuale  • Confidenza.Lo  strumento  si  presenta  attraverso  una  semplice  interfaccia  web  all’interno  della  quale   sarà  possibile   definire   ogni   singolo   parametro   per   la   ricerca   di   entità   su   uno   o   più   documenti  testuali.
  8. 8. 82  Descrizione  del  lavoro  di  tesi2.1  Introduzione  –  Spiegazione  generaleLa  tesi  del  collega  Polidoro  -­‐  cui  siamo  stati  “affiancati”  -­‐  ha  come  scopo  la  realizzazione  di  un  sistema   software   che,   dato   un   insieme   di   documenti   testuali   (principalmente   articoli  giornalistici)  sia  in  grado  di  associare  un  contesto  fattuale  agli  stessi  sulla  base   dei  data  LOD  Cloud.   Questo   permetterà   di   associare   dei   dati   fattuali,   i   quali   costituiranno   un  approfondimento  contestuale  di  un  articolo.  In  altre  parole,  il  software  lanciato  troverà,  grazie  ad  un  algoritmo,  alcune  entità  presenti  nell’articolo,  entità  cui  sarà  associato  un  URI  sul  dataset  Dbpedia.  Proprio  grazie  alle  informazioni  presenti  su  Dbpedia,  riguardo  a  una  particolare  entità,  saranno  trovati  dei  collegamenti  con  altre  entità,  presenti  nell’articolo,  o  anche  solo  presenti  sul  dataset.  L’approccio  realizzato  è  stato  denominato  Data  Context  Extraction  for  News  Articles  (DaCENA).Quest’approccio  si  basa  su  un  processo  composto  idealmente  da  quattro  passi:• Estrazione  della  base  documentale• Annotazione  della  base  documentale• Estrazione  del  grafo  massimale• Valutazione  dei  percorsi  e  selezione  del  grafo  ridottoI  documenti  testuali  usati  sono  stati  tre  articoli  giornalistici  presenti  sul  sito  web  del  New  York  Times,  i  tre  articoli  trattano  tre  temi  diversi:  sport,  politica  e  tecnologia.2.2  Estrazione  della  base  documentalePer  quanto  riguarda   l’estrazione   della  base  documentale,  cioè  il  recupero  del  corpo  testuale  dell’articolo,  un  problema  è  subito  evidente:  attorno  all’articolo  in  sé,  sulle  pagine  web  di  una  testata   giornalistica  ospitante   appunto  un  articolo,   appare   molto  materiale  testuale   (articoli  collegati,   pubblicità,   moduli   di   accesso,   impostazioni…)   e   questo   può   causare   problemi   al  processo  automatico  di  estrazione  della  base  documentale.  Ovviamente  un  algoritmo  non  ha  la  capacità  selettiva  che  può  avere  un  utente  umano  nello  scindere  il  corpo  dell’articolo  dalle  altre  annotazioni  testuali  presenti   sulla   pagina  web.   Per   risolvere   questo   problema,   il  software   si  basa  sul  linguaggio  HTML  con  cui  è  definita  la  formattazione  grafica  della  pagina  attraverso  dei  tag  univoci.  È  quindi  possibile  notare  come  all’interno  di  ogni  sorgente  html,  ogni  parte  testuale  contenuta  nelle  pagine  web  possa  essere  identificata  sulla  base  dell’apposito  tag  HTML  in  cui  essa  è  contenuta.Il  processo  di  recupero  automatizzato  della  parte  testuale  d’interesse  all’interno  della  sorgente  HTML   viene   denominato   web   scraping.   Questa   è   una   tecnica   software   che   permette  l’estrazione  delle   informazioni  presenti  all’interno  delle  pagine  web.   Fondamentalmente   web  scraping,   simulando  l’esplorazione   di  un  utente   all’interno   di  una   pagina   web,   è   in  grado  di  recuperare  le  informazioni  di  interesse  tramite  una  richiesta  al  relativo  portale  web  attraverso  il  protocollo   http.   Questa   tecnica   si   focalizza   sulla   trasformazione   dei   dati   non   strutturati  presenti   sul   web,   codificati   attraverso   il   formato   HTML,   in   dati   strutturati,   i   quali   possono  essere  memorizzati  ed  analizzati.  
  9. 9. 9All’interno  di  questo  primo  passo  relativo  all’estrazione  della  base  documentale,  il  web  scraping  è  stato  realizzato  sulla  base  di  un  parser  html,  che  permette  l’estrazione  e  la  pulizia  del  corpo  testuale  dell’articolo  giornalistico.2.3  Annotazione  della  base  documentaleL’annotazione   consiste   nell’identificazione  delle   entità  riportate   all’interno  del  testo,  le  quali  verranno  individuate  tramite  le  entità  definite  all’interno  di  Dbpedia.  Per  questo  processo  verrà  utilizzato   un   sistema   NER,   ovvero   Dbpedia   Spotlight,   il   corpo   dell’articolo   estratto   verrà  inoltrato  in  input  a  Dbpedia  Spotlight  che  lo  analizzerà  e  provvederà  ad  annotarlo.All’interno  di  questo  processo,  è  stato  deciso  di  chiedere  allo  strumento  di  fornire  un  output  in  formato   XML   (Extensible   Market   Language),   che   sia   caratterizzato   da   un   insieme   di   entità  riconosciute  nell’articolo  associate  al  relativo  URI  dell’entità  presente  in  Dbpedia.  2.4  Estrazione  del  grafo  massimaleIl   grafo  massimale   contiene   tutti   i  percorsi  emersi  fra   le   entità   recuperate   dall’articolo.   Per  continuare   il   processo   di   estrazione   del   grafo   massimale,   è   necessario   identificare   l’entità  sorgente   dell’articolo,   in   modo   tale   da   poter   ricercare   associazioni   semantiche   tra   l’entità  sorgente  (cioè  quella  definita  come  la  più  citata  all’interno  dell’articolo)  e  le  restanti,  riducendo  la  ricerca  tra  coppie  di  entità  più  rilevanti  nei  confronti  dell’articolo.Per   ogni   coppia   di   entità   (entità   sorgente   –   entità   arbitraria   altra)   saranno   ricercate   delle  associazioni   semantiche   caratterizzate   da:   una   singola   proprietà,   una   sequenza   di   due  proprietà  con  un’entità  intermedia  sconosciuta,  una  sequenza  di  tre  proprietà  con  due  entità  intermedie  sconosciute.  È  inoltre   importante  evidenziare  come  ognuna  delle  proprietà  stanti  fra  una  coppia  di  entità,  possa  essere  entrante  o  uscente,  rispetto  alle  entità  stesse.Una  volta  completata  la  ricerca  delle  associazioni  semantiche  fra  l’entità  sorgente  e  le  restanti,  si  avrà  a  disposizione  il  grafo  massimale  relativo  all’articolo  giornalistico  analizzato.2.5  Valutazione  dei  percorsi  e  selezione  del  grafo  ridottoL’insieme   delle   query   inviate   all’enpoint   di   Dbpedia   Live,   basato   sulla   ricerca   di   tutte   le  associazioni  semantiche  presenti  tra  coppie  di  entità  definite,  ha  restituito  un  grafo  massimale  ampio,   caratterizzato   da   un   minimo   di   650   ca   fino   a   un   massimo   di   8500   ca   associazioni  semantiche  per   ogni  articolo.  Data  la  vastità  delle  associazioni  semantiche  in  output,  diventa  necessario   individuare   quelle   rilevanti   tra   coppie   di   entità   sulla   base   di   un   ranking   fornito  all’utente.  La   valutazione   sarà   basata   su   alcune   metriche   formali   scelte,   ovvero   Rarity,   Popularity   e  Context.   Le   prime   due   permettono   di   effettuare   considerazioni   numeriche   sulle   proprietà   e  sulle  entità    identificate  all’interno  delle  associazioni  semantiche,  mentre  l’ultima  permette  di  prendere  in  considerazione  le  classi  a  cui  appartengono  le  entità  analizzate.  Illustriamole  un  po’  più  nel  dettaglio.  
  10. 10. 10• Rarity   permette   di   considerare   rilevanti   quelle   associazioni   che   contengono   delle  proprietà   ontologiche   che   occorrono   meno   frequentemente   all’interno   di   Dbpedia,  poiché   saranno  considerate   le   più   informative   rispetto  alle   restanti  caratterizzate   da  un’alta  frequenza  di  utilizzo• Popularity   permette   invece   di   considerare   le   entità   presenti   all’interno   di   ogni  associazione  semantica  (anziché  le  proprietà  ontologiche,  come  fa  Rarity),  privilegiando  quelle   associazioni   semantiche   che   contengono   entità   più   popolari   all’interno   di  Dbpedia.  La  popolarità  di  un’entità,  in  Dbpedia,  è  definita  come  la  somma  del  numero  di  proprietà  entranti  ed  uscenti  dalla  stessa• Context  permette  infine  di  considerare  la  semantica  delle  entità  identificate  all’interno  delle  associazioni  semantiche  recuperate  in  precedenza,  privilegiando  quelle  contenenti  delle   entità   correlate   al   contesto   giornalistico.   Ovvero,   per   ogni   entità   recuperata  dovranno  essere  recuperate  le  classi  alle  quali  essa  appartiene   all’interno  di  Dbpedia.  Attraverso   opportuni  calcoli,  otterremo  ogni  associazione   semantica   associata  con  la  propria  rilevanza  nei  confronti  del  contesto  dell’articolo  giornalistico.Poiché  le  rilevanze  ricavate  sono  caratterizzate  da  una  diversa  scala  di  valori,  risulta  necessario  effettuare  una  normalizzazione  degli  stessi  tra  un  valore   minimo  pari  a  0  un  valore   massimo  pari   a   1.   Attraverso   le   rilevanze   ricavate   e   normalizzate   sarà   possibile   procedere   a   una  combinazione   delle   stesse   tra   loro   sulla   base   del   valore   massimo   e   medio   risultante   tra   le  diverse   coppie   e   tra   tutte   e   tre   le   rilevanze   delle   rispettive   metriche.   Questo   permetterà  un’estrazione   dei   grafi   ridotti   caratterizzati   dalle   associazioni   semantiche   più   rilevanti   nei  confronti  di  ogni  metrica,  di  ogni  combinazione  e  dell’approccio  Random  basato  su  estrazione  casuale.
  11. 11. 113  Descrizione  del  nostro  lavoro  di  valutazione3.1  Dataset  e  metriche  di  valutazioneI  tre  articoli  da  noi  valutati  trattano  argomenti  diversi,  vediamoli  ora  più  nel  dettaglio.  L’articolo  riferito  all’ambito  sportivo  dal  titolo  Can  Del  Piero  Inspire  Juventus  to  Glory:  Old  Lady  Puts  Hopes  On  One  Young  Star  [6]  descrive  i  trascorsi  di  Alessandro  Del  Piero  con  la  maglie  della  Juventus.  L’articolo  politico  Obama  Campaign  Endgame:  grunt  Work  and  Cold  Math  [7]  tratta  la  campagna  politica  affrontata  da  Obama  per  le  elezioni  2012.  Infine,  l’articolo  riguardante  la  tecnologia  dal  titolo  Apple  profit  Rises  24%  on  Sales  of  iPhone  5  [8]  tratta  i  profitti  di  Apple  riguardanti  la  vendita  di  iPhone  5.Lo  strumento,   per   ogni   articolo   selezionato,   ha   eseguito   i  passi  già   descritti,   restituendo   le  rilevanze  delle  associazioni  semantiche  nei  confronti  delle  metriche  Rarity,  Popularity,  Context  e  delle  loro  rispettive  combinazioni  e  un  insieme  di  numeri  generati  casualmente,  i  quali  saranno  utilizzati   per   una   selezione   casuale   secondo   l’approccio   Random.   Questo   rappresenta   la  valutazione  delle  associazioni  semantiche  ricavate,  da  parte  della  macchina.La  valutazione  da  parte  nostra  è  invece  avvenuta  attraverso  la  costruzione  di  un  Gold  Standard  e   quindi  mediante   giudizi  di  rilevanza   espressi  sulle  associazioni  semantiche   caratterizzanti  il  grafo  massimale  estratto  per  ogni  articolo.  È  stato  questo  dunque  il  nostro  ruolo.  Avendo  noi  un   background   formativo   adeguato,   poiché   provenienti   da   un   corso   di   laurea   triennale   in  Scienze   della   Comunicazione,   il  nostro   compito   è   stato  quello   di   valutare   ogni   associazione  semantica   presente   in  ognuno   dei   grafi   massimali,   output   del   lavoro   dell’algoritmo,   con   un  giudizio  che  andasse   da  0  a  3,  dove   0  significa  che  l’associazione  semantica  è   stata  valutata  errata,  1   che  è   stata   valutata  poco  interessante/significativa,  fino  a   3   che  indica  un  percorso  interessante,  sia  per   le   entità  presenti  sia  per   le   proprietà   che  le  relazionano.  Il   giudizio   0   è  stato  dato  solo  a  quelle  associazioni  semantiche  in  cui  l’entità  estratta  dall’articolo  (cioè  quella  all’estrema  destra  della  riga)  fosse  considerata  sbagliata,  non  idonea  cioè  ad  una  relazione  con  l’entità   principale   estratta   dall’articolo   (ovvero   la   prima   a   sinistra   nella   riga   che   esprime  l’associazione  semantica).  Per  riuscire  a  valutare  queste  relazioni,  è  stato  fatto  un  importante  lavoro   di   ricerca   di   informazioni   (sempre   sul   web)   riguardanti   le   entità   citate   nelle  numerosissime  associazioni  semantiche  presenti  nei  tre  grafi  massimali.  Una  volta  compiuta  la  valutazione   è   stato   possibile   ottenere   i   grafi   massimali   analizzati   dal   punto   di   vista   della  rilevanza  delle  associazioni  semantiche  contenute  nei  confronti  degli  articoli  giornalistici.    A   questo   punto   viene   fatto   un   confronto   fra   le   nostre   valutazioni   e   quelle   riportate   dalla  macchina  secondo  le  metriche  Rarity,  Popularity,  Context,  le   loro  rispettive  combinazioni  e  un  insieme   di   numeri  generati  casualmente,  i   quali   saranno  utilizzati   per   una   selezione   casuale  secondo  l’approccio  Random.  Per  le  nostre  valutazioni,  sono  state  selezionate  quelle  valutate  3  (Precisione+@K%)  e  separatamente  quelle  valutate  2  e  3  (Precisione-­‐@K%).  I   due   gruppi   sono   stati   quindi   associati   ad   ogni   metrica   (della   valutazione   da   parte   della  macchina)  e  ad  ogni    combinazione  delle  metriche  fra  loro  (a  diverse  percentuali  sul  totale  delle  associazioni  semantiche  ricavate).
  12. 12. 123.2  Analisi  dei  risultatiDi  seguito  vengono  presentate  le  tabelle  relative  alle  nostre  valutazioni  dei  tre  articoli  di  Sport,  Tecnologia  e  Politica:Figura  2.  Tabella  riassuntiva  dell’articolo  di  SportFigura  3.  Tabella  riassuntiva  dell’articolo  di  TecnologiaFigura  4.  Tabella  riassuntiva  dell’articolo  di  Politica
  13. 13. 13La   prima   voce   presente   in  tutte   e   tre   le   tabelle   si  riferisce   al   numero  totale   di  associazioni  semantiche   trovate  dall’algoritmo.  Ogni  associazione   semantica  è   caratterizzata  da  un’entità  iniziale  (uguale  per  tutte),  un’entità  finale  e  una  proprietà  che  le  lega.    Fra  le  due  entità  possono  comparirne   di  nuove  (entità  intermedie),  legate  alla   prima,  all’ultima  e  fra  di  loro  attraverso  diverse  proprietà.  Se  un’associazione  è  costituita  da  due  entità  e  una  proprietà  che  le  relaziona,  si  dice  che  ha  lunghezza  1,  se  invece  ci  sono  tre  entità  e  quindi  due  proprietà  che  le  legano  si  dice   che   ha   lunghezza   2.   Il   numero   delle   proprietà   presenti  nel  percorso   trovato  (che   sarà  sempre  inferiore  di  un’unità   rispetto  al  numero  delle   entità  coinvolte  in  quella  associazione)  conta  come  “lunghezza”  dell’associazione  semantica  in  questione.Di  seguito  invece   presentiamo  i  grafici  relativi  al  confronto  fra  le   nostre   valutazioni  e   quelle  derivate  dalle  metriche  Rarity,  Context,  Random  e  le  loro  combinazioni.  Le  associazione  valutate  vengono   prese   a   una   certa   percentuale   sul   loro   totale.   Fra   queste   si   può   vedere   quale  percentuale  sia  stata  considerata  rilevante  dalla  macchina,  secondo  la  metrica  considerata.Figura  5.  Precisione  +@K%  Articolo  sportAttraverso  la  figura  5  si  evidenzia  come  la  metrica  Rarity   risulti  mediamente  migliore  rispetto  alle  restanti.  Al  75%  risulta  migliore  la  metrica  Popularity.Figura  6.  Precisione  -­‐@K%  Articolo  sport
  14. 14. 14Attraverso  la  figura  6  si  evidenzia  come   la   metrica   Context   e   la   combinazione   sulla  base  del  massimo   tra   le   metriche   Popularity   e   Context   risultino   mediamente   migliori   rispetto   alle  restanti.  Fino  al  25%  la  metrica  Context  supera  le  restanti,  in  modo  differente  al  50%  e  al  75%,  rispettivamente,  la  combinazione  sulla  base  del  massimo  tra  Rarity,   Context   e  Popularity   e  la  combinazione  sulla  base  della  media  tra  Popularity  e  Context  risultano  migliori.Figura  7.  Precisione  +@K%  Articolo  politicaIn  figura  7,  si  può  notare  che  la  metrica  Rarity  risulti  mediamente  migliore  rispetto  alle  restanti.  Al  25%  risulta  migliore  la  metrica  Context.Figura  8.  Precisione  -­‐@k%  Articolo  politicaDalla  figura  8  si  evince  che  la  metrica  Rarity  risulta  nettamente  migliore  rispetto  alle  altre.
  15. 15. 15Figura  9.  Precisione  +@K%  Articolo  tecnologiaLa  figura  9  invece  evidenzia  come  la  combinazione  sulla  base  del  massimo  tra  le  metriche  Rarity  e  Context  risulti  mediamente  migliore  rispetto  alle  restanti.  Fino  al  10%,  la  stessa  risulta  migliore  rispetto   alle   restanti,   differentemente   al   25%   risulta   migliore   la   combinazione   sulla   base   del  massimo   tra   le   metriche   Popularity   e  Context   ed  infine   al   50%   e   al   75%   risultano   migliori   la  metrica  Popularity  e  la  combinazione  sulla  base  della  media  tra  le  metriche  Popularity  e  Context.Figura  10.  Precisione  +@K%  Articolo  tecnologiaInterpretando  il  grafico  in  figura  10,  si  deduce  che  la  combinazione  sulla  base  della  media  tra  le  metriche   Popularity   e  Context   risulti  mediamente   migliore   rispetto  alle   restanti.   La   stessa   è  migliore  anche  al  5%  ma  al  10%  e  al  25%  ,  rispettivamente,  la  metrica  Context  e  Rarity  risultano  migliori   rispetto   alle   restanti.   Infine   al   50%   e   al   75%,   la   metrica   Popularity   risulta   la   migliore  insieme  alla  combinazione  sulla  base  della  media  tra  le  metriche  Popularity  e  Context.È  importante   sottolineare  che  le  nostre  valutazioni  sono  tendenze  di  giudizio  personale,   che  dipendono  quindi  dalla  soggettività  di  chi  valuta.  L’analisi  dei  risultati  dati  dal  confronto  delle  nostre  valutazioni  con  quelle   della  macchina  mostra   come   l’ambito  di  cui  tratta  l’articolo  sia  rilevante   per   la  capacità  di  giudizio  delle  metriche:  nell’ambito  politico  le   combinazioni  tra  le  metriche   non   riescono   a   raggiungere   mediamente   gli   stessi   risultati   ottenuti   dalla   metrica  Rarity  (la  più  precisa),  così  come  risulta  anche  dall’analisi  riguardante  l’articolo  sportivo.  
  16. 16. 16Per   quanto   riguarda   l’articolo   in   ambito   tecnologico,   quello   che   esaminava   le   vendite   e   gli  introiti   dell’iPhone   5,   risulta   invece   migliore   la   combinazione   sulla   base   della   media   tra   le  metriche  Popularity  e  Context.
  17. 17. 174  Conclusioni  personali  sul  lavoro  svolto4.1  Le  nostre  valutazioni  a  confrontoGli   argomenti   e   i   giudizi   trattati   finora   riguardavano   il   nostro   ruolo   di   valutatori   delle  associazioni  semantiche  recuperate  nei  tre  articoli  analizzati  nella  tesi.  Dagli  incontri  col  Prof.  Palmonari  è  però  risultata  interessante  l’idea  di  andare  oltre  l’attività  in  collaborazione   con  il  collega  Polidoro.  Abbiamo  dunque  deciso  di  proseguire  il  nostro  lavoro  di  valutatori  su  altri  due  articoli,  che   avessero  come   tema   la  politica.    Questa   decisione  è   stata  presa   per   cercare  di  valutare  meglio  l’algoritmo  che  ha  prodotto  i  risultati  (l’articolo  di  politica  analizzato  per  la  tesi  di  Alessio  era   quello   con  le  valutazioni   più   basse),  in  un  ambito,   quello  della   politica,   che   ci  sembrava  quello  più  interessante  e   “caldo”.    Abbiamo  inoltre   deciso  che   le   valutazioni  per  i  nuovi  articoli  sarebbero  state  doppie,  a  differenza  della  prima  fase  di  lavoro  in  cui  ogni  articolo  era  stato  valutato  da  uno  solo  di  noi.  Riccardo  ha  quindi  analizzato  il  primo  articolo  di  politica,  valutato  precedentemente  da  Valeria,  siamo  poi  passati  alle  valutazioni  di  altri  due  articoli  e  li  abbiamo  in  seguito  messi  a  confronto  per  verificare  l’uniformità  dei  giudizi  dati  singolarmente.  Le  valutazioni  di  una  sola  persona  sono  interessanti,  e   sono  state   utili  per   il   lavoro  di  tesi  di  Polidoro,  ma  di  certo  non  bastano  in  linea  generale,  possono  insomma  essere  considerate  un  buon   punto   di   partenza.   Due   persone   –   con   giudizi,   conoscenze,   parametri   di   valutazione  ovviamente  diversi  –  offrirebbero  un’analisi  più  varia.  Abbiamo   dunque   proseguito   il   nostro   progetto   lavorando   in   quest’ottica:   con   valutazioni  incrociate   l’analisi   delle   associazioni   porterà   a   risultati  e   riflessioni   a   riguardo   di   più   ampio  respiro.  Gli   articoli   che   trattavano  argomenti   politici  sono   stati   dunque   tre:   il   primo,   come   abbiamo  detto,  è  lo  stesso  utilizzato  nella  tesi  (Obama  Campaign  Endgame:  grunt  Work  and  Cold  Math,  dal  sito  web  del  New  York  Times),  gli  altri  due,  sempre  provenienti  dal  sito  web  del  New  York  Times,  titolavano:   Romney   is  Upbeat,  but   Math   is  the  Same  [9]e  Efforts  to  Curb   Social  Spending  Face  Resistance  [10].  Il  primo  dei  due  si  focalizzava  sulla  campagna  elettorale  di  Romney  e  sui  numeri  delle  previsioni,  che  davano  la  sfida  aperta  fino  all’ultimo.  Il  secondo  invece  sui  provvedimenti  riguardo  a  Social  Security  e  Medicare  che  il  rieletto  presidente  Obama  cercherà  di  apportare.Come   già   detto,   ognuno   di   noi   ha   valutato   singolarmente   le   quasi   19000   associazioni  semantiche   estratte   in  totale  dai  tre   articoli.   Ecco  delle  tabelle  che   riassumono  le  differenze  quantitative  fra  le  due  valutazioni.Valeria Riccardo1 2090 26382 1337 8733 107 230 4 4Figura  11.  Tabella  dell’articolo  Obama  Campaign  Endgame:  grunt  Work  and  Cold  Math
  18. 18. 18Valeria Riccardo1 4630 44772 1223 13823 10 10 0 3Figura  12.  Tabella  dell’articolo  Romney  is  Upbeat,  but  Math  is  the  SameValeria Riccardo1 8419 81572 858 10903 69 990 0 0Figura  13.  Tabella  dell’articolo  Efforts  to  Curb  Social  Spending  Face  ResistanceNessuna  associazione  semantica  ricavata  dall’articolo  sopra  citato  è  stata  valutata  0.Come  si  può  osservare  dai  risultati  riportati  nelle  tabelle  di  queste  tre  figure,  le  valutazioni  sono  state  abbastanza  simili  ma  non  identiche.  È  chiaro  che,  data  la  grandissima  mole  di  associazioni  semantiche  da  valutare,  non  sempre  abbiamo  seguito  lo  stesso  metro  di  giudizio.  Ma,  in  linea  generale,  si  è  cercato  di  seguire  queste  regole  comuni  che  avevamo  in  precedenza  tra  di  noi  accordato:  • Valutare   0  solo  quei  percorsi  di  associazioni  aventi  l’entità   finale   in  disaccordo  con  la  prima  (entità  principale)  • Valutare   1   quei   percorsi   che   risultano   caratterizzati   da   entità   e   proprietà   coerenti   e  logicamente   connesse   fra   loro   ma   che   non   danno   luogo   a   delle   associazioni  particolarmente  interessanti  • Valutare  2  quei  percorsi  che,  oltre  a  essere  corretti  da  un  punto  di  vista  logico,   danno  luogo  ad  associazioni  singolari  in  quanto  alcune  entità  o  proprietà  coinvolte  risultano  (per  rarità  o  importanza  o  popolarità)  particolarmente  interessanti,  • Infine,  valutare  3  quei  percorsi  che,  oltre  a  essere  corretti  da  un  punto  di  vista  logico  e  a  contenere   entità  e   o   proprietà   interessanti,   sono   considerati   particolarmente   affini   e  quindi  congruenti  per  contenuto  all’articolo  da  cui  l’entità  principale  è  stata  estrapolata.Vediamo  ora  alcuni  esempi  tratti  dall’articolo  Efforts  to  Curb  Social  Spending  Face  Resistance  per  chiarire  meglio  i  parametri  di  giudizio  usati  e   per  notare   possibili  differenze   che   potrebbero  comunque  scaturire  tra  le  valutazioni  di  due  diversi  esperti  di  dominio.
  19. 19. 19Il  percorso  <dbp:Barack_Obama>      dbProp:party  >      dbp:Democratic_party_(United_States)>  può  essere  valutato  3  per  la  popolarità  della  notizia  rappresentata  dal  percorso  e  per  l’affinità  con  gli  argomenti  trattati  nell’articolo.  Lo  stesso  può  anche  essere  valutato  2,  in  quanto  esso  è  sì   coerente   con   l’articolo   e   popolare,   ma   allo  stesso  tempo,   rappresenta   una  notizia  ormai  conosciuta   da   tempo   e   quindi   non  rara,   anzi   banale.   Già   da   questo  esempio   si   può   notare    come,  nonostante  le  regole  generali  osservate  siano  le  stesse,  i  giudizi  possono  però  differire  a  seconda  di  chi  li  esprime.  Il  percorso  <dbp:Barack_Obama>       dbProp:president   <    <dbp:David_Jane>    dbProp:party   <    <dbp:Democratic_Party_(United_States)>     è   stato   valutato  1   perché   esprime   delle   relazioni  logiche,   reali,   ma   non   particolarmente   interessanti   né   originali   o   popolari.   Il   percorso  difficilmente  potrà  essere  giudicato  con  un  valore  più  alto.  Il  percorso  <dbp:Barack_Obama>    dbProp:president  <    <dbp:John_Boehner>  è  stato  valutato  da   entrambi   3   per   l’importanza   dell’entità   citata   (Boehner   è   presidente   della   camera   dei  deputati)  e  perché  la  stessa  entità  è  citata  nell’articolo  da  cui  quella  principale  è  estrapolata.  Il  percorso   è   dunque   congruente   con   l’articolo   giornalistico   a   cui   è   collegato   e   l’argomento  importante.Quasi  mai  è   successo,   analizzando   e   confrontando   le   nostre   valutazioni,   di   trovare   percorsi  valutati  1  da  un  esperto  di  dominio  e  3  dall’altro.  È  successo  invece  spesso  di  trovare  percorsi  valutati  2  o  3  a  seconda  di  chi  ha  espresso  il  giudizio  e,  ancora  più  spesso,  quelli  valutati  1  e  2.  Fra   le   associazioni  recuperate  dall’articolo   Efforts  to   Curb   Social   Spending   Face  Resistance  ne  troviamo  parecchie   che  collegano  l’entità  principale  a  uno  dei  propri  mestieri,   ovvero  quello  dell’avvocato.   Uno   di  noi   due   ha   deciso   di   valutare   quelle   associazioni  con   un   2  perché   ha  ritenuto  che  il  fatto  che  Obama  fosse,   oltre  che   politico  e   autore   di  scritti,  anche  avvocato,  abbastanza  interessante  e  originale  (non  tutti  d’altronde  lo  sanno),  l’altro  di  noi  due  ha  invece  deciso  di  valutare  questi  stessi  percorsi  con  un  1  perché  non  ha  ritenuto  che   il  collegamento  <Obama>   mestiere   >   <avvocato>   fosse   abbastanza   originale   da   poter   essere   valutato  diversamente.Nel  complesso,  e  data  la  grande   quantità  di  dati  da   analizzare,   riteniamo  che  i  nostri  giudizi  siano   stati   abbastanza   uniformi,   o   quantomeno   facilmente   confrontabili.   Da   un’analisi  dettagliata  risulta  evidente  che  i  due  valutatori  hanno  seguito  delle  metriche  basate  su  giudizi  di   popolarità,   originalità   e   contestualizzazione   dati   alle   entità   e   alle   proprietà   citate   nei  percorsi.  È   possibile   notare   macrodifferenze   come   quella   citata   nel   paragrafo   precedente   (Obama  avvocato:   interessante/banale)   ma   nel  complesso   c’è   stato  un  buon  livello   di   accordo   nella  valutazione   dei   percorsi,   soprattutto   quelli   contenenti   entità   salienti   (perché,   ad   esempio,  citate  nell’articolo  relativo  oppure  per  la  loro  popolarità).    4.2  Valutazione  generale  dei  risultati  prodotti  dall’algoritmoCome  già  scritto  in  precedenza,  le  associazioni  semantiche  estrapolate  dai  tre  articoli  di  politica  sono  state  quasi  19000  (per  la  precisione,  18749)  mentre  quelle  estrapolate   dai  tre  articoli  su  cui  la  tesi  si  è  basata  sono  state  9114.  Fra  i  cinque  articoli  citati,  quello  con  meno  associazioni  semantiche  recuperate  è  stato  Apple  profit  Rises  24%  on  Sales  of  iPhone  5con  890  percorsi,  il  più  ricco  invece  è  stato  Efforts  to  Curb  Social  Spending  Face  Resistance  con  ben  9346  percorsi.  
  20. 20. 20Nel  ruolo  di  esperti  di  dominio  entrambi  ci  siamo  resi  conto  che  questi  numeri  sono  troppo  alti,  soprattutto  se  si  considera  che  i  percorsi  valutati  con  1  sono  la  maggioranza  per  tutti  gli  articoli  analizzati.   Guardando   le   tabelle   riportate   precedentemente   (sia   quelle   che   riguardano  i   tre  articoli  valutati  per   il   lavoro   di   tesi,  sia   quelle   sul  confronto   delle   valutazioni   nei   tre   articoli  politici)  si  può  facilmente  evincere  quanto  appena  detto.  Il  fatto  che  molti  dei  percorsi  siano  stati  valutati   1   significa   che   la  maggior   parte   dei  “cammini”   ricavati  dalle   associazioni  fra   le  entità  sono  stati  valutati  giusti  ma  poco  interessanti,  perché  comuni  e/o  ripetitivi  oppure  perché  totalmente  privi  di  interesse.  Le  associazioni  con  valore   1   quindi  sono  molte,  ma  valutarle   1   è  riduttivo  e   in  un  certo  senso  fuorviante:   sarebbe   a   nostro   parere   utile   un   ulteriore   discriminazione   sugli   1,   poiché   la  differenza  fra  il  giudizio  comuni  e/o  ripetitivi  e   il  giudizio  totalmente  privi  di  interesse  è  molta.  Mentre  le  associazioni  considerate  comune/o  ripetitivi  [11]  hanno  ragione  di  essere  comunque  inserite  fra  quelle  ricavabili  dalle  entità  tratte  dall’articolo;  quelle  considerate  totalmente  prive  di   interesse   non   hanno   motivo   di   comparire   fra   i   percorsi   che   un   giornalista   o   un   utente  interessato   a   quell’argomento   avrebbe   piacere   di   trovare   fra   quelli   relativi   all’articolo   (o  semplicemente   all’argomento)   d’interesse.  Sarebbero  insomma,  a  nostro  parere,   un  po’   una  perdita  di  tempo,  non  un  acquisizione  di  informazioni  utili.Prendendo   ancora   ad   esempio   l’articolo   Efforts   to   Curb   Social   Spending   Face   Resistance,  proponiamo   uno   dei   percorsi   valutati   da   entrambi   1   e   giudicato   –   sempre   da   entrambi   -­‐    totalmente  non   interessante.   A   nostro   parere   esso  dimostra   che   i   percorsi  di  questo  genere  sarebbe   meglio   e   senza   dubbio   più   utile   che   non   comparissero   come   output   dell’analisi   in  Dbpedia  delle  entità  estrapolate  dall’articolo.<dbp:Barack_Obama>     dbProp:leader_name   <     dpb:United_States     dbpProp:country     <    dbp:Missouri_Valley_Iowa    dbProp:isPartOf  >    <dbp:Iowa>L’informazione  contenuta  in  questo  percorso  e  riassumibile  con  “Obama  è  il  leader  degli  Stati  Uniti,  in   cui  Missouri   Valley   è  un   paese,   che  fa   parte  dello   stato   Iowa”   non  è   interessante,   né  originale,  né  collegata  in  maniera  rilevante  e  congruente  all’articolo  da  cui  le  entità  sono  state  estrapolate.Alla  luce  di  queste  osservazioni  (in  sintesi:  i  percorsi  ricavati  sono  troppi,  e  fra  questi  molti  sono  stati  valutati  1.  Buona  parte  di  queste  associazioni  valutate  1  può  essere  considerata  totalmente  priva  di  interesse  per  chiunque  voglia  cercare  informazioni  sull’argomento  principale  da  cui  tale  associazione  è  stata  estrapolata)  siamo  giunti  alla  conclusione  che  l’algoritmo  ha  usato  delle  metriche   di   selezione   di   collegamenti   troppo   “larghe”.   In   linea   generale   però,   è   giusto  sottolineare  che  il  sistema  ha  rilevato:  • Percorsi  interessanti:  la  maggior  parte  di  quelli  da  noi  valutati  2  e  3  • Percorsi  meno  interessanti  ma  che  comunque  potrebbero  essere  utili:  quelli  valutati  1  in  quanto   rappresentano   informazioni  risapute   o  non  troppo  significative   (anche   se   su  questo   punto   bisogna   però   sottolineare   che   dipende   anche   dagli   utenti   che  usufruiscono  di  queste  informazioni)• Pochissimi   percorsi  giudicati   con  0:   questo  significa  che  l’algoritmo  non  ha  quasi  mai  fallito   nel   trovare  un  collegamento  fra  l’entità   principale   e   quella  finale   del  percorso,  l’unica   pecca   è   stata   che   troppo   spesso   quel   collegamento   rappresentava  un’informazione  davvero  banale  perché   potesse   essere  presa  in  considerazione  da  un  utente  interessato  a  questi  risultati.
  21. 21. 214.3  Possibili  usi  futuri  del  Computational  journalismNei   primi   paragrafi   abbiamo   descritto   il   Computational   oDDJ,   nello   studiarlo   ci   siamo   fatti  un’idea  dei  possibili  usi,  e  soprattutto  dei  possibili  vantaggi  che  tale  attività  potrebbe  portare  a  quella   più   ampia   del   giornalismo.   La   creazione   di   nuove   storie   giornalistiche   o   d’inchieste  quantitative  e   qualitative  da  parte   dei  giornalisti,   attraverso  la  ricerca  di  informazioni  tramite  tecniche  computazionali,  è  l’obiettivo  del  Computational  journalism.  Ad  esempio,  un  software  può  eseguire  la  scansione  di  differenti  database  e  reti  sociali,  in  modo  tale   da   identificare   e   riportare   informazioni   che   possono   essere   utilizzate   in   seguito   dai  giornalisti.The   Guardian   ha   realizzato  un’indagine   riguardante   le   spese   dei  membri  del   parlamento  del  Regno  Unito.  Tutte  queste  informazioni  recuperate  ed  elaborate  sono  state  rese  disponibili  nel  web   all’interno   di   fogli   di   calcolo,   i   quali   sono   stati   analizzati   dagli   utenti   della   rete,  identificando   le   voci   più   interessanti.   Le   informazioni  e   le   analisi   svolte   dagli   utenti   hanno  permesso  alla  testata  in  questione,  di  realizzare  nuove  storie  giornalistiche,  rendendo  palese  il  problema.   È   importante   evidenziare   come   l’indagine   al   momento   non  sia  stata   replicata   da  nessun’altra   testata,   poiché   computazionalmente   onerosa.   Attraverso   questa   iniziativa,   The  Guardian   è   stato   in   grado   di   migliorare   la   propria   reputazione   nell’ambito   del   giornalismo  investigativo  e  allo  stesso  tempo  è  riuscito  a  portare  alla  luce  un  problema  molto  critico  [12].Un   altro   esempio   è   costituito   da   James   Hamilton   [13]   che,   utilizzando   il   database   della  protezione  ambientale  americana  riguardante  le  emissioni  di  sostanze  chimiche  da  parte  delle  industrie,   è   stato   in  grado   di   individuare   possibili   imprecisioni   nei   dati   forniti   dalle   diverse  compagnie.   Principalmente  nella  realizzazione  di  quest’analisi,  egli  utilizzò  metodi  statistici  e  matematici.   In   questo  modo,   Hamilton   riuscì  a   scovare   le   violazioni   della   legge   di  Benford  riguardante  il  limite  delle  emissioni  tossiche.Il   lavoro  di  Hamilton  deriva  da  una   semplice   osservazione   da   economia  dei   media:   dato   che  produrre  inchieste  e  reportage  giornalistici  è  attività  costosa,  laboriosa  (e  spesso  non  pagata  in  proporzione   dagli   investitori   pubblicitari)   è   preferibile   usare   tecnologie   digitali   in   grado   di  affiancare   il   giornalista   nel   produrre   inchieste   approfondite.   Il   Computational   Journalism,  rispondendo  agli  incredibili  cambiamenti  che  la  rivoluzione  digitale  ha  portato  nell’  accessibilità   dell’informazione   -­‐   se   utilizzato   nel   modo   migliore   e   supportato   da   strumenti  efficaci  e  sempre  meno  onerosi  -­‐  è  la  miglior  starda  percorribile  per  avere  sempre  più  qualità  e  affidabilità  nell’informazione.Ma   non   solo   i   giornalisti   professionisti   possono   usufruire   dei   LOD   e   delle   tecniche  computazionali  tipiche  del  Computational  Journalism  per  informarsi  e  per  costruire  nuove  storie  giornalistiche.  L’auspicio  è  che  anche  uno  studente,  un  blogger,  un  politico  o  un  imprenditore  (e   altre  figure  professionali  e  non)  possano  ritenere  utile   una   ricerca  di  dati  incrociata  e  ben  sviluppata  come  quella  cui  porterebbe   un  uso  ampio  e   diffuso  del  DDJ.  La  tendenza  è  ormai  quella,   lo   dimostrano  anche   –   nel   loro   piccolo   –   i  sempre   più   numerosi  comuni   italiani   che  hanno   realizzato   il   proprio   portale   regionale   di   Open   Data   [14]   rendendo   i   dati   un   diritto  fondamentale  ed  un  bene  comune.Un  esempio  di  strumento   per   tutti  è   stato  realizzato  da  Google   e  denominato  Living   Stories.  Esso  permette  di  raccogliere  tutte  le  versioni  di  un  fatto  di  cronaca  all’interno  di  un  articolo,  le  quali   possono   essere   consultate   sulla   base   di   una   timeline.   All’interno   dell’articolo,  costantemente  aggiornato,  vengono  creati  dei  collegamenti  a  delle  notizie  correlate.  In  questo  
  22. 22. 22modo   l’utente   senza   nessun   particolare   sforzo   può   prendere   visione   delle   informazioni  d’interesse,  recuperandole  nel  caso  in  cui  dovesse  creare   una   nuova  storia  giornalistica.  Una  ricerca  del  genere  potrebbe  richiedere  tempo  ma  nessun  tipo  di  tecnologia  particolare  se  non  quella  di  un  device  connesso  a  internet  e  –  dato  non  trascurabile  -­‐  nessun  tipo  di  costo  (fatta  eccezione  per  quello  che  garantisce  la  connessione  stessa).È   importante  sottolineare   come  il  Computational   journalism  vada  oltre  una   semplice   editoria  giornalistica   online.   Non   si   tratta   di   pubblicare   articoli   e   notizie   sul   web   (non   solo,  quantomeno)  ma  anche  (e  sopratutto)  di  indicizzare  le  entità  presenti  per  poi  poterle  collegare  ad  altre  entità  presenti  in  altri  articoli  e  fatti,  i  collegamenti  saranno  proposti  secondo  il  grado  di   connessione   che   c’è   fra   le   entità,   fra   gli   articoli   e   fra   gli   argomenti   trattati,   in   un   dato  momento  storico.Un  aspetto  importante  è,  a  nostro  avviso,  l’aggiornamento  dei  sistemi  che  permettono  queste  ricerche  computazionali.  È  evidente  che,  trattandosi  di  notizie  contemporanee  e  data  la  velocità  dell’informazione  oggi,  ci  deve  essere  un  aggiornamento  continuo  degli  articoli,  delle  entità  e  delle  proprietà,  così  come  delle  “qualità”  intrinseche   ad  ogni  entità  o  ad  ogni  proprietà;  può  succedere   infatti  che  collegamenti  ritenuti  molto  rilevanti  in  un  dato  momento,  possano  non  risultare  più  tali  in  un  altro.  È  necessario  in  altre  parole  tenere  costantemente  il  passo,  cosa  non  facile   e   su   cui  c’è   probabilmente   ancora  molto  da   lavorare.   È   un  approccio  innovativo   e   in  quanto  tale  deve  ancora  percorrere  molta  strada  per  poter  essere  migliorato.  4.4  Oltre  il  Computational  journalism,  possibili  usi  delle  associazioni  semanticheCome  abbiamo  detto,  sono  giornalisti  i  primi  utilizzatori  del  Computational  journalism,  ma  non  solo.  Gli  studenti  e  il  campo  della  ricerca  universitaria  potrebbero  trarre  grandi  benefici  da  un  uso  di  queste  tecniche  computazionali,  incentrate  però  non  solo  sui  fatti  e  le  notizie  dal  mondo,  ma  anche  sugli  articoli  scientifici  pubblicati  dalle  riviste  di  tutto  il  mondo.  Una  mappatura  di  tali  elementi,   con   estrazione   di   entità,   proprietà   e   creazione   di   un   grafo   massimale,   potrebbe  aiutare  i  ricercatori  nelle  loro  indagini.  È  evidente  come  uno  sforzo  del  genere  sia  impegnativo,  ma   comunque   possibile   se   basato  su   una   cooperazione   e   collaborazione   a  livello   mondiale,  ormai  possibile  grazie  alla  diffusione  di  internet,  del  cloud  che  ospita  tutte  le  piattaforme  utili  al  DDJ  e  che  permette  una  ricerca  collettiva  di  notizie  e  collegamenti  da  tutto  il  mondo.  Citando  Tim  Berners-­‐Lee  e  i  suoi  comandamenti  del  web  semantico:  “Se  ben  strutturato,  il  web  semantico   favorisce   l’evoluzione   della   conoscenza   umana.   Il   processo   di   creazione   della  conoscenza  è  caratterizzato  da  un’eterna  tensione  tra  l’efficacia  produttiva  di  ristretti  gruppi  di  persone  che  agiscono  in  modo  indipendente  e  la  loro  necessità  di  integrarsi  con  una  comunità  più   ampia.   I   gruppi   di   dimensioni  limitate   lavorano   rapidamente   ed   efficacemente,   ma   allo  stesso  tempo  danno  vita  a  delle  sottoculture  che  male  interagiscono  con  il  pubblico  esterno.  Coordinare  un  gruppo  ampio,  tuttavia,  richiede  tempo  e  un  immane  sforzo  comunicativo.  (…)  Se   fino   ad  ora   il  mondo  ha   funzionato   in   disequilibrio  tra   questi   estremi,   il  web  semantico  consente   a  diverse   sottoculture   di  entrare   in   contatto   tra   loro   e   scambiarsi  informazioni   in  modo  semplice  e  immediato.  Il  web  semantico  può  essere  visto  come  una  sorta  di  linguaggio  logico  internazionale  a  disposizione  di  tutte  le  sotto  strutture.”[15]È  riflettendo  su  queste  parole,  su   quanti  siano  i  gruppi  ristretti  ai  quali  i  LOD  gioverebbero  e  quanto  sia  importante  l’interazione  di  cui  parla  Tim  Berners-­‐Lee,  che  abbiamo  pensato  a  usi  dei  LOD  che  andassero  oltre  gli  scopi  classici  del  Computational  journalism,  che  prevedano  in  altre  
  23. 23. 23parole  l’uso  dei  LOD  in  contesti  che  non  siano  esclusivamente  quelli  del  web.  Gran  parte  delle  difficoltà   che   emergono  nello   sviluppo   del   Web  3.0  è   dovuta   alla  grande   quantità   di  dati  da  identificare  e  strutturare.  Un  utilizzo  dei  LOD  in  un  ambiente  più  ridotto  e  specifico  di  quello  del  web  potrebbe  portare  a  grandi  vantaggi  e  l’organizzazione  dovrebbe  essere  logicamente  meno  onerosa.   Un   contesto   che   sembra   adattarsi   bene   a   quanto   detto   finora   è   quello   delle   Big  Enterprises,   [16]   le   grandi   aziende,   che   spesso   hanno   una   struttura   articolata   e   una   mole  significativa  di  stakeholders,  il  che  si  traduce  ovviamente  in  una  grande  quantità  di  dati  diversi  da   catalogare.   Ci   siamo   quindi   chiesti,   come   sarebbe   possibile   integrare   l’approccio   e   la  tecnologia  LOD  con  un  ambiente  aziendale?  Quali  vantaggi  porterebbe  quest’operazione?  Per   rispondere   alla   prima   domanda  abbiamo  individuato  una   serie   di  passi  da  compiere   per  raggiungere   quella   che   è   stata   definita   dai   pionieri   di   questa   nuova   prospettiva   Enterprise  Linked  Opend  Data  (ELOD).  [17]  Presentiamoli:• Raccolta  e  definizione  della  topologia  dei  dati,  ovvero  quali  aree   aziendali  prendere   in  considerazione  e  come  organizzare  i  relativi  dati  in  cataloghi  • Specificare  i  formati:  dai  più  classici  (e  meno  utili)  .pdf,  .xls  ,  .csv/tsv,  fino  ad  arrivare  ai  più  evoluti  e  sicuramente  più  efficaci  .xml,  rdf/owl• Prelievo  dei  dati  dalle  fonti  individuate  nei  formati  scelti• Preparazione  di  una  piattaforma  centrale  di  servizi  per  l’amministrazione  dei  dati,  la  loro  classificazione,  fusione,  indagine  e  pubblicazione• Descrizione  del  ciclo  di  vita  dei  dati  aperti.• Definizione  delle  politiche  di  sicurezza  e  permessi  d’accesso  ai  dati  aperti• Infine   pubblicazione   conclusiva   dei   dati   in   LOD,   ovvero   sfruttando   tecnologie  semantiche   come   RDF,   OWL,   URI,   SPARQL,   per   ottenere   dati   con   una   semantica  esplicita  e  per  renderli  interconnessi  fra  di  loro  e  rintracciabili  tramite  un  URL  univoco.Vediamo   ora   alcuni   vantaggi   particolari   di   cui   potrà   usufruire   un’azienda   che   intraprende  questo  percorso:• I  dati  perderebbero  quella  carica  di  “potere  intrinseco”  che  hanno  ad  oggi  e  che  spesso  alimenta   controversie   sul   controllo   dei   vari   domini   di   competenza   all’interno   di   un  azienda• Non   si   avvertirebbe   più   la   necessità   di   commissionare   le   pratiche   di   valutazione  informativa  ad  aziende  esterne• Si  faciliterebbe  lo  sviluppo  di  nuove  applicazione  data-­‐consumer  e  di  data-­‐intergation• Si  otterrebbe  una  gestione  trasparente  del  patrimonio  informativo  dell’azienda• Si  ottimizzerebbero  i  processi  di  comunicazione  e  condivisione   dell’informazione  fra  le  diverse  aree  aziendali.Ovviamente   ci   sarebbero   alcune   criticità   nel   passaggio   dalla   gestione   attuale   dei   dati   di  un’azienda   a   quello  ELOD.   Per   esempio   la   sensibilizzazione   del   cliente   nei  confronti  di   tale  gestione,   la   difficoltà   iniziale   di   censire  i   dati,   ma   anche   l’opera  di  convincimento   dei   propri  dipendenti  dell’utilità  e   bontà  dell’operazione   a  fronte   di  una  facile  reticenza  a  condividere  i  propri   dati   e   la   necessità   imprescindibile   di   definire   delle   politiche   di   sicurezza   precise  sull’accesso  ai  dati.  Riteniamo  comunque  che  valga  la  pena  per  un’azienda  –  specie  se  di  grandi  dimensioni   -­‐   percorrere   tale   strada.   Realizzerebbe,   infatti,   un   vero   e   proprio   processo   di  censimento,   amministrazione,   riuso   di   tutti   quei   dati   che   di   solito   vengono   gelosamente  custoditi   o  nascosti  impedendo  così  corrette   pratiche   di   Enterprise   Information   Management  EIM  e  Knowledge  management  (KM).
  24. 24. 24Queste   riflessioni  si  potrebbero  applicare   –  con  le  dovute   differenze  –   a  moltissimi  contesti,  basti   pensare   alle   scuole,   alla   pubblica   amministrazione,   alla   politica…   Sono   nati   e   stanno  nascendo   moltissimi   progetti   a   riguardo,   anche   nel   nostro   Paese.   Sul   sito   della   Open  Knowledege  Fondation  Italia  è  possibile  farsi  un’idea  dello  stato  attuale  dei  lavori.  [18]  Figura  14:  Infografica  coi  dati  estratti  dal  portale  Rimozione  Macerie
  25. 25. 25Sul   sito   dell’agenzia   di   prodotti   multimediali   Mister   wolf   –   web&multimedia   [19]   abbiamo  trovato  un  interessante  lavoro,  riassunto  in  Figura  14,  che  dimostra  quanto  l’utilizzo  dei  LOD  in  contesti  specifici  sia  utile.  Spieghiamo  ora  in  breve  il  motivo   per   cui  il  progetto  di   quest’agenzia   rappresenta   a  nostro  parere  un  esempio  virtuoso,  da  applicare  in  moltissimi  altri  campi  e  contesti.  Il  progetta  mira  a  raccogliere   i   dati   inerenti   al   lavoro   di   messa   in   sicurezza   degli   edifici   e   di   rimozione   delle  macerie,   soprattutto  all’Aquila,  che   procede  ancora  oggi.   Si  stima  che  fino  a   ora  siano  state  rimosse  quasi  426000  tonnellate  di  macerie  dai  lavori  per  gli  edifici  pubblici  e  circa  273000  per  quelli   privati.   Il   sito   del   Commissariato   per   la   Ricostruzione   tiene   traccia   dei   lavori   e   delle  operazioni  svolte  con  una  serie  di  Open  data  liberamente  consultabili  dalla  cittadinanza.  Sulla  base  di  queste  informazioni,  l’agenzia  Mister  wolf    ha  realizzato  l’infrografica  di  Figura  14,  per  illustrare  il  lavoro  svolto  fino  ad  oggi  per  rimuovere  le  macerie.  L’infografica  offre  uno  sguardo  d’insieme   sullo   stato   della   rimozione   e   smaltimento   delle   macerie   nell’area   del   cratere  interessato   dal   sisma   che   ha   colpito   l’Abruzzo   nel   2009.   I   dati   si   riferiscono   alle   macerie  rimosse,  provenienti  dai  cantieri  e  destinate  ai  punti  di  conferimento  ad  opera  delle  aziende  al  Febbraio  2013.  Sono  poi  disponibili  le  percentuali  dei  cantieri  che  producono  macerie  suddivisi  per  provincia  e  i  relativi  punti  di  conferimento  dove  le  macerie  vengono  destinate  attraverso  le  aziende  incaricate  del  trasporto.  Molti  quotidiani  online  hanno  parlato  di  questo  progetto  e  delle  informazioni  ricavate  da  esso,  i  dati  raccolti  e   analizzati  hanno  risparmiato  molto  lavoro  a  chi  se   ne   occupa  e   ne   usufruisce;  iniziative  come  queste  devono  essere  seguite  e  replicate  in  ambiti  simili  ma  non  solo,  devono  vedere  la  collaborazione  di  aziende  e  agenzie  di  questo  tipo  al  fine  di  creare  progetti  sempre  più  trasversali  e  utili  a  chiunque.  Un  altro  campo  da  noi  indagato  in  cui  l’approccio  LOD  può  aiutare  a  migliorare  le  prestazioni  è  quello   dei   motori   di   ricerca,   e   in   particolare,   potrebbero   essere   di   enorme   aiuto   alla  problematica   delle   ricerche   correlate   e   suggerite   all’utente   da   parte   di   un   software   che  “lavorerà”   per   conto   di   un   sito   o   anche   del   browser.   Come   ben   sappiamo   spesso   accanto  all’esito  di  una  ricerca  da  noi  indagata,  compaiono  suggerimenti  e  consigli  riguardo  prodotti/informazioni  simili.   Ad  esempio,   se   cerchiamo  su   Google   un’entità  (persone,   luoghi,   cose)   a  fondo  del  sommario  di  informazioni  enciclopediche  sull’entità  che  stiamo  cercando,  compaiono  altre  entità  che  vanno  sotto  l’etichetta  di  “ricerche  correlate”.    
  26. 26. 26Figura  15:    Risultati  della  ricerca  “Bacon”  su  GoogleLa  figura  15  mostra  cosa  accade  se  da  loggati  in  Google  cerchiamo  “Bacon”:  avremo  i  classici  risultati  nella  colonna  di  sinistra  e  accanto,  in  una  nuova  colonna,  ci  verrà  chiesto  di  specificare  se  intendiamo  il  filosofo,  il  pittore  o  l’attore.  Figura  16:  Ricerca  successiva  su  Google  -­‐  Sommario  delle  informazioni  sul  personaggio  d’interesse  e  ricerche  correlate

×