SlideShare a Scribd company logo
1 of 28
Download to read offline
Memorie  di  Guerra  
Un  proge)o  di  linguistica  computazionale  per  le  Digital  Humanities  	
Alessandro  Lenci  et  al.	
	
CoLing  Lab  –  Laboratorio  di  Linguistica  Computazionale	
Università  di  Pisa  	
	
Seminario  di  Cultura  Digitale	
Pisa,  22  o@obre  2014  
•  Coordinamento:	
•  Alessandro  Lenci  (Università  di  Pisa,  CoLing  Lab)	
•  Simone@a  Montemagni  (ILC-­‐‑CNR,  ItaliaNLP  Lab)	
•  Analisi  linguistico-­‐‑computazionali:	
•  ILC-­‐‑CNR,  CoPhi  Lab	
»  Federico  Bosche@i,  Paolo  Picchi	
•  ILC-­‐‑CNR,  ItaliaNLP  Lab	
»  Andrea  Cimino,  Felice  dell’Orle@a,  Giulia  Venturi	
•  Università  di  Pisa,  CoLing  Lab	
»  Gianluca  Lebani,  Lucia  Passaro	
•  Informatica  Umanistica	
»  Giacomo  Corsini,  Michele  Mallia,  Federica  Semplici	
•  Consulenza  storica:	
•  Nicola  Labanca  (Università  di  Siena)	
•  Software  di  ricerca  e  interfaccia  grafica:	
•  Stefano  Dei  Rossi  (WebSoup)	
Il  gruppo  di  ricerca
•  La  IGM  e  la  IIGM  sono  le  prime  guerre  documentate  in  
maniera  massiccia  in  ogni  tipo  di  media	
•  documenti  ufficiali,  giornali,  le@ere,  diari	
•  immagini,  cartoline,  posters	
Le  guerre  mondiali  e  la  memoria  storica
•  La  storiografia  contemporanea  è  interessata  a  ricostruire  la  
“storia  culturale”    e  la  “storia  linguistica”  della  guerra	
•  come  i  diversi  a@ori  della  guerra  (governi,  soldati,  ecc.)  
rappresentavano  e  auto-­‐‑rappresentavano  gli  eventi  di  guerra	
•  la  IGM  è  stata  la  prima  guerra  di  massa  e  anche  la  prima  
guerra  di  propaganda	
» giornali  ufficiali,  giornali  di  trincea,  ecc.	
•  la  IGM  è  stata  non  solo  una  guerra  di  morte  di  massa,  ma  
anche  di  scri@ura  di  massa	
» la  prima  esperienza  di  scri@ura  per  intere  fasce  della  
popolazione	
» ca.  2  miliardi  di  le@ere  movimentate  solo  in  Italia	
Analisi  storica  e  analisi  linguistica
•  Quantità  enormi  di  materiale  testuali,  in  progressiva  
digitalizzazione	
•  h@p://www.europeana1914-­‐‑1918.eu	
•  h@p://www.14-­‐‑18.it/	
•  h@p://www.nationalarchives.gov.uk/first-­‐‑world-­‐‑war/	
•  Fonti  storiche  che  richiedono  metodi  nuovi  per  la  ricerca  
ed  esplorazione  delle  informazioni	
•  analisi  semantica  dei  testi	
•  analisi  statistico-­‐‑linguistiche	
•  link  tra  fonti  diverse	
Big  (Historical)  Data
•  Proge@o  finlizzato  all’analisi  computazionale  di  testi  della  I  e  
della  II  GM	
•  consulenza  storica:  Nicola  Labanca	
•  Prima  applicazione:  analisi  dei  Bolle@ini  di  Guerra	
•  digitalizzazione  e  OCR	
•  estrazione  delle  informazione	
•  analisi  statistica	
•  georeferenziazione  e  data  linking	
•  Applicazioni	
•  ricerca  storica	
•  insegnamento  della  storia	
Memorie  di  Guerra
•  Emessi  quotidianamente  dal  Comando  Supremo  italiano  
durante  la  IGM  e  la  IIGM  come  resoconto  ufficiale  delle  
operazioni	
•  IGM:  1.342  testi  dal    24  Maggio  1915  all’11  Novembre  1918	
» pubblicati  nel  1923,  mai  digitalizzati  prima  d’ora  (189.783  tokens)	
•  IIGM:  1.201  testi  dal  10  Giugno  1940  all’8  Se@embre  1943	
» pubblicati  nel  1970,  disponibili  in  HTML  (211.854  tokens)	
Bolle@ini  di  guerra
•  Gli  storici  assumono  che  la  IGM  e  la  IIGM  siano  due  
episodi  di  un  unico  confli@o  europeo  trentennale	
•  I  bolle@ini  di  guerra  sono  una  fonte  storica  importante  per	
•  ricostruire  lo  svolgimento  delle  operazioni	
•  studiare  le  strategie  di  propaganda	
•  comparare  le  due  guerre  mondiali	
» differenti  tipi  di  guerra  (posizione  vs.  movimento)	
» differenti  governi  (liberale  vs.  fascista)	
•  studiare  il  cambiamento  della  lingua  italiana	
» all’inizio  del  ‘900,  l’italiano  standard  era  ancora  in  fase  di  
definizione	
Perché  i    bolle@ini  della  IGM  e  della  IIGM?
digitalizzazione
dei bollettini
della IGM
annotazione
automatica
dei bollettini
estrazione
dell’informazione
data
linking a
risorse
esterne
interfaccia
di ricerca
Fasi  del  proge@o
•  L’OCR  è  stato  realizzato  con  Tesseract	
•  97.87%  di  accuratezza  e  98.68%  di  F-­‐‑score  calcolato  su  un  campione  
casuale  di  10  pagine	
•  Correzione  manuale  con  metadati  XML	
•  è  previsto  il  rilascio  dei  testi  in  formato  TEI-­‐‑XML	
Digitalizzazione  dei  bolle@ini    della  IGM	
<doc url="http://www.ilc.cnr.it/w2m/doc49.html" index="49" day="39" date="1 luglio 1915” firma=“Cadorna”>
<date>1 luglio.</date>
<p>Nella zona del Tonale le nostre artiglierie aprirono il fuoco
sulle posizioni di Monticello e di Saccarana, disperdendovi reparti nemici intenti a lavori di apprestamenti e
difesa.</p>
<p>In Val Padola pattuglie di ufficiali arditamente spinte sul Seikofl vi accertarono la costruzione, per parte
del nemico, di trinceramenti con reticolati, che la nostra artiglieria batté poi con efficacia.</p>
<p>In Carnia il nemico ha tentato vigorosi attacchi notturni contro le nostre posizioni del Passo di Monte
Croce e del Pal Piccolo, aiutandosi con razzi e riflettori e lanciando bombe contenenti gas asfissianti. Fu in
entrambi i punti respinto. Disperdemmo, mediante tiri di artiglieria, nuclei di lavoratori apparsi sulle pendici
settentrionali del Freikofel e del Pal Grande e lungo la mulattiera di Val Bombasch.</p>
<p>Fu ripreso con buoni risultati il tiro sul forte Hensel.</p>
<p>Alla testata di Valle Resia l’importante posizione di Banjski
Skedenj, dominante la conca di Plezzo, venne da noi solidamente occupata.</p>
•  Annotazione  automatica  con  il  PoS-­‐‑tagger  Dell’Orle@a  (2009)  e  il  
parser  a  dipendenze  DeSR  (A@ardi  et  al.  2009)	
•  I  testi,  sopra@u@o  quelli  della  IGM,  sono  particolarmente  difficili  
da  analizzare  con  strumenti  addestrati  sull’Italiano  standard  
contemporaneo	
•  brevi  testi  elli@ici,  con  costruzioni  desuete  	
•  molti  gap  lessicali	
»  terminologia  militare,  variazioni  ortografiche  rcaiche  (es.,  riparto  
invece  di  reparto,  schiatori  invece  di  sciatori,  ecc.)	
Annotazione  linguistica  dei  bolle@ini	
<doc url="http://www.ilc.cnr.it/w2m/doc49.html" index="49" day="39" date="1 luglio 1915">
1 Nella in E EA num=s|gen=f 8 comp
2 zona zona S S num=s|gen=f 1 prep
3 del di E EA num=s|gen=m 2 comp
4 Tonale Tonale S SP _ 3 prep
5 le il R RD num=p|gen=f 7 det
6 nostre nostro A AP num=p|gen=f 7 mod
7 artiglierie artiglieria S S num=p|gen=f 8 subj
8 aprirono aprire V V num=p|per=3|mod=i|ten=s 0 ROOT
9 il il R RD num=s|gen=m 10 det
10 fuoco fuoco S S num=s|gen=m 8 obj
11 sulle su E EA num=p|gen=f 8 comp
12 posizioni posizione S S num=p|gen=f 11 prep
•  “S.  M.  il  Re  dichiara  che  l'ʹ  Italia  si  considera  in  istato  di  
guerra  con  l'ʹ  Austria-­‐‑Ungheria  da  domani.”	
•  “Benché  fa@a  segno  a  violento  fuoco  di  fucileria  e  di  
artiglieria,  rientrò  incolume  nelle  nostre  linee.”	
•  “Nella  no@e  dal  26  al  27  la  squadra  delle  nostre  aereonavi  
compiè  una  incursione  su  territorio  nemico”	
•  “Le  nostre  aeronavi,  fa@e  segno  al  fuoco  nemico,  
compirono  egualmente  la  loro  missione.”	
•  “hanno  lanciato  undici  bombe  senza  cagionare  gravi  
danni”	
•  “Nell'ʹ  alta  valle  Furva,  schiatori  nemici  …vennero  scoperti  
e  obbligati  ad  allontanarsi,  inseguiti  da  schiatori  nostri.”  	
Il  linguaggio  dei  bolle@ini  della  IGM  
•  CoLingLab  NER	
•  Stanford  CoreNLP  NER  (Finkel  et  al.  2005),  addestrato    su  I-­‐‑
CAB  (Magnini  et  al.  2006)	
» 525  articoli  del  giornale  locale  ‘L’Adige’  (periodo:  Se@embre-­‐‑
O@obre,  2004)	
Named  Entity  Recognition	
Participant FB1 Prec. Recall GPE LOC ORG PER
FBK_Alam_ro1 63.56 65.55 61.69 80.38 56.38 53.24 51.51
UniPi_SimiDeiRossi_ro1 58.19 65.90 52.09 76.25 48.78 40.60 48.75
UniPi_SimiDeiRossi_ro2 52.15 54.83 49.72 72.25 30.62 33.77 46.19
ColingLab 65,66 76,96 59,76 72,19 46,72 58,85 84,91
BASELINE 44.93 38.84 53.28 69.00 36.49 43.37 18.10
•  Classi  di  entità  rilevanti  per  i  bolle@ini  di  guerra:	
•  Luoghi  (LOC)	
» Monte  Nero	
•  Persone  (PER)	
»   Francesco  Baracca	
•  Unità  militari  (MIL)	
» Brigata  Sassari	
•  Navi  (SHP)	
» Czepel	
•  Aeroplani  (PLN)	
» Aviatik	
Il  ColingLab  NER  sui  bolle@ini  della  IGM
I-­‐‑CAB	
 Bolle6ini	
B-­‐‑LOC	
LOC	
LOC	
B-­‐‑LOC	
I-­‐‑LOC	
B-­‐‑GPE	
GPE	
 I-­‐‑LOC	
I-­‐‑GPE	
B-­‐‑ORG	
ORG	
 MIL	
B-­‐‑MIL	
I-­‐‑ORG	
 I-­‐‑MIL	
B-­‐‑PER	
PER	
 PER	
B-­‐‑PER	
I-­‐‑PER	
 I-­‐‑PER	
−	
−	
 SHP	
B-­‐‑SHP	
−	
 I-­‐‑SHP	
−	
−	
 PLN	
B-­‐‑PLN	
−	
 I-­‐‑PLN	
Mapping  del  tagset  I-­‐‑CAB  e  dei  bolle@ini
•  Training  corpus:  I-­‐‑CAB	
•  Test  corpus:  Bolle@ini  della  IGM	
•  senza  uso  di  gaze@eers  	
	
Risultati
•  Creazione  semi-­‐‑automatica  di  un  corpus  di  dominio  annotato  con  NE	
•  l’edizione  cartacea  dei  bolle@ini  della  IIGM  include  un  indice  analitico  
con  NE  (anch’esso  dispinibile  in  HTML)	
»  luoghi,  persone,  unità  militari,  navi,  aerei,  ecc.	
•  il  corpus  WBII  è  stato  creato  proie@ando  automaticamente  l’indice  
analitico  sul  testo,  successivamente  rivisto  manualmente	
Ada@amento  al  dominio  del  NER	
1 Ieri ieri B B _ 3 mod_temp O
2 i il R RD num=p|gen=m 3 det O
3 combattimenti combattimento S S num=p|gen=m 10 subj O
4 nella in E EA num=s|gen=f 3 comp O
5 regione regione S S num=s|gen=f prep O
6 di di E E _ 5 comp_loc O
7 el el S SP _ 8 mod B-LOC
8 Alamein Alamein S SP _ 6 prep I-LOC
9 hanno avere V VA num=p|per=3|mod=i|ten=p 10 aux O
10 assunto assumere V V num=s|mod=p|gen=m 0 ROOT O
11 carattere carattere S S num=s|gen=m 10 obj O
12 di di E E _ 14 comp O
13 particolare particolare S S num=s|gen=m 12 prep O
14 violenza violenza S S num=s|gen=f 11 mod_rel O
Ada@amento  al  dominio  del  NER	
•  Training  corpus:  I-­‐‑CAB  +  WBII	
•  Test  corpus:  Bolle@ini  della  IGM	
•  senza  uso  di  gaze@eers  
Ada@amento  al  dominio  del  NER	
•  Training  corpus:  WBII	
•  Test  corpus:  Bolle@ini  della  IGM	
•  senza  uso  di  gaze@eers  
<doc url="http://www.ilc.cnr.it/w2m/doc49.html" index="49" day="39" date="1 luglio 1915">
<date>1 luglio.</date>
<p>Nella zona del Tonale le nostre artiglierie aprirono il fuoco
sulle posizioni di Monticello e di Saccarana, disperdendovi reparti nemici intenti a lavori di
apprestamenti e difesa.</p>
<p>In Val Padola pattuglie di ufficiali arditamente spinte sul Seikofl vi accertarono la
costruzione, per parte del nemico, di trinceramenti con reticolati, che la nostra artiglieria
batté poi con efficacia.</p>
<p>In Carnia il nemico ha tentato vigorosi attacchi notturni contro le nostre posizioni del
Passo di Monte Croce e del Pal Piccolo, aiutandosi con razzi e riflettori e lanciando bombe
contenenti gas asfissianti. Fu in entrambi i punti respinto. Disperdemmo, mediante tiri di
artiglieria, nuclei di lavoratori apparsi sulle pendici settentrionali del Freikofel e del Pal
Grande e lungo la mulattiera di Val Bombasch.</p>
<p>Fu ripreso con buoni risultati il tiro sul forte Hensel.</p>
<p>Alla testata di Valle Resia l’importante posizione di Banjski
Skedenj, dominante la conca di Plezzo, venne da noi solidamente occupata.</p>
•  Linking  automatico  a  Google  Map    e  Bing  Map  dei  nomi  di  luogo  nei  
bolle@ini  e  revisione  manuale  delle  coordinate	
•  Problemi  nella  georefenziazione	
•  nomi  non  indicati  sulle  carte  geografiche  on  line	
»  es.  toponimi  in  Etiopia,  luoghi  in  montagna,  ecc.	
•  varianti  ortografiche  dei  toponimi  (es.  toponimi  arabi,  ma  non  solo)	
»  es.  val  Furva,  valle  Furva,  Valfurva	
Georeferenziazione  dei  luoghi  nei  bolle@ini
Georeferenziazione  dei  luoghi  nei  bolle@ini
•  Identificazione  automatica  di  URL  di  Wikipedia  associate  a  
NE  menzionate  nei  testi	
•  estrazione  delle  NE  e  creazione  di  stringhe  unificate	
» es.  Valle_Lagarina	
•  concatenazione  della  stinga  della  NE  alla  forma  base  
dell’URL  Wikipedia	
» h@p://it.wikipedia.org/wiki/<NamedEntity>	
•  Risultati:	
•  IGM:  7.441  recuperati  /  5.867  non  trovati	
•  IIGM:  11.266  recuperati  /  1.785  non  trovati  	
Link  a  Wikipedia
Link  a  Wikipedia	
1 Nella in E EA num=s|gen=f 7 comp O O
2 mattinata mattinata S S num=s|gen=f 1 prep O O
3 sei sei N N _ 5 mod O O
4 « « F FB _ 5 punc O O
5 Caproni Caproni S SP _ 2 mod B-PLN http://it.wikipedia.org/wiki/Caproni
6 » » F FB _ 5 punc O O
7 eseguirono eseguire V V num=p|per=3 0 ROOTO O
8 un' uno R RI num=s|gen=f 10 det O O
9 ardita ardito A A num=s|gen=f 10 mod O O
10 incursione incursione S S num=s|gen=f 7 obj O O
11 su su E E _ 10 comp_loc O
12 Adelsberg Adelsberg S SP _ 11 prep B-LOC O
Link  a  Wikipedia	
1 Le il R RD num=p|gen=f 2 det O O O
2 posizioni posizione S S num=p|gen=f 20 subj O O O
3 britanniche britannico A A num=p|gen=f 2 mod O O O
4 di di E E _ 2 comp O O O
5 el el S SP _ 6 mod B-LOC O http://it.wikipedia.org/wiki/El_Alamein
6 Alamein Alamein S SP _ 4 prep I-LOC O http://it.wikipedia.org/wiki/El_Alamein
7 ( ( F FB _ 8 punc O O O
8 Golfo Golfo S SP _ 6 mod B-LOC O O
9 degli di E EA num=p|gen=m 8 comp I-LOC O O
10 Arabi Arabi S SP _ 9 prep I-LOC O O
11 ) ) F FB _ 8 punc O O O
12 , , F FF _ 14 punc O O O
13 fortemente fortemente B B _ 14 mod O O O
14 apprestate apprestare V V num=p|mod=p|gen=f 2 mod O O O
15 e e C CC _ 14 con O O O
16 tenacemente tenacemente B B _ 17 mod O O O
17 difese difesa S S num=p|gen=f14 conj O O O
•  Variazione  ortografica  delle  NE	
•  Ambiguità  semantica	
•  “Quasi  contemporaneamente  veniva  segnalato  che  un'ʹ  altra  
squadra  inglese  costituita  da  due  corazzate:  la  Hood  da  
41.500  tonnellate,  armata  con  o@o  pezzi  da  381”	
Link  a    Wikipedia  
problemi  aperti
•  Database:  MySQL  5.6  	
•  Linguaggio  programmazione  applicativo:  PHP	
•  Framework  PHP  utilizzato:  Yii  1.1.15	
•  Modalità  di  ricerca	
•  Testuale	
» ricerca  di  parole  (lemmi)  e  NE  nei  testi	
•  Ngram	
» ricerche  diacroniche	
•  Spazio-­‐‑temporali	
» esplorazione  dei  luoghi  menzionati  nei  bolle@ini	
•  Eventi  (da  implementare)	
» ricerca  di  bolle@ini  che  si  riferiscono  a  macro-­‐‑eventi  (es.  la  
prima  ba@aglia  dell’Isonzo)	
Software  di  ricerca  e  interfaccia
•  La  linguistica  computazionale  offre  grandi  prospe@ive  per  
l’analisi  e  la  valorizzazione  della  memoria  storica  delle  guerre  
mondiali	
•  creare  una  rete  di  fonti  documentali  interconnesse  a  livello  
semantico	
•  Una  grande  sfida  per  l’analisi  computazionale  del  testo	
•  necessità  di  metodi  in  grado  di  gestire  testi  rumorosi	
» errori  di  digitalizzazione,  variazione  diacronica  e  distratica  della  
lingua  dei  testi,  ecc.	
•  Prossimi  passi	
•  completamento  delle  funzionalità  di  ricerca	
•  rilascio  dei  dati  estra@i  come  Linked  Open  Data	
•  analisi  di  memorie  di  guerra	
» diari,  giornali,  ecc.	
Conclusioni  e  prospe@ive
Grazie!  
  
Domande?

More Related Content

More from Laboratorio di Cultura Digitale, Università di Pisa

More from Laboratorio di Cultura Digitale, Università di Pisa (20)

Lorenzo Fabbri - Google, Facebook e gli altri
Lorenzo Fabbri - Google, Facebook e gli altriLorenzo Fabbri - Google, Facebook e gli altri
Lorenzo Fabbri - Google, Facebook e gli altri
 
Digicraft and 'Systemic' Thinking in Digital Humanities Reasoning on the Per...
Digicraft and 'Systemic' Thinking  in Digital Humanities Reasoning on the Per...Digicraft and 'Systemic' Thinking  in Digital Humanities Reasoning on the Per...
Digicraft and 'Systemic' Thinking in Digital Humanities Reasoning on the Per...
 
Simone Testa - Database Italian Academies 1525-1700
Simone Testa -  Database Italian Academies 1525-1700Simone Testa -  Database Italian Academies 1525-1700
Simone Testa - Database Italian Academies 1525-1700
 
Codifice Pelavicino between Digital Edition and Public History
Codifice Pelavicino between Digital Edition and Public HistoryCodifice Pelavicino between Digital Edition and Public History
Codifice Pelavicino between Digital Edition and Public History
 
Metodi e problemi dell'analisi quantitativa dei testi letterari
Metodi e problemi dell'analisi quantitativa dei testi letterariMetodi e problemi dell'analisi quantitativa dei testi letterari
Metodi e problemi dell'analisi quantitativa dei testi letterari
 
La valutazione della ricerca
La valutazione della ricercaLa valutazione della ricerca
La valutazione della ricerca
 
Ontologie informatiche della geografia: una sistematizzazione del dibattito c...
Ontologie informatiche della geografia: una sistematizzazione del dibattito c...Ontologie informatiche della geografia: una sistematizzazione del dibattito c...
Ontologie informatiche della geografia: una sistematizzazione del dibattito c...
 
L'antenato comune
L'antenato comuneL'antenato comune
L'antenato comune
 
La conservazione dei documenti digitali
La conservazione dei documenti digitaliLa conservazione dei documenti digitali
La conservazione dei documenti digitali
 
Progettare e analizzare la qualità degli ambienti informativi digitali attrav...
Progettare e analizzare la qualità degli ambienti informativi digitali attrav...Progettare e analizzare la qualità degli ambienti informativi digitali attrav...
Progettare e analizzare la qualità degli ambienti informativi digitali attrav...
 
Il digitale nell'educazione universitaria. Proposte di ricerca a partire dal ...
Il digitale nell'educazione universitaria. Proposte di ricerca a partire dal ...Il digitale nell'educazione universitaria. Proposte di ricerca a partire dal ...
Il digitale nell'educazione universitaria. Proposte di ricerca a partire dal ...
 
Comunicazione scientifica ed editoria accademica, A.D. 2016
Comunicazione scientifica ed editoria accademica, A.D. 2016Comunicazione scientifica ed editoria accademica, A.D. 2016
Comunicazione scientifica ed editoria accademica, A.D. 2016
 
Conoscere l'intertestualità e i suoi dispositivi di comunicazione con MP: un...
Conoscere l'intertestualità e i suoi dispositivi di comunicazione con MP:  un...Conoscere l'intertestualità e i suoi dispositivi di comunicazione con MP:  un...
Conoscere l'intertestualità e i suoi dispositivi di comunicazione con MP: un...
 
Music, digital culture and the new economy - Anne Jacqueline
Music, digital culture and the new economy - Anne JacquelineMusic, digital culture and the new economy - Anne Jacqueline
Music, digital culture and the new economy - Anne Jacqueline
 
Visualizzare la storia sociale - Simone Testa
Visualizzare la storia sociale - Simone TestaVisualizzare la storia sociale - Simone Testa
Visualizzare la storia sociale - Simone Testa
 
Philomed - Rappresentare il paradigma della complessitù
Philomed - Rappresentare il paradigma della complessitùPhilomed - Rappresentare il paradigma della complessitù
Philomed - Rappresentare il paradigma della complessitù
 
Reti di Biblioteche
Reti di BibliotecheReti di Biblioteche
Reti di Biblioteche
 
Modelli concettuali e architetture Object-Oriented per la progettazione e lo ...
Modelli concettuali e architetture Object-Oriented per la progettazione e lo ...Modelli concettuali e architetture Object-Oriented per la progettazione e lo ...
Modelli concettuali e architetture Object-Oriented per la progettazione e lo ...
 
Il Codice Pelavicino tra edizione digitale e public history
Il Codice Pelavicino tra edizione digitale e public historyIl Codice Pelavicino tra edizione digitale e public history
Il Codice Pelavicino tra edizione digitale e public history
 
Hyper presentazione
Hyper presentazioneHyper presentazione
Hyper presentazione
 

Recently uploaded

Presentazione tre geni della tecnologia informatica
Presentazione tre geni della tecnologia informaticaPresentazione tre geni della tecnologia informatica
Presentazione tre geni della tecnologia informaticanico07fusco
 
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxNicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxlorenzodemidio01
 
Scrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibileScrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibileNicola Rabbi
 
descrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptxdescrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptxtecongo2007
 
Una breve introduzione ad Elsa Morante, vita e opere
Una breve introduzione ad Elsa Morante, vita e opereUna breve introduzione ad Elsa Morante, vita e opere
Una breve introduzione ad Elsa Morante, vita e opereMarco Chizzali
 
Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.camillaorlando17
 
Aristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptxAristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptxtecongo2007
 
Quadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoQuadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoyanmeng831
 
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptxProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptxlorenzodemidio01
 
Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................giorgiadeascaniis59
 
discorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptxdiscorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptxtecongo2007
 
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptxScienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptxlorenzodemidio01
 
CHIẾN THẮNG KÌ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN - PHAN THẾ HOÀI (36...
CHIẾN THẮNG KÌ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN - PHAN THẾ HOÀI (36...CHIẾN THẮNG KÌ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN - PHAN THẾ HOÀI (36...
CHIẾN THẮNG KÌ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN - PHAN THẾ HOÀI (36...Nguyen Thanh Tu Collection
 
Descrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptxDescrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptxtecongo2007
 
Presentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaPresentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaSalvatore Cianciabella
 
Tosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptxTosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptxlorenzodemidio01
 
Esame di Stato 2024 - Materiale conferenza online 09 aprile 2024
Esame di Stato 2024 - Materiale conferenza online 09 aprile 2024Esame di Stato 2024 - Materiale conferenza online 09 aprile 2024
Esame di Stato 2024 - Materiale conferenza online 09 aprile 2024IISGiovanniVallePado
 
LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................giorgiadeascaniis59
 
Adducchio.Samuel-Steve_Jobs.ppppppppppptx
Adducchio.Samuel-Steve_Jobs.ppppppppppptxAdducchio.Samuel-Steve_Jobs.ppppppppppptx
Adducchio.Samuel-Steve_Jobs.ppppppppppptxsasaselvatico
 
case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....giorgiadeascaniis59
 

Recently uploaded (20)

Presentazione tre geni della tecnologia informatica
Presentazione tre geni della tecnologia informaticaPresentazione tre geni della tecnologia informatica
Presentazione tre geni della tecnologia informatica
 
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxNicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
 
Scrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibileScrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibile
 
descrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptxdescrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptx
 
Una breve introduzione ad Elsa Morante, vita e opere
Una breve introduzione ad Elsa Morante, vita e opereUna breve introduzione ad Elsa Morante, vita e opere
Una breve introduzione ad Elsa Morante, vita e opere
 
Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.
 
Aristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptxAristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptx
 
Quadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoQuadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceo
 
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptxProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
 
Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................
 
discorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptxdiscorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptx
 
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptxScienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
 
CHIẾN THẮNG KÌ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN - PHAN THẾ HOÀI (36...
CHIẾN THẮNG KÌ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN - PHAN THẾ HOÀI (36...CHIẾN THẮNG KÌ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN - PHAN THẾ HOÀI (36...
CHIẾN THẮNG KÌ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN - PHAN THẾ HOÀI (36...
 
Descrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptxDescrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptx
 
Presentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaPresentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione Civica
 
Tosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptxTosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptx
 
Esame di Stato 2024 - Materiale conferenza online 09 aprile 2024
Esame di Stato 2024 - Materiale conferenza online 09 aprile 2024Esame di Stato 2024 - Materiale conferenza online 09 aprile 2024
Esame di Stato 2024 - Materiale conferenza online 09 aprile 2024
 
LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................
 
Adducchio.Samuel-Steve_Jobs.ppppppppppptx
Adducchio.Samuel-Steve_Jobs.ppppppppppptxAdducchio.Samuel-Steve_Jobs.ppppppppppptx
Adducchio.Samuel-Steve_Jobs.ppppppppppptx
 
case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....
 

Memorie di Guerra: Un progetto di linguistica computazionale per le Digital Humanities

  • 1. Memorie  di  Guerra   Un  proge)o  di  linguistica  computazionale  per  le  Digital  Humanities   Alessandro  Lenci  et  al. CoLing  Lab  –  Laboratorio  di  Linguistica  Computazionale Università  di  Pisa   Seminario  di  Cultura  Digitale Pisa,  22  o@obre  2014  
  • 2. •  Coordinamento: •  Alessandro  Lenci  (Università  di  Pisa,  CoLing  Lab) •  Simone@a  Montemagni  (ILC-­‐‑CNR,  ItaliaNLP  Lab) •  Analisi  linguistico-­‐‑computazionali: •  ILC-­‐‑CNR,  CoPhi  Lab »  Federico  Bosche@i,  Paolo  Picchi •  ILC-­‐‑CNR,  ItaliaNLP  Lab »  Andrea  Cimino,  Felice  dell’Orle@a,  Giulia  Venturi •  Università  di  Pisa,  CoLing  Lab »  Gianluca  Lebani,  Lucia  Passaro •  Informatica  Umanistica »  Giacomo  Corsini,  Michele  Mallia,  Federica  Semplici •  Consulenza  storica: •  Nicola  Labanca  (Università  di  Siena) •  Software  di  ricerca  e  interfaccia  grafica: •  Stefano  Dei  Rossi  (WebSoup) Il  gruppo  di  ricerca
  • 3. •  La  IGM  e  la  IIGM  sono  le  prime  guerre  documentate  in   maniera  massiccia  in  ogni  tipo  di  media •  documenti  ufficiali,  giornali,  le@ere,  diari •  immagini,  cartoline,  posters Le  guerre  mondiali  e  la  memoria  storica
  • 4. •  La  storiografia  contemporanea  è  interessata  a  ricostruire  la   “storia  culturale”    e  la  “storia  linguistica”  della  guerra •  come  i  diversi  a@ori  della  guerra  (governi,  soldati,  ecc.)   rappresentavano  e  auto-­‐‑rappresentavano  gli  eventi  di  guerra •  la  IGM  è  stata  la  prima  guerra  di  massa  e  anche  la  prima   guerra  di  propaganda » giornali  ufficiali,  giornali  di  trincea,  ecc. •  la  IGM  è  stata  non  solo  una  guerra  di  morte  di  massa,  ma   anche  di  scri@ura  di  massa » la  prima  esperienza  di  scri@ura  per  intere  fasce  della   popolazione » ca.  2  miliardi  di  le@ere  movimentate  solo  in  Italia Analisi  storica  e  analisi  linguistica
  • 5. •  Quantità  enormi  di  materiale  testuali,  in  progressiva   digitalizzazione •  h@p://www.europeana1914-­‐‑1918.eu •  h@p://www.14-­‐‑18.it/ •  h@p://www.nationalarchives.gov.uk/first-­‐‑world-­‐‑war/ •  Fonti  storiche  che  richiedono  metodi  nuovi  per  la  ricerca   ed  esplorazione  delle  informazioni •  analisi  semantica  dei  testi •  analisi  statistico-­‐‑linguistiche •  link  tra  fonti  diverse Big  (Historical)  Data
  • 6. •  Proge@o  finlizzato  all’analisi  computazionale  di  testi  della  I  e   della  II  GM •  consulenza  storica:  Nicola  Labanca •  Prima  applicazione:  analisi  dei  Bolle@ini  di  Guerra •  digitalizzazione  e  OCR •  estrazione  delle  informazione •  analisi  statistica •  georeferenziazione  e  data  linking •  Applicazioni •  ricerca  storica •  insegnamento  della  storia Memorie  di  Guerra
  • 7. •  Emessi  quotidianamente  dal  Comando  Supremo  italiano   durante  la  IGM  e  la  IIGM  come  resoconto  ufficiale  delle   operazioni •  IGM:  1.342  testi  dal    24  Maggio  1915  all’11  Novembre  1918 » pubblicati  nel  1923,  mai  digitalizzati  prima  d’ora  (189.783  tokens) •  IIGM:  1.201  testi  dal  10  Giugno  1940  all’8  Se@embre  1943 » pubblicati  nel  1970,  disponibili  in  HTML  (211.854  tokens) Bolle@ini  di  guerra
  • 8. •  Gli  storici  assumono  che  la  IGM  e  la  IIGM  siano  due   episodi  di  un  unico  confli@o  europeo  trentennale •  I  bolle@ini  di  guerra  sono  una  fonte  storica  importante  per •  ricostruire  lo  svolgimento  delle  operazioni •  studiare  le  strategie  di  propaganda •  comparare  le  due  guerre  mondiali » differenti  tipi  di  guerra  (posizione  vs.  movimento) » differenti  governi  (liberale  vs.  fascista) •  studiare  il  cambiamento  della  lingua  italiana » all’inizio  del  ‘900,  l’italiano  standard  era  ancora  in  fase  di   definizione Perché  i    bolle@ini  della  IGM  e  della  IIGM?
  • 9. digitalizzazione dei bollettini della IGM annotazione automatica dei bollettini estrazione dell’informazione data linking a risorse esterne interfaccia di ricerca Fasi  del  proge@o
  • 10. •  L’OCR  è  stato  realizzato  con  Tesseract •  97.87%  di  accuratezza  e  98.68%  di  F-­‐‑score  calcolato  su  un  campione   casuale  di  10  pagine •  Correzione  manuale  con  metadati  XML •  è  previsto  il  rilascio  dei  testi  in  formato  TEI-­‐‑XML Digitalizzazione  dei  bolle@ini    della  IGM <doc url="http://www.ilc.cnr.it/w2m/doc49.html" index="49" day="39" date="1 luglio 1915” firma=“Cadorna”> <date>1 luglio.</date> <p>Nella zona del Tonale le nostre artiglierie aprirono il fuoco sulle posizioni di Monticello e di Saccarana, disperdendovi reparti nemici intenti a lavori di apprestamenti e difesa.</p> <p>In Val Padola pattuglie di ufficiali arditamente spinte sul Seikofl vi accertarono la costruzione, per parte del nemico, di trinceramenti con reticolati, che la nostra artiglieria batté poi con efficacia.</p> <p>In Carnia il nemico ha tentato vigorosi attacchi notturni contro le nostre posizioni del Passo di Monte Croce e del Pal Piccolo, aiutandosi con razzi e riflettori e lanciando bombe contenenti gas asfissianti. Fu in entrambi i punti respinto. Disperdemmo, mediante tiri di artiglieria, nuclei di lavoratori apparsi sulle pendici settentrionali del Freikofel e del Pal Grande e lungo la mulattiera di Val Bombasch.</p> <p>Fu ripreso con buoni risultati il tiro sul forte Hensel.</p> <p>Alla testata di Valle Resia l’importante posizione di Banjski Skedenj, dominante la conca di Plezzo, venne da noi solidamente occupata.</p>
  • 11. •  Annotazione  automatica  con  il  PoS-­‐‑tagger  Dell’Orle@a  (2009)  e  il   parser  a  dipendenze  DeSR  (A@ardi  et  al.  2009) •  I  testi,  sopra@u@o  quelli  della  IGM,  sono  particolarmente  difficili   da  analizzare  con  strumenti  addestrati  sull’Italiano  standard   contemporaneo •  brevi  testi  elli@ici,  con  costruzioni  desuete   •  molti  gap  lessicali »  terminologia  militare,  variazioni  ortografiche  rcaiche  (es.,  riparto   invece  di  reparto,  schiatori  invece  di  sciatori,  ecc.) Annotazione  linguistica  dei  bolle@ini <doc url="http://www.ilc.cnr.it/w2m/doc49.html" index="49" day="39" date="1 luglio 1915"> 1 Nella in E EA num=s|gen=f 8 comp 2 zona zona S S num=s|gen=f 1 prep 3 del di E EA num=s|gen=m 2 comp 4 Tonale Tonale S SP _ 3 prep 5 le il R RD num=p|gen=f 7 det 6 nostre nostro A AP num=p|gen=f 7 mod 7 artiglierie artiglieria S S num=p|gen=f 8 subj 8 aprirono aprire V V num=p|per=3|mod=i|ten=s 0 ROOT 9 il il R RD num=s|gen=m 10 det 10 fuoco fuoco S S num=s|gen=m 8 obj 11 sulle su E EA num=p|gen=f 8 comp 12 posizioni posizione S S num=p|gen=f 11 prep
  • 12. •  “S.  M.  il  Re  dichiara  che  l'ʹ  Italia  si  considera  in  istato  di   guerra  con  l'ʹ  Austria-­‐‑Ungheria  da  domani.” •  “Benché  fa@a  segno  a  violento  fuoco  di  fucileria  e  di   artiglieria,  rientrò  incolume  nelle  nostre  linee.” •  “Nella  no@e  dal  26  al  27  la  squadra  delle  nostre  aereonavi   compiè  una  incursione  su  territorio  nemico” •  “Le  nostre  aeronavi,  fa@e  segno  al  fuoco  nemico,   compirono  egualmente  la  loro  missione.” •  “hanno  lanciato  undici  bombe  senza  cagionare  gravi   danni” •  “Nell'ʹ  alta  valle  Furva,  schiatori  nemici  …vennero  scoperti   e  obbligati  ad  allontanarsi,  inseguiti  da  schiatori  nostri.”   Il  linguaggio  dei  bolle@ini  della  IGM  
  • 13. •  CoLingLab  NER •  Stanford  CoreNLP  NER  (Finkel  et  al.  2005),  addestrato    su  I-­‐‑ CAB  (Magnini  et  al.  2006) » 525  articoli  del  giornale  locale  ‘L’Adige’  (periodo:  Se@embre-­‐‑ O@obre,  2004) Named  Entity  Recognition Participant FB1 Prec. Recall GPE LOC ORG PER FBK_Alam_ro1 63.56 65.55 61.69 80.38 56.38 53.24 51.51 UniPi_SimiDeiRossi_ro1 58.19 65.90 52.09 76.25 48.78 40.60 48.75 UniPi_SimiDeiRossi_ro2 52.15 54.83 49.72 72.25 30.62 33.77 46.19 ColingLab 65,66 76,96 59,76 72,19 46,72 58,85 84,91 BASELINE 44.93 38.84 53.28 69.00 36.49 43.37 18.10
  • 14. •  Classi  di  entità  rilevanti  per  i  bolle@ini  di  guerra: •  Luoghi  (LOC) » Monte  Nero •  Persone  (PER) »   Francesco  Baracca •  Unità  militari  (MIL) » Brigata  Sassari •  Navi  (SHP) » Czepel •  Aeroplani  (PLN) » Aviatik Il  ColingLab  NER  sui  bolle@ini  della  IGM
  • 15. I-­‐‑CAB Bolle6ini B-­‐‑LOC LOC LOC B-­‐‑LOC I-­‐‑LOC B-­‐‑GPE GPE I-­‐‑LOC I-­‐‑GPE B-­‐‑ORG ORG MIL B-­‐‑MIL I-­‐‑ORG I-­‐‑MIL B-­‐‑PER PER PER B-­‐‑PER I-­‐‑PER I-­‐‑PER − − SHP B-­‐‑SHP − I-­‐‑SHP − − PLN B-­‐‑PLN − I-­‐‑PLN Mapping  del  tagset  I-­‐‑CAB  e  dei  bolle@ini
  • 16. •  Training  corpus:  I-­‐‑CAB •  Test  corpus:  Bolle@ini  della  IGM •  senza  uso  di  gaze@eers   Risultati
  • 17. •  Creazione  semi-­‐‑automatica  di  un  corpus  di  dominio  annotato  con  NE •  l’edizione  cartacea  dei  bolle@ini  della  IIGM  include  un  indice  analitico   con  NE  (anch’esso  dispinibile  in  HTML) »  luoghi,  persone,  unità  militari,  navi,  aerei,  ecc. •  il  corpus  WBII  è  stato  creato  proie@ando  automaticamente  l’indice   analitico  sul  testo,  successivamente  rivisto  manualmente Ada@amento  al  dominio  del  NER 1 Ieri ieri B B _ 3 mod_temp O 2 i il R RD num=p|gen=m 3 det O 3 combattimenti combattimento S S num=p|gen=m 10 subj O 4 nella in E EA num=s|gen=f 3 comp O 5 regione regione S S num=s|gen=f prep O 6 di di E E _ 5 comp_loc O 7 el el S SP _ 8 mod B-LOC 8 Alamein Alamein S SP _ 6 prep I-LOC 9 hanno avere V VA num=p|per=3|mod=i|ten=p 10 aux O 10 assunto assumere V V num=s|mod=p|gen=m 0 ROOT O 11 carattere carattere S S num=s|gen=m 10 obj O 12 di di E E _ 14 comp O 13 particolare particolare S S num=s|gen=m 12 prep O 14 violenza violenza S S num=s|gen=f 11 mod_rel O
  • 18. Ada@amento  al  dominio  del  NER •  Training  corpus:  I-­‐‑CAB  +  WBII •  Test  corpus:  Bolle@ini  della  IGM •  senza  uso  di  gaze@eers  
  • 19. Ada@amento  al  dominio  del  NER •  Training  corpus:  WBII •  Test  corpus:  Bolle@ini  della  IGM •  senza  uso  di  gaze@eers  
  • 20. <doc url="http://www.ilc.cnr.it/w2m/doc49.html" index="49" day="39" date="1 luglio 1915"> <date>1 luglio.</date> <p>Nella zona del Tonale le nostre artiglierie aprirono il fuoco sulle posizioni di Monticello e di Saccarana, disperdendovi reparti nemici intenti a lavori di apprestamenti e difesa.</p> <p>In Val Padola pattuglie di ufficiali arditamente spinte sul Seikofl vi accertarono la costruzione, per parte del nemico, di trinceramenti con reticolati, che la nostra artiglieria batté poi con efficacia.</p> <p>In Carnia il nemico ha tentato vigorosi attacchi notturni contro le nostre posizioni del Passo di Monte Croce e del Pal Piccolo, aiutandosi con razzi e riflettori e lanciando bombe contenenti gas asfissianti. Fu in entrambi i punti respinto. Disperdemmo, mediante tiri di artiglieria, nuclei di lavoratori apparsi sulle pendici settentrionali del Freikofel e del Pal Grande e lungo la mulattiera di Val Bombasch.</p> <p>Fu ripreso con buoni risultati il tiro sul forte Hensel.</p> <p>Alla testata di Valle Resia l’importante posizione di Banjski Skedenj, dominante la conca di Plezzo, venne da noi solidamente occupata.</p> •  Linking  automatico  a  Google  Map    e  Bing  Map  dei  nomi  di  luogo  nei   bolle@ini  e  revisione  manuale  delle  coordinate •  Problemi  nella  georefenziazione •  nomi  non  indicati  sulle  carte  geografiche  on  line »  es.  toponimi  in  Etiopia,  luoghi  in  montagna,  ecc. •  varianti  ortografiche  dei  toponimi  (es.  toponimi  arabi,  ma  non  solo) »  es.  val  Furva,  valle  Furva,  Valfurva Georeferenziazione  dei  luoghi  nei  bolle@ini
  • 22. •  Identificazione  automatica  di  URL  di  Wikipedia  associate  a   NE  menzionate  nei  testi •  estrazione  delle  NE  e  creazione  di  stringhe  unificate » es.  Valle_Lagarina •  concatenazione  della  stinga  della  NE  alla  forma  base   dell’URL  Wikipedia » h@p://it.wikipedia.org/wiki/<NamedEntity> •  Risultati: •  IGM:  7.441  recuperati  /  5.867  non  trovati •  IIGM:  11.266  recuperati  /  1.785  non  trovati   Link  a  Wikipedia
  • 23. Link  a  Wikipedia 1 Nella in E EA num=s|gen=f 7 comp O O 2 mattinata mattinata S S num=s|gen=f 1 prep O O 3 sei sei N N _ 5 mod O O 4 « « F FB _ 5 punc O O 5 Caproni Caproni S SP _ 2 mod B-PLN http://it.wikipedia.org/wiki/Caproni 6 » » F FB _ 5 punc O O 7 eseguirono eseguire V V num=p|per=3 0 ROOTO O 8 un' uno R RI num=s|gen=f 10 det O O 9 ardita ardito A A num=s|gen=f 10 mod O O 10 incursione incursione S S num=s|gen=f 7 obj O O 11 su su E E _ 10 comp_loc O 12 Adelsberg Adelsberg S SP _ 11 prep B-LOC O
  • 24. Link  a  Wikipedia 1 Le il R RD num=p|gen=f 2 det O O O 2 posizioni posizione S S num=p|gen=f 20 subj O O O 3 britanniche britannico A A num=p|gen=f 2 mod O O O 4 di di E E _ 2 comp O O O 5 el el S SP _ 6 mod B-LOC O http://it.wikipedia.org/wiki/El_Alamein 6 Alamein Alamein S SP _ 4 prep I-LOC O http://it.wikipedia.org/wiki/El_Alamein 7 ( ( F FB _ 8 punc O O O 8 Golfo Golfo S SP _ 6 mod B-LOC O O 9 degli di E EA num=p|gen=m 8 comp I-LOC O O 10 Arabi Arabi S SP _ 9 prep I-LOC O O 11 ) ) F FB _ 8 punc O O O 12 , , F FF _ 14 punc O O O 13 fortemente fortemente B B _ 14 mod O O O 14 apprestate apprestare V V num=p|mod=p|gen=f 2 mod O O O 15 e e C CC _ 14 con O O O 16 tenacemente tenacemente B B _ 17 mod O O O 17 difese difesa S S num=p|gen=f14 conj O O O
  • 25. •  Variazione  ortografica  delle  NE •  Ambiguità  semantica •  “Quasi  contemporaneamente  veniva  segnalato  che  un'ʹ  altra   squadra  inglese  costituita  da  due  corazzate:  la  Hood  da   41.500  tonnellate,  armata  con  o@o  pezzi  da  381” Link  a    Wikipedia   problemi  aperti
  • 26. •  Database:  MySQL  5.6   •  Linguaggio  programmazione  applicativo:  PHP •  Framework  PHP  utilizzato:  Yii  1.1.15 •  Modalità  di  ricerca •  Testuale » ricerca  di  parole  (lemmi)  e  NE  nei  testi •  Ngram » ricerche  diacroniche •  Spazio-­‐‑temporali » esplorazione  dei  luoghi  menzionati  nei  bolle@ini •  Eventi  (da  implementare) » ricerca  di  bolle@ini  che  si  riferiscono  a  macro-­‐‑eventi  (es.  la   prima  ba@aglia  dell’Isonzo) Software  di  ricerca  e  interfaccia
  • 27. •  La  linguistica  computazionale  offre  grandi  prospe@ive  per   l’analisi  e  la  valorizzazione  della  memoria  storica  delle  guerre   mondiali •  creare  una  rete  di  fonti  documentali  interconnesse  a  livello   semantico •  Una  grande  sfida  per  l’analisi  computazionale  del  testo •  necessità  di  metodi  in  grado  di  gestire  testi  rumorosi » errori  di  digitalizzazione,  variazione  diacronica  e  distratica  della   lingua  dei  testi,  ecc. •  Prossimi  passi •  completamento  delle  funzionalità  di  ricerca •  rilascio  dei  dati  estra@i  come  Linked  Open  Data •  analisi  di  memorie  di  guerra » diari,  giornali,  ecc. Conclusioni  e  prospe@ive