2. Un insieme di testi orali o scritti che
permettono di arrivare all’uso e alla
frequenza di determinati termini o
forme linguistiche.
3. Poiché era più
difficile l’analisi
Più piccoli
DOPO
la digitalizzazione
I corpora vengono
digitalizzate
Padre Busa pioniere della linguistica italiana
fonda il centro dell’Automatizzazione
dell’Analisi Linguistica di Gallarate
PRIMA della
digitalizzazione
Aumentano le
dimensioni
4. Preferito il formato
.txt
Standard XML si
possono condividere
i marcatori del testo.
Contenuto delle
annotazioni
Formato con cui i file
vengono standardizzati
Modalità annotative
6. PROBLEMA IN FASE DI
INFORMATIZZAZIONE
Insieme di parole divise da interpunzione e spazi
“DELL’ ALTRO” o “QUEST’ULTIMO”
1 o 2 parole?
7. • È stato selezionato il corpus da
Wikipedia
• È formato da 100 voci suddivise in 10
categorie
• Le voci sono state selezionate tra
gennaio e
settembre 2014
• È basato sullo studio di Elia (2006)
8. Scienza sociali e società
Religione
Filosofia e pensieri
Biografia
Matematica e astrazione
Storia ed eventi
Benessere e salute
Geografia e luoghi
Biografia
Arte e cultura
Tecnologia e scienze applicate
9. ARTE BIOGRAFIA CULTURA SOCIETÀ GEOGRAFIA
Cinemascopio Beatles
Diaspora Alcolismo Barcellona
Colosseo
Benjamin Franklin
Fiaba Euro
Triangolo delle Bermuda
Graffiti Bill Gates Bandiera Femminismo
Deserto del Gobi
Olografia
Albert Einstein
Geisha Omosessualità
Idrografia
Proscenio
Fred Astaire Danza Jazz Suffragio delle donne
Himalaya
Jazz
James Dean
Pizza Povertà Ischia
Madonna
Karl Marx
Romanticismo Razzismo Londra
Polka
Adam Smith
Superstizione Tamil
Piccadilly Circus
U2
Vittorio Alfieri Tè
Terrorismo
San Josè
Rosa dei venti Cristoforo Colombo Walt Disney
Zulu Tempo
10. STORIA MATEMATICA FILOSOFIA SCIENZE TECNOLOGIA
Anna Frank Boolean algebra Agnostico AIDS Palloncino
Azteco Teoria delle catastrofi Aristotele Big Bang Benzina
S. Berlusconi Crittografia F. Bacone Cuore Internet
Tony Blair Teoria di Graph Epistemologia Neurone Jet Engine
Brit. East. India. C Matrix M. Foucault Bomba nucleare Microprocessore
Rosa dei venti Analisi numerica Scuola di Francoforte Polmonite Microsoft
Ku Klux Klan Teorema di Pitagora Filosofia della mente Royal Astrnautal Society Radar
Garibaldi Numeri Quantum Scetticismo Sars Macchina da scrivere
Rivoluzione Francese Numeri reali Thomas Huxley Energia solare Realtà virtuale
George Bush Vettori Wittgenstein Turchese World Wide Web
11. Il corpus selezionato è stato ripulito
(didascalie, fotografie, indici, citazioni, ecc).
I testi sono stati convertiti da documenti word
a .txt unicode (UTF-8)
Tramite il software (T-lab 9.1) sono stati analizzati i
contenuti delle voci
12. Esempio: verbi, sostantivi Esempio: articoli, preposizioni
Hanno un significato anche al di fuori
della struttura della frase.
Termini il cui contenuto semantico si
riduce solo alla loro funzione
strutturale all’interno della frase.
PAROLE PIENE PAROLE VUOTE
13. Rapporto tra il numero di
parole piene e il
numero di parole totali
14. 0,46
Il numero di parole totale della voce è:
2740
tokens.
Il numero di parole piene è:
1274.
Applicando la formula avremo
17. • Densità lessicale italiano
• Valore massimo
58,22 % (TURCHESE)
• Valore minimo
47,07 % (ALGEBRA DI BOOLE)
• Valore medio
52,49 %
• Scostamento massimo
11,15 %
• Densità lessicale inglese
• Valore massimo
74,8 % (PIZZA)
• Valore minimo
23,8 % (EPISTEMOLOGIA)
• Valore medio
43,5 %
• Scostamento massimo
51 %
18. • Per quanto riguarda la D.L.
l’inglese rispetto
all’italiano ha una variabile
maggiore.
• Il confronto interno tra le varie
categorie ci hanno dimostrato
che non c’è una sostanziale
differenza tra le categorie
umanistiche e quelle
scientifiche
• Treccani contrariamente a quello supposto ha una D.L. inferiore rispetto a
Wikipedia.