Alessia Pierfederici – Mariagiovanna Scarale   STRUMENTI STATISTICI PERL’ANALISI DELLA DISTRIBUZIONE     DEI FATTI LINGUIS...
SOMMARIOPreliminari;Nozioni   di Statistica;Un esperimento di statistica lessicale: le opere di Alessandro Baricco;Ana...
1. PRELIMINARI   Alessia Pierfederici e Mariagiovanna Scarale,   Linguistica Italiana II a.a. 2012/2013          3
1. PRELIMINARI                              Manlio Cortelazzo, Arjuna Tuzzi,                              Metodi statistic...
1. PRELIMINARILo studio della lingua è sempre stato visto, nel corso deidecenni, come uno studio prevalentemente qualitati...
1. PRELIMINARIL’analisi quantitativa,       però,          non          può          prescinderedall’analisi qualitativa.P...
1. PRELIMINARI  Le indagini di cui si occupa la Statistica prendono campo  attorno ai fenomeni collettivi e di massa (misu...
1. PRELIMINARI Sono state molte le critiche mosse nei confronti dei linguisti che hanno cercato un approccio statistico ne...
1. PRELIMINARI A questa serie di obiezioni si può contrapporre l’affermazione di Guiraud che sostiene, al contrario, che  ...
1. PRELIMINARI                        LA STATISTICA «Strumento per la descrizione di uno Stato in tutte le sue parti»     ...
1. PRELIMINARI                 LA STATISTICA     STATISTICA                                  STATISTICA    DESCRITTIVA    ...
1. PRELIMINARI             LA STATISTICA DESCRITTIVA Analizza i dati raccolti per offrire un quadro generale, una sorta di...
1. PRELIMINARI            LA STATISTICA INFERENZIALE Nell’ottica inferenziale sono proposti metodi di raccolta per accumul...
1. PRELIMINARILa statistica moderna opera prevalentemente in condizioni diincertezza, privilegiando l’interesse per i feno...
1. PRELIMINARI È impossibile rilevare statisticamente TUTTE le manifestazioni di un fenomeno ( a meno che non si tratti di...
1. PRELIMINARI La lingua (langue de saussuriana), che è il sistema di segni che formano il codice di un idioma, cioè la pa...
1. PRELIMINARI I campioni linguistici possono essere di due tipi:    dell’intera lingua della comunità;    della lingua ...
1. PRELIMINARI  Campioni di Langue e Parole secondo De Saussure:UNIVERSO                                                  ...
1. PRELIMINARI La STATISTICA LINGUISTICA ha come obiettivo primario quello di spiegare i fatti linguistici servendosi dell...
2. NOZIONI DI STATISTICA        Alessia Pierfederici e Mariagiovanna Scarale,        Linguistica Italiana II a.a. 2012/201...
2. NOZIONI DI STATISTICA                                LE VARIABILIPer rilevare i caratteri di interesse dalle unità stat...
2. NOZIONI DI STATISTICA                     LA MEDIA ARITMETICA (M)Per applicare a un universo o popolazione i risultati ...
2. NOZIONI DI STATISTICA                   LA MEDIA ARITMETICALa media costituisce la tendenza centrale della distribuzion...
2. NOZIONI DI STATISTICA  Un esempio:  In 9 tragedie di Racine compare l’aggettivo heureux (felice) 143 volte:Tragedia    ...
2. NOZIONI DI STATISTICA                 𝑥1+𝑥2+⋯+𝑥𝑛            143           M=         𝑛                                =...
2. NOZIONI DI STATISTICAIl concetto di Media ha un valore relativo dal punto di vista scientifico.Un altro esempio:Se cont...
2. NOZIONI DI STATISTICA       Tabella 1                                              Tabella 2  n     Cantica     Canto  ...
2. NOZIONI DI STATISTICAIn questo caso particolare, lo scarto tra le medie dei due diversicampioni è piccolo, quindi, in t...
2. NOZIONI DI STATISTICAEsistono casi in cui le valutazioni comprendono elementi non del tuttoregolari.In questi casi l’us...
2. NOZIONI DI STATISTICAAnalizzando due campioni diversi dell’Orlando Furioso (che presentascarti molto forti tra un canto...
2. NOZIONI DI STATISTICAProcedendo parallelamente, come si è fatto nell’esempio precedentedella Divina Commedia, si ottien...
2. NOZIONI DI STATISTICA                                    LA MEDIANA (m)    Rappresenta la misura della tendenza central...
2. NOZIONI DI STATISTICASe M < m c’è un accumulo verso l’alto e la distribuzione è asimmetrica asinistra (Skewness negativ...
2. NOZIONI DI STATISTICA                           LA MODARappresenta la misura della tendenza dei valori ed è il valore p...
2. NOZIONI DI STATISTICA                   LA MEDIA PONDERATA (Mp)Si usa quando è fissato un sistema di pesi che danno div...
2. NOZIONI DI STATISTICALa Media Ponderata è molto utile in linguistica per lo studio delladistribuzione di frequenza di u...
2. NOZIONI DI STATISTICACon questo metodo è stato possibile analizzare, per esempio, ladistribuzione di frequenza di alcun...
2. NOZIONI DI STATISTICA     n    Preposizione Lunghezza in caratteri (x1) Frequenza (f1) Prodotti (x1 * f1)      1       ...
2. NOZIONI DI STATISTICA    Applicando la formula:                     𝑛                    𝑖 =1 𝑥𝑖   × 𝑓𝑖       4851     ...
2. NOZIONI DI STATISTICA     LO SCARTO TIPO (s) O DEVIAZIONE STANDARDSi usa per valutare quanto determinati valori si disc...
2. NOZIONI DI STATISTICA Cioè: la radice quadrata della sommatoria di ogni singolo valore (x) meno il valore medio (M) di ...
2. NOZIONI DI STATISTICA La deviazione standard o scarto tipo o scarto quadratico medio è un indice di dispersione (vale a...
2. NOZIONI DI STATISTICARicapitolando:Si divide la somma dei quadrati degli scarti (x-M)2 per il numero diosservazioni men...
2. NOZIONI DI STATISTICAUn esempio:Valutazione in trentesimi riportata da un campione di 10 studenti.                     ...
2. NOZIONI DI STATISTICA                         Varianza Campionaria                              𝑛                      ...
2. NOZIONI DI STATISTICA Questa tecnica può essere usata anche per comparare diversi campioni e quindi può essere molto ut...
2. NOZIONI DI STATISTICA  Tornando ad uno dei primi esempi:  In 9 tragedie di Racine compare l’aggettivo heureux (felice) ...
2. NOZIONI DI STATISTICA                                                Scarto dalla         Quadrato deglitragedia freque...
2. NOZIONI DI STATISTICA              𝑥1+𝑥2+⋯+𝑥𝑛         143        M=                   =         ≈ 16                   ...
2. NOZIONI DI STATISTICA                            I QUANTILIPer la descrizione della distribuzione di un fenomeno quanti...
2. NOZIONI DI STATISTICA                        I QUARTILIOUTLIERS                                                        ...
2. NOZIONI DI STATISTICA                           I DECILI                           Alessia Pierfederici e Mariagiovanna...
2. NOZIONI DI STATISTICA                    I PERCENTILI                                                  III Quartile    ...
2. NOZIONI DI STATISTICA                TABELLA DI FREQUENZE   • FREQUENZA ASSOLUTA (𝒇 𝒂 ): numero di occorrenze     nel c...
2. NOZIONI DI STATISTICA                  TABELLA DI FREQUENZE Frequenza Assoluta        𝒇 𝒂 = conteggio delle occorrenze;...
2. NOZIONI DI STATISTICA                             TABELLA DI FREQUENZE  Un esempio:  Distribuzione per categorie gramma...
2. NOZIONI DI STATISTICA                COEFFICIENTE DI VARIAZIONEPermette di confrontare misure e fenomeni con unità di m...
2. NOZIONI DI STATISTICAEsempio:      𝑀1 = 8,0                                 𝑀2 = 5,0     𝑠1 = 2,28                     ...
2. NOZIONI DI STATISTICA           PUNTEGGIO Z (O SCARTO RIDOTTO)Il punteggio z è il quoziente fra lo scarto dalla media e...
2. NOZIONI DI STATISTICAPer riconoscere quali valori sono da considerare significativi si puòapplicare la seguente regola ...
2. NOZIONI DI STATISTICA                     LA STIMA INTERVALLARELa stima intervallare consiste nel calcolare, sulla base...
2. NOZIONI DI STATISTICA   ERRORE STANDARD (e) E INTERVALLO DI FIDUCIA                           Ovvero:                𝑠 ...
2. NOZIONI DI STATISTICA                       TEST SU UN CAMPIONEIl test statistico è una procedura che utilizza una sint...
2. NOZIONI DI STATISTICASe il punteggio z presenta un valore assoluto inferiore a 2 si accettal’ipotesi nulla con un valor...
2. NOZIONI DI STATISTICA          MODELLI TEORICI PER LE PROPORZIONIFinora abbiamo preso in considerazione lo scarto tipo ...
2. NOZIONI DI STATISTICAQuesto comporta due possibilità:- uno scarto tipo campionario circa uguale allo scarto tipo teoric...
2. NOZIONI DI STATISTICA                               Un esempio:Calcoliamo i due scarti tipo prendendo come scarto base ...
2. NOZIONI DI STATISTICADividiamo poi i 648 versi in 24 gruppi di 27 versi ciascuno (ognunoavente 204 parole). Il numero d...
n    numero di che    ( x – y)          (x-y) 𝟐1          4         -5,667            32,1112          4         -5,667   ...
2. NOZIONI DI STATISTICAEssendo lo scarto tipo campionario solo leggermente superiore aquello teorico (determinato da un’e...
2. NOZIONI DI STATISTICA         VALUTARE LA DIFFERENZA TRA CAMPIONISpesso può risultare utile o necessario saggiare attra...
2. NOZIONI DI STATISTICA                              IL X² DI PEARSONCon il test di X² (o test di Pearson) è possibile mi...
2. NOZIONI DI STATISTICA  Un esempio:               Osservato     Teorico        Scarto           Quadrato               F...
2. NOZIONI DI STATISTICA     L’ANALISI BIVARIATA DI VARIABILI QUALITATIVESulle osservazioni di un campione normalmente ven...
2.NOZIONI DI STATISTICA                    INDICI DI CONNESSIONE  L’indice di connessione lessicale corrisponde al rapport...
3.UN ESPERIMENTO DI STATISTICA LESSICALE:le opere di Alessandro Baricco         Alessia Pierfederici e Mariagiovanna Scara...
3. UN ESPERIMENTO DI STATISTICA LESSICALE  PRIMI PASSI: 1.   Scelta del testo e individuazione delle unità di analisi; 2. ...
3. UN ESPERIMENTO DI STATISTICA LESSICALE1. Scelta del testo e individuazione delle unità d’analisi: Specificare l’edizion...
3. UN ESPERIMENTO DI STATISTICA LESSICALE                        Alessandro Baricco•   Castelli di rabbia, Milano, Rizzoli...
3. UN ESPERIMENTO DI STATISTICA LESSICALE  Software open source per il conteggio delle parole: http://text-analyzer.softon...
3. UN ESPERIMENTO DI STATISTICA LESSICALE         NOVECENTO, UN MONOLOGO                    Alessia Pierfederici e Mariagi...
3. UN ESPERIMENTO DI STATISTICA LESSICALE                                                Si sono considerate le parole    ...
3. UN ESPERIMENTO DI STATISTICA LESSICALE                                                   Percentuale di occorrenze e   ...
3. UN ESPERIMENTO DI STATISTICA LESSICALE                            Lessemi che occorrono in                            f...
3. UN ESPERIMENTO DI STATISTICA LESSICALE                   Hapax: lessemi che                   occorrono una sola volta ...
3. UN ESPERIMENTO DI STATISTICA LESSICALE                                                                               N=...
3. UN ESPERIMENTO DI STATISTICA LESSICALE2. Calcolo della dispersione (R) del vocabolario (V):L= lessico. È la quantità in...
3. UN ESPERIMENTO DI STATISTICA LESSICALER è l’indice di dispersione;C è l’indice di concentrazione; 𝑺𝒇 𝟓𝟎 è la somma dell...
3. UN ESPERIMENTO DI STATISTICA LESSICALE   Applicando la formula a Novecento di Baricco e analizzando tutte le   parole, ...
3. UN ESPERIMENTO DI STATISTICA LESSICALE L’indice di concentrazione, invece, sarà:         𝑆𝑓50    4.904      𝐶=      = 1...
3. UN ESPERIMENTO DI STATISTICA LESSICALE   3. La ricchezza lessicale: L’indice di ricchezza lessicale RL si ottiene calco...
3. UN ESPERIMENTO DI STATISTICA LESSICALEPer studiare la ricercatezza del linguaggio 𝑹 𝟏 , invece:                        ...
3. UN ESPERIMENTO DI STATISTICA LESSICALE  4. La valutazione del lessico: Per stabilire l’entità del patrimonio linguistic...
3. UN ESPERIMENTO DI STATISTICA LESSICALE Mettendo in pratica queste analisi per tutte le opere analizzate si otterranno i...
3. UN ESPERIMENTO DI STATISTICA LESSICALE                                                                                 ...
3. UN ESPERIMENTO DI STATISTICA LESSICALEApplicando un metodo di astrazione e di inferenza superiore, possiamoconsiderare ...
3. UN ESPERIMENTO DI STATISTICA LESSICALE  100.000                                                                        ...
3. UN ESPERIMENTO DI STATISTICA LESSICALE40,0035,00                                                                       ...
3. UN ESPERIMENTO DI STATISTICA LESSICALE                                                         HAPAX                   ...
3. UN ESPERIMENTO DI STATISTICA LESSICALE ALTRI STRUMENTI: LINGUISTICA COMPUTAZIONALE E PYTHON Studi di questo tipo posson...
3. UN ESPERIMENTO DI STATISTICA LESSICALE                    Alessia Pierfederici e Mariagiovanna Scarale,                ...
3. UN ESPERIMENTO DI STATISTICA LESSICALE                    Alessia Pierfederici e Mariagiovanna Scarale,                ...
4. ANALISI DI UN FENOMENO    NEL PARLATO E NELLO          SCRITTO        Alessia Pierfederici e Mariagiovanna Scarale,    ...
4. ANALISI DI UN FENOMENO                   OGGETTO DELL’ANALISI  Per prima cosa abbiamo individuato il fenomeno linguisti...
4. ANALISI DI UN FENOMENO                     CAMPIONE D’ANALISI Abbiamo deciso di analizzare il fenomeno sia all’interno ...
4. ANALISI DI UN FENOMENO                    ANALISI DEL PARLATO Per l’analisi del parlato abbiamo utilizzato la risorsa d...
4. ANALISI DI UN FENOMENO  L’interfaccia grafica con cui l’utente si viene a relazionare appare  gradevole e di chiara com...
4. ANALISI DI UN FENOMENO                          RISULTATI                    Totale      Riempitivo                 Per...
4. ANALISI DI UN FENOMENOProvenienza dei parlanti:  47% Milano (Nel campione sono presenti le città di Firenze, Napoli,  R...
4. ANALISI DI UN FENOMENO                    ANALISI DELLO SCRITTO  Per quanto riguarda la ricerca del fenomeno nella sua ...
4. ANALISI DI UN FENOMENO  L’interfaccia grafica appare anche qui “amichevole” e si presta ad  interrogazioni da parte di ...
4. ANALISI DI UN FENOMENO                           RISULTATI                    Totale       Riempitivo                 P...
Alessia Pierfederici – Mariagiovanna ScaraleGRAZIE PER LA VOSTRA    ATTENZIONE   Seminario di Linguistica italiana II (pro...
Upcoming SlideShare
Loading in …5
×

Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

1,651 views

Published on

Strumenti statistici per l'analisi dei fenomeni linguistici su un corpus o più corpora dell'italiano contemporaneo.

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,651
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
14
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

  1. 1. Alessia Pierfederici – Mariagiovanna Scarale STRUMENTI STATISTICI PERL’ANALISI DELLA DISTRIBUZIONE DEI FATTI LINGUISTICI Seminario di Linguistica italiana II (prof. Mirko Tavoni), a.a. 2012/2013
  2. 2. SOMMARIOPreliminari;Nozioni di Statistica;Un esperimento di statistica lessicale: le opere di Alessandro Baricco;Analisi di un fenomeno nello scritto e nel parlato; Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 2
  3. 3. 1. PRELIMINARI Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 3
  4. 4. 1. PRELIMINARI Manlio Cortelazzo, Arjuna Tuzzi, Metodi statistici applicati all’italiano, Zanichelli, Bologna, 2008. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 4
  5. 5. 1. PRELIMINARILo studio della lingua è sempre stato visto, nel corso deidecenni, come uno studio prevalentemente qualitativo.Accanto a questo tipo di considerazione non bisognasottovalutare che fin dagli antichi Greci era presente l’ideadi uno studio quantitativo, basato sul confrontonumerico delle parole (hapax legoménon). Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 5
  6. 6. 1. PRELIMINARIL’analisi quantitativa, però, non può prescinderedall’analisi qualitativa.Per compiere uno studio accurato e, soprattutto, veritiero,occorre sempre creare delle fondamenta qualitative, su cuipoggeranno poi le inferenze quantitative e i relativirisultati statistici. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 6
  7. 7. 1. PRELIMINARI Le indagini di cui si occupa la Statistica prendono campo attorno ai fenomeni collettivi e di massa (misurabili, quindi, mediante molteplici osservazioni). Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 7
  8. 8. 1. PRELIMINARI Sono state molte le critiche mosse nei confronti dei linguisti che hanno cercato un approccio statistico nei loro studi e molti sono stati i dubbi avanzati circa l’utilità delle applicazioni statistiche ai fenomeni linguistici, che sono visti: - di natura qualitativa; - liberi, e quindi lontani dal «determinismo» statistico; - caratterizzati da accidenti originali e diversi gli uni dagli altri; - complessi; - raggiungibili, nell’aspetto numerico, solo grazie a vasti e imponenti studi preliminari. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 8
  9. 9. 1. PRELIMINARI A questa serie di obiezioni si può contrapporre l’affermazione di Guiraud che sostiene, al contrario, che « l a l i n g u i s t i c a è l a s c i e n z a s t a t i s t i c a t i p o, gli statistici lo sanno bene; la mag gior parte dei linguisti ancora lo ignora». (Tratto da Problèmes et méthodes de la statistique linguistique, Presses Universitaires de France, Paris, p.15) Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 9
  10. 10. 1. PRELIMINARI LA STATISTICA «Strumento per la descrizione di uno Stato in tutte le sue parti» (Bernardoni, 1812). La statistica per anni ha avuto un ruolo di supporto nei processi decisionali nell’ambito della pianificazione economica e dell’azione politica dello Stato. Solo di recente è diventata parte integrante dei processi produttivi e strumento di ricerca di molte discipline scientifiche. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 10
  11. 11. 1. PRELIMINARI LA STATISTICA STATISTICA STATISTICA DESCRITTIVA INFERENZIALE Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 11
  12. 12. 1. PRELIMINARI LA STATISTICA DESCRITTIVA Analizza i dati raccolti per offrire un quadro generale, una sorta di «osservazione da vicino» del campione o della popolazione presi in esame. Prende in considerazione gli aspetti di organizzazione, presentazione (es. tabelle e grafici) e compendio dei dati; vi fanno parte le statistiche anagrafiche e demografiche. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 12
  13. 13. 1. PRELIMINARI LA STATISTICA INFERENZIALE Nell’ottica inferenziale sono proposti metodi di raccolta per accumulare informazioni su un insieme (campione) ridotto di osservazioni (unità statistiche) e le sintesi per descrivere questo insieme o per inferire caratteristiche degli insiemi più vasti e generali ai quali questo insieme appartiene (popolazione o universo statistico). Attraverso l’analisi dei dati raccolti stima il livello di alcune variabili nella popolazione di riferimento, verifica la significatività di alcune associazioni ecc. Si occupa, in sostanza, di come trarre conclusioni riguardanti le popolazioni a partire dallo studio di un campione. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 13
  14. 14. 1. PRELIMINARILa statistica moderna opera prevalentemente in condizioni diincertezza, privilegiando l’interesse per i fenomeni che presentanouna composizione stocasica, cioè probabilistica.«Nella misura in cui le leg gi della matematica siriferiscono alla realtà, esse non sono certe; enella misura in cui sono certe, esse non siriferiscono alla realtà.» ( A . E i n s t e i n , Tr a t t o d a S i d e l i g h t s o n R e l a t i v i t y ) Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 14
  15. 15. 1. PRELIMINARI È impossibile rilevare statisticamente TUTTE le manifestazioni di un fenomeno ( a meno che non si tratti di un fenomeno limitato e circostanziale), quindi l’universo o popolazione (considerando la statistica demografica per esempio). Per questo motivo bisogna effettuare un’accurata selezione dei dati rappresentativi di questo universo, delimitando un campione specifico, ma allo stesso tempo variegato. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 15
  16. 16. 1. PRELIMINARI La lingua (langue de saussuriana), che è il sistema di segni che formano il codice di un idioma, cioè la parola concreta di una lingua (De Saussure, Cours de Linguistique Générale, 1916), è un universo statistico e quindi, dal punto quantitativo sembra irraggiungibile. Per procedere con uno studio su di essa occorre, quindi, elaborare un’indispensabile scelta campionaria. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 16
  17. 17. 1. PRELIMINARI I campioni linguistici possono essere di due tipi:  dell’intera lingua della comunità;  della lingua del singolo utente; Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 17
  18. 18. 1. PRELIMINARI Campioni di Langue e Parole secondo De Saussure:UNIVERSO CAMPIONE LINGUA Langue CAMPIONE DI Langue Parola 1 Parola 2 Parola 5 Parole CAMPIONE DI Parole Parola 3 Parola 4 … Parola N Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 18
  19. 19. 1. PRELIMINARI La STATISTICA LINGUISTICA ha come obiettivo primario quello di spiegare i fatti linguistici servendosi delle tecniche e degli strumenti matematici della Statistica. Per realizzare questo obiettivo, lo scopo dei linguisti è quello di raccogliere in modo accurato i campioni, affinché i risultati dedotti corrispondano a verità e rispecchino le tendenze degli universi ai quali appartengono. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 19
  20. 20. 2. NOZIONI DI STATISTICA Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 20
  21. 21. 2. NOZIONI DI STATISTICA LE VARIABILIPer rilevare i caratteri di interesse dalle unità statistiche occorre servirsi dicontenitori dette variabili. QUALITATIVA: ha un numero finito di modalità, o categorie (ad esempio, la variabile genere ha solo 2 valori, che sono maschio o femmina, che possono essere resi in statistica, come 0 ed 1); ORDINALE: ha un numero finito di modalità, sulle quali è stabilito un criterio di ordinamento (ad esempio, la variabile titolo di studio ha 5 modalità tra loro ordinabili e cioè: elementare, medio, superiore, laurea, laurea magistrale); QUANTITATIVA: può avere un numero potenzialmente infinito di valori e può essere dotata di un’unità di misura (ad esempio la variabile peso in Kg). Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 21
  22. 22. 2. NOZIONI DI STATISTICA LA MEDIA ARITMETICA (M)Per applicare a un universo o popolazione i risultati raggiunti medianteuno studio su un campione, uno strumento fondamentale è la media. 𝑥1+𝑥2+⋯+𝑥𝑛 M= Ovvero: 𝑛 La somma di tutte le 𝑛 osservazioni (x) divisa il 𝑖=1 𝑥𝑖 1 𝑛 M= = 𝑖=1 𝑥𝑖 loro numero (n) 𝑛 𝑛 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 22
  23. 23. 2. NOZIONI DI STATISTICA LA MEDIA ARITMETICALa media costituisce la tendenza centrale della distribuzione di uninsieme di dati.Quando si parla di un campione, si usa il termine MEDIACAMPIONARIA. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 23
  24. 24. 2. NOZIONI DI STATISTICA Un esempio: In 9 tragedie di Racine compare l’aggettivo heureux (felice) 143 volte:Tragedia I II III IV V VI VII VIII IXOccorrenze 10 11 13 15 16 18 18 19 23 𝑥1+𝑥2+⋯+𝑥𝑛 143 M= 𝑛 = 9 = 15,89 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 24
  25. 25. 2. NOZIONI DI STATISTICA 𝑥1+𝑥2+⋯+𝑥𝑛 143 M= 𝑛 = 9 = 15,89 Sembrerebbe un risultato accettabile e logicamente corretto, ma non è così!!! In questo caso la Media ha uno scarso significato, perché:  è riferita a componimenti di diversa lunghezza (quindi sarebbe preferibile il calcolo percentuale);  Avremmo avuto lo stesso risultato con una serie qualunque di numeri che sommati dessero 143. In questo modo, quindi, si perde di vista l’obiettivo primario , cioè l’Opera presa in esame. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 25
  26. 26. 2. NOZIONI DI STATISTICAIl concetto di Media ha un valore relativo dal punto di vista scientifico.Un altro esempio:Se contiamo i versi di 12 canti della Divina Commedia (4 per cantica: ilVII, il VIV, il XXI e il XXVIII) si ottiene una media per canto di 141versi 𝑥1+𝑥2+⋯+𝑥𝑛 1692 M= = = 141 𝑛 12 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 26
  27. 27. 2. NOZIONI DI STATISTICA Tabella 1 Tabella 2 n Cantica Canto Versi n Cantica Canto Versi 1 Inferno VII 130 1 Inferno VIII 130 2 Inferno XIV 142 2 Inferno XVI 136 3 Inferno XXI 139 3 Inferno XXIV 151 4 Inferno XXVIII 142 4 Inferno XXXII 139 5 Purgatorio VII 136 5 Purgatorio VIII 139 6 Purgatorio XIV 151 6 Purgatorio XVI 145 7 Purgatorio XXI 136 7 Purgatorio XXIV 154 8 Purgatorio XXVIII 148 8 Purgatorio XXXII 160 9 Paradiso VII 148 9 Paradiso VIII 148 10 Paradiso XIV 139 10 Paradiso XVI 154 11 Paradiso XXI 142 11 Paradiso XXIV 154 12 Paradiso XXVIII 139 12 Paradiso XXXII 151 1692 1761M1= 141 M2= 146,75 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 27
  28. 28. 2. NOZIONI DI STATISTICAIn questo caso particolare, lo scarto tra le medie dei due diversicampioni è piccolo, quindi, in teoria, se si moltiplica il primo e ilsecondo risultato per il numero di versi del canto, si dovrebbe ottenereil totale, approssimato, dei versi di tutta l’Opera. Versi1= 141 × 100 = 14.100 Versi2= 146,75 × 100 = 14.675 La Divina Commedia conta complessivamente 14.233 versi. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 28
  29. 29. 2. NOZIONI DI STATISTICAEsistono casi in cui le valutazioni comprendono elementi non del tuttoregolari.In questi casi l’uso della Media da dei risultati errati e di molto lontanida quelli reali. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 29
  30. 30. 2. NOZIONI DI STATISTICAAnalizzando due campioni diversi dell’Orlando Furioso (che presentascarti molto forti tra un canto e l’altro), si verifica proprio questo:La Media falsa i risultati. Tabella Tabella 1 2 n Canto Versi n Canto Versi 1 VI 648 1 I 648 2 XII 752 2 VII 640 3 XVIII 1536 3 XIV 1008 4 XXIV 920 4 XXIV 576 5 XXX 760 5 XXVIII 816 6 XXXVI 672 6 XXXV 640 7 XLII 832 7 XLII 832 6120 5160 M1= 874,29 M2= 737 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 30
  31. 31. 2. NOZIONI DI STATISTICAProcedendo parallelamente, come si è fatto nell’esempio precedentedella Divina Commedia, si ottiene: Versi1= 874,29 × 46 = 40.217 Versi2= 737,14 × 46 = 33.909 L’Orlando Furioso conta complessivamente 38.672 versi. Quindi ENTRAMBI i risultati sono errati, perché troppo distanti dai valori reali. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 31
  32. 32. 2. NOZIONI DI STATISTICA LA MEDIANA (m) Rappresenta la misura della tendenza centrale della sequenza ordinata dei valori presi in esame. Divide le osservazioni in due parti. Se il numero di osservazioni è dispari, la mediana occupa il valore centrale, se è pari, è rappresentata dalla media dei due valori centrali.Tragedia I II III IV V VI VII VIII IXOccorrenze 10 11 13 15 16 18 18 19 23Tragedia I II III IV V VI VII VIII IX XOccorrenze 10 11 13 15 16 18 18 19 23 30 16 + 18 𝑀= = 17 2 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 32
  33. 33. 2. NOZIONI DI STATISTICASe M < m c’è un accumulo verso l’alto e la distribuzione è asimmetrica asinistra (Skewness negativa);Se M > m c’è un accumulo verso il basso e la distribuzione è asimmetrica aa destra (Skewness positiva); Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 33
  34. 34. 2. NOZIONI DI STATISTICA LA MODARappresenta la misura della tendenza dei valori ed è il valore piùfrequente di una distribuzione. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 34
  35. 35. 2. NOZIONI DI STATISTICA LA MEDIA PONDERATA (Mp)Si usa quando è fissato un sistema di pesi che danno diversa importanzaalle osservazioni. È il metodo usato per la media dei voti registrati su unlibretto universitario (il peso in quel caso sono i crediti dell’esame davalutare).Nella somma il valore di ogni unità statistica viene moltiplicato per ilproprio peso e tutto viene diviso per la somma dei pesi. 𝑛 𝑖 =1 𝑥𝑖 × 𝑝𝑖 Mp = 𝑛 𝑖 =1 𝑝𝑖La Media aritmetica è un caso di Mp in cui tutti i pesi sono uguali ad 1. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 35
  36. 36. 2. NOZIONI DI STATISTICALa Media Ponderata è molto utile in linguistica per lo studio delladistribuzione di frequenza di un dato fenomeno in un corpus. 𝑛 𝑖 =1 𝑥𝑖 × 𝑓𝑖 Mp = 𝑛 𝑖 =1 𝑓𝑖Con xi che rappresenta la lunghezza dei caratteri (quindi il peso che ifenomeni analizzati posseggono) e fi che rappresenta la frequenza deifenomeni (delle preposizioni nell’esempio che segue) che si voglionoanalizzare nel corpus. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 36
  37. 37. 2. NOZIONI DI STATISTICACon questo metodo è stato possibile analizzare, per esempio, ladistribuzione di frequenza di alcune preposizioni in 7 discorsi di fineanno del Presidente Ciampi. 𝑛 𝑖 =1 𝑥𝑖 × 𝑓𝑖 Mp = 𝑛 𝑖 =1 𝑓𝑖Sempre con xi che rappresenta la lunghezza dei caratteri (quindi il pesoche i fenomeni analizzati posseggono) e fi che rappresenta la frequenzadelle preposizioni (o dei fenomeni in genere) nel corpus. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 37
  38. 38. 2. NOZIONI DI STATISTICA n Preposizione Lunghezza in caratteri (x1) Frequenza (f1) Prodotti (x1 * f1) 1 di 2 996 1992 2 a 1 397 397 3 in 2 382 764 4 per 3 177 531 5 con 3 127 381 6 da 2 107 214 7 su 2 60 120 8 fra 3 32 96 9 tra 3 21 63 10 verso 5 10 50 11 senza 5 6 30 12 contro 6 5 30 13 dopo 4 5 20 14 oltre 5 5 25 15 attraverso 10 4 40 16 prima (di) 5 3 15 17 più 3 3 9 18 fuori 5 3 15 19 fino 4 2 8 20 durante 7 2 14 21 dentro 6 2 12 22 sino 4 2 8 23 sotto 5 1 5 24 lontano (da) 7 1 7 25 entro 5 1 5 107 2354 4851 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 38
  39. 39. 2. NOZIONI DI STATISTICA Applicando la formula: 𝑛 𝑖 =1 𝑥𝑖 × 𝑓𝑖 4851 Mp = 𝑛 = = 2,06 𝑖 =1 𝑓𝑖 2354Si deduce che nel corpus analizzato le proposizioni più frequenti sonoquelle che hanno, in media, una lunghezza di 2,06 caratteri. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 39
  40. 40. 2. NOZIONI DI STATISTICA LO SCARTO TIPO (s) O DEVIAZIONE STANDARDSi usa per valutare quanto determinati valori si discostano dalla media,per stabilire, cioè, la loro variazione. 𝑛 𝑖=1(𝑥𝑖 − 𝑀)2 s= 𝑛−1Cioè: la radice quadrata della sommatoria di ogni singolo valore (x)meno il valore medio (M) di tutti i valori al quadrato, fratto la numerosità(n) del campione meno 1. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 40
  41. 41. 2. NOZIONI DI STATISTICA Cioè: la radice quadrata della sommatoria di ogni singolo valore (x) meno il valore medio (M) di tutti i valori al quadrato, fratto la numerosità (n) del campione meno 1. 𝑛 − 𝑀)2 𝑖=1(𝑥𝑖 s= 𝑛−1 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 41
  42. 42. 2. NOZIONI DI STATISTICA La deviazione standard o scarto tipo o scarto quadratico medio è un indice di dispersione (vale a dire una misura di variabilità di una popolazione o di una variabile casuale) derivato direttamente dalla varianza (𝒔 𝟐 ). Ha la stessa unità di misura dei valori osservati (mentre la varianza ha come unità di misura il quadrato dellunità di misura dei valori di riferimento) e misura la dispersione dei dati intorno al valore atteso (M). Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 42
  43. 43. 2. NOZIONI DI STATISTICARicapitolando:Si divide la somma dei quadrati degli scarti (x-M)2 per il numero diosservazioni meno 1 (n - 1).Da questa divisione si ottiene la VARIANZA CAMPIONARIA(𝑠 2 ) . 𝑛 − 𝑀)2 𝑖=1(𝑥𝑖 𝑠2 = 𝑛−1Estraendone la radice quadrata, invece, si ottiene lo SCARTOTIPO CAMPIONARIO o DEVIAZIONE STANDARD(s). 𝑛 − 𝑀)2 𝑖=1(𝑥𝑖 s= 𝑛−1 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 43
  44. 44. 2. NOZIONI DI STATISTICAUn esempio:Valutazione in trentesimi riportata da un campione di 10 studenti. Scarto dalla Quadrato degli studente voto (x) voto medio (M) media (x-M) scarti (x-M) 𝟐 1 22 26 -4 16 2 23 26 -3 9 3 24 26 -2 4 4 26 26 0 0 5 26 26 0 0 6 27 26 1 1 7 27 26 1 1 8 27 26 1 1 9 28 26 2 4 10 30 26 4 16 260 0 52 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 44
  45. 45. 2. NOZIONI DI STATISTICA Varianza Campionaria 𝑛 𝑖=1(𝑥𝑖 −𝑀)2 52 𝑠2 = 𝑛−1 = 9 = 5,77 Scarto Tipo Campionario 𝑛 2 𝑖=1(𝑥𝑖−𝑀) 52 s= = = 2,40 𝑛−1 9Il 2,40 degli studenti ha ottenuto un voto che rientra nella media deivoti del campione. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 45
  46. 46. 2. NOZIONI DI STATISTICA Questa tecnica può essere usata anche per comparare diversi campioni e quindi può essere molto utile in campo linguistico per la comparazione di più corpus. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 46
  47. 47. 2. NOZIONI DI STATISTICA Tornando ad uno dei primi esempi: In 9 tragedie di Racine compare l’aggettivo heureux (felice) 143 volte:Tragedia I II III IV V VI VII VIII IXOccorrenze 10 11 13 15 16 18 18 19 23 𝑥1+𝑥2+⋯+𝑥𝑛 143 M= 𝑛 = 9 = 15,89 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 47
  48. 48. 2. NOZIONI DI STATISTICA Scarto dalla Quadrato deglitragedia frequenza (x) media (M) media (x-M) scarti (x-M) 𝟐 1 10 16 -6 36 2 11 16 -5 25 3 13 16 -3 9 4 15 16 -1 1 5 16 16 0 0 6 18 16 2 4 7 18 16 2 4 8 19 16 3 9 9 23 16 7 49 143 0 137 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 48
  49. 49. 2. NOZIONI DI STATISTICA 𝑥1+𝑥2+⋯+𝑥𝑛 143 M= = ≈ 16 𝑛 9 𝑛 2 𝑖=1(𝑥𝑖−𝑀) 137 s= = ≈4 𝑛−1 8La differenza tra il risultato che si ottiene (quello effettivo) e quelloteorico (media) è pari a 4.In ogni tragedia, rispetto alla media, il numero di heureux si puòdiscostare mediamente di 4 rispetto alla media(ha una probabilevariabilità pari a 4). Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 49
  50. 50. 2. NOZIONI DI STATISTICA I QUANTILIPer la descrizione della distribuzione di un fenomeno quantitativo eordinabile è possibile usare i Quantili, che permettono la ripartizionedella distribuzione in parti uguali.• QUARTILI;• DECILI;• PERCENTILI; Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 50
  51. 51. 2. NOZIONI DI STATISTICA I QUARTILIOUTLIERS OUTLIERS Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 51
  52. 52. 2. NOZIONI DI STATISTICA I DECILI Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 52
  53. 53. 2. NOZIONI DI STATISTICA I PERCENTILI III Quartile II Quartile o Mediana I Quartile Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 53
  54. 54. 2. NOZIONI DI STATISTICA TABELLA DI FREQUENZE • FREQUENZA ASSOLUTA (𝒇 𝒂 ): numero di occorrenze nel corpus; • FREQUENZA RELATIVA (𝒇 𝒓 ): si ha con il quoziente ottenuto dividendo 𝑓𝑎 per il numero n di osservazioni; • FREQUENZA PERCENTUALE (𝒇 𝒑 ): ottenuta con la moltiplicazione per 100 di 𝑓𝑟. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 54
  55. 55. 2. NOZIONI DI STATISTICA TABELLA DI FREQUENZE Frequenza Assoluta 𝒇 𝒂 = conteggio delle occorrenze; 𝑓𝑎 Frequenza Relativa 𝒇 𝒓= 𝑛 Frequenza Percentuale 𝒇 𝒑 = 𝑓𝑟 × 100 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 55
  56. 56. 2. NOZIONI DI STATISTICA TABELLA DI FREQUENZE Un esempio: Distribuzione per categorie grammaticali delle occorrenze nei 7 discorsi di Ciampi. n n(x) 𝒇𝒂 𝒇𝒓 𝒇𝒑 1 aggettivi 1762 0,14 14 2 avverbi 571 0,05 5 3 congiunzioni 628 0,05 5 4 articoli 1210 0,1 10 5 nomi 3187 0,25 25 6 preposizioni 2354 0,19 19 7 pronomi 767 0,06 6 8 verbi 1912 0,15 15 altro (nomi propri, 9 esclamazioni…) 178 0,01 1 260 12569 1 100 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 56
  57. 57. 2. NOZIONI DI STATISTICA COEFFICIENTE DI VARIAZIONEPermette di confrontare misure e fenomeni con unità di misura differenti.È un INDICE DI PRECISIONE di una misura.Due Scarti Tipo possono essere confrontati direttamente fra loro se: sono espressi nella stessa unità di misura; l’ordine di grandezza o dimensione della media è simile;Negli altri casi occorre semplicemente calcolare il rapporto tra lo ScartoTipo (s) e la Media (M). Il quoziente ottenuto è il Coefficiente divariazione (v): 𝑠 v = 𝑀 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 57
  58. 58. 2. NOZIONI DI STATISTICAEsempio: 𝑀1 = 8,0 𝑀2 = 5,0 𝑠1 = 2,28 𝑠2 = 1,6 2,28 1,6 𝑣1 = = 0,28 𝑣2 = = 0,32 8,0 5,0 𝑣1 0,28 𝑣1,2 = = = 0,88 = 88% 𝑣2 0,32Come proporzione: 𝑣1,2 𝑣1 : 𝑣2 = 88: 100 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 58
  59. 59. 2. NOZIONI DI STATISTICA PUNTEGGIO Z (O SCARTO RIDOTTO)Il punteggio z è il quoziente fra lo scarto dalla media e lo scarto tipo,serve a misurare di quanti “scarti tipo” un valore osservato distadalla media.Lo scarto ridotto è importante perché permette di valutare se levariazioni dalla media siano aleatorie o significativamente distanti. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 59
  60. 60. 2. NOZIONI DI STATISTICAPer riconoscere quali valori sono da considerare significativi si puòapplicare la seguente regola empirica:- I punteggi z compresi nell’intervallo (-2, +2 ) NON sonosignificativi;- I punteggi superiori a 2 o inferiori a -2 sono considerabili insoliti;- I punteggi superiori a 3 o inferiori a -3 possono essere consideratimolto insoliti. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 60
  61. 61. 2. NOZIONI DI STATISTICA LA STIMA INTERVALLARELa stima intervallare consiste nel calcolare, sulla base dei dati di uncampione, un intervallo di valori per cui sia possibile dire che il valore diun parametro cada al suo interno.L’intervallo rappresenta dunque sia la stima del valore delparametro sia l’incertezza associata alla stima. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 61
  62. 62. 2. NOZIONI DI STATISTICA ERRORE STANDARD (e) E INTERVALLO DI FIDUCIA Ovvero: 𝑠 Lo scarto diviso per la 𝑒= radice quadrata della 𝑛 dimensione del campione. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 62
  63. 63. 2. NOZIONI DI STATISTICA TEST SU UN CAMPIONEIl test statistico è una procedura che utilizza una sintesi dei daticampionari per saggiare la validità di un’ipotesi su una caratteristica dellapopolazione.In statistica, l’ipotesi che si intende verificare prende il nome di ipotesialternativa e si contrappone all’ipotesi nulla. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 63
  64. 64. 2. NOZIONI DI STATISTICASe il punteggio z presenta un valore assoluto inferiore a 2 si accettal’ipotesi nulla con un valore di significatività del 95%Viceversa, l’ipotesi nulla verrà rifiutata a vantaggio dell’ipotesialternativa. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 64
  65. 65. 2. NOZIONI DI STATISTICA MODELLI TEORICI PER LE PROPORZIONIFinora abbiamo preso in considerazione lo scarto tipo di unadistribuzione, ricorrendo a prove concrete, ma è importante anche poterconfrontare i risultati così ottenuti con un modello teorico.Parleremo quindi, parallelamente allo scarto tipo campionario, di unoscarto tipo teorico. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 65
  66. 66. 2. NOZIONI DI STATISTICAQuesto comporta due possibilità:- uno scarto tipo campionario circa uguale allo scarto tipo teorico, incui la distribuzione effettiva equivale a una distribuzione casuale;- uno scarto tipo superiore o inferiore allo scarto tipo teorico, in cui ladistribuzione reale è stata condizionata da cause diverse, che potrannoessere ricercate. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 66
  67. 67. 2. NOZIONI DI STATISTICA Un esempio:Calcoliamo i due scarti tipo prendendo come scarto base una traduzioneanonima in veneziano del I canto dell’Orlando furioso. Delle 4896occorrenze totali del canto, 232 sono che e ch’.Probabilità d’apparizione di ch(e) nel testo: p = 232/4896 = 0,047Perciò la possibilità che escano altre parole è: q = 1 – p = 0,953 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 67
  68. 68. 2. NOZIONI DI STATISTICADividiamo poi i 648 versi in 24 gruppi di 27 versi ciascuno (ognunoavente 204 parole). Il numero di ch(e) in ogni gruppo sarà dunque:nc = 204 × 0,047 = 9,588Quindi, secondo la distribuzione Binomiale, il 95% delle osservazionidovrebbe stare nell’intervallo da 4 a 16. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 68
  69. 69. n numero di che ( x – y) (x-y) 𝟐1 4 -5,667 32,1112 4 -5,667 32,1113 6 -3,667 13,4444 6 -3,667 13,4445 6 -3,667 13,4446 7 -2,667 7,1117 7 -2,667 7,1118 8 -1,667 2,7789 8 -1,667 2,77810 9 -0,667 0,44411 9 -0,667 0,44412 9 -0,667 0,44413 10 -0,333 0,11114 10 -0,333 0,11115 11 1,333 1,77816 11 1,333 1,77817 11 1,333 1,77818 12 2,333 5,44419 12 2,333 5,44420 13 3,333 11,11121 14 4,333 18,77822 14 4,333 18,77823 14 4,333 18,77824 17 7,333 53,778 232 0 263,333 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 69
  70. 70. 2. NOZIONI DI STATISTICAEssendo lo scarto tipo campionario solo leggermente superiore aquello teorico (determinato da un’estrazione aleatoria) dobbiamoconcludere che l’uso del ch(e) da parte dell’anonimo scrittoreveneziano sia del tutto regolare e non dettato da particolari sceltestilistiche. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 70
  71. 71. 2. NOZIONI DI STATISTICA VALUTARE LA DIFFERENZA TRA CAMPIONISpesso può risultare utile o necessario saggiare attraverso un test l’ipotesidi uguaglianza su due campioni indipendenti al fine di capire se questiprovengano o meno dalla stessa popolazione.Applicando la solita regola empirica del punteggio z otterremo che, convalori superiori a 2 possiamo rifiutare l’ipotesi nulla (l’ipotesi nulla inquesto caso è l’uguaglianza tra le due proporzioni, la derivazione unica). Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 71
  72. 72. 2. NOZIONI DI STATISTICA IL X² DI PEARSONCon il test di X² (o test di Pearson) è possibile misurare in probabilità loscarto tra un modello teorico e un’osservazione sperimentale.Avremo la seguente formula: E’ uguale alla sommatoria (da 1 a 𝑘 k) del quadrato della differenza fra (𝑓𝑖 − 𝑓𝑖 ∗ )2 frequenta osservata e frequenza 𝑋2 = 𝑓𝑖 ∗ teorica, fratto la frequenza teorica. 𝑖=1 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 72
  73. 73. 2. NOZIONI DI STATISTICA Un esempio: Osservato Teorico Scarto Quadrato Frazione dello scarto Fonema i 332 400 -68 4.624 11,56Altri fonemi 3.538 3.470 +68 4.624 1,33 3.870 3.870 0 12,89 La frequenza del fonema «i» nelle poesie di Gozzano. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 73
  74. 74. 2. NOZIONI DI STATISTICA L’ANALISI BIVARIATA DI VARIABILI QUALITATIVESulle osservazioni di un campione normalmente vengono rilevati piùcaratteri e uno degli scopi dell’analisi statistica è verificare l’esistenza di“relazioni” tra le variabili disponibili.Il caso più semplice è quello dell’analisi bivariata di caratteri qualitativi,cioè delle tecniche finalizzate a studiare il grado di associazione tra duevariabili qualitative. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 74
  75. 75. 2.NOZIONI DI STATISTICA INDICI DI CONNESSIONE L’indice di connessione lessicale corrisponde al rapporto tra la parte comune del vocabolario (o occorrenze) e il totale del vocabolario stesso. Per misurare il grado di connessione lessicale fra due testi è necessario che essi abbiamo all’incirca la stessa lunghezza. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 75
  76. 76. 3.UN ESPERIMENTO DI STATISTICA LESSICALE:le opere di Alessandro Baricco Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 76
  77. 77. 3. UN ESPERIMENTO DI STATISTICA LESSICALE PRIMI PASSI: 1. Scelta del testo e individuazione delle unità di analisi; 2. Media e dispersione; 3. Ricchezza lessicale; 4. Valutazione del lessico; Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 77
  78. 78. 3. UN ESPERIMENTO DI STATISTICA LESSICALE1. Scelta del testo e individuazione delle unità d’analisi: Specificare l’edizione del testo che verrà presa in analisi e tutti i meccanismi di inclusione o esclusione del testo adottati. Fornire quanta più chiarezza possibile ed obiettività, in modo da rendere ripetibile l’esperimento e non falsarlo. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 78
  79. 79. 3. UN ESPERIMENTO DI STATISTICA LESSICALE Alessandro Baricco• Castelli di rabbia, Milano, Rizzoli, 1991. ISBN 88-17-66039-6;• Oceano mare, Milano, Rizzoli, 1993. ISBN 88-17-66043-4;• Novecento. Un monologo, Milano, Feltrinelli, 1994. ISBN 88-07-81302-5;• Seta, Milano, Rizzoli, 1996. ISBN 88-17-66059-0;• City, Milano, Rizzoli, 1999. ISBN 88-17-86102-2;• Senza sangue, Milano, Rizzoli, 2002. ISBN 88-17-87017-X;• Mr Gwyn, Milano, Feltrinelli, 2011. ISBN 88-07-01862-4;• Tre volte all’alba, Milano, Feltrinelli, 2012. ISBN 88-07-01905-1; Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 79
  80. 80. 3. UN ESPERIMENTO DI STATISTICA LESSICALE Software open source per il conteggio delle parole: http://text-analyzer.softonic.it/ Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 80
  81. 81. 3. UN ESPERIMENTO DI STATISTICA LESSICALE NOVECENTO, UN MONOLOGO Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 81
  82. 82. 3. UN ESPERIMENTO DI STATISTICA LESSICALE Si sono considerate le parole complessive delle opere in questione, quindi, sono state riportante anche eventuali ripetizioni e omografi. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 82
  83. 83. 3. UN ESPERIMENTO DI STATISTICA LESSICALE Percentuale di occorrenze e d’uso di ogni parola del corpus. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 83
  84. 84. 3. UN ESPERIMENTO DI STATISTICA LESSICALE Lessemi che occorrono in forma concatenata in tutto il corpus. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 84
  85. 85. 3. UN ESPERIMENTO DI STATISTICA LESSICALE Hapax: lessemi che occorrono una sola volta in tutto il corpus. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 85
  86. 86. 3. UN ESPERIMENTO DI STATISTICA LESSICALE N= lunghezza del OPERA ANNO PAROLE (N) PAROLE DIVERSE (V) testo, cioè la somma totale delle frequenzeCastelli di rabbia 1991 52.989 8.466 delle parole, anche se ripetute. I tempiOceano mare 1993 47.395 7.461 composti e leNovecento 1994 12.041 2.755 locuzioni, però, sono considerati comeSeta 1996 15.063 3.188 un’unica parola;City 1999 87.068 10.875 V= vocabolario,Senza sangue 2002 15.770 2.920 cioè il numero delle parole diverse nelMr. Gwyn 2011 40.861 7.242 corpus in questione,Tre volte allalba 2012 15.835 3.016 senza tener conto della frequenza; Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 86
  87. 87. 3. UN ESPERIMENTO DI STATISTICA LESSICALE2. Calcolo della dispersione (R) del vocabolario (V):L= lessico. È la quantità indimostrata di parole che potenzialmente unindividuo conosce; • Estensione: numero di parole di cui è composto; • Struttura: rapporto delle frequenze di queste parole;Ld= lessico disperso. Utilizza quante più possibili parole diverse;Lc= lessico concentrato. Riutilizza le stesse parole. È fatto di ripetizioni.Parole forti: hanno un significato autonomo dal contesto (es. sostantivi,aggettivi, verbi e avverbi);Parole deboli: parole che acquistano significato in base al contesto in cui sitrovano (es. articoli, preposizioni, pronomi, congiunzioni ecc); Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 87
  88. 88. 3. UN ESPERIMENTO DI STATISTICA LESSICALER è l’indice di dispersione;C è l’indice di concentrazione; 𝑺𝒇 𝟓𝟎 è la somma delle frequenze delle prime 50 parole forti;N è il numero totale delle parole;Per tutte le parole Per le parole forti 𝑉 𝑉 𝑆𝑓50 𝑆𝑓50 𝑅𝑓 = 𝐶𝑓 = 𝑅= 𝐶= 2𝑁 𝑁 𝑁 2𝑁 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 88
  89. 89. 3. UN ESPERIMENTO DI STATISTICA LESSICALE Applicando la formula a Novecento di Baricco e analizzando tutte le parole, si ottiene, per esempio, come indice di dispersione: 𝑉 2.755 2.755 𝑅= = = = 25,10 𝑁 12.041 109,73 𝑉 2.755 2.755 𝑅𝑓 = 2𝑁 = 2 ×12.041 = 155,18 =17,75R da come risultato la dispersione delle parole meno frequenti, cherappresentano però una misura della ricchezza del vocabolario dal qualesono tratte. È un fenomeno legato alla caratterizzazione del testo e dipendedalla misura del corpus.Empiricamente risulta che, per testi di dimensioni comprese tra10000 e 50000 occorrenze, R vale circa 22 (Guiraud, P., Les caractères duvocabolaire. Essays de metodologie, Presses Universitaire de France, Paris, 1954 ). Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 89
  90. 90. 3. UN ESPERIMENTO DI STATISTICA LESSICALE L’indice di concentrazione, invece, sarà: 𝑆𝑓50 4.904 𝐶= = 12.041 = 0,40 𝑁 𝑆𝑓50 4.904 4.904 𝐶𝑓 = = 2 × 12.041 = 24.082 = 0,20 2× 𝑁Cioè la concentrazione delle parole più frequenti, o tematiche èpari a 0,20.È un fenomeno legato all’argomento del testo e alla motivazioneche lo origina.(Guiraud). Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 90
  91. 91. 3. UN ESPERIMENTO DI STATISTICA LESSICALE 3. La ricchezza lessicale: L’indice di ricchezza lessicale RL si ottiene calcolando la differenza tra l’indice di dispersione R per ogni opera e la sua media totale MR. 𝑅𝐿 = 𝑅 − 𝑀𝑅Si può valutare quanto questo indice (ricchezza lessicale RL) èsuperiore o inferiore alla media, con una semplice operazione: 𝑀𝑅 − 𝑅𝐿 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 91
  92. 92. 3. UN ESPERIMENTO DI STATISTICA LESSICALEPer studiare la ricercatezza del linguaggio 𝑹 𝟏 , invece: 𝑛 𝑖=1 𝑉1 𝑖 𝑅1 = 𝑛 𝑖=1 𝑉Dove 𝑉1 sono gli hapax, ossia le parole che occorrono una sola voltaSi usa come un indice di “ricercatezza del linguaggio” solitamente (ma nonsempre) per confrontare testi di pari dimensioni. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 92
  93. 93. 3. UN ESPERIMENTO DI STATISTICA LESSICALE 4. La valutazione del lessico: Per stabilire l’entità del patrimonio linguistico del lessico, si usa, invece, la semplice proporzione, in cui l’incognita è rappresentata da Lx: MR : ML = R : Lx Lx sarà uguale alla media del lessico totale (35,86) di ogni opera moltiplicata per l’indice di dispersione dell’opera specifica da valutare, il tutto diviso per la media totale (ottenuta dagl’indici di dispersione di ogni opera). Per comodità il risultato viene ulteriormente diviso per 1000, in modo da ottenere un numero gestibile dal punto di vista statistico Il risultato sarà poi confrontato sia con la media della ricchezza lessicale MRL sia con la ricchezza lessicale RL . Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 93
  94. 94. 3. UN ESPERIMENTO DI STATISTICA LESSICALE Mettendo in pratica queste analisi per tutte le opere analizzate si otterranno i valori riportati nelle seguenti tabelle: OPERA ANNO PAROLE (N) PAROLE DIVERSE (V)Castelli di rabbia 1991 52.989 8.466Oceano mare 1993 47.395 7.461Novecento 1994 12.041 2.755Seta 1996 15.063 3.188City 1999 87.068 10.875Senza sangue 2002 15.770 2.920Mr. Gwyn 2011 40.861 7.242Tre volte allalba 2012 15.835 3.016 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 94
  95. 95. 3. UN ESPERIMENTO DI STATISTICA LESSICALE RICCHEZZA LESSICALE RISPETTO RICERCATEZZA PAROLE DIVERSE DISPERSIONE DISPERSIONE MEDIA DI R ALLA MEDIA DEL PATRIMONIO OPERA ANNO PAROLE (N) (V) [R] [Rf] [MR] [RL] HAPAX LINGUAGGIO [R1] LINGUISTICOCastelli di rabbia 1991 52.989 8.466 36,78 26,01 30,25 6,52 4.979 3,14 43,614 Oceano mare 1993 47.395 7.461 34,27 24,23 4,02 4.298 3,57 40,642Novecento 1994 12.041 2.755 25,11 17,75 -5,15 1.672 9,66 29,774 Seta 1996 15.063 3.188 25,98 18,37 -4,28 1.830 8,35 30,804 City 1999 87.068 10.875 36,86 26,06 6,60 5.950 2,45 43,706 Senza sangue 2002 15.770 2.920 23,25 16,44 -7,00 1.618 9,12 27,575Mr. Gwyn 2011 40.861 7.242 35,83 25,33 5,57 4.541 3,68 42,486Tre volte Alessia Pierfederici e Mariagiovanna Scarale, allalba 2012 15.835 3.016 23,97 Linguistica Italiana II a.a. 2012/2013 16,95 -6,29 1.732 8,83 28,423 95
  96. 96. 3. UN ESPERIMENTO DI STATISTICA LESSICALEApplicando un metodo di astrazione e di inferenza superiore, possiamoconsiderare i corpus analizzati come un unico blocco, arrivando così alleconclusioni (ovviamente in questo caso si parlerà di medie e valoriapprossimati, dato che ognuno presenterà uno scarto che lodifferenzierà dagli altri, e non di valori precisi).Strumento indispensabile per questo passo è un elaboratore di foglielettronici, come Microsoft Excel (per Windows) o Open Office (per lealtre piattaforme). Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 96
  97. 97. 3. UN ESPERIMENTO DI STATISTICA LESSICALE 100.000 Il rapporto tra il 90.000 80.000 Lessico (N) e il 70.000 Vocabolario (V). 60.000 50.000 È evidenziato 40.000 30.000 PAROLE (N) l’andamento per ogni 20.000 PAROLE DIVERSE (V) opera (asse x). 10.000 0100.000 L’andamento del 90.000 Vocabolario è 80.000 pressappoco costante 70.000 e non dipende, 60.000 PAROLE (N) apparentemente, 50.000 40.000 PAROLE DIVERSE (V) dall’andamento del 30.000 Lessico. 20.000 Le opere sono 10.000 sempre riportate 0 1 2 3 4 5 6 7 8 sull’asse x. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 97
  98. 98. 3. UN ESPERIMENTO DI STATISTICA LESSICALE40,0035,00 Il rapporto tra30,00 l’indice di25,00 dispersione20,00 DISPERSIONE [R] complessivo (R) e15,00 DISPERSIONE [Rf] l’indice di10,00 dispersione per le 5,00 parole forti (Rf). 0,00 È evidenziato 1 2 3 4 5 6 7 8 l’andamento per ogni opera (asse x). 40,00 35,00 30,00 Il rapporto l’indice di 25,00 dispersione Medio e MEDIA DI R [MR] 20,00 la ricchezza lessicale. RAPPORTO DI [RL] 15,00 CON LA MEDIA [MR] 10,00 5,00 0,00 1 2 3 4 5 6 7 8 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 98
  99. 99. 3. UN ESPERIMENTO DI STATISTICA LESSICALE HAPAX 7.000 6.000 5.000 La distribuzione di 4.000 frequenza degli hapax 3.000 HAPAX nelle opere. 2.000 1.000 0 1 2 3 4 5 6 7 8 Distribuzione del Patrimonio Linguistico negli anni 50000Patrimonio Linguistico 45000 40000 35000 La distribuzione del 30000 25000 patrimonio 20000 15000 linguistico dell’autore 10000 nel corso degli anni. 5000 0 1 2 3 4 5 6 7 8 ANNO 1991 1993 1994 1996 1999 2002 2011 2012 PATRIMONIO 43614 40642 29774 30804 43706 27575 42486 28423 LINGUISTICO Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 99
  100. 100. 3. UN ESPERIMENTO DI STATISTICA LESSICALE ALTRI STRUMENTI: LINGUISTICA COMPUTAZIONALE E PYTHON Studi di questo tipo possono essere adeguatamente «personalizzati» ed adattati alle esigenze del ricercatore con i più moderni strumenti della Linguistica Computazionale, disciplina in costante evoluzione. A tal proposito risulta interessante l’efficacia dell’uso di un linguaggio di programmazione come il Python, anche se alcune modalità di ricerca nei corpora risultano ancora acerbe e male adattate in italiano (ad esempio la ricerca dalle parole forti). Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 100
  101. 101. 3. UN ESPERIMENTO DI STATISTICA LESSICALE Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 101
  102. 102. 3. UN ESPERIMENTO DI STATISTICA LESSICALE Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 102
  103. 103. 4. ANALISI DI UN FENOMENO NEL PARLATO E NELLO SCRITTO Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 103
  104. 104. 4. ANALISI DI UN FENOMENO OGGETTO DELL’ANALISI Per prima cosa abbiamo individuato il fenomeno linguistico che ci interessava analizzare all’interno dei corpus. Abbiamo scelto di analizzare il fenomeno di: “quello che è” (“quelli che sono”) utilizzato come RIEMPITIVO all’interno della frase. Il fenomeno è classificabile come tratto dell’italiano neostandard o substandard. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 104
  105. 105. 4. ANALISI DI UN FENOMENO CAMPIONE D’ANALISI Abbiamo deciso di analizzare il fenomeno sia all’interno della dimensione dell’italiano scritto (attraverso l’interrogazione di corpora giornalistici) che nella forma parlata. Per fare questo ci siamo serviti di due strumenti di analisi che andremo adesso a presentare. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 105
  106. 106. 4. ANALISI DI UN FENOMENO ANALISI DEL PARLATO Per l’analisi del parlato abbiamo utilizzato la risorsa del BADIP (Banca dati dello italiano parlato), creata e gestita dall’Università di Graz. All’interno del database si trovano comunicazioni orali ottenute delle situazioni comunicative più disparate. Comunicazioni a casa, sul luogo di lavoro e nelle scuole, ma anche telefonate, interviste, convegni, assemblee studentesche, trasmissioni televisive e radiofoniche. URL: http://badip.uni-graz.at/ Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 106
  107. 107. 4. ANALISI DI UN FENOMENO L’interfaccia grafica con cui l’utente si viene a relazionare appare gradevole e di chiara comprensione. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 107
  108. 108. 4. ANALISI DI UN FENOMENO RISULTATI Totale Riempitivo Percentuale occorrenze Quello che è 0 - -Quelli che sono 28 19 67,8% Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 108
  109. 109. 4. ANALISI DI UN FENOMENOProvenienza dei parlanti: 47% Milano (Nel campione sono presenti le città di Firenze, Napoli, Roma e Milano).Tipologie di comunicazioni: 41,1% scambio comunicativo unidirezionale in presenza del/i destinatario/i (es. lezioni universitarie, comizi politici, arringhe giudiziarie). 41,1% scambio comunicativo unidirezionale o bidirezionale a distanza o differito su testo non scritto (es. trasmissione televisiva o radiofonica). 17,8% scambio comunicativo bidirezionale con presa di parola non libera faccia a faccia (es. assemblee, dibattiti, esami universitari). Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 109
  110. 110. 4. ANALISI DI UN FENOMENO ANALISI DELLO SCRITTO Per quanto riguarda la ricerca del fenomeno nella sua dimensione scritta, abbiamo utilizzato una risorsa nata nel contesto degli studi linguistici dell’Università di Bologna, risalente al 2011: Il corpus CORIS (Corpus di italiano scritto), a cui sono stati applicati gli appositi filtri per consentire una ricerca mirata ai soli articoli di quotidiani. URL della risorsa: http://corpora.dslo.unibo.it/TCORIS/ Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 110
  111. 111. 4. ANALISI DI UN FENOMENO L’interfaccia grafica appare anche qui “amichevole” e si presta ad interrogazioni da parte di varie tipologie di utenti . Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 111
  112. 112. 4. ANALISI DI UN FENOMENO RISULTATI Totale Riempitivo Percentuale occorrenze Quello che è 471 16 3,4%Quelli che sono 94 14 14,9% Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 112
  113. 113. Alessia Pierfederici – Mariagiovanna ScaraleGRAZIE PER LA VOSTRA ATTENZIONE Seminario di Linguistica italiana II (prof. Mirko Tavoni), a.a. 2012/2013

×