Dispensa di analisi dei dati

9,214 views

Published on

0 Comments
5 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
9,214
On SlideShare
0
From Embeds
0
Number of Embeds
32
Actions
Shares
0
Downloads
332
Comments
0
Likes
5
Embeds 0
No embeds

No notes for slide

Dispensa di analisi dei dati

  1. 1. Dispensa di Analisi dei Dati S B V  Versione non definitiva. Licenza Creative commons
  2. 2.
  3. 3. Indice Introduzione allanalisi dei dati  . Analisi dei dati: a cosa serve? . . . . . . . . . . . . . . . . . . . . . . .  .. Un esempio: twier e la borsa . . . . . . . . . . . . . . . . . .  . La ricerca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Aeggiamento critico . . . . . . . . . . . . . . . . . . . . . . .  . Validità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Tipi di validità . . . . . . . . . . . . . . . . . . . . . . . . . . .  . Lanalisi dei dati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Statistica esplorativa . . . . . . . . . . . . . . . . . . . . . . .  .. Statistica descriiva univariata . . . . . . . . . . . . . . . . . .  .. Statistie esplorative bivariate . . . . . . . . . . . . . . . . . .  . Statistica inferenziale . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Gli errori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Campionamento . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Intervalli di confidenza . . . . . . . . . . . . . . . . . . . . . .  .. Testare unipotesi . . . . . . . . . . . . . . . . . . . . . . . . .  .. Scegliere la statistica appropriata . . . . . . . . . . . . . . . . .  . Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  Lapproccio simulativo  . Gli errori di campionamento . . . . . . . . . . . . . . . . . . . . . . .  .. Distribuzione degli errori . . . . . . . . . . . . . . . . . . . . .  . Introduzione allapproccio simulativo . . . . . . . . . . . . . . . . . . .  .. Generare popolazione e campioni . . . . . . . . . . . . . . . .  .. Campioni di numerosità  . . . . . . . . . . . . . . . . . . . .  . Intervallo di confidenza . . . . . . . . . . . . . . . . . . . . . . . . . .  . Bootstrapping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Generare molti campioni da un campione . . . . . . . . . . . .  .. Confronto fra le distribuzioni . . . . . . . . . . . . . . . . . . .  .. Usare lapproccio parametrico . . . . . . . . . . . . . . . . . .  
  4. 4.  INDICE Intervallo di confidenza, calcolo parametrico  . Lintervallo di confidenza . . . . . . . . . . . . . . . . . . . . . . . . .  .. La simulazione . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Dalla simulazione alla stima . . . . . . . . . . . . . . . . . . .  .. La distribuzione t di Student . . . . . . . . . . . . . . . . . . .  . Confronto fra un campione ed una popolazione . . . . . . . . . . . . .  .. Il p-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Primo esempio . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Secondo esempio . . . . . . . . . . . . . . . . . . . . . . . . .  Confronto fra variabili categoriali: χ2  . Variabili nominali . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  . Confronto di una distribuzione campionaria con una distribuzione teorica  .. Un esempio: distribuzione occupati . . . . . . . . . . . . . . .  . Stima dellerrore . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  . La simulazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  . La distribuzione χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. La funzione isq.test . . . . . . . . . . . . . . . . . . . . . . .  . Confronto fra due variabili nominali . . . . . . . . . . . . . . . . . . .  .. Calcolare le frequenze aese . . . . . . . . . . . . . . . . . . .  T test: confronto fra medie di due campioni  . Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  . Calcolo non parametrico . . . . . . . . . . . . . . . . . . . . . . . . . .  .. La simulazione . . . . . . . . . . . . . . . . . . . . . . . . . .  .. La distribuzione U Mann-Whitney-Wilcoxon . . . . . . . . . .  . Approccio parametrico . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Assunzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. R: p-value usando la distribuzione . . . . . . . . . . . . . . . .  .. Uso della funzione t.test . . . . . . . . . . . . . . . . . . . .  .. Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . .  Correlazione e regressione lineare  . Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. La rea di regressione . . . . . . . . . . . . . . . . . . . . . . .  . Analisi inferenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Correlazione e causazione . . . . . . . . . . . . . . . . . . . .  .. Modelli Lineari Generalizzati . . . . . . . . . . . . . . . . . . .  . Approccio intuitivo . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. La simulazione . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Alcuni esempi . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Uso della distribuzione teorica . . . . . . . . . . . . . . . . . .  . Regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Regressione lineare: il modello . . . . . . . . . . . . . . . . . .  .. Assunti della regressione lineare . . . . . . . . . . . . . . . . .  .. R: la funzione lm () . . . . . . . . . . . . . . . . . . . . . . . 
  5. 5. INDICE  .. Varianza dei residui, R2 . . . . . . . . . . . . . . . . . . . . .  . Violazione degli assunti . . . . . . . . . . . . . . . . . . . . . . . . . .  . Coefficiente di Spearman . . . . . . . . . . . . . . . . . . . . . . . . .  .. arto esempio, sigmoide . . . . . . . . . . . . . . . . . . . .  . Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  Analisi della Varianza  . Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Confronto a coppie . . . . . . . . . . . . . . . . . . . . . . . .  . Varianze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Varianza spiegata e previsioni . . . . . . . . . . . . . . . . . .  .. Un esempio: gli affii in una cià . . . . . . . . . . . . . . . .  . Inferenza e previsioni . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Lanalisi della Varianza . . . . . . . . . . . . . . . . . . . . . .  . Distribuzione dellerrore, inferenza . . . . . . . . . . . . . . . . . . . .  .. La distribuzione Fisher-Snedecor . . . . . . . . . . . . . . . . .  .. R: uso di aov . . . . . . . . . . . . . . . . . . . . . . . . . . . .  . Anova a due vie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Due variabili indipendenti . . . . . . . . . . . . . . . . . . . .  .. Un esempio: antidepressivi e aività aerobica . . . . . . . . . .  .. Il calcolo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Modello lineare . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Lesempio dei traamenti per la depressione . . . . . . . . . . .  . Confronti multipli . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. La correzione di Bonferroni . . . . . . . . . . . . . . . . . . . .  .. Il test di Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Analisi della Varianza: assunti . . . . . . . . . . . . . . . . . .  . Test non parametrico . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Il test di Kruskal-Wallis . . . . . . . . . . . . . . . . . . . . . .  . Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  Casi di studio  . Il framing effect nella scelta di un paceo turistico: un esperimento on line . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Metodo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . .  . Depressione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  . Confronto fra  variabili ad intervalli . . . . . . . . . . . . . . . . . . .  .. Disegno i grafici delle  variabili . . . . . . . . . . . . . . . . .  .. Correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . .  . Differenza fra masi e femmine . . . . . . . . . . . . . . . . . . . . .  .. Test non parametrico . . . . . . . . . . . . . . . . . . . . . . .  . estionario parole-non parole . . . . . . . . . . . . . . . . . . . . . .  .. Filtro i dati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 
  6. 6.  INDICE .. Rapporto fra scolarità e media di risposte corree . . . . . . . .  .. Confronto per genere . . . . . . . . . . . . . . . . . . . . . . .  . Il problema della violazione degli assunti . . . . . . . . . . . . . . . . .  .. Possibili soluzioni . . . . . . . . . . . . . . . . . . . . . . . . .  . Calcolo su dati artificiali . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Analisi della varianza a due vie . . . . . . . . . . . . . . . . . A Primi passi con R  A. Scaricare e avviare R . . . . . . . . . . . . . . . . . . . . . . . . . . . .  A.. Scaricare R . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  A.. Usare R come una calcolatrice . . . . . . . . . . . . . . . . . .  A.. Operazioni booleane . . . . . . . . . . . . . . . . . . . . . . .  A. Help . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  A. Funzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  A.. Creare e manipolare matrici . . . . . . . . . . . . . . . . . . .  A.. Filtri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  A.. Data frames . . . . . . . . . . . . . . . . . . . . . . . . . . . .  A.. Liste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  A. Le distribuzioni teorie . . . . . . . . . . . . . . . . . . . . . . . . . .  A.. La distribuzione normale . . . . . . . . . . . . . . . . . . . . .  A.. Altre distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . B R: analisi descrittiva  B. Analisi descriive . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  B.. Leggere un file di dati . . . . . . . . . . . . . . . . . . . . . . .  B.. Visualizzare il sommario . . . . . . . . . . . . . . . . . . . . .  B.. Variabili nominali . . . . . . . . . . . . . . . . . . . . . . . . .  B.. Variabili a rapporti . . . . . . . . . . . . . . . . . . . . . . . . 
  7. 7. Capitolo Introduzione allanalisi dei datiIndice . Analisi dei dati: a cosa serve? . . . . . . . . . . . . . . . . . . .  .. Un esempio: twier e la borsa . . . . . . . . . . . . . . . .  . La ricerca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Aeggiamento critico . . . . . . . . . . . . . . . . . . . .  . Validità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Tipi di validità . . . . . . . . . . . . . . . . . . . . . . . .  . Lanalisi dei dati . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Statistica esplorativa . . . . . . . . . . . . . . . . . . . . .  .. Statistica descriiva univariata . . . . . . . . . . . . . . .  .. Statistie esplorative bivariate . . . . . . . . . . . . . . .  . Statistica inferenziale . . . . . . . . . . . . . . . . . . . . . . .  .. Gli errori . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Campionamento . . . . . . . . . . . . . . . . . . . . . . .  .. Intervalli di confidenza . . . . . . . . . . . . . . . . . . .  .. Testare unipotesi . . . . . . . . . . . . . . . . . . . . . . .  .. Scegliere la statistica appropriata . . . . . . . . . . . . . .  . Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Analisi dei dati: a cosa serve? ``I keep saying that the sexy job in the next  years will be statisticians. And Im not kidding. Hal Varian, ief economist at GoogleLa citazione è traa da un articolo apparso sul New York Times nellagosto . Con losvilupparsi di internet e delle nuove tecnologie, sostiene larticolo, vivremo in un mondodove tuo può essere misurato, dove il numero di informazioni di tipo quantitativo èdestinato a crescere di anno in anno. Il problema, notano, è e affiné questi dati ab-biano un senso, è necessario trasformarli in informazioni e conoscenza. Per fare questo,i dati vanno analizzati. La statistica e lanalisi dei dati sono fra gli strumenti necessariper meere in ao questa trasformazione. Dati, informazioni, conoscenza. 
  8. 8.  CAPITOLO . INTRODUZIONE ALLANALISI DEI DATI Lanalisi dei dati, dunque, può essere utilizzata per trasformare i dati raccolti daosservazioni empirie in informazioni e, allinterno di un contesto conoscitivo, ac-crescono la conoscenza degli individui e delle organizzazioni. Larticolo del New York Times enfatizza principalmente la conoscenza applicativa,finalizzata ad oenere risultati pratici. Lanalisi dei dati può essere utilizzata ane perfare delle previsioni... Un esempio: twitter e la borsaRecentemente, è stato pubblicato un articolo (Bollen et al., ) in cui dei ricercatorihanno analizzato il flusso di status su twier, hanno analizzato la frequenza di alcunitermini lessicali legati al tono dellumore e allo stato emozionale. Ebbene, la ricerca haevidenziato e: X questo tipo di analisi riesce a misurare il tono dellumore degli utenti twier; X questa misura ha una capacità significativa di prevedere, di due o tre giorni, lan- damento della borsa di New York.esto lavoro è un esempio interessante non solo dellimportanza dellanalisi dei dati, maane di alcuni aspei metodologici. I ricercatori, infai, si sono posti alcune domande: X gli utenti twier tendono ad esprimere, nei loro post, ane il loro umore? X è possibile analizzare lumore di un tweet verificando la presenza di determinati termini lessicali? X è possibile correlare questi termini con dei costrui psicologici? X è ipotizzabile e esista, oltre allo stato dellumore individuale, ane uno sta- to dellumore colleivo? Ovvero, è possibile e, in un determinato giorno o in un determinato periodo, una popolazione di individui tenda a provare le stesse emozioni? X è possibile e -- ammesso e esista -- questo umore colleivo abbia uninfluen- za su alcuni comportamenti o su alcuni indici economici? Ad esempio, lumore colleivo ha una relazione con landamento della borsa? Per rispondere a queste domande, Bollen et al. () hanno adoato un approccioempirico. In primo luogo, hanno studiato la leeratura. Il loro articolo riporta alcunericere e indicano come lanalisi testuale dei blog sia capace di fare delle previsioni sulsuccesso dei film nelle sale cinematografie, e dallanalisi delle at si possa prevederelandamento della vendita di libri. Inoltre, citano un lavoro e dimostra come il publicsentiment, lopinione colleiva degli utenti dei social network relativi ad un film siacapace di prevederne il successo commerciale. In secondo luogo vengono citati una serie di lavori e di teorie socio-cognitive edimostrano come le emozioni hanno uninfluenza sui processi decisionali. Citano deilavori e mostrano come le emozioni abbiano un ruolo ane nellambito economico-finanziario.
  9. 9. .. ANALISI DEI DATI: A COSA SERVE?  Gli autori fanno dunque unipotesi: è ragionevole assumere, dicono, e le emozioni elumore del pubblico possano avere uninfluenza sui valori del mercato azionario. Citanouna ricerca e ha indagato proprio questo aspeo, arrivando a conclusioni a supportodi questipotesi. Il loro lavoro, dunque, si basa su alcune ipotesi verosimili, supportate da una serie diricere fae da altri ricercatori, e ne confermano la plausibilità. I ricercatori esprimo-no degli interessi, potremmo dire delle curiosità. Si pongono delle domande: esiste unumore colleivo? esto umore colleivo può avere un impao su aspei importantidella vita delle persone e delle organizzazioni? È possibile misurare questo umore? La leeratura sullargomento sembra rispondere positivamente a queste domande.Lumore colleivo è misurabile, ed è un indicatore interessante. Misurarlo con strumentitradizionali (ad esempio con i questionari e i sondaggi nazionali) è però molto costoso,osservano. Esiste il modo di misurare quel parametro in maniera altreando efficace mameno costosa? Un modo alternativo per misurare il parametro, osservano, è quello di utilizzareinternet e le moderne tecnologie per raccogliere lenorme mole di dati pubblicati dagliutenti internet sui social network, identificare degli indicatori capaci di cogliere quellamisura, e araverso opportune analisi trasformare questi indicatori in una misura capacedi stimare il parametro. Gli autori, dunque, fanno una seconda ipotesi: sebbene un tweet sia lungo al mas-simo  caraeri, lanalisi di milioni di questi tweet può offrire una rappresentazioneaccurata dellumore colleivo. Ane in questo caso, lipotesi è supportata da alcunilavori sperimentali, e vengono citati. Bollen et al. () esprimono lipotesi centrale del loro lavoro: In this paper we investigate whether public sentiment, as expressed in large- scale collections of daily Twier posts, can be used to predict the sto market. I ricercatori hanno fao unindagine empirica (sebbene non sperimentale) per valu-tare la loro ipotesi. Hanno raccolto quasi  milioni di tweet, di circa .. utenti.Araverso degli strumenti di analisi testuale, hanno calcolato la presenza o meno ditermini generalmente utilizzati, nella lingua inglese, per esprimere il proprio umore.Ane in questo caso, hanno utilizzato degli indicatori noti in leeratura, sebbene daloro modificati per meglio adaarsi alla loro ricerca. Partendo da questo lavoro di data-mining (di estrazione di informazioni) Bollen et al.() hanno oenuto alcuni indicatori. Uno, relativo al tono dellumore (positivo vs.negativo). Altri sei indicatori, correlati ai costrui psicologici di calma, allerta, sicurezza,vitalità, gentilezza e felicità. Araverso opportune trasformazioni, hanno calcolato, perognuna di queste dimensioni, landamento giornaliero del sentimento pubblico. Per verificare e questi indici misurassero davvero i costrui e nominalmente rap-presentano, hanno identificato due momenti e, si suppone, potevano avere un forte im-pao emotivo: lelezione del presidente Obama e il giorno del ringraziamento. Ebbene,in concomitanza con questi due eventi, i sismografi Utilizzando le API di twier, hanno raccolto ----------
  10. 10.  CAPITOLO . INTRODUZIONE ALLANALISI DEI DATI. La ricercaLa ricerca scientifica è una aività struurata, finalizzata ad accrescere la conoscenza,teorica e applicativa, araverso un aeggiamento empirico. Allinterno del processodi ricerca vi sono aività di acquisizione, analisi ed interpretazione dei dati. Lacqui-sizione è finalizzata a raccogliere i dati, lanalisi è finalizzata a trasformare i dati ininformazioni, linterpretazione a trasformare linformazione in conoscenza. La ricerca usa procedure, metodi e tecnie coerenti con una specifica scelta episte-mologica e metodologica. Tali procedure, metodi e tecnie sono scelti in base alla lorovalidità e affidabilità. Infine, laeggiamento scientifico dovrebbe rispeare dei crite-ri di obieività, ed evitare ogni forma di manipolazione finalizzata a piegare i risultatialle ipotesi del ricercatore. Uno dei fini dellutilizzo di procedure, metodi e tecniestandardizzate è proprio quello di rispeare dei ragionevoli criteri di obieività. La ricerca scientifica, dunque, dovrebbe essere -- nel limite del possibile -- unaaività controllata, rigorosa, sistematica, valida, verificabile, empirica, e critica.Attività controllata Una delle finalità del metodo sperimentale è quella di misurarela relazione fra due variabili, minimizzando gli effei di faori estranei. Il criterio dellacontrollabilità è più facile da oenere quando laività di ricerca avviene in un contestoil più possibile controllato, quale il laboratorio sperimentale.Ricerca qualitativa Lo svantaggio della ricerca in laboratorio, soprauo nellambitodelle scienze sociali e psicologie, è e la controllabilità implica la semplificazione delseing. Per questo motivo, ad un approccio streamente sperimentale e quantitativo, èspesso necessario affiancare delle aività di ricerca di tipo più qualitativo e, sebbenemeno solide dal punto di vista inferenziale, possono permeere alla comunità scientifi-ca di avere una più completa visione dinsieme, e possono permeere di meglio conte-stualizzare ane i risultati, più particolari, delle ricere sperimentali più streamentecontrollate e quantitative. In termini epistemologici, questo aeggiamento viene definito pluralismo metodo-logico, mentre lidea e un solo tipo di approccio empirico e conoscitivo sia possibile èdefinito monismo metodologico.Rigorosità Il conceo di rigorosità si riferisce ad un aeggiamento epistemologicofinalizzato ad identificare misure, strumenti e metodi e siano rilevanti, appropriati egiustificati (teoricamente ed empiricamente).Sistematicità Indica e la procedura adoata segue una iara sequenza logica... Atteggiamento criticoLidea di aeggiamento critico, di sano sceicismo da parte del ricercatore, è la quin-tessenza del pensiero epistemologico di Popper. Secondo Popper la ricerca scientifica
  11. 11. .. LA RICERCA dovrebbe vivere di due momenti: a formulazione di ipotesi; b processo di falsificazio-ne delle ipotesi. In questa prospeiva, è il ricercatore stesso e, araverso il metodosperimentale, cerca di falsificare le proprie ipotesi e le proprie teorie. In realtà, un simile aeggiamento autocritico è difficile da mantenere, ane peré,per un ricercatore, è molto più gratificante confermare la validità delle proprie ipotesi efalsificarle. Ciononostante, questo approccio critico è considerato talmente importantee vi sono due meccanismi metodologici, fortemente consolidati, finalizzati proprio arafforzare questo aeggiamento. Il peer reviewing Uno dei due meccanismi finalizzato a mantenere laeggiamen-to critico è il meccanismo del peer reviewing: prima e un lavoro scientifico vengaacceato (e dunque pubblicato su di una rivista scientifica), deve passare al vaglio dialtri ricercatori. esto esame fra colleghi avviene in forma anonima, ed è finalizzatoproprio a garantire e, prima di venir pubblicato, il lavoro sia analizzato aentamente econ ocio critico per valutarne sia il rispeo dei principi epistemologici e metodologici,di validità e la rilevanza scientifica. Falsificazione e ipotesi nulla In secondo luogo, lapproccio falsificazionista staalla base della statistica inferenziale. Come vedremo nei prossimi paragrafi e nel corsodellintera dispensa, la statistica inferenziale è finalizzata a valutare quanto le misureoenute siano aribuibili al caso. Nel confronto fra due (o più) variabili, ad esempio,si cerca di capire se fra le variabili vi è una relazione. Per fare questo, si identifica unastatistica, ovvero una procedura di calcolo araverso cui si oiene un valore numerico.Il fine del processo inferenziale è stabilire se quel valore numerico va aribuito al caso(allerrore di campionamento) o alla relazione fra le variabili. Per fare questo, si formulano due ipotesi: lipotesi nulla (H0 ) assume e il valorenumerico misurato sia aribuibile al caso, e e dunque, dallanalisi faa, non si possadedurre e vi sia una relazione. Lipotesi alternativa (HA ) assume invece e il valorenumerico non sia aribuibile al caso, e dunque si possa inferire e la relazione esiste. Ebbene, il processo inferenziale si basa sul rifiuto (ovvero, sulla falsificazione) del-lipotesi nulla. Se il valore numerico calcolato è superiore (o inferiore, a seconda deicasi) ad un valore critico, si rifiuta lipotesi nulla, ovvero si falsifica lipotesi e non visia relazione fra le variabili. In caso contrario, lipotesi nulla non viene rifiutata, ma sirifiuta lipotesi alternativa. In God we trust, all others bring data. -- William Edwards DemingPrincipiCome abbiamo visto, la ricerca scientifica si basa su di una serie di principi epistemologicie metodologici. X empiricismo (guardare ai dati); X determinismo (assumere la presenza di relazioni causa - effeo); X parsimonia (le spiegazioni semplici sono meglio di quelle complicate);
  12. 12.  CAPITOLO . INTRODUZIONE ALLANALISI DEI DATI X preferenza per un approccio scientifico - sperimentale; X un sano sceicismo; X amore per la precisione; X indagine basata su teorie e ipotesi; X rispeo per i paradigmi teorici; X disponibilità a cambiare opinione (e ad ammeere di avere, talvolta, torto); X fedeltà alla realtà, ovvero alle osservazioni empirie; X aversione per la superstizione, e preferenza per le spiegazioni scientifie; X sete di conoscenza, o più banalmente sana curiosità e voglia di sapere; X capacità di sospensione del giudizio; X consapevolezza delle proprie assunzioni, e dei limiti (teorici, metodologici, di mi- surazione); X capacità di separare le cose importanti da quelle irrilevanti; X rispeo - e aitudine positiva - verso i metodi quantitativi; X conoscenza delle basi della statistica e della teoria della probabilità; X consapevolezza e la conoscenza è sempre imperfea e in quale modo impre- cisa.Metodo scientificoSebbene non esista una ricea preconfezionata, possiamo semplificare lapproccio scien-tifico come qualcosa e assomiglia al processo seguente: . osserva un aspeo del mondo . formula unipotesi su quellaspeo . usa la teoria per fare delle previsioni . testa le tue previsioni, araverso delle osservazioni o, meglio, degli esperimenti . modifica la teoria alla luce dei risultati . ricomincia dal punto .
  13. 13. .. LA RICERCA Analisi della letteratura A month in the laboratory can oen save an hour in the library. -- F. H. WestheimerPer trovare una risposta scientificamente plausibile ad un problema: X studiare la leeratura: molto probabilmente il problema è già stato affrontato, sono state sviluppate delle teorie, sono stati pubblicati degli esperimenti. Prima di immaginare di iniziare una ricerca, è fondamentale analizzare la leeratura. X se dalla leeratura emergono risposte iare, il processo può fermarsi: abbiamo la risposta e cercavamo.Contribuire alla ricerca Se dallanalisi della leeratura non emerge una risposta ia-ra alle domande e ci siamo posti, può aver senso cercare di dare una risposta empirica,adoando il metodo scientifico. X partire da ciò e è emerso dallo studio della leeratura; X se opportuno, iniziare una fase di osservazione, o una raccolta dati più aperta, meno quantitativa e più qualitativa, per meglio definire il problema; X formulare unipotesi, plausibilmente allinterno di una teoria; X formulare una previsione, basata sullipotesi; X procedere ad uno studio empirico, possibilmente quantitativo, possibilmente con un disegno di tipo sperimentale; X analizzare i dati, possibilmente con lutilizzo ane di statistie inferenziali; X trarre delle conclusioni.Tipologie di ricere empirie Abbiamo già accennato e lapproccio empiricopuò essere più rigoroso, quantitativo, oppure privilegiare un aspeo più qualitativo.Semplificando, possiamo elencare le seguenti tipologie di ricerca: X osservazione non sistematica: si traa di osservare un fenomeno, prenderne nota; è utile in una fase iniziale della ricerca, per iniziare ad avere unidea del fenomeno studiato e formulare le prime ipotesi; X osservazione sistematica: il fenomeno non viene solo osservato, ma ane misu- rato; le dimensioni rilevanti vengono decise in anticipo; event sampling: viene registrato un dato ogni volta e ha luogo un evento; time sampling; viene faa una osservazione ad ogni intervallo di tempo; losservazione, in quanto tale, tende a non modificare né interferire con quello e osserva;
  14. 14.  CAPITOLO . INTRODUZIONE ALLANALISI DEI DATI X esperimento: finalizzato a verificare o falsificare unipotesi; implica la manipola- zione direa di una o più variabili (indipendenti), la misura di uno o più variabili dipendenti, e lanalisi dei dati araverso delle statistie inferenziali; X si definisce quasi-esperimento una situazione empirica in cui le variabili indipen- denti non possono essere manipolate dallo sperimentatore. X le simulazioni usano modelli fisici o matematici per riprodurre le condizioni di una situazione o di un processo.. ValiditàIl metodo scientifico, e più in particolare lapproccio sperimentale, si basa sullassunzionee vi sia un legame esplicativo fra ciò e succede nel contesto sperimentale e quelloe si intende spiegare. Lesperimento, in quanto tale, tende a replicare in un seing controllato alcuni aspeidi ciò e avviene nel mondo esterno, per poter verificare se vi è una relazione causalefra due o più variabili. Per fare questo bisogna ricreare la situazione nel seing, testare la relazione causale,e riportare la relazione allambiente originale.Presupposti di validità I presupposti sono: X e alcuni aspei di un fenomeno si possano misurare, se non su tua la popola- zione, almeno su di un campione; X e, a partire da queste misurazioni, si possano fare delle analisi statistie per far emergere delle relazioni o delle differenze; X e questi risultati abbiano una significatività statistica; X e ciò e si è misurato e e i dati oenuti abbiano un legame con il fenomeno in questione; X e i risultati oenuti sul campione, nel contesto sperimentale, possano essere generalizzati.Una ricerca è valida se rispea questi assunti... Tipi di validitàIn leeratura si trovano diversi tipi di validità. Ne eleniamo i più importanti.La validità di costrutto Si preoccupa di valutare se una scala (o una variabile) misura- o correla - con il costruo scientifico teorizzato. La validità di costruo può esseresupportata dalla validità convergente, e ha luogo quando la misura correla statistica-mente con misure correlate teoricamente, e dalla validità discriminante, e ha luogoquando vi è una mancata correlazione statistica con misure e la teoria suppone nonsiano correlate.
  15. 15. .. LANALISI DEI DATI La validità di contenuto Si preoccupa e lesperimento (o le variabili misurate) co-prano adeguatamente il soggeo di studio, ed è fortemente legata al design sperimentale.La validità statistica È legata alla possibilità di trarre delle inferenze dallanalisi sta-tistica, ovvero se le differenze o le associazioni e misuriamo sono statisticamentesignificative.La validità interna Vi è validità interna se possiamo assumere e vi sia una rela-zione causale fra le variabili studiate, ovvero se una correlazione osservata può essereconsiderata una relazione causale. Può essere assunta solo allinterno di un disegnosperimentale.La validità esterna Si preoccupa di verificare se le conclusioni valide nel seing spe-rimentale possono essere generalizzate, alla popolazione o a contesti diversi.Validità e statistica X Lanalisi dei dati è uno degli strumenti e ci permee di valutare alcuni degli aspei della validità di un esperimento. X Lanalisi descriiva ed esplorativa ci permeono di verificare lesistenza di una relazione fra variabili. X Lanalisi inferenziale ci permee di verificare la validità statistica propriamente dea. X Le tecnie di campionamento sono finalizzate a massimizzare la validità esterna. X Il design sperimentale ha il fine di preservare la validità internaAffidabilitàLaffidabilità si riferisce alla qualità del processo di misurazione delle variabili. È legatoagli aspei della ripetibilità della misura e di accuratezza della stessa.. Lanalisi dei datiScopiLanalisi dei dati è finalizzata a molteplici scopi: X descrivere -- numericamente e graficamente -- una misura relativa ad un campio- ne; X fare delle stime -- puntuali e ad intervallo -- relative a dei parametri della popo- lazione;
  16. 16.  CAPITOLO . INTRODUZIONE ALLANALISI DEI DATI X calcolare delle relazioni fra due o più variabili, misurate sul campione, e fare delle inferenze in merito alla popolazione di riferimento; X fare delle previsioni in merito al valore di una osservazione, non nota, a partire da delle osservazioni note. Possiamo dunque distinguere fra statistie descriive-esplorative e statistie infe-renziali... Statistica esplorativaFinalità Le statistie descriive sono finalizzate a: X avere una prima visione, qualitativa, delle variabili raccolte; X controllare la presenza di errori, ad esempio di data-entry; X far emergere outliers e anomalie; X valutare qualitativamente ipotesi e assunti, determinare qualitativamente le rela- zioni fra le variabili; X identificare lentità e la direzione delle relazioni fra le variabili; X selezionare i modelli statistici appropriati; Le statistie esplorative propriamente dee (Exploratory Data Analysis, EDA) han-no ane altre funzioni: X scoprire paern e struure implicite; X estrarre variabili latenti, o far emergere variabili importanti; X sviluppare modelli parsimoniosi (riduzione dello spazio delle variabili); X determinare opportuni parametri per ulteriori analisi (es n di faori, n di clusters)Tipologie di statistica esplorativa La statistica esplorativa può essere univariata omultivariata. Inoltre, può utilizzare metodi grafici e metodi non grafici. Spesso, in leeratura, si tende ad usare sia il termine descriiva e esplorativa,ane se forse ha più senso parlare di statistica esplorativa quando valuta la relazionefra due o più variabili, e descriiva la statistica non inferenziale univariata. Mentre lanalisi inferenziale segue la definizione dellipotesi di ricerca, lanalisi esplo-rativa spesso ha luogo prima della definizione del modello teorico e dellipotesi di ricerca.Semplificando, nellanalisi inferenziale, la sequenza teorica è problema → definizione diun modello (ipotesi) → raccolta dei dati → analisi → eventuali conclusioni Nellanalisi esplorativa, la sequenza èproblema → raccolta dei dati → analisi esplorativa → definizione di un modello (ipotesi)→ eventuali conclusioni
  17. 17. .. LANALISI DEI DATI .. Statistica descrittiva univariataNella statistica descriiva univariata (non grafica), si valutano prevalentemente tre aspet-ti (Waltenburg and McLaulan, ): X le tendenze centrali della distribuzione X la dispersione della distribuzione X la forma della distribuzioneGli strumenti e le misure della statistica descriiva univariata dipendono dalla tipologiadella variabile: categoriale-ordinale versus numerica (intervalli, rapporti).DistribuzioneLa distribuzione sintetizza la frequenza dei valori o di intervalli di valori di una varia-bile. La frequenza può essere assoluta (il numero di osservazioni e cadono in quellacategoria o e rientrano in quel valore o intervallo) o in termini percentuali. La distribuzione può essere rappresentata in forma tabellare, oppure con un grafico(tipicamente, un istogramma). Nella forma tabellare, rappresenta una distribuzione difrequenza. Possiamo distinguere X frequenze assolute: si contano il numero di volte e un particolare valore è oenuto nel campione; X frequenze relative, proporzioni: frequenze assolute divise per il numero di osser- vazioni; X frequenze percentuali: proporzioni moltiplicate per .Le frequenze sono rappresentate in tabelle di contingenza.Tendenze centraliLa tendenza centrale di una distribuzione è una stima del centro di una distribuzione divalori. Vi sono tre principali tipologie di stima della tendenza centrale: X la moda: il valore (o la categoria) più frequente. Per calcolare la moda, è sufficiente ordinare i punteggi in base alla frequenza, e selezionare il primo. X la mediana: il valore e sta a metà quando le osservazioni sono ordinate in base alla variabile. Se il numero di osservazioni è dispari, si calcola la media fra i due valori centrali. X la media aritmetica, si calcola sommando i valori e dividendo la somma per il numero di osservazioni.
  18. 18.  CAPITOLO . INTRODUZIONE ALLANALISI DEI DATIIndici di dispersioneLa dispersione si riferisce alla diffusione dei valori intorno alla tendenza centrale. Ledue misure più importanti sono X il range, ovvero la distanza fra il valore massimo ed il minimo. X la deviazione standard misura la variabilità aorno alla media. X la distanza interquartilica: corrisponde al range fra il primo e il terzo quartile. Meno soggeo agli outliers. Non tui questi indici possono essere applicati a tue le variabili, e dunque il primopassaggio nella statistica descriiva è dunque quello di definire le tipologie di variabilistudiate.Tipologie di variabiliPossiamo distinguere  tipologie di variabili: X nominali X ordinali X ad intervalli X a rapportiNel definire le tipologie di statistie applicabili, la distinzione più importante è fravariabili categoriali e quantitative (intervalli, rapporti).Scale nominali Le variabili nominali creano delle categorie, e permeono di classifi-care le osservazioni allinterno di quelle categorie. Alle varie categorie non può essere aribuito un ordine, e tantomeno è possibile faredelle operazioni matematie sulle variabili nominali. Una variabile dicotomica è un caso speciale di variabile nominale, in cui vi sonosoltanto due categorie. A partire da una variabile nominale è possibile calcolare la frequenza (ovvero ilnumero di osservazioni classificate in ogni gruppo) e la moda (ovvero il gruppo piùnumeroso).Scale ordinali Le variabili ordinali permeono di stabilire un ordine fra gli elementi. Soo certi aspei, costituiscono una estensione delle variabili nominali. Essendopossibile stabilire un ordine, permeono di identificare la posizione di un elemento nelrapporto con gli altri elementi. Data una variabile ordinale, oltre alla moda, è possibile calcolare i percentili, i quar-tili, la mediana.
  19. 19. .. LANALISI DEI DATI Scale ad intervalli Le variabili ad intervalli non solo possono essere ordinate, ma èpossibile fare delle assunzioni in merito alla distanza fra i valori, in quanto la distanzafra ogni valore intero è costante. È possibile misurare non soltanto la moda e la mediana, ma ane la media aritme-tica fra le tendenze centrali; fra le misure di dispersione, possiamo misurare il range, ladistanza interquartilica e la deviazione standard. Le scale a rapporto sono variabili ad intervalli; la loro particolarità è dovuta al faoe il valore e corrisponde allo zero non è arbitrario, ma assoluto. Ciononostante,generalmente si applicano alle variabili a rapporto le stesse statistie delle variabili adintervalli.Variabili e statistieStatistica descrittiva univariata categoriale Nel caso di variabile categoriale, la rap-presentazione non grafica più appropriata è in forma tabellare: si costruisce una tabella,con tante colonne quanti i livelli della variabile. I valori delle celle rappresentano la fre-quenza delle osservazioni per ogni livello. La frequenza può essere assoluta (il numerodi osservazioni) o relativa. Per oenere la tabella della frequenza relativa si dividono leosservazioni di ogni livello per il numero di osservazioni totale. Lunica misura della tendenza centrale appropriata per le scale nominali è la moda,ovvero il livello con frequenza più alta. Graficamente, una variabile categoriale può essere rappresentata araverso un gra-fico a barre. Se il numero di livelli è basso, può essere utile ane la rappresentazione del graficoa torta.Statistica descrittiva univariata, variabili ordinali Nel caso di variabili ordinali,oltre alla moda e al numero di livelli, possiamo calcolare: X lindice di centralità della mediana; X indici di dispersione quali il range e i percentili; di particolare interesse i quartili e la distanza interquartilica. X ane nel caso di variabili ordinali, se il numero di livelli è relativamente basso, può essere utile creare la tabella delle frequenze, assolute o relative. X La rappresentazione grafica più appropriata è il grafico a barre, a pao e lordine degli elementi grafici rispei lordine delle categorie.Statistica descrittiva univariata, variabili numerie X nelle variabili ad intervalli (o a rapporti), oltre alla moda e alla mediana si calcola lindice di centralità della media. X oltre al range, ai percentili ed ai quartili, si calcola lindice di dispersione della varianza (e della deviazione standard).
  20. 20.  CAPITOLO . INTRODUZIONE ALLANALISI DEI DATI X nellanalisi della forma della distribuzione, laspeo più importante consiste nel valutare se la distribuzione osservata approssima una distribuzione teorica, tipi- camente la distribuzione normale. Nel caso, è possibile calcolare la simmetria e la kurtosi della curva di distribuzione.Statistica grafica univariata, variabili numerie X per rappresentare graficamente la distribuzione, si utilizzano listogramma e il grafico della distribuzione oenuto araverso il metodo del kernel. X araverso il boxplot è possibile rappresentare la mediana, i quartili ed il range di una distribuzione numerica. È possibile inoltre valutare la presenza di outliers, ovvero di osservazioni collocate ai margini della distribuzione osservata. X usando il grafico qqnorm (o qqplot) e la funzione qqline è possibile confrontare la distribuzione osservata con la distribuzione teorica normale.Valutazione della normalità, trasformazioniTest di normalità Poié le statistie inferenziali parametrie assumono una distri-buzione delle osservazioni di tipo normale, è generalmente opportuno valutare la distri-buzione osservata di una variabile non soltanto araverso metodi grafici e descriivi,ma ane araverso dei test di normalità. In questa dispensa, utilizzeremo due di questitest: X Il test di Kolmogorov-Smirnov permee di confrontare due distribuzioni arbitrarie, e può essere usato per il confronto fra la distribuzione osservata e la distribuzione normale; X Il test di normalità Shapiro-Wilk è finalizzato a valutare la normalità della distri- buzione osservata. Le due misure possono dare risultati differenti. Risulta pertanto necessario un pro-cesso di valutazione e tenga conto sia dei risultati dei test e dellanalisi grafica delladistribuzione. esta regola pratica vale in ogni ambito della ricerca e dellanalisi dei dati: la me-todologia ci indica delle procedure e è opportuno seguire, per minimizzare il risiodi errori e meano a repentaglio affidabilità e validità della ricerca. Le procedure, però, non vanno seguite pedissequamente. Conoscere i princˆ e gliipiassunti dellanalisi dei dati ci permee di fare delle inferenze ragionevolmente robusteane nei casi, e sono molti, in cui non è possibile una applicazione meccanica dellaprocedura... Statistie esplorative bivariateLe statistie esplorative multivariate hanno la finalità di meere in relazione due o piùvariabili.
  21. 21. .. STATISTICA INFERENZIALE  Le statistie grafie tendono a limitarsi prevalentemente al confronto di due varia-bili alla volta, in quanto questi confronti sono più facili da rappresentare e più immediatida leggere.Variabili numerie: grafico di dispersione Nel caso di confronto fra due variabilinumerie, la rappresentazione grafica più appropriata è il grafico di dispersione, emappa le osservazioni delle due variabili sulle due dimensioni x e y. La linea di regressione, inoltre, ci permee di visualizzare il modello di regressionelineare.Variabili categoriali: mosaic plot Araverso il mosaic plot è possibile rappresentaregraficamente la relazione fra due variabili di tipo categoriale, nominale o ordinale. Per rappresentare numericamente il rapporto fra due variabili categoriali si usa in-vece la tabella delle frequenze (assolute o relative). La tabella, di dimensioni r ∗ c, dover è il numero di livelli di una variabile, c il numero di livelli dellaltra.Variabile categoriale vs variabile numerica Nel caso si debbano confrontare grafi-camente una variabile numerica su di una variabile categoriale, è possibile utilizzarenuovamente il boxplot, disegnando tanti boxplot quanti sono i gruppi della variabilecategoriale. Una seconda possibilità è quella di un grafico a barre, dove ogni barra rappresentala media di ogni gruppo. Unalternativa grafica consiste nel sostituire le barre con dellelinee e congiungono i punti e rappresentano le medie. este rappresentazioni possono essere utilizzate ane quando le variabili catego-riali (indipendenti) sono due.. Statistica inferenzialeFinalitàIl fine dellanalisi inferenziale è quello -- banalmente -- di fare delle inferenze su di unapopolazione a partire dalle osservazioni di un campione. Il fine dellanalisi inferenziale univariata, è quello di stimare il valore di un parametrodella popolazione a partire da una statistica calcolata sul campione. Il fine dellanalisi inferenziale bivariata è quello di stimare la significatività di unarelazione fra due variabili. Le analisi multivariate sono sostanzialmente unestensionedellanalisi bivariata. Nel confronto fra le variabili, possiamo determinare X correlazioni fra variabili X differenze fra gruppi X determinazione di relazioni X stima di effei X predizioni basate su analisi della regressione.
  22. 22.  CAPITOLO . INTRODUZIONE ALLANALISI DEI DATIAnalisi inferenziale univariata La finalità è quella di stimare il parametro di unapopolazione a partire dalla statistica corrispondente, calcolata sul campione. General-mente, il parametro stimato è la media della popolazione, ma si usa ane per stimarnela varianza o la mediana. Poié queste statistie sono soggee allerrore di campionamento, nellanalisi in-ferenziale si calcola ane lintervallo di confidenza, ovvero la forbice entro cui si stimae il parametro oggeo di indagine si colloi.Analisi inferenziale bivariata Lo scopo di questo tipo di analisi è quello di verificaree vi sia una relazione statisticamente significativa fra le due variabili. Lapproccio comune alle analisi bivariate è quello di identificare una statistica capacedi misurare la relazione, applicare la statistica sulle variabili in oggeo, e confrontare ilvalore con la distribuzione dellerrore di quella statistica. Se il valore numerico della statistica cade allinterno della distribuzione di errore, siassume e quella relazione non sia statisticamente significativa... Gli erroriIl fine dellanalisi inferenziale è quello di trarre delle conclusioni in merito a dei parametridi una o più popolazioni. Per fare questo, si potrebbe voler misurare i parametri dellapopolazione di interesse, calcolarne le statistie appropriate, e trarne le debite inferenze. Testare lintera popolazione è però generalmente impossibile, per due ordini di mo-tivi. X Il motivo più ovvio è di tipo pratico: se la popolazione è molto numerosa, testarla completamente diventa eccessivamente costoso. X Vi è inoltre un secondo motivo: a volte, la popolazione di riferimento è teorica. Ad esempio, potremmo voler fare delle inferenze sulla depressione post partum; in questo caso, la popolazione di riferimento sono tue le donne e hanno partorito da meno di ,  mesi. Ma ane se riuscissimo a testare tue le partorienti dItalia per un intero anno solare, vorremmo e i risultati ci permeessero di fare delle inferenze ane sulle donne e partoriranno fra due anni. La popolazione reale di questanno, dunque, è un sooinsieme della popolazione teorica e include le donne e partoriranno nei prossimi anni. Appare dunque iaro e, tranne alcune eccezioni, testare lintera popolazione ègeneralmente impossibile. A questo punto, diventa necessario testare soltanto un sot-toinsieme della popolazione, ovvero un campione (sample, in inglese). Semplificando, la logica soostante lanalisi dei dati è sostanzialmente la seguente: X si identifica un problema X si identifica una popolazione X si identifica una dimensione pertinente X si estrae un campione
  23. 23. .. STATISTICA INFERENZIALE  X si misura la dimensione sul campione X a partire dalla statistica sul campione, si traggono inferenze sul parametro di popolazione X si traggono delle inferenze sui risultati Vi è, dunque, un passaggio logico: popolazione - campione, misura sul campione -generalizzazione alla popolazione. Abbiamo visto e, affiné questi passaggi portinoa risultati acceabili, è necessario preservare dei criteri di validità. Più in particolare, ènecessario minimizzare e gestire alcuni errori e possono influire sullanalisi.Tipi di erroreLanalisi inferenziale si basa sulla consapevolezza e i processi di campionamento, mi-surazione ed analisi sono soggei ad errori. Il fine della metodologia è quello di minimiz-zare e, quando possibile, escludere gli errori. Il fine dellinferenza è quello di misuraregli errori, valutare se i risultati oenuti sono da aribuire o meno agli errori, e stimareil risio e il processo decisionale dellinferenza sia scorreo. Conoscere le tipologie di errori e i metodi per minimizzarli ed evitarli è dunque dicentrale importanza nella metodologia e nellanalisi. Sono numerosi gli errori e possono influire sul processo inferenziale. Ricordiamo-ne alcuni. X Errore di campionamento: il campione non produrrà esaamente gli stessi valori e si osserverebbero misurando lintera popolazione. X In un esperimento, errore di assegnamento: le differenze misurate fra i gruppi sperimentali (e di controllo) potrebbero essere dovute non alla condizione speri- mentale, ma a differenze pre-esistenti fra i gruppi creati X Errore di misurazione (affidabilità): la misurazione della variabile può essere non accurata, e dunque può produrre risultati parzialmente non correi. Più in generale, si definisce errore la differenza fra una misura di un parametro edil valore reale del parametro stesso. esta differenza può essere casuale o sistematica.Per capire la differenza, è necessario pensare a numerose misure, e dunque al ripetersidellerrore. Se lerrore è casuale, la media degli errori (ovvero la media delle differenze)tende ad essere pari a zero. Viceversa, lerrore è sistematico se la media tende ad unvalore diverso da zero. Gli errori sistematici sono i più pericolosi, in quanto possono indurre il ricercatore aconclusioni errate e sono difficili da far emergere e da correggere araverso gli strumentistatistici. Gli errori sistematici possono essere minimizzati soltanto araverso un designrigoroso ed una raccolta ed elaborazione dei dati scrupolosa. Il problema del campionamento è e, se fao in maniera scorrea, può indurre aderrori sistematici.
  24. 24.  CAPITOLO . INTRODUZIONE ALLANALISI DEI DATI.. CampionamentoViene definito campionamento il processo di selezione del sooinsieme di unità dellapopolazione da studiare, per misurarne le caraeristie di interesse. La notizia positiva è e, se il campionamento viene effeuato in maniera correa,le caraeristie misurate sul campione tendono ad assomigliare alle caraeristie (pa-rametri) della popolazione.La notizia negativa è e, nonostante la somiglianza, le statistie sul campione sono inquale modo diverse dai parametri della popolazione. esta differenza va aribuitaalla variabilità campionaria: se noi selezioniamo due campioni distinti da una stessa po-polazione, oeniamo statistie diverse. este differenze sono definite ane errore dicampionamento.Campionamento rappresentativo Per evitare errori sistematici dovuti al campione,è necessario e il campione sia rappresentativo della popolazione. La tipologia di campionamento e meglio garantisce la rappresentatività della popo-lazione è il campionamento casuale: le unità del campione vengono scelte casualmentedalla popolazione. In alcuni casi si utilizza una forma di campionamento stratificata,nelle circostanze in cui si voglia garantire la rappresentatività di piccoli soogruppi dipopolazione. Viceversa, metodi di campionamento non casuali (come i campionamenti di conve-nienza) risiano di introdurre degli errori sistematici nella statistica Akritas ().Missing Un problema di non facile soluzione emerge quando una parte non trascurabi-le del campione selezionato non si presta alla misurazione. Se i missing si distribuisconoin maniera uniforme fra il campione, limpao di questi dati mancanti risulta abbastanzacircoscrio. Se, al contrario, i missing sono più frequenti in alcuni strati della popolazione piut-tosto e in altri, è forte il risio di incorrere in un errore sistematico.Errori casuali Una parte di errore, però, non può essere evitata. Se questi errori nonsono sistematici, ma distribuiti casualmente, i metodi statistici ci permeono di misu-rarli, di valutarne limpao, e di calcolare la probabilità e i risultati da noi oenutisiano o meno aribuibili al caso. La funzione della statistica inferenziale è di fare delle stime, relative ai parametridella popolazione, partendo dalle statistie dei campioni, e tengano conto della va-riabilità campionaria. Lanalisi inferenziale offre una serie di strumenti e permeanodi: X fare delle stime sui parametri di una popolazione X determinare se i parametri di due o più popolazioni sono significativamente diversi X valutare se due o più parametri relativi ad una popolazione sono fra loro legati X fare delle previsioni
  25. 25. .. STATISTICA INFERENZIALE Lanalisi inferenziale fa delle stime, di tipo puntuale e intervallare, su determinati para-metri della popolazione, testa delle ipotesi, valuta laccuratezza delle proprie previsionie determina il risio e le stime, le ipotesi acceate e le previsioni risultino errate... Intervalli di confidenzaUn correo campionamento minimizza lincidenza degli errori sistematici, ma non eli-mina lerrore casuale. Il valore della statistica sul campione, infai, è una approssimazione del valore delparametro della popolazione. Più precisamente, la media del campione costituisce unastima puntuale della media della popolazione. Sappiamo, però, e questa stima sarà --quasi sicuramente -- leggermente sbagliata. Conoscendo soltanto la stima puntuale, nonsappiamo quanto questa stima sia affidabile, e quale sia il probabile range di errore. Il calcolo dellintervallo di confidenza è finalizzato proprio a calcolare il range entrocui il valore del parametro di popolazione dovrebbe cadere. Un intervallo di confidenza si basa su una percentuale - prestabilita - di confidenza.Generalmente, si considera acceabile una percentuale del %. Per meglio capire la percentuale dellintervallo di confidenza, partiamo da una osser-vazione. Se estraiamo  campioni diversi dalla stessa popolazione, e misuriamo la stessavariabile sui due campioni, oerremo valori (più o meno) diversi. Immaginiamo ora di estrarre  campioni dalla popolazione. Usiamo il primo cam-pione per misurare il parametro della popolazione, e lintervallo di confidenza. Un in-tervallo di confidenza del % significa e, se misuriamo la stessa statistica sugli altri campioni, ci aspeiamo e -- approssimativamente --  di loro cadano entrolintervallo di confidenza. Più streo lintervallo di confidenza, più alta la precisione.Un intervallo di confidenza molto largo lascia intendere e le dimensioni del campionesono inadeguate. Lintervallo di confidenza verrà descrio più deagliatamente nellasezione ... Testare unipotesiNel test di ipotesi, si identificano unipotesi nulla e unipotesi alternativa; si fanno dellemisurazioni e si calcola una statistica; se la statistica cade allinterno della regione diacceazione (basata sulla distribuzione dellerrore campionario), lipotesi nulla non vienerifiutata. In caso contrario, lipotesi nulla viene rifiutata, e si accea lipotesi alternativa. Il test di ipotesi si pone la questione: ``i risultati e abbiamo oenuto possono esserearibuiti al caso? Il primo passo, è quello di tradurre il problema scientifico e ci siamoposti nei termini delle due ipotesi: lipotesi nulla e lipotesi alternativa. X Lipotesi nulla, H0 , assume e il risultato non sia significativo, ovvero e sia da aribuire al caso. X Lipotesi alternativa H1 o HA , sostiene e il risultato della statistica non pos- sa essere aribuito al caso, ma e sia da aribuire ad una relazione inerente la popolazione, sia questa una differenza o una relazione.
  26. 26.  CAPITOLO . INTRODUZIONE ALLANALISI DEI DATI Il secondo passo, è identificare una statistica e sia capace di misurare la differenza(o la relazione) allinterno del campione, ed applicarla ai dati raccolti. Il terzo passo è confrontare il valore della statistica con la corrispondente distribu-zione di errore. Informalmente, possiamo dire e più il valore della statistica si collocaai margini della distribuzione di errore, meno è probabile e la differenza (o la relazio-ne) misurata siano aribuibili al caso. esta probabilità può essere stimata in base alladistribuzione dellerrore, e costituisce il p-value, valore su cui si basa la decisione fina-le: se il p-value risulta inferiore ad un livello di soglia acceabile, definito α, si rifiutalipotesi nulla, e si accea lipotesi alternativa. In caso contrario, non si rifiuta lipotesinulla.Lipotesi nullaPoié i concei di ipotesi nulla, ipotesi alternativa e p-value sono molto importanti nellastatistica inferenziale ma sono spesso difficili da comprendere, ci soffermiamo ancora suquesti concei. Lipotesi nulla e lipotesi alternativa sono alla base del test di ipotesi, e costituisceil fine della statistica inferenziale, e si propone di capire (e di decidere) se i risultatioenuti siano da aribuire, o meno, al caso. Lesempio più tipico è il disegno sperimentale dove i partecipanti sono assegnaticasualmente a due gruppi, il gruppo sperimentale e quello di controllo. Al gruppo spe-rimentale viene somministrato un traamento, al gruppo di controllo no (oppure, vienesomministrato il placebo). Viene definita una misura, capace di valutare loutcome, il ri-sultato del traamento. Si calcola lappropriata statistica (ad esempio la media) dei duegruppi sperimentali, e si calcola la differenza fra le due medie. Se la metodologia sperimentale è stata seguita correamente, la differenza fra le duemedie può essere aribuita soltanto a due possibili cause: il traamento, o il caso.Lipotesi nulla assume e la statistica misurata (in questo caso, la differenza) sia ari-buibile al caso, ovvero e la vera differenza fra la media dei due gruppi sia pari a zero.Lipotesi alternativa assume e la differenza non possa essere aribuita al caso e, peresclusione, sia aribuibile al traamento. Lipotesi nulla viene rifiutata se la differenza fra le medie dei due gruppi è tale da nonpoter essere aribuita al caso, ovvero se si discosta significativamente dalla distribuzionedellerrore di campionamento. Formalmente, si parla di rifiuto e non rifiuto dellipotesi nulla. Non è formalmentecorreo parlare di acceazione dellipotesi nulla. Ceriamo di capire il peré.Lipotesi nulla assume e il valore della statistica sia da aribuire al caso. Se il valoreè esterno alla regione di acceazione non possiamo aribuire il risultato al caso, e dun-que dobbiamo rifiutare lipotesi nulla, ed acceare lipotesi alternativa (il risultato non èaribuibile al caso). Se il valore della statistica cade allinterno della regione di acceazione, non pos-siamo escludere e il risultato sia aribuibile al caso. esto però non dimostra ela vera misura sia pari a zero. Per quanto ne sappiamo, la vera misura potrebbe esserecomunque differente da zero. Poié, però, la differenza misurata potrebbe essere ari-buita al caso, tuo quello e possiamo dire è e non si può escludere e la differenzasia dovuta al caso. Lipotesi nulla non è falsificata (e dunque non viene rifiutata) ma
  27. 27. .. STATISTICA INFERENZIALE nemmeno verificata (in quanto non sappiamo se la vera differenza sia davvero pari azero. Il test di ipotesi, dunque, si basa su quellaeggiamento di tipo falsificazionista in-trodoo quale paragrafo sopra.Il p-valueIl p-value è la risposta alla domanda ``assumendo e lipotesi nulla sia vera, qualè laprobabilità di osservare un valore altreanto o più estremo di quello oenuto? Il p-value è una misura dellevidenza contraria allipotesi nulla: più basso il p-value,maggiore levidenza contraria allipotesi nulla. Un p-value basso indica una maggioresicurezza nel rigeare lipotesi nulla. Il p-value è la probabilità e lerrore campionario possa assumere un valore superio-re al valore osservato. Deo in altri termini, il p-value ci dice la probabilità di compiereun errore di tipo I rifiutando lipotesi nulla. Coerentemente con laeggiamento falsificazionista, il p-value può essere usato solocome evidenza contro lipotesi nulla, non a favore di unipotesi. Un p-value alto non cipermee di trarre alcuna conclusione: Absence of evidence is not the evidence of absence. In ambito applicativo, non è deo e una significatività statistica abbia reali impli-cazioni pratie. In clinica, ad esempio, una differenza statisticamente significativa puònon essere clinicamente significativa. Inoltre, il p-value non dice nulla sullentità delladifferenza (o delleffeo)P-value e α La decisione sul rifiuto o meno dellipotesi nulla si basa sul confronto frail p-value e la soglia α: se p < α si rifiuta lipotesi nulla, altrimenti no. α è ane il livello di significatività del test. Generalmente, i valori più comunementeutilizzati sono α = . e α = ..Lipotesi alternativa Lipotesi alternativa può essere ad una o a due code (mono- obidirezionale). Nellipotesi a due code assume lesistenza di un effeo o una differenza,ma senza specificare la direzione.Nellipotesi ad una coda, viene specificata ane la direzione aesa della differenza.Processo decisionalePossiamo dunque riassumere il processo decisionale del test dipotesi. X Si parte, conceualmente, dallipotesi nulla; X si definisce lipotesi alternativa -- generalmente, lipotesi a supporto della teoria; X si definisce e si calcola la statistica test opportuna sulla variabile, misurata sul campione; X si definisce lerrore di tipo I e si ritiene acceabile (ovvero, il valore α); X si calcola la regione di rifiuto dellipotesi nulla o, alternativamente, il p-value;
  28. 28.  CAPITOLO . INTRODUZIONE ALLANALISI DEI DATI X la decisione finale si basa valutando se la misura della statistica cade allinterno o allesterno della regione di acceazione dellipotesi; se allesterno, si rifiuta lipotesi nulla, e si accea lipotesi alternativa; se allinterno, non si rifiuta lipotesi nulla, ma quella alternativa; X lo stesso risultato può essere oenuto confrontando il p-value con α: se p < α si rifiuta lipotesi nulla, altrimenti no... Scegliere la statistica appropriataPer decidere quale tipo di statistica può essere applicata, è necessario definire: X il numero di variabili in gioco (una, due, più di due) X la tipologia delle variabili (nominale o numerica) X il tipo di ipotesi testata: ceriamo una relazione, una differenza, una previsioneNumero di variabili X Statistie uni-variate X Statistie bi-variate X Statistie multi-variateTipi di variabili e statistica La tipologia di statistica inferenziale da applicare si ba-sa sulla tipologia di variabili. Come abbiamo visto, possiamo distinguere fra variabilicategoriali, ordinali, ad intervalli e a rapporti. este quaro tipologie possono essere raggruppate in variabili nominali (catego-riali e, generalmente, ordinali) e variabili numerie (a intervalli, a rapporti). La tipologia di statistica e può essere applicata si basa sulla tipologia delle variabiliindipendenti e dipendenti.Statistie bivariate dipendente numerica dipendente categoriale indipendente correlazione, regressione analisi discriminante, regres- numerica sione logistica indipendente t-test, ANOVA i quadro categoriale. EserciziGenere e retribuzione Domanda: vi è una differenza di retribuzione fra masi efemmine? X qualè la variabile indipendente? Di e tipo è?
  29. 29. .. ESERCIZI  X qualè la variabile dipendente? Di e tipo è? X e tipo di statistica si applica?Spettatori e pubblicità Domanda: Cè relazione fra il numero di persone e vanno avedere un film ed i soldi spesi per pubblicizzare la pellicola? X qualè la variabile indipendente? Di e tipo è? X qualè la variabile dipendente? Di e tipo è? X e tipo di statistica si applica?Antidepressivi e stato depressivo Domanda: La somministrazione di un antidepres-sivo è efficace nel curare la depressione? X qualè la variabile indipendente? Di e tipo è? X qualè la variabile dipendente? Di e tipo è? X e tipo di statistica si applica?Genere e facoltà Domanda: cè un rapporto fra la scelta di un tipo di facoltà (umani-stica, scientifica) di uno studente ed il suo genere? X qualè la variabile indipendente? Di e tipo è? X qualè la variabile dipendente? Di e tipo è? X e tipo di statistica si applica?Nazionalità e caffè Domanda: cè un rapporto fra la nazionalità delle persone ed illoro consumo di caffè? X qualè la variabile indipendente? Di e tipo è? X qualè la variabile dipendente? Di e tipo è? X e tipo di statistica si applica?Stato civile e genitorialità Domanda: cè un rapporto fra lo stato civile di una personaed il fao e abbia o non abbia figli? X qualè la variabile indipendente? Di e tipo è? X qualè la variabile dipendente? Di e tipo è? X e tipo di statistica si applica?
  30. 30.  CAPITOLO . INTRODUZIONE ALLANALISI DEI DATI
  31. 31. Capitolo Lapproccio simulativoIndice . Gli errori di campionamento . . . . . . . . . . . . . . . . . . . .  .. Distribuzione degli errori . . . . . . . . . . . . . . . . . .  . Introduzione allapproccio simulativo . . . . . . . . . . . . . . .  .. Generare popolazione e campioni . . . . . . . . . . . . . .  .. Campioni di numerosità  . . . . . . . . . . . . . . . . .  . Intervallo di confidenza . . . . . . . . . . . . . . . . . . . . . .  . Bootstrapping . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Generare molti campioni da un campione . . . . . . . . .  .. Confronto fra le distribuzioni . . . . . . . . . . . . . . . .  .. Usare lapproccio parametrico . . . . . . . . . . . . . . . . . Gli errori di campionamentoLanalisi dei dati deve confrontarsi con la gestione degli errori. Se una buona metodo-logia ed un correo campionamento possono minimizzare limpao degli errori siste-matici, gli errori casuali non possono essere eliminati. Lanalisi inferenziale permee alricercatore di stimare lentità di questi errori, e di capire quanto le misure e le relazioniemerse siano da imputare a tali errori. Lanalisi si basa sul calcolo di alcune statistie. Nellanalisi univariata si calcola-no gli indici di centralità e di dispersione, nelle statistie bivariate si calcolano dellestatistie capaci di misurare le relazioni fra variabili. Sia le statistie uni e bivariate devono tener conto dellerrore di campionamento.Facciamo alcuni esempi. La media del campione costituisce la migliore stima della media della popolazione (lamedia è una stima unbiased); se dalla stessa popolazione, però, estraggo dieci campionidiversi, oerrò dieci stime differenti. Un tipico disegno sperimentale consiste nel dividere il campione in  gruppi, som-ministrare un traamento ad un gruppo (sperimentale), somministrare un diverso trat- 
  32. 32.  CAPITOLO . LAPPROCCIO SIMULATIVOtamento (o un placebo) allaltro gruppo, e misurare leffeo araverso una variabile nu-merica; per valutare leffeo del traamento, si misura la differenza fra le medie dei duegruppi. Di nuovo: questa differenza va aribuita al traamento, o al caso (alla variabili-tà campionaria)? Infai, in maniera del tuo paragonabile allesempio precedente, cosasuccederebbe se applicassimo lo stesso traamento (o nessun traamento) ai due grup-pi? Ci aspeiamo e le medie dei due gruppi siano perfeamente uguali? La risposta ènaturalmente no: le medie saranno probabilmente simili, ma non uguali. Facciamo un terzo esempio: immaginiamo di voler capire se vi è una relazione fradue variabili numerie. Decidiamo di adoare la statistica della correlazione di Pear-son, una misura e si muove nel range −1 < r < +1 e dove  significa assenzadi correlazione. Ane in questo caso, però, nella circostanza di due variabili fra loroindipendenti, non possiamo aspearci una correlazione esaamente pari a ... Distribuzione degli erroriApproccio parametricoFortunatamente, gli errori dovuti al caso (e alla varianza campionaria) sono soggei adelle distribuzioni note (quantomeno per quanto riguarda le statistie più comuni). Lacosiddea statistica parametrica si basa proprio sul fao e, se alcuni assunti sono ri-speati, la distribuzione dellerrore delle statistie usate approssima, previo opportunatrasformazione, delle distribuzioni teorie. Il processo inferenziale utilizza questa pro-prietà; si calcola la statistica, si opera la trasformazione, e si confronta il risultato con ladistribuzione teorica.Statistie non parametrieLo svantaggio dellapproccio parametrico è e fa delle assunzioni sulle variabili; vi so-no delle circostanze in cui queste assunzioni non vengono rispeate. In questi casi, lestatistie parametrie possono essere inaffidabili; a questo punto, diventa opportunoaffidarsi a delle famiglie di statistie non parametrie, il cui vantaggio è quello di fareun minore numero di assunzioni. Generalmente, lapproccio delle statistie non parametrie consiste nel trasformarela variabile dipendente, numerica, in una variabile ordinale. La trasformazione consistenel calcolare il rank, ovvero il valore ordinale della misura.Approccio simulativo (resampling)Esiste poi unaltra possibilità: utilizzare il calcolatore per generare la distribuzione del-lerrore, e basare il processo inferenziale non sulla distribuzione teorica, ma sulla distri-buzione generata. esto approccio è relativamente recente, in quanto è computazionalmente oneroso,e dunque può essere applicato soltanto con degli strumenti di calcolo potenti. Oggi, però,possono essere applicati agevolmente ane con i comuni computer, e dunque stannoguadagnando crescente popolarità. Lapproccio simulativo ha alcuni vantaggi, il principale dei quali è e fa poissimeassunzioni, e dunque può essere applicato ane nel caso, ad esempio, di distribuzioni
  33. 33. .. INTRODUZIONE ALLAPPROCCIO SIMULATIVO e non possono essere ricondoe alle distribuzioni teorie.Un secondo vantaggio è e lapproccio simulativo è e può essere applicato ane astatistie non comuni, per le quali non esiste -- o non è nota -- una distribuzione teorica. Lapproccio simulativo ha infine il vantaggio di essere particolarmente intuitivo, inquanto permee di mostrare lerrore di campionamento, la sua distribuzione, e i ri-speivi parametri. esta caraeristica rende lapproccio simulativo particolarmenteindicato ai fini didaici, in quanto è possibile simulare la varianza di campionamento,generare la distribuzione campionaria, e confrontarla con la distribuzione teorica. Lap-proccio computazionale è inoltre un oimo modo per giocare con strumenti come R,prendere confidenza con il linguaggio, e capire cosa succede dietro alle quinte quandosi utilizzano le funzioni di testing -- parametrici e non parametrici.. Introduzione allapproccio simulativoPer introdurre lapproccio simulativo, utilizziamo R per fare delle simulazioni e cipermeano di riprodurre, in laboratorio, lerrore di campionamento. Araverso la simulazione possiamo creare delle circostanze difficilmente riprodu-cibili nella realtà: possiamo generare una popolazione, generare un numero molto al-to di campioni, e valutare qualitativamente (graficamente) e quantitativamente lerrorestocastico di campionamento¹... Generare popolazione e campioniGenerare la popolazione Nel contesto della simulazione, generare una popolazionesignifica generare un veore di valori casuali. Se si assume e la distribuzione dellapopolazione sia normale, è possibile utilizzare la funzione rnorm per generare un veoredi numeri distribuiti normalmente intorno ad una media e con una deviazione standardpredefinita. La lunghezza del veore corrisponde alla numerosità della nostra popolazione vir-tuale. Nel nostro esempio, genereremo una popolazione con media teorica  e deviazionestandard teorica  (la scelta di media e deviazione standard è arbitraria).Generare dei campioni A partire dal veore popolazione, è possibile estrarre un vet-tore campione (di numerosità m < n). Per fare questo, R mee a disposizione la fun-zione sample(x,m,replace=FALSE), dove x è la popolazione e m è la numerosità delcampione. In realtà, potremmo oenere lo stesso risultato generando un campione di m os-servazioni con rnorm. Però, per un effeo più realistico, usiamo il sampling dellapopolazione. Per visualizzare la distribuzione dellerrore di campionamento, utilizzeremo una po-polazione di  valori, e genereremo  campioni di numerosità . ¹Un approccio simile è adoato in Molenaar and Kiers () e in Vasishth ()
  34. 34.  CAPITOLO . LAPPROCCIO SIMULATIVO Dunque n =  (numerosità della popolazione simulata), k =  (numero di cam-pioni), m =  (osservazioni per campione). Poi, genereremo ane una serie di campionida  osservazioni.Analisi descrittiva Una volta generati questi dati, possiamo utilizzare alcune tecniedi analisi univariata per fare delle misurazioni. In primo luogo possiamo calcolare la media e la deviazione standard della popola-zione. Ci aspeeremo e la prima sia prossima a  e la seconda a . Poi, possiamovisualizzare un istogramma con la distribuzione della popolazione, e ci aspeiamo siadi tipo normale. Per verificarlo, possiamo usare le funzioni qqnorm e qqline.> n <- 10000> m50 <- 50> K <- 200> media_teorica <- 20> sd_teorica <- 2> popolazione <- rnorm(n, media_teorica, sd_teorica)> mean(popolazione)[1] 20.00628> sd(popolazione)[1] 2.015178> hist(popolazione) Utilizzando qqnorm, valutiamo la normalità della distribuzione> qqnorm(popolazione)> qqline(popolazione, col = 2) Ora, creiamo una matrice *. Ogni riga rappresenta un campione di  osser-vazioni. Popoliamo le righe con la funzione sample, e campiona  osservazioni dallapopolazione.Media e deviazione standard della distribuzione campionariaCon medie campioni50 <- apply(campioni50, 1, mean), calcoliamo la mediadi ogni campione e la salviamo nel veore (di lunghezza ) medie campioni. Suquesto veore calcoliamo la media e la deviazione standard (e rappresentano la mediadelle medie e la deviazione standard delle medie, ovvero lerrore standard.> campioni50 <- matrix(nrow = K, ncol = m50)> for (k in 1:K) {+ campioni50[k, ] <- sample(popolazione, m50)+ }> medie_campioni50 <- apply(campioni50, 1, mean)> mean(medie_campioni50)

×