• Like
Dispensa di analisi dei dati
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

Dispensa di analisi dei dati

  • 5,166 views
Published

 

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
5,166
On SlideShare
0
From Embeds
0
Number of Embeds
2

Actions

Shares
Downloads
201
Comments
0
Likes
2

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Dispensa di Analisi dei Dati S B V  Versione non definitiva. Licenza Creative commons
  • 2.
  • 3. Indice Introduzione allanalisi dei dati  . Analisi dei dati: a cosa serve? . . . . . . . . . . . . . . . . . . . . . . .  .. Un esempio: twier e la borsa . . . . . . . . . . . . . . . . . .  . La ricerca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Aeggiamento critico . . . . . . . . . . . . . . . . . . . . . . .  . Validità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Tipi di validità . . . . . . . . . . . . . . . . . . . . . . . . . . .  . Lanalisi dei dati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Statistica esplorativa . . . . . . . . . . . . . . . . . . . . . . .  .. Statistica descriiva univariata . . . . . . . . . . . . . . . . . .  .. Statistie esplorative bivariate . . . . . . . . . . . . . . . . . .  . Statistica inferenziale . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Gli errori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Campionamento . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Intervalli di confidenza . . . . . . . . . . . . . . . . . . . . . .  .. Testare unipotesi . . . . . . . . . . . . . . . . . . . . . . . . .  .. Scegliere la statistica appropriata . . . . . . . . . . . . . . . . .  . Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  Lapproccio simulativo  . Gli errori di campionamento . . . . . . . . . . . . . . . . . . . . . . .  .. Distribuzione degli errori . . . . . . . . . . . . . . . . . . . . .  . Introduzione allapproccio simulativo . . . . . . . . . . . . . . . . . . .  .. Generare popolazione e campioni . . . . . . . . . . . . . . . .  .. Campioni di numerosità  . . . . . . . . . . . . . . . . . . . .  . Intervallo di confidenza . . . . . . . . . . . . . . . . . . . . . . . . . .  . Bootstrapping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Generare molti campioni da un campione . . . . . . . . . . . .  .. Confronto fra le distribuzioni . . . . . . . . . . . . . . . . . . .  .. Usare lapproccio parametrico . . . . . . . . . . . . . . . . . .  
  • 4.  INDICE Intervallo di confidenza, calcolo parametrico  . Lintervallo di confidenza . . . . . . . . . . . . . . . . . . . . . . . . .  .. La simulazione . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Dalla simulazione alla stima . . . . . . . . . . . . . . . . . . .  .. La distribuzione t di Student . . . . . . . . . . . . . . . . . . .  . Confronto fra un campione ed una popolazione . . . . . . . . . . . . .  .. Il p-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Primo esempio . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Secondo esempio . . . . . . . . . . . . . . . . . . . . . . . . .  Confronto fra variabili categoriali: χ2  . Variabili nominali . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  . Confronto di una distribuzione campionaria con una distribuzione teorica  .. Un esempio: distribuzione occupati . . . . . . . . . . . . . . .  . Stima dellerrore . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  . La simulazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  . La distribuzione χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. La funzione isq.test . . . . . . . . . . . . . . . . . . . . . . .  . Confronto fra due variabili nominali . . . . . . . . . . . . . . . . . . .  .. Calcolare le frequenze aese . . . . . . . . . . . . . . . . . . .  T test: confronto fra medie di due campioni  . Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  . Calcolo non parametrico . . . . . . . . . . . . . . . . . . . . . . . . . .  .. La simulazione . . . . . . . . . . . . . . . . . . . . . . . . . .  .. La distribuzione U Mann-Whitney-Wilcoxon . . . . . . . . . .  . Approccio parametrico . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Assunzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. R: p-value usando la distribuzione . . . . . . . . . . . . . . . .  .. Uso della funzione t.test . . . . . . . . . . . . . . . . . . . .  .. Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . .  Correlazione e regressione lineare  . Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. La rea di regressione . . . . . . . . . . . . . . . . . . . . . . .  . Analisi inferenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Correlazione e causazione . . . . . . . . . . . . . . . . . . . .  .. Modelli Lineari Generalizzati . . . . . . . . . . . . . . . . . . .  . Approccio intuitivo . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. La simulazione . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Alcuni esempi . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Uso della distribuzione teorica . . . . . . . . . . . . . . . . . .  . Regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Regressione lineare: il modello . . . . . . . . . . . . . . . . . .  .. Assunti della regressione lineare . . . . . . . . . . . . . . . . .  .. R: la funzione lm () . . . . . . . . . . . . . . . . . . . . . . . 
  • 5. INDICE  .. Varianza dei residui, R2 . . . . . . . . . . . . . . . . . . . . .  . Violazione degli assunti . . . . . . . . . . . . . . . . . . . . . . . . . .  . Coefficiente di Spearman . . . . . . . . . . . . . . . . . . . . . . . . .  .. arto esempio, sigmoide . . . . . . . . . . . . . . . . . . . .  . Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  Analisi della Varianza  . Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Confronto a coppie . . . . . . . . . . . . . . . . . . . . . . . .  . Varianze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Varianza spiegata e previsioni . . . . . . . . . . . . . . . . . .  .. Un esempio: gli affii in una cià . . . . . . . . . . . . . . . .  . Inferenza e previsioni . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Lanalisi della Varianza . . . . . . . . . . . . . . . . . . . . . .  . Distribuzione dellerrore, inferenza . . . . . . . . . . . . . . . . . . . .  .. La distribuzione Fisher-Snedecor . . . . . . . . . . . . . . . . .  .. R: uso di aov . . . . . . . . . . . . . . . . . . . . . . . . . . . .  . Anova a due vie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Due variabili indipendenti . . . . . . . . . . . . . . . . . . . .  .. Un esempio: antidepressivi e aività aerobica . . . . . . . . . .  .. Il calcolo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Modello lineare . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Lesempio dei traamenti per la depressione . . . . . . . . . . .  . Confronti multipli . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. La correzione di Bonferroni . . . . . . . . . . . . . . . . . . . .  .. Il test di Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Analisi della Varianza: assunti . . . . . . . . . . . . . . . . . .  . Test non parametrico . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Il test di Kruskal-Wallis . . . . . . . . . . . . . . . . . . . . . .  . Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  Casi di studio  . Il framing effect nella scelta di un paceo turistico: un esperimento on line . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Metodo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . .  . Depressione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  . Confronto fra  variabili ad intervalli . . . . . . . . . . . . . . . . . . .  .. Disegno i grafici delle  variabili . . . . . . . . . . . . . . . . .  .. Correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . .  . Differenza fra masi e femmine . . . . . . . . . . . . . . . . . . . . .  .. Test non parametrico . . . . . . . . . . . . . . . . . . . . . . .  . estionario parole-non parole . . . . . . . . . . . . . . . . . . . . . .  .. Filtro i dati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 
  • 6.  INDICE .. Rapporto fra scolarità e media di risposte corree . . . . . . . .  .. Confronto per genere . . . . . . . . . . . . . . . . . . . . . . .  . Il problema della violazione degli assunti . . . . . . . . . . . . . . . . .  .. Possibili soluzioni . . . . . . . . . . . . . . . . . . . . . . . . .  . Calcolo su dati artificiali . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Analisi della varianza a due vie . . . . . . . . . . . . . . . . . A Primi passi con R  A. Scaricare e avviare R . . . . . . . . . . . . . . . . . . . . . . . . . . . .  A.. Scaricare R . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  A.. Usare R come una calcolatrice . . . . . . . . . . . . . . . . . .  A.. Operazioni booleane . . . . . . . . . . . . . . . . . . . . . . .  A. Help . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  A. Funzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  A.. Creare e manipolare matrici . . . . . . . . . . . . . . . . . . .  A.. Filtri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  A.. Data frames . . . . . . . . . . . . . . . . . . . . . . . . . . . .  A.. Liste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  A. Le distribuzioni teorie . . . . . . . . . . . . . . . . . . . . . . . . . .  A.. La distribuzione normale . . . . . . . . . . . . . . . . . . . . .  A.. Altre distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . B R: analisi descrittiva  B. Analisi descriive . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  B.. Leggere un file di dati . . . . . . . . . . . . . . . . . . . . . . .  B.. Visualizzare il sommario . . . . . . . . . . . . . . . . . . . . .  B.. Variabili nominali . . . . . . . . . . . . . . . . . . . . . . . . .  B.. Variabili a rapporti . . . . . . . . . . . . . . . . . . . . . . . . 
  • 7. Capitolo Introduzione allanalisi dei datiIndice . Analisi dei dati: a cosa serve? . . . . . . . . . . . . . . . . . . .  .. Un esempio: twier e la borsa . . . . . . . . . . . . . . . .  . La ricerca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Aeggiamento critico . . . . . . . . . . . . . . . . . . . .  . Validità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Tipi di validità . . . . . . . . . . . . . . . . . . . . . . . .  . Lanalisi dei dati . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Statistica esplorativa . . . . . . . . . . . . . . . . . . . . .  .. Statistica descriiva univariata . . . . . . . . . . . . . . .  .. Statistie esplorative bivariate . . . . . . . . . . . . . . .  . Statistica inferenziale . . . . . . . . . . . . . . . . . . . . . . .  .. Gli errori . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Campionamento . . . . . . . . . . . . . . . . . . . . . . .  .. Intervalli di confidenza . . . . . . . . . . . . . . . . . . .  .. Testare unipotesi . . . . . . . . . . . . . . . . . . . . . . .  .. Scegliere la statistica appropriata . . . . . . . . . . . . . .  . Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Analisi dei dati: a cosa serve? ``I keep saying that the sexy job in the next  years will be statisticians. And Im not kidding. Hal Varian, ief economist at GoogleLa citazione è traa da un articolo apparso sul New York Times nellagosto . Con losvilupparsi di internet e delle nuove tecnologie, sostiene larticolo, vivremo in un mondodove tuo può essere misurato, dove il numero di informazioni di tipo quantitativo èdestinato a crescere di anno in anno. Il problema, notano, è e affiné questi dati ab-biano un senso, è necessario trasformarli in informazioni e conoscenza. Per fare questo,i dati vanno analizzati. La statistica e lanalisi dei dati sono fra gli strumenti necessariper meere in ao questa trasformazione. Dati, informazioni, conoscenza. 
  • 8.  CAPITOLO . INTRODUZIONE ALLANALISI DEI DATI Lanalisi dei dati, dunque, può essere utilizzata per trasformare i dati raccolti daosservazioni empirie in informazioni e, allinterno di un contesto conoscitivo, ac-crescono la conoscenza degli individui e delle organizzazioni. Larticolo del New York Times enfatizza principalmente la conoscenza applicativa,finalizzata ad oenere risultati pratici. Lanalisi dei dati può essere utilizzata ane perfare delle previsioni... Un esempio: twitter e la borsaRecentemente, è stato pubblicato un articolo (Bollen et al., ) in cui dei ricercatorihanno analizzato il flusso di status su twier, hanno analizzato la frequenza di alcunitermini lessicali legati al tono dellumore e allo stato emozionale. Ebbene, la ricerca haevidenziato e: X questo tipo di analisi riesce a misurare il tono dellumore degli utenti twier; X questa misura ha una capacità significativa di prevedere, di due o tre giorni, lan- damento della borsa di New York.esto lavoro è un esempio interessante non solo dellimportanza dellanalisi dei dati, maane di alcuni aspei metodologici. I ricercatori, infai, si sono posti alcune domande: X gli utenti twier tendono ad esprimere, nei loro post, ane il loro umore? X è possibile analizzare lumore di un tweet verificando la presenza di determinati termini lessicali? X è possibile correlare questi termini con dei costrui psicologici? X è ipotizzabile e esista, oltre allo stato dellumore individuale, ane uno sta- to dellumore colleivo? Ovvero, è possibile e, in un determinato giorno o in un determinato periodo, una popolazione di individui tenda a provare le stesse emozioni? X è possibile e -- ammesso e esista -- questo umore colleivo abbia uninfluen- za su alcuni comportamenti o su alcuni indici economici? Ad esempio, lumore colleivo ha una relazione con landamento della borsa? Per rispondere a queste domande, Bollen et al. () hanno adoato un approccioempirico. In primo luogo, hanno studiato la leeratura. Il loro articolo riporta alcunericere e indicano come lanalisi testuale dei blog sia capace di fare delle previsioni sulsuccesso dei film nelle sale cinematografie, e dallanalisi delle at si possa prevederelandamento della vendita di libri. Inoltre, citano un lavoro e dimostra come il publicsentiment, lopinione colleiva degli utenti dei social network relativi ad un film siacapace di prevederne il successo commerciale. In secondo luogo vengono citati una serie di lavori e di teorie socio-cognitive edimostrano come le emozioni hanno uninfluenza sui processi decisionali. Citano deilavori e mostrano come le emozioni abbiano un ruolo ane nellambito economico-finanziario.
  • 9. .. ANALISI DEI DATI: A COSA SERVE?  Gli autori fanno dunque unipotesi: è ragionevole assumere, dicono, e le emozioni elumore del pubblico possano avere uninfluenza sui valori del mercato azionario. Citanouna ricerca e ha indagato proprio questo aspeo, arrivando a conclusioni a supportodi questipotesi. Il loro lavoro, dunque, si basa su alcune ipotesi verosimili, supportate da una serie diricere fae da altri ricercatori, e ne confermano la plausibilità. I ricercatori esprimo-no degli interessi, potremmo dire delle curiosità. Si pongono delle domande: esiste unumore colleivo? esto umore colleivo può avere un impao su aspei importantidella vita delle persone e delle organizzazioni? È possibile misurare questo umore? La leeratura sullargomento sembra rispondere positivamente a queste domande.Lumore colleivo è misurabile, ed è un indicatore interessante. Misurarlo con strumentitradizionali (ad esempio con i questionari e i sondaggi nazionali) è però molto costoso,osservano. Esiste il modo di misurare quel parametro in maniera altreando efficace mameno costosa? Un modo alternativo per misurare il parametro, osservano, è quello di utilizzareinternet e le moderne tecnologie per raccogliere lenorme mole di dati pubblicati dagliutenti internet sui social network, identificare degli indicatori capaci di cogliere quellamisura, e araverso opportune analisi trasformare questi indicatori in una misura capacedi stimare il parametro. Gli autori, dunque, fanno una seconda ipotesi: sebbene un tweet sia lungo al mas-simo  caraeri, lanalisi di milioni di questi tweet può offrire una rappresentazioneaccurata dellumore colleivo. Ane in questo caso, lipotesi è supportata da alcunilavori sperimentali, e vengono citati. Bollen et al. () esprimono lipotesi centrale del loro lavoro: In this paper we investigate whether public sentiment, as expressed in large- scale collections of daily Twier posts, can be used to predict the sto market. I ricercatori hanno fao unindagine empirica (sebbene non sperimentale) per valu-tare la loro ipotesi. Hanno raccolto quasi  milioni di tweet, di circa .. utenti.Araverso degli strumenti di analisi testuale, hanno calcolato la presenza o meno ditermini generalmente utilizzati, nella lingua inglese, per esprimere il proprio umore.Ane in questo caso, hanno utilizzato degli indicatori noti in leeratura, sebbene daloro modificati per meglio adaarsi alla loro ricerca. Partendo da questo lavoro di data-mining (di estrazione di informazioni) Bollen et al.() hanno oenuto alcuni indicatori. Uno, relativo al tono dellumore (positivo vs.negativo). Altri sei indicatori, correlati ai costrui psicologici di calma, allerta, sicurezza,vitalità, gentilezza e felicità. Araverso opportune trasformazioni, hanno calcolato, perognuna di queste dimensioni, landamento giornaliero del sentimento pubblico. Per verificare e questi indici misurassero davvero i costrui e nominalmente rap-presentano, hanno identificato due momenti e, si suppone, potevano avere un forte im-pao emotivo: lelezione del presidente Obama e il giorno del ringraziamento. Ebbene,in concomitanza con questi due eventi, i sismografi Utilizzando le API di twier, hanno raccolto ----------
  • 10.  CAPITOLO . INTRODUZIONE ALLANALISI DEI DATI. La ricercaLa ricerca scientifica è una aività struurata, finalizzata ad accrescere la conoscenza,teorica e applicativa, araverso un aeggiamento empirico. Allinterno del processodi ricerca vi sono aività di acquisizione, analisi ed interpretazione dei dati. Lacqui-sizione è finalizzata a raccogliere i dati, lanalisi è finalizzata a trasformare i dati ininformazioni, linterpretazione a trasformare linformazione in conoscenza. La ricerca usa procedure, metodi e tecnie coerenti con una specifica scelta episte-mologica e metodologica. Tali procedure, metodi e tecnie sono scelti in base alla lorovalidità e affidabilità. Infine, laeggiamento scientifico dovrebbe rispeare dei crite-ri di obieività, ed evitare ogni forma di manipolazione finalizzata a piegare i risultatialle ipotesi del ricercatore. Uno dei fini dellutilizzo di procedure, metodi e tecniestandardizzate è proprio quello di rispeare dei ragionevoli criteri di obieività. La ricerca scientifica, dunque, dovrebbe essere -- nel limite del possibile -- unaaività controllata, rigorosa, sistematica, valida, verificabile, empirica, e critica.Attività controllata Una delle finalità del metodo sperimentale è quella di misurarela relazione fra due variabili, minimizzando gli effei di faori estranei. Il criterio dellacontrollabilità è più facile da oenere quando laività di ricerca avviene in un contestoil più possibile controllato, quale il laboratorio sperimentale.Ricerca qualitativa Lo svantaggio della ricerca in laboratorio, soprauo nellambitodelle scienze sociali e psicologie, è e la controllabilità implica la semplificazione delseing. Per questo motivo, ad un approccio streamente sperimentale e quantitativo, èspesso necessario affiancare delle aività di ricerca di tipo più qualitativo e, sebbenemeno solide dal punto di vista inferenziale, possono permeere alla comunità scientifi-ca di avere una più completa visione dinsieme, e possono permeere di meglio conte-stualizzare ane i risultati, più particolari, delle ricere sperimentali più streamentecontrollate e quantitative. In termini epistemologici, questo aeggiamento viene definito pluralismo metodo-logico, mentre lidea e un solo tipo di approccio empirico e conoscitivo sia possibile èdefinito monismo metodologico.Rigorosità Il conceo di rigorosità si riferisce ad un aeggiamento epistemologicofinalizzato ad identificare misure, strumenti e metodi e siano rilevanti, appropriati egiustificati (teoricamente ed empiricamente).Sistematicità Indica e la procedura adoata segue una iara sequenza logica... Atteggiamento criticoLidea di aeggiamento critico, di sano sceicismo da parte del ricercatore, è la quin-tessenza del pensiero epistemologico di Popper. Secondo Popper la ricerca scientifica
  • 11. .. LA RICERCA dovrebbe vivere di due momenti: a formulazione di ipotesi; b processo di falsificazio-ne delle ipotesi. In questa prospeiva, è il ricercatore stesso e, araverso il metodosperimentale, cerca di falsificare le proprie ipotesi e le proprie teorie. In realtà, un simile aeggiamento autocritico è difficile da mantenere, ane peré,per un ricercatore, è molto più gratificante confermare la validità delle proprie ipotesi efalsificarle. Ciononostante, questo approccio critico è considerato talmente importantee vi sono due meccanismi metodologici, fortemente consolidati, finalizzati proprio arafforzare questo aeggiamento. Il peer reviewing Uno dei due meccanismi finalizzato a mantenere laeggiamen-to critico è il meccanismo del peer reviewing: prima e un lavoro scientifico vengaacceato (e dunque pubblicato su di una rivista scientifica), deve passare al vaglio dialtri ricercatori. esto esame fra colleghi avviene in forma anonima, ed è finalizzatoproprio a garantire e, prima di venir pubblicato, il lavoro sia analizzato aentamente econ ocio critico per valutarne sia il rispeo dei principi epistemologici e metodologici,di validità e la rilevanza scientifica. Falsificazione e ipotesi nulla In secondo luogo, lapproccio falsificazionista staalla base della statistica inferenziale. Come vedremo nei prossimi paragrafi e nel corsodellintera dispensa, la statistica inferenziale è finalizzata a valutare quanto le misureoenute siano aribuibili al caso. Nel confronto fra due (o più) variabili, ad esempio,si cerca di capire se fra le variabili vi è una relazione. Per fare questo, si identifica unastatistica, ovvero una procedura di calcolo araverso cui si oiene un valore numerico.Il fine del processo inferenziale è stabilire se quel valore numerico va aribuito al caso(allerrore di campionamento) o alla relazione fra le variabili. Per fare questo, si formulano due ipotesi: lipotesi nulla (H0 ) assume e il valorenumerico misurato sia aribuibile al caso, e e dunque, dallanalisi faa, non si possadedurre e vi sia una relazione. Lipotesi alternativa (HA ) assume invece e il valorenumerico non sia aribuibile al caso, e dunque si possa inferire e la relazione esiste. Ebbene, il processo inferenziale si basa sul rifiuto (ovvero, sulla falsificazione) del-lipotesi nulla. Se il valore numerico calcolato è superiore (o inferiore, a seconda deicasi) ad un valore critico, si rifiuta lipotesi nulla, ovvero si falsifica lipotesi e non visia relazione fra le variabili. In caso contrario, lipotesi nulla non viene rifiutata, ma sirifiuta lipotesi alternativa. In God we trust, all others bring data. -- William Edwards DemingPrincipiCome abbiamo visto, la ricerca scientifica si basa su di una serie di principi epistemologicie metodologici. X empiricismo (guardare ai dati); X determinismo (assumere la presenza di relazioni causa - effeo); X parsimonia (le spiegazioni semplici sono meglio di quelle complicate);
  • 12.  CAPITOLO . INTRODUZIONE ALLANALISI DEI DATI X preferenza per un approccio scientifico - sperimentale; X un sano sceicismo; X amore per la precisione; X indagine basata su teorie e ipotesi; X rispeo per i paradigmi teorici; X disponibilità a cambiare opinione (e ad ammeere di avere, talvolta, torto); X fedeltà alla realtà, ovvero alle osservazioni empirie; X aversione per la superstizione, e preferenza per le spiegazioni scientifie; X sete di conoscenza, o più banalmente sana curiosità e voglia di sapere; X capacità di sospensione del giudizio; X consapevolezza delle proprie assunzioni, e dei limiti (teorici, metodologici, di mi- surazione); X capacità di separare le cose importanti da quelle irrilevanti; X rispeo - e aitudine positiva - verso i metodi quantitativi; X conoscenza delle basi della statistica e della teoria della probabilità; X consapevolezza e la conoscenza è sempre imperfea e in quale modo impre- cisa.Metodo scientificoSebbene non esista una ricea preconfezionata, possiamo semplificare lapproccio scien-tifico come qualcosa e assomiglia al processo seguente: . osserva un aspeo del mondo . formula unipotesi su quellaspeo . usa la teoria per fare delle previsioni . testa le tue previsioni, araverso delle osservazioni o, meglio, degli esperimenti . modifica la teoria alla luce dei risultati . ricomincia dal punto .
  • 13. .. LA RICERCA Analisi della letteratura A month in the laboratory can oen save an hour in the library. -- F. H. WestheimerPer trovare una risposta scientificamente plausibile ad un problema: X studiare la leeratura: molto probabilmente il problema è già stato affrontato, sono state sviluppate delle teorie, sono stati pubblicati degli esperimenti. Prima di immaginare di iniziare una ricerca, è fondamentale analizzare la leeratura. X se dalla leeratura emergono risposte iare, il processo può fermarsi: abbiamo la risposta e cercavamo.Contribuire alla ricerca Se dallanalisi della leeratura non emerge una risposta ia-ra alle domande e ci siamo posti, può aver senso cercare di dare una risposta empirica,adoando il metodo scientifico. X partire da ciò e è emerso dallo studio della leeratura; X se opportuno, iniziare una fase di osservazione, o una raccolta dati più aperta, meno quantitativa e più qualitativa, per meglio definire il problema; X formulare unipotesi, plausibilmente allinterno di una teoria; X formulare una previsione, basata sullipotesi; X procedere ad uno studio empirico, possibilmente quantitativo, possibilmente con un disegno di tipo sperimentale; X analizzare i dati, possibilmente con lutilizzo ane di statistie inferenziali; X trarre delle conclusioni.Tipologie di ricere empirie Abbiamo già accennato e lapproccio empiricopuò essere più rigoroso, quantitativo, oppure privilegiare un aspeo più qualitativo.Semplificando, possiamo elencare le seguenti tipologie di ricerca: X osservazione non sistematica: si traa di osservare un fenomeno, prenderne nota; è utile in una fase iniziale della ricerca, per iniziare ad avere unidea del fenomeno studiato e formulare le prime ipotesi; X osservazione sistematica: il fenomeno non viene solo osservato, ma ane misu- rato; le dimensioni rilevanti vengono decise in anticipo; event sampling: viene registrato un dato ogni volta e ha luogo un evento; time sampling; viene faa una osservazione ad ogni intervallo di tempo; losservazione, in quanto tale, tende a non modificare né interferire con quello e osserva;
  • 14.  CAPITOLO . INTRODUZIONE ALLANALISI DEI DATI X esperimento: finalizzato a verificare o falsificare unipotesi; implica la manipola- zione direa di una o più variabili (indipendenti), la misura di uno o più variabili dipendenti, e lanalisi dei dati araverso delle statistie inferenziali; X si definisce quasi-esperimento una situazione empirica in cui le variabili indipen- denti non possono essere manipolate dallo sperimentatore. X le simulazioni usano modelli fisici o matematici per riprodurre le condizioni di una situazione o di un processo.. ValiditàIl metodo scientifico, e più in particolare lapproccio sperimentale, si basa sullassunzionee vi sia un legame esplicativo fra ciò e succede nel contesto sperimentale e quelloe si intende spiegare. Lesperimento, in quanto tale, tende a replicare in un seing controllato alcuni aspeidi ciò e avviene nel mondo esterno, per poter verificare se vi è una relazione causalefra due o più variabili. Per fare questo bisogna ricreare la situazione nel seing, testare la relazione causale,e riportare la relazione allambiente originale.Presupposti di validità I presupposti sono: X e alcuni aspei di un fenomeno si possano misurare, se non su tua la popola- zione, almeno su di un campione; X e, a partire da queste misurazioni, si possano fare delle analisi statistie per far emergere delle relazioni o delle differenze; X e questi risultati abbiano una significatività statistica; X e ciò e si è misurato e e i dati oenuti abbiano un legame con il fenomeno in questione; X e i risultati oenuti sul campione, nel contesto sperimentale, possano essere generalizzati.Una ricerca è valida se rispea questi assunti... Tipi di validitàIn leeratura si trovano diversi tipi di validità. Ne eleniamo i più importanti.La validità di costrutto Si preoccupa di valutare se una scala (o una variabile) misura- o correla - con il costruo scientifico teorizzato. La validità di costruo può esseresupportata dalla validità convergente, e ha luogo quando la misura correla statistica-mente con misure correlate teoricamente, e dalla validità discriminante, e ha luogoquando vi è una mancata correlazione statistica con misure e la teoria suppone nonsiano correlate.
  • 15. .. LANALISI DEI DATI La validità di contenuto Si preoccupa e lesperimento (o le variabili misurate) co-prano adeguatamente il soggeo di studio, ed è fortemente legata al design sperimentale.La validità statistica È legata alla possibilità di trarre delle inferenze dallanalisi sta-tistica, ovvero se le differenze o le associazioni e misuriamo sono statisticamentesignificative.La validità interna Vi è validità interna se possiamo assumere e vi sia una rela-zione causale fra le variabili studiate, ovvero se una correlazione osservata può essereconsiderata una relazione causale. Può essere assunta solo allinterno di un disegnosperimentale.La validità esterna Si preoccupa di verificare se le conclusioni valide nel seing spe-rimentale possono essere generalizzate, alla popolazione o a contesti diversi.Validità e statistica X Lanalisi dei dati è uno degli strumenti e ci permee di valutare alcuni degli aspei della validità di un esperimento. X Lanalisi descriiva ed esplorativa ci permeono di verificare lesistenza di una relazione fra variabili. X Lanalisi inferenziale ci permee di verificare la validità statistica propriamente dea. X Le tecnie di campionamento sono finalizzate a massimizzare la validità esterna. X Il design sperimentale ha il fine di preservare la validità internaAffidabilitàLaffidabilità si riferisce alla qualità del processo di misurazione delle variabili. È legatoagli aspei della ripetibilità della misura e di accuratezza della stessa.. Lanalisi dei datiScopiLanalisi dei dati è finalizzata a molteplici scopi: X descrivere -- numericamente e graficamente -- una misura relativa ad un campio- ne; X fare delle stime -- puntuali e ad intervallo -- relative a dei parametri della popo- lazione;
  • 16.  CAPITOLO . INTRODUZIONE ALLANALISI DEI DATI X calcolare delle relazioni fra due o più variabili, misurate sul campione, e fare delle inferenze in merito alla popolazione di riferimento; X fare delle previsioni in merito al valore di una osservazione, non nota, a partire da delle osservazioni note. Possiamo dunque distinguere fra statistie descriive-esplorative e statistie infe-renziali... Statistica esplorativaFinalità Le statistie descriive sono finalizzate a: X avere una prima visione, qualitativa, delle variabili raccolte; X controllare la presenza di errori, ad esempio di data-entry; X far emergere outliers e anomalie; X valutare qualitativamente ipotesi e assunti, determinare qualitativamente le rela- zioni fra le variabili; X identificare lentità e la direzione delle relazioni fra le variabili; X selezionare i modelli statistici appropriati; Le statistie esplorative propriamente dee (Exploratory Data Analysis, EDA) han-no ane altre funzioni: X scoprire paern e struure implicite; X estrarre variabili latenti, o far emergere variabili importanti; X sviluppare modelli parsimoniosi (riduzione dello spazio delle variabili); X determinare opportuni parametri per ulteriori analisi (es n di faori, n di clusters)Tipologie di statistica esplorativa La statistica esplorativa può essere univariata omultivariata. Inoltre, può utilizzare metodi grafici e metodi non grafici. Spesso, in leeratura, si tende ad usare sia il termine descriiva e esplorativa,ane se forse ha più senso parlare di statistica esplorativa quando valuta la relazionefra due o più variabili, e descriiva la statistica non inferenziale univariata. Mentre lanalisi inferenziale segue la definizione dellipotesi di ricerca, lanalisi esplo-rativa spesso ha luogo prima della definizione del modello teorico e dellipotesi di ricerca.Semplificando, nellanalisi inferenziale, la sequenza teorica è problema → definizione diun modello (ipotesi) → raccolta dei dati → analisi → eventuali conclusioni Nellanalisi esplorativa, la sequenza èproblema → raccolta dei dati → analisi esplorativa → definizione di un modello (ipotesi)→ eventuali conclusioni
  • 17. .. LANALISI DEI DATI .. Statistica descrittiva univariataNella statistica descriiva univariata (non grafica), si valutano prevalentemente tre aspet-ti (Waltenburg and McLaulan, ): X le tendenze centrali della distribuzione X la dispersione della distribuzione X la forma della distribuzioneGli strumenti e le misure della statistica descriiva univariata dipendono dalla tipologiadella variabile: categoriale-ordinale versus numerica (intervalli, rapporti).DistribuzioneLa distribuzione sintetizza la frequenza dei valori o di intervalli di valori di una varia-bile. La frequenza può essere assoluta (il numero di osservazioni e cadono in quellacategoria o e rientrano in quel valore o intervallo) o in termini percentuali. La distribuzione può essere rappresentata in forma tabellare, oppure con un grafico(tipicamente, un istogramma). Nella forma tabellare, rappresenta una distribuzione difrequenza. Possiamo distinguere X frequenze assolute: si contano il numero di volte e un particolare valore è oenuto nel campione; X frequenze relative, proporzioni: frequenze assolute divise per il numero di osser- vazioni; X frequenze percentuali: proporzioni moltiplicate per .Le frequenze sono rappresentate in tabelle di contingenza.Tendenze centraliLa tendenza centrale di una distribuzione è una stima del centro di una distribuzione divalori. Vi sono tre principali tipologie di stima della tendenza centrale: X la moda: il valore (o la categoria) più frequente. Per calcolare la moda, è sufficiente ordinare i punteggi in base alla frequenza, e selezionare il primo. X la mediana: il valore e sta a metà quando le osservazioni sono ordinate in base alla variabile. Se il numero di osservazioni è dispari, si calcola la media fra i due valori centrali. X la media aritmetica, si calcola sommando i valori e dividendo la somma per il numero di osservazioni.
  • 18.  CAPITOLO . INTRODUZIONE ALLANALISI DEI DATIIndici di dispersioneLa dispersione si riferisce alla diffusione dei valori intorno alla tendenza centrale. Ledue misure più importanti sono X il range, ovvero la distanza fra il valore massimo ed il minimo. X la deviazione standard misura la variabilità aorno alla media. X la distanza interquartilica: corrisponde al range fra il primo e il terzo quartile. Meno soggeo agli outliers. Non tui questi indici possono essere applicati a tue le variabili, e dunque il primopassaggio nella statistica descriiva è dunque quello di definire le tipologie di variabilistudiate.Tipologie di variabiliPossiamo distinguere  tipologie di variabili: X nominali X ordinali X ad intervalli X a rapportiNel definire le tipologie di statistie applicabili, la distinzione più importante è fravariabili categoriali e quantitative (intervalli, rapporti).Scale nominali Le variabili nominali creano delle categorie, e permeono di classifi-care le osservazioni allinterno di quelle categorie. Alle varie categorie non può essere aribuito un ordine, e tantomeno è possibile faredelle operazioni matematie sulle variabili nominali. Una variabile dicotomica è un caso speciale di variabile nominale, in cui vi sonosoltanto due categorie. A partire da una variabile nominale è possibile calcolare la frequenza (ovvero ilnumero di osservazioni classificate in ogni gruppo) e la moda (ovvero il gruppo piùnumeroso).Scale ordinali Le variabili ordinali permeono di stabilire un ordine fra gli elementi. Soo certi aspei, costituiscono una estensione delle variabili nominali. Essendopossibile stabilire un ordine, permeono di identificare la posizione di un elemento nelrapporto con gli altri elementi. Data una variabile ordinale, oltre alla moda, è possibile calcolare i percentili, i quar-tili, la mediana.
  • 19. .. LANALISI DEI DATI Scale ad intervalli Le variabili ad intervalli non solo possono essere ordinate, ma èpossibile fare delle assunzioni in merito alla distanza fra i valori, in quanto la distanzafra ogni valore intero è costante. È possibile misurare non soltanto la moda e la mediana, ma ane la media aritme-tica fra le tendenze centrali; fra le misure di dispersione, possiamo misurare il range, ladistanza interquartilica e la deviazione standard. Le scale a rapporto sono variabili ad intervalli; la loro particolarità è dovuta al faoe il valore e corrisponde allo zero non è arbitrario, ma assoluto. Ciononostante,generalmente si applicano alle variabili a rapporto le stesse statistie delle variabili adintervalli.Variabili e statistieStatistica descrittiva univariata categoriale Nel caso di variabile categoriale, la rap-presentazione non grafica più appropriata è in forma tabellare: si costruisce una tabella,con tante colonne quanti i livelli della variabile. I valori delle celle rappresentano la fre-quenza delle osservazioni per ogni livello. La frequenza può essere assoluta (il numerodi osservazioni) o relativa. Per oenere la tabella della frequenza relativa si dividono leosservazioni di ogni livello per il numero di osservazioni totale. Lunica misura della tendenza centrale appropriata per le scale nominali è la moda,ovvero il livello con frequenza più alta. Graficamente, una variabile categoriale può essere rappresentata araverso un gra-fico a barre. Se il numero di livelli è basso, può essere utile ane la rappresentazione del graficoa torta.Statistica descrittiva univariata, variabili ordinali Nel caso di variabili ordinali,oltre alla moda e al numero di livelli, possiamo calcolare: X lindice di centralità della mediana; X indici di dispersione quali il range e i percentili; di particolare interesse i quartili e la distanza interquartilica. X ane nel caso di variabili ordinali, se il numero di livelli è relativamente basso, può essere utile creare la tabella delle frequenze, assolute o relative. X La rappresentazione grafica più appropriata è il grafico a barre, a pao e lordine degli elementi grafici rispei lordine delle categorie.Statistica descrittiva univariata, variabili numerie X nelle variabili ad intervalli (o a rapporti), oltre alla moda e alla mediana si calcola lindice di centralità della media. X oltre al range, ai percentili ed ai quartili, si calcola lindice di dispersione della varianza (e della deviazione standard).
  • 20.  CAPITOLO . INTRODUZIONE ALLANALISI DEI DATI X nellanalisi della forma della distribuzione, laspeo più importante consiste nel valutare se la distribuzione osservata approssima una distribuzione teorica, tipi- camente la distribuzione normale. Nel caso, è possibile calcolare la simmetria e la kurtosi della curva di distribuzione.Statistica grafica univariata, variabili numerie X per rappresentare graficamente la distribuzione, si utilizzano listogramma e il grafico della distribuzione oenuto araverso il metodo del kernel. X araverso il boxplot è possibile rappresentare la mediana, i quartili ed il range di una distribuzione numerica. È possibile inoltre valutare la presenza di outliers, ovvero di osservazioni collocate ai margini della distribuzione osservata. X usando il grafico qqnorm (o qqplot) e la funzione qqline è possibile confrontare la distribuzione osservata con la distribuzione teorica normale.Valutazione della normalità, trasformazioniTest di normalità Poié le statistie inferenziali parametrie assumono una distri-buzione delle osservazioni di tipo normale, è generalmente opportuno valutare la distri-buzione osservata di una variabile non soltanto araverso metodi grafici e descriivi,ma ane araverso dei test di normalità. In questa dispensa, utilizzeremo due di questitest: X Il test di Kolmogorov-Smirnov permee di confrontare due distribuzioni arbitrarie, e può essere usato per il confronto fra la distribuzione osservata e la distribuzione normale; X Il test di normalità Shapiro-Wilk è finalizzato a valutare la normalità della distri- buzione osservata. Le due misure possono dare risultati differenti. Risulta pertanto necessario un pro-cesso di valutazione e tenga conto sia dei risultati dei test e dellanalisi grafica delladistribuzione. esta regola pratica vale in ogni ambito della ricerca e dellanalisi dei dati: la me-todologia ci indica delle procedure e è opportuno seguire, per minimizzare il risiodi errori e meano a repentaglio affidabilità e validità della ricerca. Le procedure, però, non vanno seguite pedissequamente. Conoscere i princˆ e gliipiassunti dellanalisi dei dati ci permee di fare delle inferenze ragionevolmente robusteane nei casi, e sono molti, in cui non è possibile una applicazione meccanica dellaprocedura... Statistie esplorative bivariateLe statistie esplorative multivariate hanno la finalità di meere in relazione due o piùvariabili.
  • 21. .. STATISTICA INFERENZIALE  Le statistie grafie tendono a limitarsi prevalentemente al confronto di due varia-bili alla volta, in quanto questi confronti sono più facili da rappresentare e più immediatida leggere.Variabili numerie: grafico di dispersione Nel caso di confronto fra due variabilinumerie, la rappresentazione grafica più appropriata è il grafico di dispersione, emappa le osservazioni delle due variabili sulle due dimensioni x e y. La linea di regressione, inoltre, ci permee di visualizzare il modello di regressionelineare.Variabili categoriali: mosaic plot Araverso il mosaic plot è possibile rappresentaregraficamente la relazione fra due variabili di tipo categoriale, nominale o ordinale. Per rappresentare numericamente il rapporto fra due variabili categoriali si usa in-vece la tabella delle frequenze (assolute o relative). La tabella, di dimensioni r ∗ c, dover è il numero di livelli di una variabile, c il numero di livelli dellaltra.Variabile categoriale vs variabile numerica Nel caso si debbano confrontare grafi-camente una variabile numerica su di una variabile categoriale, è possibile utilizzarenuovamente il boxplot, disegnando tanti boxplot quanti sono i gruppi della variabilecategoriale. Una seconda possibilità è quella di un grafico a barre, dove ogni barra rappresentala media di ogni gruppo. Unalternativa grafica consiste nel sostituire le barre con dellelinee e congiungono i punti e rappresentano le medie. este rappresentazioni possono essere utilizzate ane quando le variabili catego-riali (indipendenti) sono due.. Statistica inferenzialeFinalitàIl fine dellanalisi inferenziale è quello -- banalmente -- di fare delle inferenze su di unapopolazione a partire dalle osservazioni di un campione. Il fine dellanalisi inferenziale univariata, è quello di stimare il valore di un parametrodella popolazione a partire da una statistica calcolata sul campione. Il fine dellanalisi inferenziale bivariata è quello di stimare la significatività di unarelazione fra due variabili. Le analisi multivariate sono sostanzialmente unestensionedellanalisi bivariata. Nel confronto fra le variabili, possiamo determinare X correlazioni fra variabili X differenze fra gruppi X determinazione di relazioni X stima di effei X predizioni basate su analisi della regressione.
  • 22.  CAPITOLO . INTRODUZIONE ALLANALISI DEI DATIAnalisi inferenziale univariata La finalità è quella di stimare il parametro di unapopolazione a partire dalla statistica corrispondente, calcolata sul campione. General-mente, il parametro stimato è la media della popolazione, ma si usa ane per stimarnela varianza o la mediana. Poié queste statistie sono soggee allerrore di campionamento, nellanalisi in-ferenziale si calcola ane lintervallo di confidenza, ovvero la forbice entro cui si stimae il parametro oggeo di indagine si colloi.Analisi inferenziale bivariata Lo scopo di questo tipo di analisi è quello di verificaree vi sia una relazione statisticamente significativa fra le due variabili. Lapproccio comune alle analisi bivariate è quello di identificare una statistica capacedi misurare la relazione, applicare la statistica sulle variabili in oggeo, e confrontare ilvalore con la distribuzione dellerrore di quella statistica. Se il valore numerico della statistica cade allinterno della distribuzione di errore, siassume e quella relazione non sia statisticamente significativa... Gli erroriIl fine dellanalisi inferenziale è quello di trarre delle conclusioni in merito a dei parametridi una o più popolazioni. Per fare questo, si potrebbe voler misurare i parametri dellapopolazione di interesse, calcolarne le statistie appropriate, e trarne le debite inferenze. Testare lintera popolazione è però generalmente impossibile, per due ordini di mo-tivi. X Il motivo più ovvio è di tipo pratico: se la popolazione è molto numerosa, testarla completamente diventa eccessivamente costoso. X Vi è inoltre un secondo motivo: a volte, la popolazione di riferimento è teorica. Ad esempio, potremmo voler fare delle inferenze sulla depressione post partum; in questo caso, la popolazione di riferimento sono tue le donne e hanno partorito da meno di ,  mesi. Ma ane se riuscissimo a testare tue le partorienti dItalia per un intero anno solare, vorremmo e i risultati ci permeessero di fare delle inferenze ane sulle donne e partoriranno fra due anni. La popolazione reale di questanno, dunque, è un sooinsieme della popolazione teorica e include le donne e partoriranno nei prossimi anni. Appare dunque iaro e, tranne alcune eccezioni, testare lintera popolazione ègeneralmente impossibile. A questo punto, diventa necessario testare soltanto un sot-toinsieme della popolazione, ovvero un campione (sample, in inglese). Semplificando, la logica soostante lanalisi dei dati è sostanzialmente la seguente: X si identifica un problema X si identifica una popolazione X si identifica una dimensione pertinente X si estrae un campione
  • 23. .. STATISTICA INFERENZIALE  X si misura la dimensione sul campione X a partire dalla statistica sul campione, si traggono inferenze sul parametro di popolazione X si traggono delle inferenze sui risultati Vi è, dunque, un passaggio logico: popolazione - campione, misura sul campione -generalizzazione alla popolazione. Abbiamo visto e, affiné questi passaggi portinoa risultati acceabili, è necessario preservare dei criteri di validità. Più in particolare, ènecessario minimizzare e gestire alcuni errori e possono influire sullanalisi.Tipi di erroreLanalisi inferenziale si basa sulla consapevolezza e i processi di campionamento, mi-surazione ed analisi sono soggei ad errori. Il fine della metodologia è quello di minimiz-zare e, quando possibile, escludere gli errori. Il fine dellinferenza è quello di misuraregli errori, valutare se i risultati oenuti sono da aribuire o meno agli errori, e stimareil risio e il processo decisionale dellinferenza sia scorreo. Conoscere le tipologie di errori e i metodi per minimizzarli ed evitarli è dunque dicentrale importanza nella metodologia e nellanalisi. Sono numerosi gli errori e possono influire sul processo inferenziale. Ricordiamo-ne alcuni. X Errore di campionamento: il campione non produrrà esaamente gli stessi valori e si osserverebbero misurando lintera popolazione. X In un esperimento, errore di assegnamento: le differenze misurate fra i gruppi sperimentali (e di controllo) potrebbero essere dovute non alla condizione speri- mentale, ma a differenze pre-esistenti fra i gruppi creati X Errore di misurazione (affidabilità): la misurazione della variabile può essere non accurata, e dunque può produrre risultati parzialmente non correi. Più in generale, si definisce errore la differenza fra una misura di un parametro edil valore reale del parametro stesso. esta differenza può essere casuale o sistematica.Per capire la differenza, è necessario pensare a numerose misure, e dunque al ripetersidellerrore. Se lerrore è casuale, la media degli errori (ovvero la media delle differenze)tende ad essere pari a zero. Viceversa, lerrore è sistematico se la media tende ad unvalore diverso da zero. Gli errori sistematici sono i più pericolosi, in quanto possono indurre il ricercatore aconclusioni errate e sono difficili da far emergere e da correggere araverso gli strumentistatistici. Gli errori sistematici possono essere minimizzati soltanto araverso un designrigoroso ed una raccolta ed elaborazione dei dati scrupolosa. Il problema del campionamento è e, se fao in maniera scorrea, può indurre aderrori sistematici.
  • 24.  CAPITOLO . INTRODUZIONE ALLANALISI DEI DATI.. CampionamentoViene definito campionamento il processo di selezione del sooinsieme di unità dellapopolazione da studiare, per misurarne le caraeristie di interesse. La notizia positiva è e, se il campionamento viene effeuato in maniera correa,le caraeristie misurate sul campione tendono ad assomigliare alle caraeristie (pa-rametri) della popolazione.La notizia negativa è e, nonostante la somiglianza, le statistie sul campione sono inquale modo diverse dai parametri della popolazione. esta differenza va aribuitaalla variabilità campionaria: se noi selezioniamo due campioni distinti da una stessa po-polazione, oeniamo statistie diverse. este differenze sono definite ane errore dicampionamento.Campionamento rappresentativo Per evitare errori sistematici dovuti al campione,è necessario e il campione sia rappresentativo della popolazione. La tipologia di campionamento e meglio garantisce la rappresentatività della popo-lazione è il campionamento casuale: le unità del campione vengono scelte casualmentedalla popolazione. In alcuni casi si utilizza una forma di campionamento stratificata,nelle circostanze in cui si voglia garantire la rappresentatività di piccoli soogruppi dipopolazione. Viceversa, metodi di campionamento non casuali (come i campionamenti di conve-nienza) risiano di introdurre degli errori sistematici nella statistica Akritas ().Missing Un problema di non facile soluzione emerge quando una parte non trascurabi-le del campione selezionato non si presta alla misurazione. Se i missing si distribuisconoin maniera uniforme fra il campione, limpao di questi dati mancanti risulta abbastanzacircoscrio. Se, al contrario, i missing sono più frequenti in alcuni strati della popolazione piut-tosto e in altri, è forte il risio di incorrere in un errore sistematico.Errori casuali Una parte di errore, però, non può essere evitata. Se questi errori nonsono sistematici, ma distribuiti casualmente, i metodi statistici ci permeono di misu-rarli, di valutarne limpao, e di calcolare la probabilità e i risultati da noi oenutisiano o meno aribuibili al caso. La funzione della statistica inferenziale è di fare delle stime, relative ai parametridella popolazione, partendo dalle statistie dei campioni, e tengano conto della va-riabilità campionaria. Lanalisi inferenziale offre una serie di strumenti e permeanodi: X fare delle stime sui parametri di una popolazione X determinare se i parametri di due o più popolazioni sono significativamente diversi X valutare se due o più parametri relativi ad una popolazione sono fra loro legati X fare delle previsioni
  • 25. .. STATISTICA INFERENZIALE Lanalisi inferenziale fa delle stime, di tipo puntuale e intervallare, su determinati para-metri della popolazione, testa delle ipotesi, valuta laccuratezza delle proprie previsionie determina il risio e le stime, le ipotesi acceate e le previsioni risultino errate... Intervalli di confidenzaUn correo campionamento minimizza lincidenza degli errori sistematici, ma non eli-mina lerrore casuale. Il valore della statistica sul campione, infai, è una approssimazione del valore delparametro della popolazione. Più precisamente, la media del campione costituisce unastima puntuale della media della popolazione. Sappiamo, però, e questa stima sarà --quasi sicuramente -- leggermente sbagliata. Conoscendo soltanto la stima puntuale, nonsappiamo quanto questa stima sia affidabile, e quale sia il probabile range di errore. Il calcolo dellintervallo di confidenza è finalizzato proprio a calcolare il range entrocui il valore del parametro di popolazione dovrebbe cadere. Un intervallo di confidenza si basa su una percentuale - prestabilita - di confidenza.Generalmente, si considera acceabile una percentuale del %. Per meglio capire la percentuale dellintervallo di confidenza, partiamo da una osser-vazione. Se estraiamo  campioni diversi dalla stessa popolazione, e misuriamo la stessavariabile sui due campioni, oerremo valori (più o meno) diversi. Immaginiamo ora di estrarre  campioni dalla popolazione. Usiamo il primo cam-pione per misurare il parametro della popolazione, e lintervallo di confidenza. Un in-tervallo di confidenza del % significa e, se misuriamo la stessa statistica sugli altri campioni, ci aspeiamo e -- approssimativamente --  di loro cadano entrolintervallo di confidenza. Più streo lintervallo di confidenza, più alta la precisione.Un intervallo di confidenza molto largo lascia intendere e le dimensioni del campionesono inadeguate. Lintervallo di confidenza verrà descrio più deagliatamente nellasezione ... Testare unipotesiNel test di ipotesi, si identificano unipotesi nulla e unipotesi alternativa; si fanno dellemisurazioni e si calcola una statistica; se la statistica cade allinterno della regione diacceazione (basata sulla distribuzione dellerrore campionario), lipotesi nulla non vienerifiutata. In caso contrario, lipotesi nulla viene rifiutata, e si accea lipotesi alternativa. Il test di ipotesi si pone la questione: ``i risultati e abbiamo oenuto possono esserearibuiti al caso? Il primo passo, è quello di tradurre il problema scientifico e ci siamoposti nei termini delle due ipotesi: lipotesi nulla e lipotesi alternativa. X Lipotesi nulla, H0 , assume e il risultato non sia significativo, ovvero e sia da aribuire al caso. X Lipotesi alternativa H1 o HA , sostiene e il risultato della statistica non pos- sa essere aribuito al caso, ma e sia da aribuire ad una relazione inerente la popolazione, sia questa una differenza o una relazione.
  • 26.  CAPITOLO . INTRODUZIONE ALLANALISI DEI DATI Il secondo passo, è identificare una statistica e sia capace di misurare la differenza(o la relazione) allinterno del campione, ed applicarla ai dati raccolti. Il terzo passo è confrontare il valore della statistica con la corrispondente distribu-zione di errore. Informalmente, possiamo dire e più il valore della statistica si collocaai margini della distribuzione di errore, meno è probabile e la differenza (o la relazio-ne) misurata siano aribuibili al caso. esta probabilità può essere stimata in base alladistribuzione dellerrore, e costituisce il p-value, valore su cui si basa la decisione fina-le: se il p-value risulta inferiore ad un livello di soglia acceabile, definito α, si rifiutalipotesi nulla, e si accea lipotesi alternativa. In caso contrario, non si rifiuta lipotesinulla.Lipotesi nullaPoié i concei di ipotesi nulla, ipotesi alternativa e p-value sono molto importanti nellastatistica inferenziale ma sono spesso difficili da comprendere, ci soffermiamo ancora suquesti concei. Lipotesi nulla e lipotesi alternativa sono alla base del test di ipotesi, e costituisceil fine della statistica inferenziale, e si propone di capire (e di decidere) se i risultatioenuti siano da aribuire, o meno, al caso. Lesempio più tipico è il disegno sperimentale dove i partecipanti sono assegnaticasualmente a due gruppi, il gruppo sperimentale e quello di controllo. Al gruppo spe-rimentale viene somministrato un traamento, al gruppo di controllo no (oppure, vienesomministrato il placebo). Viene definita una misura, capace di valutare loutcome, il ri-sultato del traamento. Si calcola lappropriata statistica (ad esempio la media) dei duegruppi sperimentali, e si calcola la differenza fra le due medie. Se la metodologia sperimentale è stata seguita correamente, la differenza fra le duemedie può essere aribuita soltanto a due possibili cause: il traamento, o il caso.Lipotesi nulla assume e la statistica misurata (in questo caso, la differenza) sia ari-buibile al caso, ovvero e la vera differenza fra la media dei due gruppi sia pari a zero.Lipotesi alternativa assume e la differenza non possa essere aribuita al caso e, peresclusione, sia aribuibile al traamento. Lipotesi nulla viene rifiutata se la differenza fra le medie dei due gruppi è tale da nonpoter essere aribuita al caso, ovvero se si discosta significativamente dalla distribuzionedellerrore di campionamento. Formalmente, si parla di rifiuto e non rifiuto dellipotesi nulla. Non è formalmentecorreo parlare di acceazione dellipotesi nulla. Ceriamo di capire il peré.Lipotesi nulla assume e il valore della statistica sia da aribuire al caso. Se il valoreè esterno alla regione di acceazione non possiamo aribuire il risultato al caso, e dun-que dobbiamo rifiutare lipotesi nulla, ed acceare lipotesi alternativa (il risultato non èaribuibile al caso). Se il valore della statistica cade allinterno della regione di acceazione, non pos-siamo escludere e il risultato sia aribuibile al caso. esto però non dimostra ela vera misura sia pari a zero. Per quanto ne sappiamo, la vera misura potrebbe esserecomunque differente da zero. Poié, però, la differenza misurata potrebbe essere ari-buita al caso, tuo quello e possiamo dire è e non si può escludere e la differenzasia dovuta al caso. Lipotesi nulla non è falsificata (e dunque non viene rifiutata) ma
  • 27. .. STATISTICA INFERENZIALE nemmeno verificata (in quanto non sappiamo se la vera differenza sia davvero pari azero. Il test di ipotesi, dunque, si basa su quellaeggiamento di tipo falsificazionista in-trodoo quale paragrafo sopra.Il p-valueIl p-value è la risposta alla domanda ``assumendo e lipotesi nulla sia vera, qualè laprobabilità di osservare un valore altreanto o più estremo di quello oenuto? Il p-value è una misura dellevidenza contraria allipotesi nulla: più basso il p-value,maggiore levidenza contraria allipotesi nulla. Un p-value basso indica una maggioresicurezza nel rigeare lipotesi nulla. Il p-value è la probabilità e lerrore campionario possa assumere un valore superio-re al valore osservato. Deo in altri termini, il p-value ci dice la probabilità di compiereun errore di tipo I rifiutando lipotesi nulla. Coerentemente con laeggiamento falsificazionista, il p-value può essere usato solocome evidenza contro lipotesi nulla, non a favore di unipotesi. Un p-value alto non cipermee di trarre alcuna conclusione: Absence of evidence is not the evidence of absence. In ambito applicativo, non è deo e una significatività statistica abbia reali impli-cazioni pratie. In clinica, ad esempio, una differenza statisticamente significativa puònon essere clinicamente significativa. Inoltre, il p-value non dice nulla sullentità delladifferenza (o delleffeo)P-value e α La decisione sul rifiuto o meno dellipotesi nulla si basa sul confronto frail p-value e la soglia α: se p < α si rifiuta lipotesi nulla, altrimenti no. α è ane il livello di significatività del test. Generalmente, i valori più comunementeutilizzati sono α = . e α = ..Lipotesi alternativa Lipotesi alternativa può essere ad una o a due code (mono- obidirezionale). Nellipotesi a due code assume lesistenza di un effeo o una differenza,ma senza specificare la direzione.Nellipotesi ad una coda, viene specificata ane la direzione aesa della differenza.Processo decisionalePossiamo dunque riassumere il processo decisionale del test dipotesi. X Si parte, conceualmente, dallipotesi nulla; X si definisce lipotesi alternativa -- generalmente, lipotesi a supporto della teoria; X si definisce e si calcola la statistica test opportuna sulla variabile, misurata sul campione; X si definisce lerrore di tipo I e si ritiene acceabile (ovvero, il valore α); X si calcola la regione di rifiuto dellipotesi nulla o, alternativamente, il p-value;
  • 28.  CAPITOLO . INTRODUZIONE ALLANALISI DEI DATI X la decisione finale si basa valutando se la misura della statistica cade allinterno o allesterno della regione di acceazione dellipotesi; se allesterno, si rifiuta lipotesi nulla, e si accea lipotesi alternativa; se allinterno, non si rifiuta lipotesi nulla, ma quella alternativa; X lo stesso risultato può essere oenuto confrontando il p-value con α: se p < α si rifiuta lipotesi nulla, altrimenti no... Scegliere la statistica appropriataPer decidere quale tipo di statistica può essere applicata, è necessario definire: X il numero di variabili in gioco (una, due, più di due) X la tipologia delle variabili (nominale o numerica) X il tipo di ipotesi testata: ceriamo una relazione, una differenza, una previsioneNumero di variabili X Statistie uni-variate X Statistie bi-variate X Statistie multi-variateTipi di variabili e statistica La tipologia di statistica inferenziale da applicare si ba-sa sulla tipologia di variabili. Come abbiamo visto, possiamo distinguere fra variabilicategoriali, ordinali, ad intervalli e a rapporti. este quaro tipologie possono essere raggruppate in variabili nominali (catego-riali e, generalmente, ordinali) e variabili numerie (a intervalli, a rapporti). La tipologia di statistica e può essere applicata si basa sulla tipologia delle variabiliindipendenti e dipendenti.Statistie bivariate dipendente numerica dipendente categoriale indipendente correlazione, regressione analisi discriminante, regres- numerica sione logistica indipendente t-test, ANOVA i quadro categoriale. EserciziGenere e retribuzione Domanda: vi è una differenza di retribuzione fra masi efemmine? X qualè la variabile indipendente? Di e tipo è?
  • 29. .. ESERCIZI  X qualè la variabile dipendente? Di e tipo è? X e tipo di statistica si applica?Spettatori e pubblicità Domanda: Cè relazione fra il numero di persone e vanno avedere un film ed i soldi spesi per pubblicizzare la pellicola? X qualè la variabile indipendente? Di e tipo è? X qualè la variabile dipendente? Di e tipo è? X e tipo di statistica si applica?Antidepressivi e stato depressivo Domanda: La somministrazione di un antidepres-sivo è efficace nel curare la depressione? X qualè la variabile indipendente? Di e tipo è? X qualè la variabile dipendente? Di e tipo è? X e tipo di statistica si applica?Genere e facoltà Domanda: cè un rapporto fra la scelta di un tipo di facoltà (umani-stica, scientifica) di uno studente ed il suo genere? X qualè la variabile indipendente? Di e tipo è? X qualè la variabile dipendente? Di e tipo è? X e tipo di statistica si applica?Nazionalità e caffè Domanda: cè un rapporto fra la nazionalità delle persone ed illoro consumo di caffè? X qualè la variabile indipendente? Di e tipo è? X qualè la variabile dipendente? Di e tipo è? X e tipo di statistica si applica?Stato civile e genitorialità Domanda: cè un rapporto fra lo stato civile di una personaed il fao e abbia o non abbia figli? X qualè la variabile indipendente? Di e tipo è? X qualè la variabile dipendente? Di e tipo è? X e tipo di statistica si applica?
  • 30.  CAPITOLO . INTRODUZIONE ALLANALISI DEI DATI
  • 31. Capitolo Lapproccio simulativoIndice . Gli errori di campionamento . . . . . . . . . . . . . . . . . . . .  .. Distribuzione degli errori . . . . . . . . . . . . . . . . . .  . Introduzione allapproccio simulativo . . . . . . . . . . . . . . .  .. Generare popolazione e campioni . . . . . . . . . . . . . .  .. Campioni di numerosità  . . . . . . . . . . . . . . . . .  . Intervallo di confidenza . . . . . . . . . . . . . . . . . . . . . .  . Bootstrapping . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Generare molti campioni da un campione . . . . . . . . .  .. Confronto fra le distribuzioni . . . . . . . . . . . . . . . .  .. Usare lapproccio parametrico . . . . . . . . . . . . . . . . . Gli errori di campionamentoLanalisi dei dati deve confrontarsi con la gestione degli errori. Se una buona metodo-logia ed un correo campionamento possono minimizzare limpao degli errori siste-matici, gli errori casuali non possono essere eliminati. Lanalisi inferenziale permee alricercatore di stimare lentità di questi errori, e di capire quanto le misure e le relazioniemerse siano da imputare a tali errori. Lanalisi si basa sul calcolo di alcune statistie. Nellanalisi univariata si calcola-no gli indici di centralità e di dispersione, nelle statistie bivariate si calcolano dellestatistie capaci di misurare le relazioni fra variabili. Sia le statistie uni e bivariate devono tener conto dellerrore di campionamento.Facciamo alcuni esempi. La media del campione costituisce la migliore stima della media della popolazione (lamedia è una stima unbiased); se dalla stessa popolazione, però, estraggo dieci campionidiversi, oerrò dieci stime differenti. Un tipico disegno sperimentale consiste nel dividere il campione in  gruppi, som-ministrare un traamento ad un gruppo (sperimentale), somministrare un diverso trat- 
  • 32.  CAPITOLO . LAPPROCCIO SIMULATIVOtamento (o un placebo) allaltro gruppo, e misurare leffeo araverso una variabile nu-merica; per valutare leffeo del traamento, si misura la differenza fra le medie dei duegruppi. Di nuovo: questa differenza va aribuita al traamento, o al caso (alla variabili-tà campionaria)? Infai, in maniera del tuo paragonabile allesempio precedente, cosasuccederebbe se applicassimo lo stesso traamento (o nessun traamento) ai due grup-pi? Ci aspeiamo e le medie dei due gruppi siano perfeamente uguali? La risposta ènaturalmente no: le medie saranno probabilmente simili, ma non uguali. Facciamo un terzo esempio: immaginiamo di voler capire se vi è una relazione fradue variabili numerie. Decidiamo di adoare la statistica della correlazione di Pear-son, una misura e si muove nel range −1 < r < +1 e dove  significa assenzadi correlazione. Ane in questo caso, però, nella circostanza di due variabili fra loroindipendenti, non possiamo aspearci una correlazione esaamente pari a ... Distribuzione degli erroriApproccio parametricoFortunatamente, gli errori dovuti al caso (e alla varianza campionaria) sono soggei adelle distribuzioni note (quantomeno per quanto riguarda le statistie più comuni). Lacosiddea statistica parametrica si basa proprio sul fao e, se alcuni assunti sono ri-speati, la distribuzione dellerrore delle statistie usate approssima, previo opportunatrasformazione, delle distribuzioni teorie. Il processo inferenziale utilizza questa pro-prietà; si calcola la statistica, si opera la trasformazione, e si confronta il risultato con ladistribuzione teorica.Statistie non parametrieLo svantaggio dellapproccio parametrico è e fa delle assunzioni sulle variabili; vi so-no delle circostanze in cui queste assunzioni non vengono rispeate. In questi casi, lestatistie parametrie possono essere inaffidabili; a questo punto, diventa opportunoaffidarsi a delle famiglie di statistie non parametrie, il cui vantaggio è quello di fareun minore numero di assunzioni. Generalmente, lapproccio delle statistie non parametrie consiste nel trasformarela variabile dipendente, numerica, in una variabile ordinale. La trasformazione consistenel calcolare il rank, ovvero il valore ordinale della misura.Approccio simulativo (resampling)Esiste poi unaltra possibilità: utilizzare il calcolatore per generare la distribuzione del-lerrore, e basare il processo inferenziale non sulla distribuzione teorica, ma sulla distri-buzione generata. esto approccio è relativamente recente, in quanto è computazionalmente oneroso,e dunque può essere applicato soltanto con degli strumenti di calcolo potenti. Oggi, però,possono essere applicati agevolmente ane con i comuni computer, e dunque stannoguadagnando crescente popolarità. Lapproccio simulativo ha alcuni vantaggi, il principale dei quali è e fa poissimeassunzioni, e dunque può essere applicato ane nel caso, ad esempio, di distribuzioni
  • 33. .. INTRODUZIONE ALLAPPROCCIO SIMULATIVO e non possono essere ricondoe alle distribuzioni teorie.Un secondo vantaggio è e lapproccio simulativo è e può essere applicato ane astatistie non comuni, per le quali non esiste -- o non è nota -- una distribuzione teorica. Lapproccio simulativo ha infine il vantaggio di essere particolarmente intuitivo, inquanto permee di mostrare lerrore di campionamento, la sua distribuzione, e i ri-speivi parametri. esta caraeristica rende lapproccio simulativo particolarmenteindicato ai fini didaici, in quanto è possibile simulare la varianza di campionamento,generare la distribuzione campionaria, e confrontarla con la distribuzione teorica. Lap-proccio computazionale è inoltre un oimo modo per giocare con strumenti come R,prendere confidenza con il linguaggio, e capire cosa succede dietro alle quinte quandosi utilizzano le funzioni di testing -- parametrici e non parametrici.. Introduzione allapproccio simulativoPer introdurre lapproccio simulativo, utilizziamo R per fare delle simulazioni e cipermeano di riprodurre, in laboratorio, lerrore di campionamento. Araverso la simulazione possiamo creare delle circostanze difficilmente riprodu-cibili nella realtà: possiamo generare una popolazione, generare un numero molto al-to di campioni, e valutare qualitativamente (graficamente) e quantitativamente lerrorestocastico di campionamento¹... Generare popolazione e campioniGenerare la popolazione Nel contesto della simulazione, generare una popolazionesignifica generare un veore di valori casuali. Se si assume e la distribuzione dellapopolazione sia normale, è possibile utilizzare la funzione rnorm per generare un veoredi numeri distribuiti normalmente intorno ad una media e con una deviazione standardpredefinita. La lunghezza del veore corrisponde alla numerosità della nostra popolazione vir-tuale. Nel nostro esempio, genereremo una popolazione con media teorica  e deviazionestandard teorica  (la scelta di media e deviazione standard è arbitraria).Generare dei campioni A partire dal veore popolazione, è possibile estrarre un vet-tore campione (di numerosità m < n). Per fare questo, R mee a disposizione la fun-zione sample(x,m,replace=FALSE), dove x è la popolazione e m è la numerosità delcampione. In realtà, potremmo oenere lo stesso risultato generando un campione di m os-servazioni con rnorm. Però, per un effeo più realistico, usiamo il sampling dellapopolazione. Per visualizzare la distribuzione dellerrore di campionamento, utilizzeremo una po-polazione di  valori, e genereremo  campioni di numerosità . ¹Un approccio simile è adoato in Molenaar and Kiers () e in Vasishth ()
  • 34.  CAPITOLO . LAPPROCCIO SIMULATIVO Dunque n =  (numerosità della popolazione simulata), k =  (numero di cam-pioni), m =  (osservazioni per campione). Poi, genereremo ane una serie di campionida  osservazioni.Analisi descrittiva Una volta generati questi dati, possiamo utilizzare alcune tecniedi analisi univariata per fare delle misurazioni. In primo luogo possiamo calcolare la media e la deviazione standard della popola-zione. Ci aspeeremo e la prima sia prossima a  e la seconda a . Poi, possiamovisualizzare un istogramma con la distribuzione della popolazione, e ci aspeiamo siadi tipo normale. Per verificarlo, possiamo usare le funzioni qqnorm e qqline.> n <- 10000> m50 <- 50> K <- 200> media_teorica <- 20> sd_teorica <- 2> popolazione <- rnorm(n, media_teorica, sd_teorica)> mean(popolazione)[1] 20.00628> sd(popolazione)[1] 2.015178> hist(popolazione) Utilizzando qqnorm, valutiamo la normalità della distribuzione> qqnorm(popolazione)> qqline(popolazione, col = 2) Ora, creiamo una matrice *. Ogni riga rappresenta un campione di  osser-vazioni. Popoliamo le righe con la funzione sample, e campiona  osservazioni dallapopolazione.Media e deviazione standard della distribuzione campionariaCon medie campioni50 <- apply(campioni50, 1, mean), calcoliamo la mediadi ogni campione e la salviamo nel veore (di lunghezza ) medie campioni. Suquesto veore calcoliamo la media e la deviazione standard (e rappresentano la mediadelle medie e la deviazione standard delle medie, ovvero lerrore standard.> campioni50 <- matrix(nrow = K, ncol = m50)> for (k in 1:K) {+ campioni50[k, ] <- sample(popolazione, m50)+ }> medie_campioni50 <- apply(campioni50, 1, mean)> mean(medie_campioni50)
  • 35. .. INTRODUZIONE ALLAPPROCCIO SIMULATIVO  Histogram of popolazione Normal Q−Q Plot q qq qq qq qq q qq q q q qq q q qq q q q q qq q q q q q 25 q q q q 1500 q qqq qq qq qq q q q qq q q q q qq qq qq qq q q qq qq q qq qq qq qq q q q q qqq q qq q q qq q q q q q Sample Quantiles qq q q q qq q q qqq q qq q q q qq q q q qq Frequency q q q qq q q qq q q q q q 1000 q qq q q q q q q q q qqq q qq q q q qq q q q 20 q q q qq q qq q q q q q qq q q qq q q qq q q qq q q qq q q qq q qq q q q q qq q qq q q qq q qq q q q q q qq q q qq q q q q qqq qq q q q q q q 500 q qq q qqqq qq qq qq q q q qq q q q q qq q q q q qq q q q q q q qqq q qq q q q qq 15 q q qq q qq q qqq qq qq q q qqq q q q q qq qq qq q q qq qqq qq q 0 15 20 25 −4 −2 0 2 4 popolazione Theoretical QuantilesFigura .: A sinistra, listogramma della popolazione: hist(popolazione). A destra,qqnorm(popolazione).[1] 19.96062> sd(medie_campioni50)[1] 0.2813077Listogramma della distribuzione campionaria> hist(medie_campioni50)La normalità della distribuzione> qqnorm(medie_campioni50)> qqline(medie_campioni50, col = 2) Testiamo la normalità della distribuzione delle medie campionarie, usando lo Shapiro-Wilk normality test.> shapiro.test(medie_campioni50) Shapiro-Wilk normality testdata: medie_campioni50W = 0.9958, p-value = 0.854Leggere i risultati La funzione shapiro.test restituisce un p − value = 0.854 >α0.05. esto significa e non è rifiutata lipotesi di normalità. Dunque, non vi èviolazione della normalità della distribuzione.
  • 36.  CAPITOLO . LAPPROCCIO SIMULATIVO Histogram of medie_campioni50 Normal Q−Q Plot 60 q q q 50 20.5 q q qq q qqq qqq qq qq qq 40 qq qqq qq q q Sample Quantiles qq qq qq q qqq q qq q qq qq qq qq qq qq Frequency q q q q q q qq qq qq qq qq qq qq qq qq qq 20.0 30 qq qq qq q q q qq q q qq qq q q qq qq qq qq q q qq qq qq qq qq qq qq q q qq q qq qq 20 qq qq qq q q qq qq qq q qq q q qq qq qq qq qq 19.5 qq qq qq 10 qq qq q q q 0 19.0 19.5 20.0 20.5 21.0 −3 −2 −1 0 1 2 3 medie_campioni50 Theoretical QuantilesFigura .: A sinistra, listogramma della distribuzione campiona-ria: hist(popolazione). A destra, la normalità della distribuzione:qqnorm(popolazione)... Campioni di numerosità Ripetiamo la procedura, ma questa volta generiamo campioni di  osservazioni. estopassaggio ci serve per capire se e come cambia la distribuzione campionaria al variaredella numerosità del campione.> m20 <- 20> campioni20 <- matrix(nrow = K, ncol = m20)> for (k in 1:K) {+ campioni20[k, ] <- sample(popolazione, m20)+ }> medie_campioni20 <- apply(campioni20, 1, mean)> mean(medie_campioni20)[1] 19.94486> sd(medie_campioni20)[1] 0.4214678. Intervallo di confidenzaA partire da queste simulazioni, possiamo introdurre il conceo di intervallo di confi-denza. Conoscendo la popolazione, possiamo prevedere il valore esao della media di uncampione di numerosità m estrao casualmente? La risposta, abbiamo visto, è negati-va. Possiamo però stimare un intervallo entro il quale possiamo prevedere dove questamedia verrà a cadere.
  • 37. .. INTERVALLO DI CONFIDENZA  Nemmeno lintervallo, però, può garantirci la sicurezza al %, in quanto non pos-siamo escludere di incorrere in campionamenti particolarmente sbilanciati da una parteo dallaltra. La cosa più ragionevole da fare è quella di stabilire un livello di risio percentualeacceabile, e di calcolare lintervallo in base a questo risio.Calcolare il range Deo in altri termini, possiamo calcolare i valori minimo e mas-simo, e dunque il range, entro il quale, probabilmente, il (-risio)% delle medie deicampioni andrà a cadere. Se, ad esempio, consideriamo acceabile un risio del %, calcoleremo il range entroil quale si collocano le medie del % dei campioni estrai. esto ci permee di tagliarele code estreme, a destra e a sinistra, della distribuzione. Per fare questo, tagliamo il .% di campioni con media più bassa e il .% di campionicon media più alta. La media del campione con media più bassa rimanente, e la media del campionecon media più alta rimanente, costituiscono il range e cercavamo, ovvero lintervallodi confidenza. Per calcolare questi valori, sarà sufficiente estrarre i percentili . e .dalla distribuzione delle medie dei campioni.> confidenza_campioni50 <- quantile(medie_campioni50, probs = c(0.025,+ 0.975))> confidenza_campioni20 <- quantile(medie_campioni20, probs = c(0.025,+ 0.975))> confidenza_campioni50 2.5% 97.5%19.44196 20.46475> confidenza_campioni20 2.5% 97.5%19.08546 20.79953 Come possiamo notare, lintervallo di confidenza della distribuzione campionaria èdiverso, cambiando la numerosità dei campioni. Nel caso di campioni di numerosità, il range è approssimativamente di ., mentre per i campioni di numerosità , èapprossimativamente di ..Confrontare le due distribuzioniOra, usiamo la funzione density per confrontare le due distribuzioni, quella dei campionidi  osservazioni, e quella dei campioni di . Abbiamo disegnato ane le due medie(le righe verticali) e gli intervalli di confidenza (le righe orizzontali).> density20 <- density(medie_campioni20)> density50 <- density(medie_campioni50)> plot(density20, ylim = c(0, max(density50$y)), col = 2, lty = 2)
  • 38.  CAPITOLO . LAPPROCCIO SIMULATIVO> abline(v = mean(medie_campioni20), col = 2, lty = 2)> lines(x = confidenza_campioni20, y = c(0.2, 0.2), col = 2, lty = 2)> lines(density50, col = 3, lty = 4)> abline(v = mean(medie_campioni50), col = 3, lty = 4)> lines(x = confidenza_campioni50, y = c(0.3, 0.3), col = 3, lty = 4) density.default(x = medie_campioni20) 1.4 1.2 1.0 0.8Density 0.6 0.4 0.2 0.0 18.5 19.0 19.5 20.0 20.5 21.0 21.5 N = 200 Bandwidth = 0.1315 Possiamo notare come la distribuzione dei campioni di  osservazioni sia più largadi quella da . Corrispondentemente, ane i due intervalli di confidenza sono diversi.Numerosità dei campioni e varianza La varianza della distribuzione delle medie deicampioni costituisce una stima dellerrore di campionamento: più bassa la varianza (e lasd), più basso lerrore, e viceversa. Dalle nostre simulazioni, si può intuire e lentità dellerrore è legato alla numerositàdel campione.. Bootstrapping.. Generare molti campioni da un campioneLa simulazione presentata nei paragrafi precedenti, seppur utile da un punto di vista di-daico, è irrealistica: il ricercatore non può lavorare sullintera popolazione, ma soltantoun campione.
  • 39. .. BOOTSTRAPPING  Inoltre, il compito del ricercatore è quello di stimare la media della popolazionepartendo dal campione, e non il contrario. Partiamo da due osservazioni X Se abbiamo a disposizione soltanto il nostro campione, la miglior stima della media della popolazione è la media del campione stesso. X La distribuzione del campione dovrebbe assomigliare (al neo dellerrore statisti- co) alla distribuzione della popolazione. E, dunque, la distribuzione del campione è la miglior stima e abbiamo della distribuzione della popolazione.Se assumiamo e la media della popolazione è pari a quella del campione, e e anela distribuzione sia paragonabile, possiamo immaginare di generare numerosi campionifiizzi a partire dal campione noto.Bootstrapping esta tecnica è nota come bootstrapping, e permee di calcolarelintervallo di confidenza di un parametro (quale, ad esempio, la media). Per generare un nuovo campione dal campione esistente, basta estrarre a caso mosservazioni dal campione originale. Naturalmente, lestrazione devessere con ripetizione. In caso contrario, il nuovocampione sarebbe identico. Dunque, alcuni elementi verranno estrai più di una volta,altri nessuna.Percentili e intervallo di confidenza In questo modo, possiamo generare dei nuovicampioni dal campione esistente. Ane in questo caso possiamo calcolare la media perogni nuovo campione, e calcolare la distribuzione delle medie. A partire da questa distribuzione, possiamo calcolare lintervallo di confidenza, par-tendo dai percentili. Useremo i percentili . e . per un intervallo di confidenza del% (e un errore del %). Per iniziare, prendiamo ora il primo dei  campioni generati, ed usiamolo per ilbootstrapping. Calcoliamo il veore delle medie dei bootstrap. Calcoliamo la mediadelle medie.> campioneA <- campioni50[1, ]> mean(campioneA)[1] 19.96079> bootstraps <- matrix(sample(campioneA, size = 10000, replace = TRUE),+ nrow = k, ncol = m50, byrow = TRUE)> medie_bootstraps <- apply(bootstraps, 1, mean)> confidenza_bootstraps <- quantile(medie_bootstraps, probs = c(0.025,+ 0.975))> mean(medie_bootstraps)[1] 19.99533> confidenza_bootstraps 2.5% 97.5%19.56849 20.50061
  • 40.  CAPITOLO . LAPPROCCIO SIMULATIVO.. Confronto fra le distribuzioniNella sezione precedente, abbiamo visto la situazione ideale ma improbabile: conoscerelintera popolazione, estrarre k campioni, calcolare la media per ognuno dei campioni;in questo modo abbiamo la vera distribuzione campionaria, di cui possiamo calcolaremedia e varianza. In questa sezione, vediamo una situazione più realistica: abbiamo un campione, elavoriamo su quello. Araverso il bootstrapping, generiamo k campioni virtuali, e cal-coliamo la distribuzione campionaria virtuale. Per capire se il secondo algoritmo, reali-stico ma virtuale, produce risultati robusti, confrontiamo le due medie, i due intervallidi confidenza e le due distribuzioni nel grafico ..> densityboot <- density(medie_bootstraps)> plot(density50, ylim = c(0, max(c(density50$y, densityboot$y))),+ col = 2, lty = 2)> abline(v = mean(medie_campioni50), col = 2, lty = 2)> lines(x = confidenza_campioni50, y = c(0.2, 0.2), col = 2, lty = 2)> lines(densityboot, col = 3, lty = 4)> abline(v = mean(medie_bootstraps), col = 3, lty = 4)> lines(x = confidenza_bootstraps, y = c(0.3, 0.3), col = 3, lty = 4)> abline(v = mean(popolazione)) density.default(x = medie_campioni50) 1.5 1.0 Density 0.5 0.0 19.0 19.5 20.0 20.5 21.0 N = 200 Bandwidth = 0.08785Figura .: Confronto fra la distribuzione bootstrap e la distrbuzione campionaria. Comepossiamo vedere, le due distribuzioni sono molto simili. Le due distribuzioni, seppure non identie, sono molto simili.Ane gli intervalli di confidenza sono paragonabili: gli intervalli calcolati sui  cam-pioni sono pari a . e .; gli intervalli calcolati araverso il bootstrappingsono . e .. Possiamo dunque intuitivamente affermare e il metodo del bootstrapping riesce asimulare, in maniera piuosto precisa, la distribuzione campionaria.
  • 41. .. BOOTSTRAPPING .. Usare lapproccio parametricoIl calcolo parametrico dellintervallo di confidenza è largomento del prossimo capitolo.i, ci limitiamo ad anticipare i risultati del test parametrico t.test.> t_campioneA <- t.test(campioneA)> t_campioneA$conf.int[1] 19.47571 20.44586attr(,"conf.level")[1] 0.95> confidenza_campioni50 2.5% 97.5%19.44196 20.46475Il calcolo parametrico, resitiuisce un intervallo di confidenza di . e .. Co-me vediamo, il metodo parametrico e il metodo e usa il bootstrap non restituisconorisultati uguali, ma molto simili.
  • 42.  CAPITOLO . LAPPROCCIO SIMULATIVO
  • 43. Capitolo Intervallo di confidenza, calcoloparametricoIndice . Lintervallo di confidenza . . . . . . . . . . . . . . . . . . . . .  .. La simulazione . . . . . . . . . . . . . . . . . . . . . . . .  .. Dalla simulazione alla stima . . . . . . . . . . . . . . . . .  .. La distribuzione t di Student . . . . . . . . . . . . . . . . .  . Confronto fra un campione ed una popolazione . . . . . . . . .  .. Il p-value . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Primo esempio . . . . . . . . . . . . . . . . . . . . . . . .  .. Secondo esempio . . . . . . . . . . . . . . . . . . . . . . . . Lintervallo di confidenzaI concetti di base Riprendiamo alcuni dei concei alla base del calcolo dellintervallodi confidenza: Spostare al capitolo ? X il fine del calcolo è di stimare il parametro di una popolazione, partendo da un campione X la statistica calcolata sul campione viene usata come stima del parametro della popolazione: è una stima puntuale X le metodologie e stimano lerrore sono finalizzati a stimare laccuratezza della stima X lintervallo di confidenza è il range entro il quale si prevede si colloi il parametro della popolazione 
  • 44.  CAPITOLO . INTERVALLO DI CONFIDENZA, CALCOLO PARAMETRICOBias e errori non sistematici Nella definizione di errore, dobbiamo distinguere fra glierrori sistematici e gli errori non sistematici X lerrore sistematico è definito ane bias: una inaccuratezza dovuta ad un errore e sistematicamente alza o abbassa la stima. X lerrore non sistematico, al contrario, tende ad aumentare la varianza delle osser- vazioni.Laccuratezza di un processo di stima è influenzata sia dal bias e dalla varianzaAccuratezza, efficienza X Per aumentare laccuratezza, è necessario tentare di ridurre sia il bias e la va- rianza. X A parità di bias, minore è la varianza dovuta allerrore e maggiore lefficienza. X Un buon processo di stima ha bias nullo e varianza bassa.La media di un campione, ad esempio, è una stima unbiased, in quanto la distribuzionedelle medie si distribuisce normalmente intorno alla media della popolazione.Lintervallo di confidenza La percentuale di confidenza si riferisce alla probabilitàe il valore del parametro della popolazione cada nellintervallo identificato in base allanostra stima. Lintervallo di confidenza copre, con una determinata probabilità, il parametro dellapopolazione, non noto. Come abbiamo visto, lintervallo può essere calcolato con un metodo non parame-trico, il bootstrapping. Lintervallo di confidenza può essere calcolato ane con dei metodi parametrici.Assunto di normalitàPoié questi metodi fanno delle assunzioni sulla distribuzione della popolazione (e delcampione), prima di applicarle è necessario verificare questa assunzione. Deo in altri termini, prima di calcolare lintervallo di confidenza è necessario veri-ficare e la distribuzione del campione non si discosti dalla distribuzione normale. Una volta stabilita la normalità del campione e assunta la normalità della popolazio-ne, possiamo procedere con il calcolo... La simulazioneRiprendiamo la distribuzione di  campioni di numerosità , generata nel capitoloprecedente. Abbiamo visto e la distribuzione ha una forma e si approssima a quel-la normale, con media e si approssima alla media della popolazione. Formalmente:µX ≈ µ ¯
  • 45. .. LINTERVALLO DI CONFIDENZA Varianza della distribuzione delle medie Come abbiamo osservato, la varianza delladistribuzione delle medie dei campioni cambia a seconda della numerosità del campione.Più in particolare, la varianza della distribuzione delle medie tende ad essere pari allavarianza della popolazione / la numerosità delle osservazioni dei campioni: σ2 σ 2 σX = ¯ ,σ ¯ = √ (.) m X m esta misura viene definita errore standard. Proviamo a verificare . con le nostre simulazioni.> var(popolazione)/var(medie_campioni50)[1] 50.50856> var(popolazione)/var(medie_campioni20)[1] 22.5553 Possiamo notare e il rapporto fra la varianza della popolazione e la varianza cam-pionaria è ≈ 50 nel primo gruppo (campioni con numerosità ), e ≈ 20 nel secondo,dove i campioni sono di numerosità ... Dalla simulazione alla stimaNella circostanza della simulazione, conosciamo la popolazione, ne conosciamo la distri-buzione, la media, la varianza. Grazie allequazione . possiamo stimare la distribuzionecampionaria. Il passaggio logico dei prossimi paragrafi sarà il seguente: . stimiamo la distribuzione campionaria conoscendo media e varianza della popo- lazione; . stimiamo la distribuzione campionaria stimando la media, conoscendo la varian- za; . infine, la situazione più realistica: stimiamo la distribuzione campionaria stiman- do media e varianza.Media e varianza notaAssumiamo, per ora, di conoscere media e varianza della popolazione. Conoscendo la media della popolazione e la sua varianza, possiamo ricostruire ladistribuzione delle medie dei campioni, e sarà una distribuzione (teorica) normale conmedia µX = µ e deviazione standard σX = √m (errore standard) ¯ ¯ σ
  • 46.  CAPITOLO . INTERVALLO DI CONFIDENZA, CALCOLO PARAMETRICO 1.4 1.2 1.0 0.8 prob_dist 0.6 0.4 0.2Figura .: Sovrapposizione fra distribu- 0.0zione campionaria osservata e distribu- 19.5 20.0 20.5zione teorica plot_rangeSovrapporre le distribuzioniPer verificare graficamente la corrispondenza, sovrapponiamo il grafico della distribu-zione teorica appena calcolata sulla distribuzione campionaria della simulazione (fig.A.). A partire da questa distribuzione, possiamo calcolare i percentili . e ., ecorrispondono allintervallo di confidenza del %.> media_pop <- mean(popolazione)> confidenza1 <- c(qnorm(0.025, media_pop, errore_standard), qnorm(0.975,+ media_pop, errore_standard))> confidenza1[1] 19.43324 20.54288 Ricordiamo e qnorm(p,m,sd) calcola il valore e, data media m e deviazionestandard sd, copre unarea pari a p.Varianza nota, media ignotaNella realtà, però, noi non conosciamo né la media né la varianza della popolazione. Assumiamo, per ora, di conoscere ancora la varianza della popolazione, ma non lasua media. A questo punto, lintervallo di confidenza avrà la stessa ampiezza di quellocalcolato prima, ma sarà centrato aorno non alla media della popolazione (e non ¯conosciamo) ma alla media del campione: usiamo X come stima di µ.R: calcolo dellintervallo A questo punto, il calcolo dellintervallo di confidenza saràil seguente:> media_campione <- mean(campioneA)> confidenza2 <- c(qnorm(0.025, media_campione, errore_standard),
  • 47. .. CONFRONTO FRA UN CAMPIONE ED UNA POPOLAZIONE + qnorm(0.975, media_campione, errore_standard))> confidenza2[1] 19.40597 20.51561Varianza e media ignotaArriviamo, ora, allipotesi più realistica: conosciamo media e deviazione standard delcampione, ma non quelle della popolazione. Il passaggio più logico parrebbe quello di usare sX , la deviazione standard del cam- ¯pione, come stima di σ, la deviazione standard della popolazione. In realtà, la deviazionestandard del campione è più bassa di quella della popolazione: se utilizziamo la primaal posto della seconda oeniamo un range irrealisticamente troppo streo. Per correggere questo bias (è un errore sistematico) si utilizza, al posto della distri-buzione normale, la distribuzione t di Student... La distribuzione t di StudentLa t di Student è una classe di distribuzioni, e si basano sui gradi di libertà. Nel casodel nostro intervallo di confidenza, i gradi di libertà sono pari a m-. ¹R: calcolo dal t di Student Calcoliamo lerrore standard stimato a partire dalla devia-zione standard del campione. Usiamo poi la funzione qt per calcolare i quantili .e . della distribuzione t con - gradi di libertà. Il risultato, sarà lintervallo diconfidenza.> errore_standard_stimato <- sd(campioneA)/sqrt(m50)> confidenza3 <- c(qt(0.025, df = 49) * errore_standard_stimato ++ mean(campioneA), qt(0.975, df = 49) * errore_standard_stimato ++ mean(campioneA))> confidenza3[1] 19.47571 20.44586 Luso della funzione t.test era stato anticipato in ... Il risultato -- in termini diintervallo di confidenza -- del test è quello calcolato con il codice appena mostrato.. Confronto fra un campione ed una popolazioneAbbiamo appena visto la statistica parametrica per calcolare lintervallo di confidenzadella stima del parametro della media di una popolazione, a partire da un campione. Nelcapitolo precedente abbiamo usato il bootstrapping, in questo il t test. Il test t di Student,però, può essere usato ane per stimare se un campione appartiene ad una popolazionela cui media è nota. ¹quando df>, la distribuzione t di Student tende ad approssimarsi alla distribuzione normale.
  • 48.  CAPITOLO . INTERVALLO DI CONFIDENZA, CALCOLO PARAMETRICO In questo caso, si traa di stimare se il campione è stato estrao da una popolazionecon media µ oppure no. In termini inferenziali, abbiamo le due ipotesi: X ipotesi nulla, H0 : non vi è differenza significativa fra la media del campione, X e ¯ la media della popolazione, µ; X ipotesi alternativa, HA : la differenza fra le due medie è significativa, e dunque il campione non appartiene alla popolazione. Per giungere alla nostra decisione inferenziale, ci viene in soccorso proprio linter-vallo di confidenza: se la media della popolazione cade allinterno dellintervallo, nonpossiamo rifiutare lipotesi nulla. In caso contrario, rifiutiamo lipotesi nulla e acceiamolipotesi alternativa... Il p-valueVi è una possibilità complementare: calcolare il p-value. In termini inferenziali, il p-value ci dice la probabilità di incorrere in un errore di tipo I nel caso di rifiuto dellipotesinulla. Di fao, quello e calcoliamo è la probabilità e il nostro campione possa esserestato estrao da una popolazione la cui media è pari ad un valore predefinito. Decidiamo per un errore di I tipo pari ad α = 0.05 e, nella nostra simulazione,assumiamo unipotesi a due code. Il primo passaggio, è quello di calcolare la differenza, in termini assoluti, fra la mediadel campione e quella della popolazione. Il secondo passaggio è di trasformare questadistanza in punti t, araverso la formula distanza / errore standard. Infine, confrontiamo questo punteggio con la distribuzione t di Student, con gradi dilibertà pari a m-... Primo esempioCome primo esempio, calcoliamo il p-value della differenza fra la media della popo-lazione e quella del campione campioneA. Poié il campione è stato estrao dallapopolazione, ci aspeiamo e il p-value sia alto (superiore ad α).Calcolo con R> distanza1 <- abs(mean(campioneA) - mean(popolazione))> t1 <- distanza1/errore_standard_stimato> p_value1 <- (1 - pt(t1, df = 49)) * 2> t1[1] 0.1129748> p_value1[1] 0.910512
  • 49. .. CONFRONTO FRA UN CAMPIONE ED UNA POPOLAZIONE R: uso del t.test Dopo aver calcolato manualmente il p-value, ci affidiamo alla funzio-ne t.test.> t.test(campioneA, mu = mean(popolazione)) One Sample t-testdata: campioneAt = -0.113, df = 49, p-value = 0.9105alternative hypothesis: true mean is not equal to 19.9880695 percent confidence interval: 19.47571 20.44586sample estimates:mean of x 19.96079Lalgoritmo usato dalla funzione t.test è leggermente diverso: non viene usato il valo-re assoluto della differenza, e il punteggio t in questo caso è negativo. Il principio rimanecomunque lo stesso -- e il risutato ane.Leggere loutput La funzione t.test ci restituisce tue le informazioni di cui abbia-mo bisogno: la statistica calcolata: One Sample t-test; i gradi di libertà: df = 49; ilp-value: p-value = 0.9105; lintervallo di confidenza al %. Poié p > α = 0.05,non rifiutiamo lipotesi H0 ... Secondo esempioProviamo ora a confrontare il nostro campione con una media più alta: .. In questocaso, sapendo e . è esterno allintervallo di confidenza, ci aspeiamo un p-valueinferiore ad α = 0.05.R: p-value, media=> distanza2 <- abs(mean(campioneA) - 20.8)> t2 <- distanza2/errore_standard_stimato> p_value2 <- (1 - pt(t2, df = 49)) * 2> t2[1] 3.476694> p_value2[1] 0.001073598
  • 50.  CAPITOLO . INTERVALLO DI CONFIDENZA, CALCOLO PARAMETRICOR: uso del t.test Dopo aver calcolato manualmente il p-value, ci affidiamo alla funzio-ne t.test.> t.test(campioneA, mu = 20.8) One Sample t-testdata: campioneAt = -3.4767, df = 49, p-value = 0.001074alternative hypothesis: true mean is not equal to 20.895 percent confidence interval: 19.47571 20.44586sample estimates:mean of x 19.96079 Poié, in questo caso, p − value = 0.001 < α = 0.05, rifiutiamo lipotesi H0 eacceiamo lipotesi alternativa HA .
  • 51. Capitolo Confronto fra variabilicategoriali: χ2Indice . Variabili nominali . . . . . . . . . . . . . . . . . . . . . . . . .  . Confronto di una distribuzione campionaria con una distribu- zione teorica . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Un esempio: distribuzione occupati . . . . . . . . . . . . .  . Stima dellerrore . . . . . . . . . . . . . . . . . . . . . . . . . .  . La simulazione . . . . . . . . . . . . . . . . . . . . . . . . . . .  . La distribuzione χ2 . . . . . . . . . . . . . . . . . . . . . . . . .  .. La funzione isq.test . . . . . . . . . . . . . . . . . . . .  . Confronto fra due variabili nominali . . . . . . . . . . . . . . .  .. Calcolare le frequenze aese . . . . . . . . . . . . . . . . . Variabili nominaliStatistie sulle variabili nominali A partire da una variabile nominale è possibileoenere un numero limitato di statistie descriive, univariate. ello e è possibilefare, in pratica, è creare una tabella di contingenza unidimensionale, ovvero un veorela cui lunghezza è pari al numero di livelli, e dove il valore di ogni cella è pari al numerodi osservazioni e appartengono alla corrispondente categoria. A partire da questa rappresentazione, è possibile calcolare lindice centrale dellamoda.Distribuzioni categoriali Da un punto di vista inferenziale, è possibile utilizzare la di-stribuzione delle osservazioni del campione come stima della frequenza di ogni categorianella popolazione. 
  • 52.  CAPITOLO . CONFRONTO FRA VARIABILI CATEGORIALI: χ2. Confronto di una distribuzione campionaria con una distribuzione teoricaVi sono circostanze, in cui lipotesi di ricerca è finalizzata a confrontare la distribuzio-ne categoriale di un campione, rispeo ad una distribuzione teorica riguardante unapopolazione... Un esempio: distribuzione occupatiFacciamo un esempio. Assumiamo e, in Italia, il % della popolazione occupata la-vori nellagricoltura, il % nellindustria, e il rimanente % nel terziario (le cifre sonoassolutamente inventate). Potremmo iederci se, in una determinata provincia, la distribuzione categoriale sidiscosta o meno dalla distribuzione ipotizzata. Per fare questo, possiamo estrarre un campione dalla popolazione provinciale de-gli occupati, creare la relativa tabella di contingenza, e capire se la distribuzione delcampione rispea le cosiddee frequenze aese.Calcolo frequenze attese Il calcolo delle frequenze aese è semplice: basta moltipli-care la probabilità aesa (ovvero la probabilità e, data la popolazione di riferimen-to, venga estraa una osservazione appartenente ad una determinata categoria) per lanumerosità del campione. Se immaginiamo di utilizzare un campione di  persone, la frequenza aesa saràdi  persone e lavorano nellagricoltura,  nellindustria,  nel terziario.. Stima dellerroreErrore di campionamento A causa dellerrore non sistematico di campionamento,però, difficilmente le frequenze osservate saranno uguali alle frequenze aese. Il compito della statistica inferenziale, in questo caso, sarà quello di stabilire se la dif-ferenza fra le frequenze osservate e quelle aese sono da aribuire o meno al caso. Nellaprima ipotesi, non si rifiuta lipotesi nulla, secondo cui non vi è differenza significativafra le frequenze osservate e quelle aese, e dunque si assume e non vi sia differenzafra la distribuzione della provincia in esame e quella nazionale, di riferimento. Nella seconda ipotesi, si rifiuterà lipotesi nulla, e di conseguenza si assumerà evi è una differenza significativa fra la distribuzione di frequenza del campione e quelladella popolazione. Nel nostro esempio, si assumerà e una differenza fra il nostro campione e la po-polazione nazionale di riferimento, e pertanto e la distribuzione di frequenza nelle trecategorie è, nella popolazione provinciale, diversa da quella nazionale.La statisticaStimare la differenza fra le fequenze Per fare questo, abbiamo bisogno di una misurae ci permea di calcolare la differenza fra due tabelle.
  • 53. .. LA SIMULAZIONE  Informalmente, abbiamo bisogno di una misura e stimi la distanza fra due tabelle,e dunque e sia pari a zero se le due tabelle sono uguali, e sia positiva se le due tabellesono differenti, e e cresca al crescere delle differenze. In leeratura, vengono citate tre possibili misure. X il χ2 di Pearson : ∑ ∑ (Oij − Eij )2 r c 2 χ = (.) i j Eij X Il likelihood ratio i square : ∑∑ r c Oij G2 = 2 (Oij × log( )) (.) i j Eij X il test di Fisher. La misura più nota, e utilizzeremo, è il χ2 di Pearson ..Numerosità delle frequenze attese Comè intuibile, sia lequazione . e la . sonopoco adae a circostanze in cui la frequenza aesa di una delle celle è molto bassa(generalmente, si assume e  sia la frequenza aesa minima).. La simulazionePer introdurre la stima della probabilità e la distribuzione di frequenze di un campionesia significativamente diverso dalla distribuzione aesa, useremo di nuovo il metododella simulazione. Più in particolare, andiamo a generare k campioni di una variabile categoriale conuna determinata frequenza aesa, e per ogni campione misuriamo, utilizzando lequa-zione ., la distanza fra la distribuzione osservata e quella aesa. La distribuzione delle distanze dei k campioni ci permee di stimare la distribuzionedellerrore di campionamento, di stabilire i valori critici e corrispondono ad un erroreα, e al calcolo del p-value di una distribuzione.Generiamo unurna Generiamo unurna, di  valori, da cui estrarre i campioni.> atteso <- c(rep(1, 17), rep(2, 51), rep(3, 32))> t_atteso <- table(atteso)> prob_attesa <- t_atteso/length(atteso) Di fao, in questa simulazione utilizziamo il metodo delle permutazioni .Generiamo i campioni Generiamo . tabelle da  elementi, estrai (con ripe-tizione) dallurna sopra creata. Per ogni tabella, calcoliamo la distanza dalla tabella diriferimento (t aeso) usando la formula del χ2 , e la salviamo in un veore, distanza oss(distenza osservata).
  • 54.  CAPITOLO . CONFRONTO FRA VARIABILI CATEGORIALI: χ2R: generazione dei campioni> distanza_oss <- vector(mode="numeric",+ length=10000)> for (ciclo in 1:length(distanza_oss)) {+ campione <- sample(atteso, 100,+ replace = TRUE)+ t_campione <- table(campione)+ chi_quadro <-+ sum(((t_campione - t_atteso)^2)/t_atteso)+ distanza_oss[ciclo] <- chi_quadro+ } Histogram of distanza_oss 0.3 Density 0.2 0.1Figura .: Listogramma della distribu- 0.0zione dellerrore. Come possiamo no-tare (e come potevamo aspearci) la 0 5 10 15 20distribuzione è asimmetrica. distanza_ossR: Valori critici calcoliamo i valori critici per α = 0.05 e ., ovvero il 95o ed il 99opercentile.> quantile(distanza_oss, probs = c(0.95, 0.99)) 95% 99%5.884191 9.477457Valori critici e inferenza esto calcolo ci permee di inferire e possiamo rifiutarelipotesi nulla quando la distanza della tabella osservata da quella aesa (misurata conla formula .) è > . (con α = 0.05) o > . (con α = 0.01) Possiamo dunque generare un nuovo campione, calcolare la distanza dalla distribu-zione aesa, e confrontarla con i valori critici.R: Generazione di un nuovo campione Generiamo un nuovo campione, calcoliamola tabella di contingenza, e calcoliamo il χ2 . Poié il campione è generato a partiredallurna, ci aspeiamo e la statistica calcolata non sia significativa.
  • 55. .. LA SIMULAZIONE > campione <- sample(atteso, 100, replace = TRUE)> t_campione <- table(campione)> chi_quadro <-+ sum(((t_campione - t_atteso)^2)/t_atteso)> chi_quadro[1] 0.09007353Stima del p-value Inoltre, possiamo stimare il p-value, ovvero la probabilità di com-piere un errore di tipo I rifiutando lipotesi nulla. Per fare questo, basta aggiungere ladistanza del nuovo campione al veore delle . distanze, e calcolare la posizionedella distanza rispeo a tue le altre (usando la funzione rank()).Calcolo della posizione> posizione <-+ rank(c(chi_quadro, distanza_oss))[1]> p_value <- 1 - posizione/length(distanza_oss)> p_value[1] 0.94675Non rifiuto dellipotesi nulla In questo caso, dunque, non rifiutiamo lipotesi nulla,in quanto X il valore del χ2 è inferiore al valore critico con α = 0.05: . < . X il p-value è pari a ., ovvero ben sopra ad α = 0.05.Calcolo su nuovo campione Proviamo ora a fare la stessa verifica, ma questa voltapartendo da un campione da noi generato, in cui le frequenze osservate sono pari a ,, . È facile intuire e questa distribuzione è molto diversa da quella aesa:   . Il calcolo inferenziale, però, ci permee una stima più precisa.R: Calcolo su nuovo campione> t_campione2 <- c(22, 35, 43)> chi_quadro <-+ sum(((t_campione2 - t_atteso)^2)/t_atteso)> chi_quadro[1] 10.27145> posizione <-+ rank(c(chi_quadro, distanza_oss))[1]> p_value <- 1 - posizione/length(distanza_oss)> p_value
  • 56.  CAPITOLO . CONFRONTO FRA VARIABILI CATEGORIALI: χ2[1] 0.00705Rifiuto dellipotesi nulla In questo caso, dunque, rifiutiamo lipotesi nulla, in quanto X il valore del χ2 è superiore ad entrambi i valori critici: con α = 0.01: . > . X conseguentemente, il p-value (pari a .), è inferiore ad α = 0.01.. La distribuzione χ2La distribuzione χ2 Nella sezione precedente, abbiamo calcolato valori critici e p-value basandoci sulla distribuzione dellerrore di campionamento generata dalla simu-lazione. La distribuzione e abbiamo oenuto, applicando la formula del χ2 , è una distri-buzione nota con il nome distribuzione χ2 . Lambiente R mee a disposizione delle funzioni e, similmente alle distribuzioninormale e t di Student, permee di calcolare alcuni valori legati alla distribuzione χ2 .χ2 : funzioni in R Con risq è possibile generare dei valori casuali, con distribuzioneχ2 . Con disq possiamo oenere la densità della distribuzione per un determinatovalore. Così come per la distribuzione t di Student, ane la χ2 è una famiglia di distribu-zioni, e differiscono fra loro in base ai gradi di libertà (df, degree of freedom). Pertanto, le funzioni legate al χ2 si aendono, fra gli argomenti, ane i gradi dilibertà.Gradi di libertà Nellesempio precedente, la tabella delle distribuzioni aveva un rangopari a  (ovvero, avevamo  categorie: agricoltura, industria, terziario). In una tabella unidimensionale, i gradi di libertà sono pari a r-. Nel nostro caso,dunque df=. Nel prossimo grafico, visualizziamo nuovamente listogramma delle distribuzionidella distanza dai campioni generati alle frequenze aese (figura .). Allistogrammasovrapponiamo la distribuzione χ2 con  gradi di libertà.Sovrapposizione fra distribuzione osservata e teorica> plot_range <- seq(0, 15, by = 0.25)> prob_dist <- dchisq(plot_range, 2)> hist(distanza_oss, freq = FALSE, breaks = 20)> lines(plot_range, prob_dist, type = "l", col = 2)Utilizzo della distribuzione Come vediamo, la distribuzione della nostra simulazionesi sovrappone quasi perfeamente alla distribuzione χ2 . Appurata questa sovrapposi-zione, possiamo sfruare la distribuzione χ2 per calcolare valori critici e p-value. Ad esempio, grazie alla funzione pisq possiamo calcolare il p-value dei due cam-pioni e abbiamo utilizzato negli esperimenti precedenti.
  • 57. .. LA DISTRIBUZIONE χ2  Histogram of distanza_oss 0.3 Density 0.2 Figura .: 0.1 Sovrappo- sizione fra distribuzione osservata e 0.0 distribuzione 0 5 10 15 20 teorica chi2 distanza_oss con  gradi di libertà.R: Calcolo del p-value usando pisq la funzione pisq, analogamente a pnorm, cipermee di calcolare larea della distribuzione a destra di un determinato valore. Con - pisq calcoliamo larea rimanente, e corrisponde al p-value.> 1 - pchisq(0.09007353, df = 2)[1] 0.9559623> 1 - pchisq(10.27145, df = 2)[1] 0.005882785Approssimazione dei risultati Come possiamo notare, i p-value non sono identicia quelli oenuti partendo dalla simulazione, in quanto la sovrapposizione fra la di-stribuzione oenuta dalla simulazione non è perfeamente identica alla distribuzioneteorica. Ciononostante, i valori sono molto simili, e ci portano a trarre le stesse conclusioni:non rifiuto di H0 nel primo caso, rifiuto nel secondo.
  • 58.  CAPITOLO . CONFRONTO FRA VARIABILI CATEGORIALI: χ2.. La funzione isq.testIl nostro excursus ha, naturalmente, una finalità esclusivamente didaica. In pratica, percalcolare il test del χ2 , R ci mee a disposizione la funzione isq.test, e ci restituisceil calcolo del χ2 , i gradi di libertà, e il p-value. Appliiamo la funzione al primo gruppo.> chisq.test(x = t_campione, p = prob_attesa) Chi-squared test for given probabilitiesdata: t_campioneX-squared = 0.0901, df = 2, p-value = 0.956La funzione ci restituisce il calcolo del χ2 , i gradi di libertà (df), il p-value.isq.test, secondo gruppo Appliiamo la stessa funzione al secondo gruppo.> chisq.test(x = t_campione2, p = prob_attesa) Chi-squared test for given probabilitiesdata: t_campione2X-squared = 10.2714, df = 2, p-value = 0.005883. Confronto fra due variabili nominaliStatistica bivariata Nella sezione precedente abbiamo analizzato il caso di del con-fronto fra una distribuzione osservata ed una aesa. La procedura, però, può essere utilizzata ane per valutare delle ipotesi relative alrapporto e intercorre fra due variabili nominali, ovvero nel contesto di una statisticabivariata.Esempio: categoria lavorativa e genere Per introdurre questa statistica, modifiia-mo lesempio precedente. Immaginiamo di voler capire se, nella distribuzione della forzalavoro fra agricoltura, industria e terziario, vi sono differenze di genere. Per fare questo, raccogliamo un campione di persone aive, e per ognuno di loroidentifiiamo il genere e la categoria lavorativa (agricoltura, industria, terziario).Il processo X A partire da questi dati, possiamo creare una tabella di contingenza a doppia en- trata, di dimensione r * c, dove r è pari al rango della prima variabile, e c a quello della seconda. X In secondo luogo, calcoliamo la tabella delle frequenze aese.
  • 59. .. CONFRONTO FRA DUE VARIABILI NOMINALI  X Calcoliamo, araverso la formula ., la distanza fra le frequenze aese e quelle osservate. X Calcoliamo il p-value, araverso la funzione 1 − pchisq(χ2 , df = (r − 1)(c − 1)).. Calcolare le frequenze atteseLunica novità di rilievo, rispeo allalgoritmo relativo ad una sola variabile, è il calcolodelle frequenze aese è più complicato (ma non troppo) Nuovamente, le frequenze aese si basano sullipotesi nulla, ovvero e non vi siaalcun legame fra le due variabili. In termini di probabilità condizionale, si assume e la probabilità e un indivi-duo appartenga ad una delle categorie della seconda variabile non cambi a seconda elindividuo appartenga ad una categoria della prima, e viceversa.Lipotesi di indipendenza Nel nostro esempio, lipotesi di indipendenza assume eil fao di essere masio (o femmina) non influisca sulla probabilità di essere occupatonellagricoltura, nellindustria o nel terziario, e viceversa: il fao di essere impiegato nelterziario non incide sulla probabilità di essere masio o femmina. Formalizzare lipotesi di indi- In base a questa assunzione, la frequenza aesa, nella categoria agricoltura, masio pendenzaè pari alla probabilità associata alla categoria agricoltura, moltiplicata per la probabilitàassociata alla categoria masio, moltiplicata per la numerosità del campione.Frequenze attese Continuiamo ad assumere probabilità pari a ., . e . per la va-riabile tipo di occupazione, e assumiamo e la popolazione aiva sia per il % masilee per il % femminile (di nuovo, sono percentuali inventate). Decidendo per un cam-pione di  persone, la frequenza aesa, per la casella agricoltore masio, sarà pari a. * . *  = . fi fj fe[i,j] = (.) n fe[i,j] = pi pj n (.)R: Generare il data-frame Creiamo un data.frame con due colonne: il genere e loc-cupazione. In primo luogo creiamo unurna, con probabilità . e ., da cui estrarreil genere. Poi, usando lurna precedente (relativa alloccupazione), creiamo un veoredi  osservazioni. Creiamo un secondo veore, nuovamente di  osservazioni, re-lative al genere. Creiamo infine il data.frame con i due veori, campione genere ecampione occupazione.> genere_atteso <- c(rep(1, 54), rep(2, 46))> t_genere_atteso <- table(genere_atteso)> prob_genere_attesa <-* t_genere_atteso/length(genere_atteso)> campione_occupazione <-* sample(atteso, 100, replace = FALSE)> campione_genere <-
  • 60.  CAPITOLO . CONFRONTO FRA VARIABILI CATEGORIALI: χ2* sample(genere_atteso, 100, replace = FALSE)> campione <-* data.frame(campione_genere, campione_occupazione)> t_campione <- table(campione)R: calcolo delle probabilità attese Calcoliamo le probabilità aese. Calcoliamo lasomma marginale delle righe e delle colonne. Calcoliamo le probabilità aese, pari a(marginale riga/numerosità campione) * (marginale colonna/numerositàcampione).> marginali_riga <- apply(t_campione, 1, sum)> marginali_colonna <- apply(t_campione, 2, sum)> prob_att <-+ (marginali_riga/100) %*%+ t(marginali_colonna/100)Frequenze attese e osservate Le frequenze aese sono pari alle probabilità aese,moltiplicate per il numero di osservazioni.> t_atteso <- prob_att * 100> t_atteso 1 2 3[1,] 9.18 27.54 17.28[2,] 7.82 23.46 14.72> t_campione campione_occupazionecampione_genere 1 2 3 1 12 27 15 2 5 24 17R: calcolo di χ2 e p-value Calcoliamo il valore della statistica χ2 . Calcoliamo poi ilp-value, utilizzando la funzione pchisq.> chi_quadro <-+ sum(((t_campione - t_atteso)^2)/t_atteso)> p_value <- 1 - pchisq(chi_quadro, df = 2)> chi_quadro[1] 2.560209> p_value[1] 0.2780083
  • 61. .. CONFRONTO FRA DUE VARIABILI NOMINALI R: uso di isq.test Naturalmente, lo stesso calcolo può essere eseguito -- più agevol-mente -- usando la funzione chisq.test.> chisq.test(t_campione) Pearsons Chi-squared testdata: t_campioneX-squared = 2.5602, df = 2, p-value = 0.278Leggere loutput La funzione chisq.test ci restituisce il nome del test: PearsonsChi-squared test; il valore della statistica: X-squared = .; i gradi di libertà: df = ;il p-value = ..Non rifiuto dellipotesi nulla Come prevedibile -- considerata la modalità con cuiabbiamo generato il campione -- dal calcolo del χ2 non possiamo rifiutare lipotesi nulla,in quanto p − value = 0.278 > α = 0.05. Le frequenze osservate nel data frame generato scegliendo le due variabili in manieraindipendente non si discostano significativamente dalle frequenze aese.
  • 62.  CAPITOLO . CONFRONTO FRA VARIABILI CATEGORIALI: χ2
  • 63. Capitolo T test: confronto fra medie didue campioniIndice . Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . .  . Calcolo non parametrico . . . . . . . . . . . . . . . . . . . . . .  .. La simulazione . . . . . . . . . . . . . . . . . . . . . . . .  .. La distribuzione U Mann-Whitney-Wilcoxon . . . . . . . .  . Approccio parametrico . . . . . . . . . . . . . . . . . . . . . . .  .. Assunzioni . . . . . . . . . . . . . . . . . . . . . . . . . .  .. R: p-value usando la distribuzione . . . . . . . . . . . . . .  .. Uso della funzione t.test . . . . . . . . . . . . . . . . .  .. Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . IntroduzioneConfronto fra due medie Nel capitolo , abbiamo introdoo il confronto fra variabilidi tipo categoriale. In questo capitolo, affronteremo la statistica e permee di valutarela relazione fra una variabile di tipo categoriale ed una numerica (ad intervalli o rap-porti). Nel caso specifico, ci limitiamo alla circostanza in cui la variabile indipendente,categoriale, ha due sole categorie. In questa circostanza, le osservazioni sulla variabile dipendente, numerica, vengonodivise in due insiemi. Il questito inferenziale e ci si pone è di valutare se i valori dellavariabile dipendente, di tipo numerico, differiscono significativamente da un gruppoallaltro. Nel confronto fra due campioni si può adoare lapproccio parametrico, utilizzan-do il t-test, oppure un approccio non parametrico. In questo capitolo, verrà introdooprima lapproccio non parametrico, in quanto più intuitivo, e dopo lapproccio parame-trico. In entrambi i casi, largomento verrà affrontato prima con un approccio simula- 
  • 64.  CAPITOLO . T TEST: CONFRONTO FRA MEDIE DI DUE CAMPIONItivo, e poi utilizzando la distribuzione teorica di riferimento. Infine, verrà utilizzata lacorrispondente funzione di R e ne verranno lei i risultati.. Calcolo non parametricoApproccio intuitivo Intuitivamente, possiamo dire e i due gruppi differiscono se lemisurazioni di un gruppo sono, in genere, sistematicamente più alte (o più basse) dellemisurazioni sullaltro gruppo. Se tue le osservazioni di un gruppo (iamiamolo gruppo B) sono più elevate di tuele osservazioni dellaltro (gruppo A), possiamo inferire e, relativamente alla variabilemisurata, vi è una differenza significativa fra il gruppo B ed il gruppo A. Seguendo questa intuizione, un metodo per valutare se la variabile indipendente, ca-tegoriale, ha una relazione sulla variabile dipendente (numerica), è quello di confrontareogni elemento del gruppo A con ogni elemento del gruppo B.Confronto fra elementi Sempre facendo ricorso allintuizione, appare iaro e se ilnumero di confronti vinti da un gruppo è molto superiore al numero di confronti vintidallaltro, la differenza è significativa. In questo conteggio, possiamo arrivare a due condizioni estreme: nella prima, glielementi di A vincono tui i confronti nei confronti di tui gli elementi di B; nellaseconda, sono gli elementi di B a vincere tui i confronti. Lipotesi nulla, H0 , assume la parità fra il numero di confronti vinti da A e vinti daB... La simulazioneErrore di campionamento Sappiamo però e è molto improbabile e il confrontofra i due gruppi sia perfeamente pari. Come sappiamo, infai, ane nella circostanzain cui i due campioni sono estrai dalla stessa popolazione ed assegnati ad una o allaltracategoria a caso, emergeranno delle differenze dovute allerrore di campionamento.Generare la distribuzione dellerrore Per stimare lentità di questo errore, e misurarela probabilità e una differenza sia aribuibile o meno ad esso, possiamo usare la stessametodologia vista nei capitoli precedenti: X generare k coppie di campioni, estrae ed assegnate casualmente; X calcolare il numero di confronti vinti dalluno e dallaltro gruppo; X salvare questi valori in un veore, e costituisce la distribuzione dellerrore di campionamento.Confrontare una coppia di campioni Potendo disporre della distribuzione dellerroredi campionamento, data una coppia di campioni possiamo calcolare il numero di vioriedelluno e dellaltro gruppo, e valutare dove si collocano nella distribuzione.
  • 65. .. CALCOLO NON PARAMETRICO  Se il risultato di questi confronti si colloca sulle code della distribuzione, possiamorifiutare lipotesi nulla ed acceare lipotesi alternativa, ovvero e vi è una differenzasignificativa fra i due gruppi. In caso contrario, non si rifiuta lipotesi nulla.R: genero la popolazione, due campioni Generiamo una popolazione di . unità,con media , sd  e distribuzione normale, usando rnorm.> n <- 10000> m <- 100> k <- 10000> media_teorica <- 20> sd_teorica <- 2> popolazione <- rnorm(n, media_teorica, sd_teorica)R: calcoliamo i confronti fra i due campioni Estraiamo ora  campioni dalla popola-zione. Instanziamo due contatori, sumA e sumB. Con un ciclo for annidato, confrontiamoogni valore del campione con ogni valore del campione ¹. Incrementiamo il contato-re sumA quando a vincere è lunità del campione, incrementiamo sumB quando vincecampione.> campione1 <- sample(popolazione, m, replace = FALSE)> campione2 <- sample(popolazione, m, replace = FALSE)> sumA <- 0> sumB <- 0> for (x in 1:m) {+ oss1 <- campione1[x]+ for (y in 1:m) {+ oss2 <- campione2[y]+ if (oss2 > oss1) {+ sumA <- sumA + 1+ }+ else {+ sumB <- sumB + 1+ }+ }+ }R: risultati Non dovrebbe sorprenderci il fao e la somma dei due valori è pari am*m, ovvero il numero dei confronti.> c(sumA, sumB)[1] 4793 5207 esta statistica viene iamata Mann-Whitney-Wilcoxon U ¹Per semplicità, ssumiamo e non vi siano pareggi fra i confronti.
  • 66.  CAPITOLO . T TEST: CONFRONTO FRA MEDIE DI DUE CAMPIONICalcolo della posizione ordinale È però possibile oenere lo stesso risultato con uncalcolo diverso: linsieme di tue le osservazioni viene ordinato, e ad ogni osservazioneviene assegnato un punteggio pari alla sua posizione; X per ognuno dei due gruppi, si somma il punteggio di ogni osservazione; X a questi valori, si sorae quello e è il minimo valore possibile, ovvero m*(m+)/.Il vantaggio di questo algoritmo è e può essere esteso a confronti fra più di due gruppi.R: il calcolo del ranking> due_rank <- matrix(rank(c(campione1, campione2)),+ nrow = 2, ncol = m, byrow = TRUE)> due_somma_rank <- apply(due_rank, 1, sum)> rank_atteso <- m * (m + 1)/2> wilcoxon <- due_somma_rank - rank_atteso> wilcoxon[1] 5207 4793La simulazione Introdoa la statistica, usiamo la simulazione. Generiamo  veori.Nel primo, distribuzione, inseriremo le coppie di valori e calcoleremo usando lastatistica di Wilcoxon. Nel secondo, differenze, salviamo una seconda statistica: ladifferenza delle medie fra i due campioni. La prima distribuzione ci serve in questasezione, la seconda nella sezione dedicata al calcolo parametrico.> distribuzione <- vector(mode = "numeric", length = k*2)> differenze <- vector(mode = "numeric", length = k) A questo punto, usando un ciclo for, possiamo generare k= coppie di campioni,calcolare per ognuno le due statistie, e salvarla nei due veori.R: la generazione delle coppie di campioni> for (i in 1:length(distribuzione)/2) {+ due_campioni <- matrix(sample(popolazione, 2 * m, replace = FALSE),+ nrow = 2, ncol = m, byrow = TRUE)+ campione1 <- due_campioni[1, ]+ campione2 <- due_campioni[2, ]+ due_rank <- matrix(rank(c(campione1, campione2)),+ nrow = 2, ncol = m, byrow = TRUE)+ due_somma_rank <- apply(due_rank, 1, sum)+ rank_atteso <- m * (m + 1)/2+ wilcoxon <- due_somma_rank - rank_atteso+ distribuzione[i * 2 - 1] <- wilcoxon[1]+ distribuzione[i * 2] <- wilcoxon[2]+ differenze[i] <- mean(campione1) - mean(campione2)+ }
  • 67. .. CALCOLO NON PARAMETRICO R: la distribuzione U> par(mfrow = c(1, 2))> hist(distribuzione)> qqnorm(distribuzione)> qqline(distribuzione) Histogram of distribuzione Normal Q−Q Plot 6500 qq q q qq q q q q q q q q qq qq q 6000 q 3000 q q q q q q q qq q q q q q q q qq q q q q q q qq 5500 q q q q qq Sample Quantiles qq q q q q q qq q qFrequency q q 2000 q q q q q q q q 5000 q q q qq q q q q q qq q q q q q q qq q q q q q q q 4500 qq q q q q q qq q 1000 qq q q q q q qq qq q q q q qq 4000 qq q q q q q qq q q q q q q qq q q q q qq q q 3500 qq q q q q 0 3500 5000 6500 −4 −2 0 2 4 distribuzione Theoretical QuantilesR: valori critici Possiamo calcolare i valori critici, ad esempio per α = . e .bidirezionale> quantile(distribuzione,+ probs = c(0.005, 0.025, 0.975, 0.995)) 0.5% 2.5% 97.5% 99.5%3943.00 4187.00 5785.05 6034.02
  • 68.  CAPITOLO . T TEST: CONFRONTO FRA MEDIE DI DUE CAMPIONICalcolare il p-value dalla distribuzione Ora, generiamo due nuovi campioni, calco-liamo la statistica U, e vediamo dove si colloca rispeo alla distribuzione.> due_campioni <- matrix(+ sample(popolazione, 2 * m, replace = FALSE),+ nrow = 2, ncol = m, byrow = TRUE)> campione1 <- due_campioni[1, ]> campione2 <- due_campioni[2, ]> due_rank <- matrix(rank(c(campione1, campione2)),+ nrow = 2, ncol = m, byrow = TRUE)> due_somma_rank <- apply(due_rank, 1, sum)> rank_atteso <- m * (m + 1)/2> wilcoxon <- due_somma_rank - rank_attesoCalcolare il p-value dalla distribuzione> wilcoxon[1] 4608 5392> p_value_simulazione <-+ rank(c(wilcoxon, distribuzione))[1:2]/length(distribuzione)> p_value_simulazione[1] 0.165925 0.830875.. La distribuzione U Mann-Whitney-WilcoxonLa distribuzione di errore e abbiamo oenuto grazie al confronto di  coppiedi campioni, è nota come distribuzione U Mann-Whitney-Wilcoxon Whitley and Ball(). R mee a disposizione il gruppo di funzioni per calcolare la densità, la probabilità, pergenerare dei numeri secondo la distribuzione. Inoltre, mee a disposizione la funzionewilcox.test per calcolare, automaticamente, la statistica ed il p-value.R: le funzioni per la distribuzione U R mee a disposizione le consuete funzioni percalcolare densità, probabilità, generare numeri casuali e calcolare il test. X dwilcox(x, m, n) calcola la densità di x X pwilcox(q, m, n) calcola la probabilità X rwilcox(nn, m, n) genera nn numeri casuali. X wilcox.test(gruppoA,gruppoB) calcola il test corrispondentem e n sono la numerosità del primo e del secondo campione (e, nel nostro esempio,sono uguali -- m)
  • 69. .. APPROCCIO PARAMETRICO R: calcolo del p-value con pwilcox Utilizzando pwilcox calcoliamo i due p-value.Il valore interessante è quello più basso. Se, come nellesempio, lipotesi è a due vie,dobbiamo raddoppiare il p-value> p_value_Wilcoxon <- pwilcox(wilcoxon, 100, 100)[1] 0.1697679 0.8308490> p_value_Wilcoxon * 2[1] 0.3395358 1.6616981> p_value_simulazione * 2[1] 0.33185 1.66175 Come sempre, i risultati della distribuzione generata non sono uguali, ma simili, aquelli della distribuzione teorica.R: uso di wilcox.testVediamo ora il calcolo effeuando la funzione di R wilcox.test> wilcox.test(campione1, campione2, exact = TRUE) Wilcoxon rank sum testdata: campione1 and campione2W = 4608, p-value = 0.3395alternative hypothesis: true location shift is not equal to 0 La funzione calcola la statistica, W = 4608, e il p-value.. Approccio parametricoLa differenza delle medie Lalgoritmo utilizzato nelle sezioni precedenti costituiscelapproccio non parametrico al confronto fra due campioni. Come abbiamo visto, il calcolo non parametrico non prende in considerazione né lamedia né la deviazione standard e nemmeno la distribuzione dei campioni. Il vantaggio del calcolo non parametrico è e fa poissime assunzioni: X le m+n osservazioni devono essere indipendenti; X m e n devono avere una numerosità di almeno  elementi.
  • 70.  CAPITOLO . T TEST: CONFRONTO FRA MEDIE DI DUE CAMPIONI.. AssunzioniPer applicare il test parametrico, al contrario, è necessario non solo e le osservazionisiano indipendenti (e la numerosità adeguata). È altresì necesario e: X la distribuzione dei due campioni sia normale; X la varianza dei due gruppi non sia diversa.R permee il calcolo del t test ane in caso di varianze differenti (araverso lapprossi-mazione di Wel).La differenza fra le medie Il test parametrico si basa sulla differenza fra le medie deidue campioni. esto spiega lassunto di normalità dei campioni. In pratica, il test calcola il valore assoluto della differenza fra le due medie, e laconfronta con la distribuzione t di Student. Naturalmente, ane in questo caso possiamo calcolare il p-value ignorando la distri-buzione teorica, ma basandoci sulla distribuzione dellerrore di campionamento generatadal confronto delle nostre . coppie di campioni. Nel ciclo for e usammo per generare la statistica U, popolammo ane un veore,differenze, con il codice differenze[i]<-mean(campione1)-mean(campione2).Possiamo ora usare quel veore di distribuzioni dellerrore... R: p-value usando la distribuzioneCalcoliamo il p-value confrontando la distanza delle due medie con la distribuzionedellerrore.> distanza <- abs(mean(campione1)-mean(campione2))> (p_value_differenze_simulazione <- 1 -+ rank(c(distanza, differenze))[1]/length(differenze))[1] 0.2067> p_value_differenze_simulazione * 2[1] 0.4134Distribuzione dellerroreUsiamo la funzione density per visualizzare la distribuzione dellerrore, e qqnorm-qqline per testarne la normalità.> par(mfrow = c(1, 2))> plot(density(differenze))> qqnorm(differenze)> qqline(differenze, col = "red")
  • 71. .. APPROCCIO PARAMETRICO  density.default(x = differenze) Normal Q−Q Plot 1.5 1.0 q qq q qq q qq qq q q q q qq qq q q q q q q q qq q q q q 0.5 q q q q qq q q q q q q qq q 1.0 q q q q q q qq q Sample Quantiles q q q q qq q q q q q q qq q q q Density 0.0 q qq q q q q q q qq q q q q q qq q q q q q q qq q q q q q qq q q 0.5 q qq q −0.5 qq q q q q q qq q q q q q qq q q q q q q q q q q q q qq q q q q qq q −1.0 q qq q q 0.0 q −1.0 0.0 1.0 −4 −2 0 2 4 N = 10000 Bandwidth = 0.04036 Theoretical QuantilesVarianza dellerrore Possiamo osservare dal grafico qqnorm e la distribuzione ap-prossima la distribuzione normale. In realtà, la varianza della distribuzione dellerrore è legata alla numerosità dei duecampioni. Più precisamente, la varianza stimata è pari a 2 s2 (m − 1) + s2 (n − 1) 1 1 2 1 Sx 1 − x 2 = ( + ) (.) ¯ ¯ m+n−2 m n Dunque, lerrore standard della differenza fra le medie può essere calcolato, con R,usando> errore_standard <- sqrt((var(campione1)*(m-1)+var(campione2)*(m-1))/> + (m-1+m-1)*(1/m+1/m))Calcolo di t Calcoliamo t, e calcoliamo il p-value (e raddoppiamo, se lipotesi èbidirezionale).> errore_standard <-+ sqrt((var(campione1) * (m - 1) + var(campione2) *+ (m - 1))/(m - 1 + m - 1) * (1/m + 1/m))> t <- distanza/errore_standard> p_value_differenze_t <- (1 - pt(t, df = (m - 1 + m - 1)))> p_value_differenze_t
  • 72.  CAPITOLO . T TEST: CONFRONTO FRA MEDIE DI DUE CAMPIONI [1] 0.1921828 > p_value_differenze_t * 2 # bidirezionale [1] 0.3843657 .. Uso della funzione t.test Infine, utilizziamo la funzione t.test > t.test(campione1, campione2) Welch Two Sample t-test data: campione1 and campione2 t = -0.8718, df = 192.257, p-value = 0.3844 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -0.7671013 0.2968312 sample estimates: mean of x mean of y 20.04375 20.27888 Leggere loutput La funzione t.test(campione1, campione2) restituisce t = -0.8718, i gradi di libertà stimati df = 192.257, il p-value = 0.3844, e lin- tervallo di confidenza della differenza fra le medie: -0.7671013 0.2968312. an- do i due termini dellintervallo di confidenza hanno segni opposti, la differenza non è significativa. .. ConclusioniDa fare
  • 73. Capitolo Correlazione e regressionelineareIndice . Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. La rea di regressione . . . . . . . . . . . . . . . . . . . .  . Analisi inferenziale . . . . . . . . . . . . . . . . . . . . . . . . .  .. Correlazione e causazione . . . . . . . . . . . . . . . . . .  .. Modelli Lineari Generalizzati . . . . . . . . . . . . . . . .  . Approccio intuitivo . . . . . . . . . . . . . . . . . . . . . . . . .  .. La simulazione . . . . . . . . . . . . . . . . . . . . . . . .  .. Alcuni esempi . . . . . . . . . . . . . . . . . . . . . . . .  .. Uso della distribuzione teorica . . . . . . . . . . . . . . . .  . Regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . .  .. Regressione lineare: il modello . . . . . . . . . . . . . . .  .. Assunti della regressione lineare . . . . . . . . . . . . . .  .. R: la funzione lm () . . . . . . . . . . . . . . . . . . . . .  .. Varianza dei residui, R2 . . . . . . . . . . . . . . . . . . .  . Violazione degli assunti . . . . . . . . . . . . . . . . . . . . . .  . Coefficiente di Spearman . . . . . . . . . . . . . . . . . . . . . .  .. arto esempio, sigmoide . . . . . . . . . . . . . . . . . .  . Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IntroduzioneConfronto fra variabili quantitative Dopo aver visto il confronto fra due variabilicategoriali ed il confronto fra una variabile categoriale ed una variabile a intervalli (li-mitatamente al caso del confronto fra due soli gruppi), analizziamo ora il confronto fradue variabili quantitative. Ane in questo caso, la statistica inferenziale si propone di valutare se esiste unarelazione fra le variabili, e se questa relazione è significativa. 
  • 74.  CAPITOLO . CORRELAZIONE E REGRESSIONE LINEAREAndamento congiunto Nei casi visti in precedenza, nei capitoli  e , ci si iedeva selappartenenza di una osservazione ad una categoria od unaltra della variabile A influivasulla distribuzione della variabile B. Sia nel caso del test del χ2 e del test t di Student, e (come vedremo) nellanalisidella varianza, ci si concentra sulla significatività delle differenze. Nel caso della relazione fra due variabili numerie, invece, ci si iede se le duevariabili si muovono assieme: se al crescere di una cresce ane laltra (correlazionepositiva), o se al crescere di una laltra cala (correlazione negativa), e ci si iede sequesto andamento congiunto sia significativo o sia dovuto al caso.Ipotesi nulla e ipotesi estrema Ane in questo caso, è opportuno partire dallipotesinulla, ovvero dallipotesi e non vi sia alcun legame fra le due variabili. Ane in questo caso, è necessario identificare una statistica, ovvero una misuradellaspeo rilevante. Da un punto di vista didaico, però, può essere utile focalizzarci sulla situazioneestrema di una totale correlazione fra le due variabili. Nellesempio e segue, ci limiteremo ad analizzare la circostanza di una correlazionepositiva, ma il principio può essere generalizzato alle correlazioni negative.Esempio: misurare le precipitazioni Immaginiamo e un osservatorio metereologi-co debba misurare le precipitazioni atmosferie (pioggia) nel corso dellanno. Per farlo,viene raccolto in un bacino di un metro quadrato lacqua piovana, e ad ogni pioggialacqua raccolta viene misurata. Immaginiamo e il responsabile della misurazione sia molto pignolo, e e decidadi misurare sia il volume dellacqua in litri, e il suo peso in kilogrammi. Correlazione perfetta q q 20 q q q q 15 q qq q q kg q q 10 q q q qq qq q q q qq q q q q qq q q q 5 q q q q qq qFigura .: Esempio di correlazione per- q qfea: lesempio del rapporto fra litri e 5 10 15 20kg. litriLa linea retta Laspeo più saliente del grafico . è e le misure relative a peso e avolume si dispongono lungo una linea rea.
  • 75. .. INTRODUZIONE  Il secondo aspeo è e, grazie alla linea, conoscendo il valore in litri, possiamodedurre il peso in kg, e viceversa. corr.= 1 p= 0 corr.= 0.847 p= 0 corr.= 0.687 p= 0 56 q qq q q qq q q q 56 q q q q q q q qq qq q qq q 55 qq q q q q qqq qq q qq q q qqq q qq q q q q q q qq q q qq q 52 qq qq q qq qq qq q q q q q q q q q q qq q q q qqqq qq qq q qq qq qq q qy1 y1 y1 q q qq qq qq 50 qq qq q q qq q qq q qq qq qq q qq q q q q q q qq qq q qq q qq q 50 q qq qq qq qq qqqq qq q qqq q qq 48 q qq q qq q qq q q q q q qq q q q qq qq qq qq q q q qq q q q q q qqq q qq q qq q q q q qq q qqq q q q qq q q 45 qq qq 44 q q q 44 q q q q 45 50 55 44 48 52 56 44 48 52 56 x1 x1 x1 corr.= 0.289 p= 0.004 corr.= 0.349 p= 0 corr.= −0.001 p= 0.992 44 48 52 56 q q q q q q q q qq qq q 45 50 55 45 50 55 q q qq q qqq q q q qq qq qq q q q qq q qq qq q q qq q q qq q q qq q qqqq q q q q q q qq qq q q qqq q qqq qqq q qq q q q q q q q q qq qq q q q q q q q q q q q qqqqqqq q qqqq q q q q q qq qq q q qy1 y1 y1 q q q q q qq q q q qq q q qq q q q q q q q qq qq qqq q q q q qq q q q q q q qq q q qq q qq q qqq q q q q qq q q q q q q q qq q q qq qq q q q q q qq q q q q q qq q qq q q q q q q q q q qq q q qq q q q q q qq q q q q q qq q q q q q q q qq q q q qqq qq q q q q q qq q q qq q q q q q q q q q 46 50 54 58 45 50 55 45 50 55 x1 x1 x1Figura .: Alcuni esempi di correlazione: dalla correlazione perfea alla correlazioneassente.Diverse distribuzioni di esempio Più realistica la simulazione della figura .. Inquesto caso, la posizione dei punti sullasse x è dato dalla somma di  valori casuali,generati su una distribuzione uniforme. Nel primo grafico, in alto a sinistra, i valorisullasse y sono dati dalla somma degli stessi  valori, e dunque i punti si collocanoperfeamente sulla linea di regressione. Nel secondo grafico, i valori y sono il risultato di  dei valori casuali di x, e  valoricasuali diversi. Negli altri grafici, la proporzione è di -, - e così via. Nellultimografico, tui e  i valori di y sono indipendenti, e dunque non vi è alcuna correlazionefra le due variabili... La retta di regressioneIn questi grafici abbiamo implicitamente introdoo la rea di regressione, e verrà di-scussa nelle prossime slides. Per ora, ci basti sapere e la rea di regressione ci permeedi fare una stima del valore di y conoscendo il valore di x. Nel primo grafico, proprio come nellesempio precedente, conoscere il valore di x cipermee di inferire perfeamente il valore di y, in quanto le osservazioni di y cadonoperfeamente sulla rea. Già nel secondo grafico, però, questa previsione non è più perfea: conoscendo x,possiamo soltanto stimare il valore di y.
  • 76.  CAPITOLO . CORRELAZIONE E REGRESSIONE LINEARE Mano a mano e il legame diventa meno importante, la pendenza della linea diregressione diminuisce, fino a quasi sovrapporsi alla linea della media di y nellultimografico, dove le due variabili sono indipendenti. Ciò e questo andamento ci dice è e conoscere il valore di x contribuisce sempremeno alla nostra conoscenza di y. Dai grafici della seconda figura possiamo notare e la linea di regressione si incrocia,in tui i casi, nella linea della media di x e nella linea della media di y nello stesso punto. esto significa e il valore stimato di y quando x è pari a x è y .¯ ¯Analisi grafica Come abbiamo visto nelle analisi univariate e nelle altre statistiebivariate, la visualizzazione dei dati e lanalisi visiva, qualitativa delle distribuzioni èparte integrante del processo descriivo e inferenziale. Il grafico utilizzato nella visualizzazione di due variabili quantitative è il grafico didispersione, scaerplot. In R, si oiene usando la funzione plot (x,y).Grafico di dispersione: cosa guardareali sono gli aspei più salienti e bisogna osservare in un grafico a dispersione? X La forma generale della distribuzione. X La direzione dellassociazione: è positiva o negativa? X La forma della la relazione? È una linea rea oppure no? È una curva? X La forza dellassociazione: i punti osservati sono vicini o lontani dalla linea di regressione? X La presenza di outliers: vi sono osservazioni molto lontane dalla rea di regres- sione? È possibile e queste osservazioni insolite siano dovute ad errori? X È ipotizzabile e landamento del grafico lasci intendere linfluenza di una varia- bile terza?. Analisi inferenzialeCoefficiente di correlazione La correlazione è una relazione lineare fra due variabilia intervallo o a rapporti. È importante soolineare e la correlazione non distingue fra variabile indipen-dente e dipendente, e traa le due variabili simmetricamente: la correlazione fra Y e Xequivale alla correlazione fra X e Y. Lanalisi inferenziale è finalizzata a calcolare se esiste una relazione fra le due varia-bili, e se la relazione è statisticamente significativa.
  • 77. .. ANALISI INFERENZIALE Correlazione: cautele Prima di applicare la statistica, è necessario tener conto dialcuni possibili problemi: X La correlazione misura relazioni di tipo lineare. Se la relazione non è di tipo lineare, la correlazione non è appropriata. X Soprauo se linsieme di osservazioni ha una bassa numerosità, è possibile e degli outliers condizionino fortemente il risultato. X Se una terza variabile, ane categoriale, ha una influenza significativa su una o entrambe le variabili misurate, è possibile e, non tenendone conto, si calcolino delle correlazioni non appropriate... Correlazione e causazioneLa correlazione non implica causazione. La correlazione, infai, può essere aribuibilea X Causazione direa: A causa B. X Causa comune: C causa sia A e B. X Faore confounding: landamento della variabile dipendente può essere condizio- nato da un faore esterno e non ha nulla a e fare con la variabile indipendente. X Semplice coincidenza.Requisiti per inferire causazione Affiné si possa inferire causazione è necessarioe: X Lassociazione sia abbastanza forte. X Vi sia la possibilità di manipolare la variabile indipendente, e e il valore della variabile dipendente cambi di conseguenza. X Vi sia un iaro rapporto temporale: la causa deve precedere leffeo. X Le misure devono essere consistenti, e dunque replicabili. X I risultati siano teoreticamente plausibili e coerenti con altre evidenze empirie. X Lassociazione sia specifica (e dunque non possa essere aribuita a cause comuni o altri confounding)... Modelli Lineari GeneralizzatiSia lanalisi della varianza e la regressione lineare sono casi particolari della metodo-logia nota come Modelli Lineari Generalizzati. La differenza più importante fra la regressione e lANOVA è e in un caso la variabileindipendente è a intervalli, nellaltro categoriale. NellANOVA, dunque, non si fannoassuzioni sulla linearità della relazione.
  • 78.  CAPITOLO . CORRELAZIONE E REGRESSIONE LINEARE. Approccio intuitivoPer misurare la correlazione lineare, abbiamo bisogno di una statistica e abbia alcunecaraeristie: X sia pari a  in assenza di correlazione X sia positiva quando la correlazione è positiva, e negativa quando è negativa X e abbia un valore assoluto massimo, e identifica la circostanza in cui la cor- relazione è perfea X e sia standardizzata, ovvero e non dipenda dai valori assoluti delle variabili.In termini formali: −1≤r ≤1 (.)Linea di regressione e medie Come abbiamo osservato, la linea di regressione si in-crocia sempre con le due medie. Usando le linee e identificano le medie di x e di ypossiamo dividere il grafico di dispersione in  quadranti. Se le osservazioni si distri-buiscono principalmente nel quadrante in alto a destra e in quello in basso a sinistra, lacorrelazione è positiva. Se sono più frequenti nei quadranti in alto a destra o in basso asinistra, la correlazione è negativa. Per oenere una misura standardizzata del rapporto fra le due variabili, possiamodecidere di trasformare sia la variabile x e la y in punteggi zeta.Trasformazione in punti z Con la trasformazione, oeniamo due variabili con mediapari a zero e deviazione standard pari ad uno. La rea di regressione, a questo punto,incrocia le due medie nella posizione , del grafico. X Il quadrante in basso a sinistra raccoglie le osservazioni in cui sia x e y sono negative. X Il quadrante in alto a destra raccoglie le osservazioni in cui sia x e y sono positive. X Il quadrante in basso a destra raccoglie le osservazioni in cui x è positiva e y è negativa. X Il quadrante in alto a sinistra raccoglie le osservazioni in cui y è positiva e x è negativa. A questo punto appare evidente e, moltiplicando x per y, oerrò valori positivi neidue quadranti alto sinistra e basso destra, e valori negativi nei quadranti basso destra,alto sinistra. Cosa succede se sommo la moltiplicazione x * y di tue le osservazioni, e dividoper il numero di osservazioni (per la precisione, per n-)? Oerrò un valore e saràpositivo in caso di correlazione positiva, negativo in caso di correlazione negativa, esarà prossimo allo zero in caso di assenza di correlazione. Inoltre, vedremo e il valore più alto e questa misura può raggiungere è pari ad, e di conseguenza il valore più basso è pari a -.
  • 79. .. APPROCCIO INTUITIVO Correlazione lineare: la formula 1 ∑ xi − x yi − y n ¯ ¯ r= [( )( )] (.) n − 1 i=1 σx σy Ricordando e x e y sono le medie di X e Y e e σX e σY sono le deviazioni ¯ ¯standard di X e Y, e ricordando e il calcolo del punteggio z è pari a xi − x ¯ z= (.) σx possiamo riscrivere r come 1 ∑ n r= (z(xi )z(xi )) (.) n − 1 i=1Correlazione lineare: assunti X Poié il calcolo della correlazione utilizza la trasformazione dei punteggi grezzi in punti zeta, si assume e entrambe le variabili siano almeno a livello di scala di intervallo e abbiano una distribuzione normale. X Le osservazioni su entrambe le variabili devono essere stocasticamente indipen- denti (ovvero, il valore di di una osservazione non deve condizionare il valore di unaltra osservazione) X Infine, il rapporto fra le due variabili sia di tipo lineare. Vedremo nelle prossime sezioni quali alternative esistono in caso di non linearità del rapporto.Distribuzione dellerroreCome consuetudine, utilizziamo la consueta sequenza logica X identificazione di una misura della relazione X identificazione di una popolazione virtuale X estrazione casuale di k campioni X calcolo del veore delle k misure X osservazione della distribuzione delle misure X calcolo del p-value araverso il confronto con il veore delle misure X identificazione di una distribuzione teorica e, previo opportuna trasformaizone, mappa quella osservata X calcolo del p-value utilizzando la probabilità della distribuzione teorica identifi- cata X utilizzo della funzione di R
  • 80.  CAPITOLO . CORRELAZIONE E REGRESSIONE LINEARE.. La simulazione X La misura della relazione è il coefficiente r identificato sopra. X Araverso la funzione rnorm () possiamo estrarre n campioni di osservazioni casuali da una popolazione con specifica media e deviazione standard. Poié sia- mo interessati a misurare la relazione fra due variabili, per ogni misura estraiamo due campioni X Utilizziamo la funzione scale() per trasformare le osservazioni in punti z. X Calcoliamo la statistica r, e la salviamo nel veore delle misure.> m <- 100> k <- 10000> relazioni <- vector(mode = "numeric", length = k)> for (i in 1:length(relazioni)) {+ x1 <- rnorm(m, 20, 2)+ x2 <- rnorm(m, 50, 6)+ x1 <- scale(x1)+ x2 <- scale(x2)+ erre <- sum(x1 * x2)/(length(x1) - 1)+ relazioni[i] <- erre+ }Grafico della distribuzione dellerrore Visualizziamo la distribuzione dellerrore di rnella figura ..> hist(relazioni) Histogram of relazioni 1500 Frequency 1000 500 0Figura .: La distribuzione dellerrore di −0.4 −0.2 0.0 0.2 0.4r relazioni
  • 81. .. APPROCCIO INTUITIVO Rapporto fra distribuzione dellerrore e tPoié il valore possibilie di r varia nel range −1 ≤ r ≤ 1, ane la distribuzionedellerrore varia nello stesso range, e si concentra aorno ai valori -., .. La forma della distribuzione approssima la t di Student, previa opportuna trasfor-mazione. Per arrivare alla distribuzione t va applicata la trasformazione r t= √ (.) 1−r 2 n−2P-value calcolato sulla distribuzione t Per calcolare il p-value basandoci sulla di-stribuzione t, dovremmo dunque trasformare r in t, e poi calcolare la probabilità dit... Alcuni esempiFacciamo ora alcuni esempi, generando differenti casi di variabili bivariate.Primo esempio: variabili indipendentiIn questo caso, generiamo due variabili casuali indipendenti. Ci aspeiamo un r prossi-mo allo .> x1 <- rnorm(100, 20, 2)> y1 <- rnorm(100, 50, 3)> sx1 <- scale(x1)> sy1 <- scale(y1)> erre1 <- sum(sx1 * sy1)/(length(sx1) - 1)> erre1[1] -0.0188566 La statistica r, dunque, è pari a -..> colori <- c(2, 2, 1)> colore <- colori[sign(sx1 * sy1) + 2]> plot(sx1, sy1, col = colore)> abline(a = 0, b = erre1)> abline(v = 0)> abline(h = 0)Calcolo p-value su simulazione Calcoliamo il p-value usando la distribuzione osser-vata. Poié la nostra ipotesi è a due code, moltipliiamo p per . Poié le due variabilisono indipendenti, la nostra previsione è e p sia superiore a ..> p_value_simulazione1 <- rank(c(-abs(erre1), relazioni))[1]/(length(relazioni) ++ 1)> p_value_simulazione1 * 2
  • 82.  CAPITOLO . CORRELAZIONE E REGRESSIONE LINEARE q q q 2 q q q q q q q q q q q q q 1 q q q q q qq q q q q q q qqq q q q q q q q q q q q q q q q q sy1 q q q qq q q 0 qq q q q q q q q q q q q qq q q q q q q q q q q q qq q −1 q q q q q q q q q q q qq −2 q q q −2 −1 0 1 2 Figura .: Variabili indipendenti sx1[1] 0.8535146Il p-value è dunque pari a ..Secondo esempio: variabili correlateIn questo secondo esempio, la variabile y è creata in modo da correlare con x. Ciaspeiamo un r relativamente alto, e un p basso.> y2 <- x1 + rnorm(100, 0, 2)> sy2 <- scale(y2)> erre2 <- sum(sx1 * sy2)/(length(sx1) - 1)> erre2[1] 0.6568569La statistica r è pari a .. Disegnamo il grafico.> colori <- c(2, 2, 1)> colore <- colori[sign(sx1 * sy2) + 2]> plot(sx1, sy2, col = colore)> abline(a = 0, b = erre2)> abline(v = 0)> abline(h = 0)> p_value_simulazione2 <- rank(c(-abs(erre2), relazioni))[1]/(length(relazioni) ++ 1)> p_value_simulazione2 * 2[1] 0.00019998 Come previsto, il p-value -- calcolato sulla distribuzione osservata dalla simulazione-- è basso: ..
  • 83. .. APPROCCIO INTUITIVO  q q q q 2 q q q q q q q q q q q q q q 1 q q q q qq q q q q q q qq q q q q q q sy2 q q q q q q qq 0 q q q q q q qq qq q q q q q q q q q q q q q q q q q q q q q q q q q q −1 q q q qq q q q q qq q q q q q −2 q q −2 −1 0 1 2 Figura .: Grafico relativo al secondo sx1 esempio.. Uso della distribuzione teoricaDopo aver visto il calcolo del p-value usando la distribuzione della simulazione, utiliz-ziamo la probabilità calcolata a partire dalla distribuzione teorica, t. In primo luogo confrontiamo la distribuzione generata dalla simulazione con la di-stribuzione teorica, sovrapponendo le due curve.> relazioni_t <- relazioni/(sqrt((1 - relazioni^2)/(100 - 2)))> x <- seq.int(-4, 4, by = 0.05)> y <- dt(x, 100 - 2)> plot(density(relazioni_t), col = 4, main = "Sovrapposizione delle distribuzioni")> lines(x, y, type = "l", col = 3)Calcoliamo il p-value usando la distribuzione tConstatato empiricamente e le due distribuzioni sono estremamente simili, decidiamodi calcolare il punteggio t, usando la funzione .. Poi, calcoliamo il p-value usando lafunzione ptPrimo esempio Mostriamo il calcolo, ed il risultato, del primo esempio.> t1 <- abs(erre1)/(sqrt((1 - erre1^2)/(100 - 2)))> t1[1] 0.1867040> p_value_t1 <- (1 - pt(t1, df = (100 - 2)))> p_value_t1 * 2[1] 0.8522787 Dunque, t è pari a ., p= ..
  • 84.  CAPITOLO . CORRELAZIONE E REGRESSIONE LINEARE Sovrapposizione delle distribuzioni 0.4 0.3 Density 0.2 0.1Figura .: La distri- 0.0buzione osservata dal-la simulazione, sovrap- −4 −2 0 2 4posta alla distribuzione N = 10000 Bandwidth = 0.1451teoricaSecondo esempio Ripetiamo il calcolo, con il secondo esempio.> t2 <- abs(erre2)/(sqrt((1 - erre2^2)/(100 - 2)))> p_value_t2 <- (1 - pt(t2, df = (100 - 2)))> p_value_t2 * 2[1] 1.163514e-13t è pari a ., p= .e-.R: uso di cor.testE come di consueto, terminiamo mostrando luso della funzione cor.test (x,y).Iniziamo con il primo esempio.> correlazione1 <- cor.test(x1, y1)> correlazione1 Pearsons product-moment correlationdata: x1 and y1t = -0.1867, df = 98, p-value = 0.8523alternative hypothesis: true correlation is not equal to 095 percent confidence interval: -0.2144803 0.1782216sample estimates:
  • 85. .. REGRESSIONE LINEARE  cor-0.0188566Leggere i risultati La funzione ci ricorda e stiamo applicando la Pearsons product-moment correlation, ci restituisce t = -0.186, df = 98, p-value = 0.852. Infine,restituisce il calcolo di r: cor -0.0188. Naturalmente, visti i risultati, non possiamo rifiutare lipotesi nulla.Secondo esempio> correlazione2 <- cor.test(x1, y2)> correlazione2 Pearsons product-moment correlationdata: x1 and y2t = 8.6239, df = 98, p-value = 1.164e-13alternative hypothesis: true correlation is not equal to 095 percent confidence interval: 0.5286437 0.7557670sample estimates: cor0.6568569 In questo caso, lipotesi nulla va rifiutata, in quanto p − value < 0.001.. Regressione linearePrecipitazioni: dal volume al peso Torniamo allesempio, banale, delle precipitazioni.Grazie alla correlazione perfea fra volume e peso, data una osservazione, conoscendoil volume, possiamo calcolare il peso. Se guardiamo al grafico, possiamo notare e il peso stimato incrocia il volumeproprio lungo la linea di regressione. La linea di regressione, dunque, stima il valore di y a partire da x (e viceversa, ilvalore di x conoscendo y).Esempio A: noleggio automobili Immaginiamo e una agenzia di noleggio autoapplii, per un modello, la seguente tariffa: X importo fisso di  euro al giorno X . euro a km percorsoConoscendo questi due valori, possiamo prevedere esaamente quanto spenderemo. Adesempio, se ho percorso km, spenderò  + .* = . euro.
  • 86.  CAPITOLO . CORRELAZIONE E REGRESSIONE LINEAREEsempio B: noleggio automobili Immaginiamo e unaltra agenzia applii, invece,il fisso di  euro più il costo della benzina consumata. Immaginiamo e lauto inquestione consumi, in media, . euro a km. In questo caso, quando spenderemo, dopo aver fao  km? Il calcolo è lo stesso: + .* = .. In questo caso, però, questo valore è solo una stima di quello e ciaspeiamo di spendere, in quanto non possiamo essere sicuri e la benzina consumatasia esaamente pari a . euro. I valori di . euro a km, infai, sono una statistica, calcolata in seguito ad una seriedi osservazioni, dove si sono misurati i km effeuati e la benzina consumata. Il numero di km fai è il miglior prediore della benzina consumata, ma non èlunico. Il tipo di percorso e il tipo di guida, fra gli altri, influenzano il consumo. ando pagheremo per il noleggio della seconda agenzia, noi possiamo aspearciun conto di circa  euro e , ma sappiamo e in quella stima ci sarà un errore, legatoa quei faori e incidono sul consumo ma e non sono annoverati nel calcolo... Regressione lineare: il modelloGeneralizzando dallesempio precedente, nel modello di regressione lineare bivariato(X,Y), la variabile Y può essere rappresentata tramite la relazione lineare Y = β0 + β1 X + (.)ed il valore yi = β0 + β1 xi + i (i = 1...n) (.)Infine, yi = β0 + β1 xi (i = 1...n) ˆ (.)dove yi è il valore stimato di y. ˆSpesso si usa la forma α + βxi .Le componenti X β0 rappresenta lintercea, ovvero il valore di y quando x = . X β1 (o, nella regressione bivariata, semplicemente β) rappresenta la pendenza della linea, ed è pari alla differenza fra y = f (x) e y = f (x + 1). Nellesempio, ˆ ˆ rappresenta il costo supplementare per ogni km percorso. X rappresenta la variabile di errore, ovvero quella varianza in y e non può essere spiegata da x.Per massimizzare la prediività della regressione è dunque necessario scegliere due pa-rametri β0 e β1 capaci di minimizzare lerrore e, possibilmente, di escludere dei bias(errori sistematici).
  • 87. .. REGRESSIONE LINEARE Somma dei quadrati degli errori Nella regressione lineare semplice, la misura deller-rore si basa sulla somma dei quadrati degli errori (in inglese sum of squared residuals,SSR): ∑ n ∑n ∑n SSR = e2 = i (yi − yi )2 = ˆ ((β0 + β1 xi ) − yi )2 (.) i=1 i=1 i=1dove yi è il valore stimato di y. ˆ Si traa dunque di identificare i parametri β0 e β1 capaci di minimizzare SSR.Stime di β0 e β1 Le due stime e minimizzano la somma dei quadrati degli errori(SSR) sono ∑n ˆ i=1 (xi − x)(yi − y ) ∑n ¯ ¯ β1 = (.) i=1 (xi − x)2 ¯ ˆ ¯ ˆ¯ β0 = y − β1 x (.)Proporzione di varianza spiegata e residuaLa varianza di Y può essere divisa fra la varianza spiegata da β0 + β1 X e la varianzaresidua, o di errore. La proporzione di varianza spiegata è pari a R2 = r2 . ∑n 2 SSR/(n − 1) e R =1− 2 = 1 − ∑n i=1 i 2 (.) var(Y ) i=1 (yi − y )i ¯0 ≤ R2 ≤ 1. R2 è pari al quadrato di r. Va notato e quanto SSR è  R2 è , e quando SSR = var(Y ) R2 = 0... Assunti della regressione lineare X La relazione fra le variabili devessere lineare X Lerrore è una variabile casuale con media zero e distribuzione normale X Gli errori non sono fra loro correlati X La varianza dellerrore è costanteDistribuzione di yiTenuto conto e yi = β0 + β1 xi + i (i = 1...n) (.)se i ha distribuzione normale, media , varianza σ 2 , la distribuzione di yi sarà yi ∼ N (β0 + β1 xi , σ 2 )(∀i = 1...n) (.)dove N () è la distribuzione normale.
  • 88.  CAPITOLO . CORRELAZIONE E REGRESSIONE LINEARE.. R: la funzione lm ()In R, la regressione lineare si calcola utilizzando la funzione lm(). La sintassi usata èlm(y ∼ x) dove y è la variabile dipendente e x la variabile indipendente. Per disegnare la rea di regressione, si passa il risultato di lm() alla funzione abline,e disegna una linea con parametri a e b.> modello1 <- lm(y1 ~ x1)> summary(modello1)Call:lm(formula = y1 ~ x1)Residuals: Min 1Q Median 3Q Max-7.48470 -2.03610 0.09732 1.71495 7.56805Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) 50.93513 3.13521 16.246 <2e-16 ***x1 -0.02884 0.15447 -0.187 0.852---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Residual standard error: 2.95 on 98 degrees of freedomMultiple R-squared: 0.0003556, Adjusted R-squared: -0.009845F-statistic: 0.03486 on 1 and 98 DF, p-value: 0.8523 summary(lm()) ci restituisce molte informazioni. Intercept, ad esempio, ci di-ce se lintercea è significativamente diversa da  (informazione generalmente pocointeressante). Molto più importante la seconda linea, e calcola t e il p-value di β1 . R-squared èR2 . Il p-value è calcolato ane araverso la statistica F (e non abbiamo affrontato).Il risultato, nel caso di correlazione bivariata, è lo stesso: p-value: 0.852.Il grafico e la retta di regressione Abbiamo già introdoo la rea di regressione,abline, e utilizza proprio il risultato del modello lineare lm().> plot(x1, y1)> abline(modello1).. Varianza dei residui, R2Nel paragrafo .. abbiamo introdoo il conceo di rapporto fra varianza spiegata evarianza residua. la funzione lm() restituisce, fra le altre cose, i residui: $residuals.Sappiamo e la varianza totale è pari alla varianza spiegata più la varianza residua.
  • 89. .. REGRESSIONE LINEARE  q q q q 55 q q q q q q q q q q q q q q q q q qq q q q q q q qqq q q q q q q q q q q q q q q q q qy1 q q qq q q q 50 qq q q q q q q q q q q qq q q q q q q q q q q q qq q q q q q q q q q q q 45 q qq q q q 16 18 20 22 24 x1 Figura .Sappiamo dunque la varianza spiegata è pari a R2 = 1 − var(residui) . Nelle prossime var(Y )righe di R calcoliamo R2 , e lo confrontiamo con il r2 , per mostrare e sono uguali.> residui1 <- modello1$residuals> R2_1 <- 1 - var(residui1)/var(y1)> R2_1[1] 0.0003555714> erre1^2[1] 0.0003555714 Come vediamo, R2 è pari a ., e r2 è pari a ..Grafico dei residuiIl grafico dei residui ci permee di visualizzare la distribuzione dellerrore. È importanteper verificare gli assunti del modello.> plot(modello1$fitted.values, modello1$residuals)> abline(lm(modello1$residuals ~ modello1$fitted.values))Il secondo esempio Usiamo lm() sulle variabili del secondo esempio.> modello2 <- lm(y2 ~ x1)> summary(modello2)
  • 90.  CAPITOLO . CORRELAZIONE E REGRESSIONE LINEARE q q q q 5 q q q q q q q q q q q q q qmodello1$residuals q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q 0 q q q q qq q q q q q q q q q q q q qq q q q q q q q q qq q q q q q q q q q −5 q qq q q q q 50.20 50.25 50.30 50.35 50.40 50.45 modello1$fitted.values Figura .: Il grafico dei residuiCall:lm(formula = y2 ~ x1)Residuals: Min 1Q Median 3Q Max-4.52502 -1.14867 -0.01355 1.20021 3.74245Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) 3.91190 1.89024 2.070 0.0411 *x1 0.80317 0.09313 8.624 1.16e-13 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Residual standard error: 1.779 on 98 degrees of freedomMultiple R-squared: 0.4315, Adjusted R-squared: 0.4257F-statistic: 74.37 on 1 and 98 DF, p-value: 1.163e-13 In questo caso, il modello è significativo, in quanto il p-value di x è < 0.001. Visualizziamo il grafico.> plot(x1, y2)> abline(modello2) Usiamo i residui, calcoliamo R2 .Residui, R2
  • 91. .. VIOLAZIONE DEGLI ASSUNTI  q q q q q q q 24 q q q q q q q q q q q q q q q 22 qq q q q q q q qq q q q q q q q q q qy2 q q qq 20 q q q q q q qq qq q q q q q q q q q q q q q q q q q q q q q 18 q q q q q q q q qq q q q q qq q q q q 16 q q q 16 18 20 22 24 x1 Figura .> residui2 <- modello2$residuals> R2_2 <- 1 - var(residui2)/var(y2)> R2_2[1] 0.431461> erre2^2[1] 0.431461 Visualizziamo il grafico dei residui su x.> plot(modello2$fitted.values, modello2$residuals)> abline(lm(modello2$residuals ~ modello2$fitted.values))> lines(smooth.spline(modello2$fitted.values, modello2$residuals),+ col = "red", lwd = 2) In questo caso, alla linea di regressione abbiamo aggiunto ane una smooth.spline,ovvero una curva e segue landamento della relazione fra punteggi stimati e residui.esta curva ci può aiutare a capire se lassunto di linearità è violato.. Violazione degli assuntiGli assunti della regressione lineare Ricordiamo gli assunti della regressione lineare: X La relazione fra le variabili devessere lineare X Lerrore è una variabile casuale con media zero e distribuzione normale X Gli errori non sono fra loro correlati
  • 92.  CAPITOLO . CORRELAZIONE E REGRESSIONE LINEARE 4 q q q q q q q q q q q q 2 q q qq q qq qq q q q q q q q q q modello2$residuals q q q q qq q q q q q qq q q q q q q 0 q q q q q q q q q q q q q qq q q q q q q q q q q q q q qq q q q q q qq −2 q q q q q q q q q q q q −4 q q 18 20 22 24 modello2$fitted.values Figura . X La varianza dellerrore è costante (omoskedasticità) ali sono le conseguenze della violazione degli assunti? La violazione di linearità è il caso più importante, di cui discuteremo estesamente nelle prossime slide. Correlazione fra gli errori La correlazione fra gli errori è sintomo di non indipen- denza fra le misure. La non indipendenza fra le misure è un problema di cui va tenuto conto nelle misure ripetute. Nel caso di misure su di un campione estrao casualmente, la non indipendenza delle misure e dellerrore è meno probabile. La violazione di questo assunto può essere diagnosticata araverso un test di auto- correlazione dei residui Omoskedasticità: varianza dellerrore costante Se la varianza dellerrore non è co- stante, lintervallo di confidenza della distribuzione di Y non sarà correamente predii- vo, in quanto sovrastimato nella parte del grafico in cui la varianza dellerrore è minore, e soostimato nelle parti dove è maggiore. La violazione dellomoskedasticità può essere diagnosticata ploando i residui sui valori aesi: se la dispersione degli errori non è omogenea, possiamo sospeare unatest di omoskedasticità violazione della costanza della varianza dellerrore. Normalità dellerrore La violazione di questo assunto comporta la compromissione della stima sia dei coefficienti β1 e β0 e dei valori di confidenza della distribuzione di Y su X. Per verificare graficamente la normalità della distribuzione dellerrore, si può utiliz- zare il grafico qqnorm e qqline.
  • 93. .. VIOLAZIONE DEGLI ASSUNTI  Per verificarla inferenzialmente, si possono usare il test di Kolmogorov-Smirnov,ks.test, o il test di normalità Shapiro-Wilk: shapiro.testViolazione della linearità È uno degli aspei più delicati, in quanto può indurre adinferenze scorree. La non linearità può essere diagnosticata araverso la visualizzazione del grafico didispersione delle due variabili, il grafico di dispersione dei residui sui valori aesi, o sullavariabile X. Da un punto di vista inferenziale, è possibile applicare la statistica Harvey-Collier:harvtest (va caricata la libreria lmtest: library(lmtest::harvtest). In alcune circostanze, è possibile applicare una trasformazione non lineare ad una oentrambe le variabili, per rendere lineare la relazione.Secondo esempio: testiamo gli assuntiFocalizziamoci sul secondo esempio, relativo a due variabili correlate, e testiamo gliassunti di normalità e di linearità.Verifico la normalità della distribuzione dellerrore Uso il test di Shapiro-Wilk pertestare la normalità della distribuzione dellerrore.> st2 <- shapiro.test(modello2$residuals)> st2 Shapiro-Wilk normality testdata: modello2$residualsW = 0.9919, p-value = 0.8123Poié p = 0.812327573851688, non rifiuto lipotesi nulla di normalità del modello.Lassunto, dunque, non è violato.Valuto la linearità del modello Utilizziamo ora il test Harvey-Collier per testare lalinearità del modello. Aenzione: per usare la funzione harvtest è necessario, prima,importare la libreria lmtest, con il comando library(lmtest).> library(lmtest)> ht2 <- harvtest(y2 ~ x1, order.by = ~x1)> ht2 Harvey-Collier testdata: y2 ~ x1HC = 0.4536, df = 97, p-value = 0.6511 Poié p = 0.651115675604489, non rifiuto lipotesi nulla di linearità del modello.Lassunto, dunque, non è violato.
  • 94.  CAPITOLO . CORRELAZIONE E REGRESSIONE LINEARETerzo esempio, non lineareInfine, lultimo esempio. Come vediamo dal codice, la relazione fra y e x, al neodella varianza non spiegata, è data da x32 . Appliiamo il modello lineare, e leggiamoi risultati.> x3 <- runif(100, -2, 6)> y3 <- x3^2 + rnorm(100, 0, 1)> x3 <- x3 + 10> modello3 <- lm(y3 ~ x3)> summary(modello3)Call:lm(formula = y3 ~ x3)Residuals: Min 1Q Median 3Q Max-8.132 -4.128 -1.173 4.207 11.905Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) -36.7907 2.6504 -13.88 <2e-16 ***x3 3.8919 0.2161 18.01 <2e-16 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Residual standard error: 5.201 on 98 degrees of freedomMultiple R-squared: 0.768, Adjusted R-squared: 0.7656F-statistic: 324.4 on 1 and 98 DF, p-value: < 2.2e-16Il grafico Analizziamo, ora, il grafico.> par(mfrow = c(1, 2))> plot(x3, y3, main = "grafico di dispersione")> abline(modello3)> plot(modello3$fitted.values, modello3$residuals, main = "punteggi attesi vs residui",+ xlab = "attesi", ylab = "residui")> abline(lm(modello3$residuals ~ modello3$fitted.values))> lines(smooth.spline(modello3$fitted.values, modello3$residuals),+ col = "red", lwd = 2) Risulta evidente, dal grafico a sinistra, e la relazione fra x e y non è lineare. Lanon linearità è ancor più evidente nel grafico dei residui, a destra. Usiamo il test Harvey-Collier per valutare la linearità. --------------------------> ht3 <- harvtest(y3 ~ x3, order.by = ~x3)> ht3
  • 95. .. COEFFICIENTE DI SPEARMAN  grafico di dispersione punteggi attesi vs residui qq q qq q q q q q q 30 q q qq q qq q q qq q qq q q q q qqq q residui qq q 5 qqq q qq qq qq qy3 qq q q q qq qq q q q qq q q q q q qq qq q q q q qq qq 0 10 qq qq q qq qq q qq qq qq q qq q q q qqq q qq qq q qq q −5 qq q q q qq qq q q q qq qqq q q q q qqqq q qq qq qqq q q q q q qq q q qq q q qq qq q q q q q q q qq qqq 8 10 12 14 16 −5 5 15 25 x3 attesiFigura .: x, y: a sinistra il grafico di dispersione di y su x, a destra i residui suipunteggi esi. Harvey-Collier testdata: y3 ~ x3HC = 11.0666, df = 97, p-value < 2.2e-16 p = 6.8004985975279e − 19 < 0.05, e dunque rifiuto lipotesi nulla di lineari-tà del modello. Lassunto di linearità del modello è violato, come previsto dallanalisiqualitativa del grafico.I  data-set di AnscombeIn leeratura, sono noti i  insiemi di dati pubblicati da Anscombe (). I quaro insie-me di dati sono particolari: le quaro y hanno la stessa media (.), deviazione standard(.), correlazione (.) e linea di regressione. Comè possibile notare dal grafico,però, i quaro insiemi sono qualitativamente molto diversi. Lesempio, è finalizzato aricordarci e calcolare il modello lineare non basta, e e una aenta analisi dei graficidi dispersione è indispensabile, per evitare di trarre conclusioni inferenziali indebite.. Coefficiente di SpearmanDipendenza monotona Nelle circostanze in cui la relazione fra le due variabili nonsia lineare, ma tenda ad essere comunque monotona, è possibile utilizzare il modellonon-parametrico della correlazione: ρ di Spearman. In questo modello, il calcolo della relazione si effeua non sui valori delle due va-riabili, ma sulla loro posizione ordinale. esta statistica, pertanto, può essere applicata ane nella circostanza in cui una oentrambe le variabili siano di tipo ordinale.Assunti del modello di Spearman Gli assunti sono i seguenti:
  • 96.  CAPITOLO . CORRELAZIONE E REGRESSIONE LINEARE 12 12 q 10 10anscombe$y1 anscombe$y2 q q q q q q q q q q q 8 8 q q q q q 6 6 q q q q 4 4 q 5 10 15 5 10 15 anscombe$x1 anscombe$x2 q q 12 12 10 10anscombe$y3 anscombe$y4 q q q q 8 8 q q q q q q q q q q q 6 6 q q q q q 4 4 5 10 15 5 10 15 anscombe$x3 anscombe$x4 Figura .: il dataset di Anscombe X le due variabili devono essere almeno ordinali, non necessariamente ad intervalli; X su entrambe le variabili, le diverse osservazioni devono essere fra loro indipen- denti; X si assume e vi sia, fra le variabili, una relazione di tipo monotono;.. arto esempio, sigmoideIntroduciamo un quarto esempio, dove la curva fra x e y è una sigmoide.> x4 <- rnorm(200, 0, 4)> y4 <- (1/(1 + exp(-x4))) * 10 + rnorm(200, 0, 0.3)> x4 <- x4 + 8 + rnorm(200, 0, 0.3)Il grafico Prima di ogni calcolo, mostriamo il grafico.> par(mfrow = c(1, 1))> plot(x4, y4)> abline(lm(y4 ~ x4))> lines(smooth.spline(x4, y4), col = "red", lwd = 2)
  • 97. .. COEFFICIENTE DI SPEARMAN  q q qq q q q q q 10 qq q qq qq q qq q qq q qq qqq q q q q q q q q qq q q q qq q qq q q q qq q qq q q q qq 8 qqqq q q q q q qq qq q q qq 6 qq q qqy4 qq qq q qqq qq 4 q q q q qq qq q qq qq q q q 2 qq q q q q qq qqq q q q q q q qq q q q q qqq qqq q q qq q q q qq q q qq q q q q q q q qq q q q q q q qq q q q q qq q 0 q q q q qq q q q q qq qq q 0 5 10 15 x4 Figura .: Relazione sigmoide
  • 98.  CAPITOLO . CORRELAZIONE E REGRESSIONE LINEARE Dal grafico appare iaro e una relazione fra x e y esiste, ma e la relazionenon è lineare. Il modello lineare riesce comunque a cogliere la relazione, ma il modelloprediivo risulta sostanzialmente scorreo.Calcolo di r Calcoliamo, comunque, r, usando cor.test. Negli esempi precedenti,largomento method=pearson era stato omesso, in quanto costituisce il default delmetodo. Adesso, al contrario, lo rendiamo esplicito.> cor.test(x4, y4, method = "pearson") Pearsons product-moment correlationdata: x4 and y4t = 35.4166, df = 198, p-value < 2.2e-16alternative hypothesis: true correlation is not equal to 095 percent confidence interval: 0.9076226 0.9460919sample estimates: cor0.9293373Coefficiente di Spearman Calcoliamo, ora, a mano, il coefficiente ρ di Spearman. Co-me abbiamo deo, la statistica non parametrica utilizza, al posto dei valori numerici dix e y, le loro posizioni ordinali. Il primo passaggio, dunque, è quello di trasformare ipunteggi nei rispeivi ranking (e, nel nostro algoritmo, di scalarli). Poi, utilizziamo laconsueta formula per calcolare il coefficiente.> rankx4 <- scale(rank(x4))> ranky4 <- scale(rank(y4))> spearman4 <- sum(rankx4 * ranky4)/(length(rankx4) - 1)> spearman4[1] 0.9756004> plot(rankx4, ranky4) Per capire meglio il meccanismo, disegnamo il grafico di dispersione dei rankingdelle due variabili. Come possiamo vedere, la trasformazione rende lineare la relazionemonotona.Coefficiente di Spearman, cor.testInfine, come di consueto, utilizziamo la funzione di R: cor.test(x4, y4, method= spearman). Se si vuole usare la ρ di Spearman, è necessario specificare method =spearman.> spearman4 <- cor.test(x4, y4, method = "spearman")> spearman4
  • 99. .. COEFFICIENTE DI SPEARMAN  qqq q q q q q q q 1.5 q q q q q qq q q qq qq q q q q q qq q q qq qq q q q 1.0 q q q q q q qq q q qq qq q q q qq q qq q q q q qq q 0.5 qq qq q qq q q qq q qq qq q qq q q qq qranky4 qq qq q 0.0 q q q qq q q qq q q q q q q qq q q qq q q q q q q q q −0.5 q q q q qq q q qq q q q q q q q q q q q q qq qq −1.0 q q q q q q q q q qq q q q q q q q q q q q qq q q q q q −1.5 q qq q qq q q q q q q q q q q q q q −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 rankx4 Figura .: Grafico di disperisone dei punteggi trasformati in ranking
  • 100.  CAPITOLO . CORRELAZIONE E REGRESSIONE LINEARE Spearmans rank correlation rhodata: x4 and y4S = 32532, p-value < 2.2e-16alternative hypothesis: true rho is not equal to 0sample estimates: rho0.9756004Leggere i risultati La funzione calcola la statistica S= ., rho=.,p= .. Conclusioni
  • 101. Capitolo Analisi della VarianzaIndice . Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Confronto a coppie . . . . . . . . . . . . . . . . . . . . . .  . Varianze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Varianza spiegata e previsioni . . . . . . . . . . . . . . . .  .. Un esempio: gli affii in una cià . . . . . . . . . . . . . .  . Inferenza e previsioni . . . . . . . . . . . . . . . . . . . . . . .  .. Lanalisi della Varianza . . . . . . . . . . . . . . . . . . .  . Distribuzione dellerrore, inferenza . . . . . . . . . . . . . . . .  .. La distribuzione Fisher-Snedecor . . . . . . . . . . . . . .  .. R: uso di aov . . . . . . . . . . . . . . . . . . . . . . . . .  . Anova a due vie . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Due variabili indipendenti . . . . . . . . . . . . . . . . . .  .. Un esempio: antidepressivi e aività aerobica . . . . . . .  .. Il calcolo . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Modello lineare . . . . . . . . . . . . . . . . . . . . . . .  .. Lesempio dei traamenti per la depressione . . . . . . . .  . Confronti multipli . . . . . . . . . . . . . . . . . . . . . . . . .  .. La correzione di Bonferroni . . . . . . . . . . . . . . . . .  .. Il test di Tukey . . . . . . . . . . . . . . . . . . . . . . . .  .. Analisi della Varianza: assunti . . . . . . . . . . . . . . . .  . Test non parametrico . . . . . . . . . . . . . . . . . . . . . . . .  .. Il test di Kruskal-Wallis . . . . . . . . . . . . . . . . . . .  . Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IntroduzioneConfronto fra variabili categoriali e a intervalli Abbiamo visto, nel capitolo , co-me il t-test ci permea di confrontare le medie di due gruppi, e di valutare se la lorodifferenza è significativa. 
  • 102.  CAPITOLO . ANALISI DELLA VARIANZA Il confronto su coppie di elementi è applicabile se abbiamo una variabile indipen-dente di tipo categoriale con due soli livelli. Vi sono circostanze, però, in cui il confrontodeve avvenire fra più di due gruppi. Il caso più semplice è quando la variabile indi-pendente ha tre o più livelli. Una circostanza più complessa emerge quando le variabiliindipendenti sono più di due. In quale modo possiamo affrontare una simile eventualità?.. Confronto a coppieUna possibile risposta è quella di confrontare ogni possibile combinazione di coppie digruppi. Nellesempio semplice di una variabile indipendente a tre livelli, confrontare il grup-po  con il gruppo , il gruppo  con il , il  con il . Sebbene questi confronti a coppie siano non solo possibili, ma realmente utilizzatinei confronti post-hoc, lutilizzo esclusivo di questa metodologia incorre in due limiti.Problemi del confronto a coppieIl primo è e, moltiplicando il numero dei confronti, si accresce la probabilità di incor-rere in un errore di tipo I. Immaginiamo, ad esempio, di acceare un valore α pari a .. esto significaacceare la possibilità e, il % delle volte, si rifiuti indebitamente lipotesi nulla. Ma se, invece di un solo confronto, ne facciamo due, qualè la probabilità e si rifiutiindebitamente almeno una volta lipotesi nulla? Ricordiamo e, se lipotesi e si sta valutando è se la variabile indipendente in-fluisce su quella dipendente, basta rilevare una differenza significativa fra i gruppi perinferire una influenza. Ma se i confronti sono numerosi, la probabilità di incorrere in un errore del primotipo aumenta. Nellesempio con tre gruppi, poié i confronti sono tre, con un α pari a. la probabilità di rifiutare erroneamente lipotesi nulla diventa pari a ..Più variabili indipendenti Il secondo inconveniente emerge quando le variabili indi-pendenti sono più di una. In questo caso, dal confronto a coppie è difficile far emergerequali variabili indipendenti hanno uninfluenza significativa sulla variabile dipendentee quali no, così come diventa difficile far emergere leventuale interazione fra le variabiliindipendenti. esti due inconvenienti ci costringono ad identificare una metodologia capace digeneralizzare ai confronti con più variabili indipendenti e capace di mantenere soocontrollo lerrore di tipo I.. VarianzeNel capitolo  sulla regressione lineare sono stati introdoi i concei di varianza totale,spiegata e residua.La varianza di una variabile ci offre una misura della distribuzione di quella variabile.
  • 103. .. VARIANZE Conoscendo la media e la varianza (o la deviazione standard) di una variabile, ed assu-mendo una distribuzione di tipo normale, possiamo fare delle previsioni su Y. Possiamo ¯assumere e Y sia il valore aeso di y più probabile, e possiamo stimare la probabilitàdelloccorrenza di una osservazione y. Naturalmente, la varianza di una variabile influisce sulla nostra capacità di fare delleprevisioni. Se la varianza è prossima allo zero, noi possiamo prevedere con certezza eil valore aeso di una osservazione y sarà molto vicino alla media Y ¯.. Varianza spiegata e previsioniSe riprendiamo lesempio banale delle precipitazioni atmosferie: La variazione del-le osservazioni può essere molto ampia: da poi millimetri a decine di centimetri.Tuavia, tua la variazione di peso, però, può essere spiegata dal volume dellacqua(aenzione: spiegata non significa causata). Passiamo al caso meno banale di dover stimare il consumo di carburante duranteluso di unauto in una giornata, conoscendo i km percorsi. In questo caso, come abbiamo visto, la scommessa sarà meno certa, in quanto ilconsumo è legato ane al tipo di guida, al tipo di percorso, alle condizioni di trafficoe così via. Ciononostante, conoscere il numero di km percorsi mi permee una stimamolto più accurata di quanto potrei fare semplicemente tirando ad indovinare. La varianza residua, ovvero la varianza dei residui, sarà molto più bassa della va-rianza totale. Il numero di km costituisce dunque un prediore molto utile del consumodi carburante.Varianza residua e previsioni Il vantaggio di poter applicare la regressione lineare èe la relazione fra due variabili può essere espressa araverso due soli parametri: β0 eβ1 , ovvero lintercea e la pendenza della linea. Nel caso di variabili indipendenti di tipo categoriale, naturalmente, non è possibileassumere alcuna linearità, e dunque non possono bastarci quei due parametri... Un esempio: gli affitti in una cittàImmaginiamo di voler prendere in affio un appartamento in una cià di medie di-mensioni, e vogliamo capire se, in differenti quartieri, i prezzi sono significativamentediversi. Immaginiamo dunque di fare una ricerca sistematica, usando alcuni siti specializzati,raccogliendo le informazioni relative a  appartamenti, distribuiti su  quartieri:  nelquartiere A,  nel B,  nel C. ello e vogliamo capire è se, nei differenti quartieri, i prezzi sono significativa-mente diversi.R: generare lesempio Con R, possiamo generare il dataset di  valori, invocandornorm. Decidiamo di generare  valori con media  e sd  (quartiere A),  con media e sd  (quartiere B),  con media  e sd  (quartiere C).
  • 104.  CAPITOLO . ANALISI DELLA VARIANZA Usando le funzioni factor, levels e data.frame creiamo il dataframe con  colonne(prezzo, quartiere) e  righe.R: il codice> zonaA <- round(rnorm(20, 55, 3)) * 10> zonaB <- round(rnorm(20, 59, 3)) * 10> zonaC <- round(rnorm(20, 62, 3)) * 10> zone <- c(zonaA, zonaB, zonaC)> fZone <- factor(c(rep("A", 20),+ rep("B", 20), rep("C", 20)))> affitti <- data.frame(prezzo = zone,+ quartiere = fZone) Affitti per zona 700 q q qq 650 q q q q q q q q q q q q q qq Affitti q qq 600 q q q q q qqq q q q q q q q q q q qq q q q q q 550 q qq q q q q q q qq q q 500 0 10 20 30 40 50 60 Zone Figura .: Il grafico dellesempio degli affii
  • 105. .. INFERENZA E PREVISIONI Grafico e varianza Nel grafico ., ploiamo le  osservazioni: in rosso le venti delquartiere A, verde il quartiere B, blu il C. La linea rossa marca il valore medio di A, laverde la media di B, blu la media di C. Le due righe rosse traeggiate, lintervallo diconfidenza al % delle osservazioni in A, le verdi in B, le blu in C. La riga continua nerarappresenta la media generale, le due righe traeggiate nere lintervallo di confidenzagenerale, al %. Nonostante le variazioni dovute al caso, è iaro e lintervallo di confidenza deisingoli gruppi è minore (e diverso) dellintervallo di confidenza totale. esto significae conoscere il quartiere dove un appartamento è collocato mi permee di fare delleprevisioni migliori in merito al prezzo e mi aspeo di pagare.. Inferenza e previsioniLanalisi bivariata (descriiva e inferenziale) ci permee dunque innanzituo di capirese una variabile influisce su di unaltra. In secondo luogo, se linfluenza è statisticamente significativa, conoscere il valoredella prima variabile ci permee di fare delle previsioni più accurate sulla seconda.Rapporto fra varianza spiegata e residua Lanalisi della varianza è la statistica in-ferenziale e valuta se vi è una relazione fra una (o più) variabili indipendenti, di tipocategoriale, e una variabile quantitativa (almeno ad intervalli). Il principio su cui si ba-sa la statistica è proprio la percentuale di varianza spiegata dal modello riespeo allavarianza totale. La misura e viene presa in considerazione in questa statistica è dunque un rappor-to: il rapporto fra varianza spiegata dal modello e varianza residua (ovvero la differenzafra la varianza totale e quella spiegata). Se il rapporto supera un determinato valore cri-tico, si rifiuta lipotesi nulla (secondo cui non vi è relazione fra la variabile indipendentee quella dipendente)... Lanalisi della Varianzaello e lanalisi della varianza ci permee di capire è se le medie della variabile dipen-dente osservate nei diversi gruppi sono o meno statisticamente diverse. Più precisamen-te, ci permee di stabilire se esistono almeno due gruppi la cui media sia statisticamentediversa ¹. Il vantaggio di questo approccio, rispeo al confronto fra coppie di gruppi, è duplice: X non vi è una proliferazione dellerrore di tipo I, in quanto il confronto è unico X nel caso di più variabili indipendenti, è possibile stimare linfluenza di ognuna delle variabili indipendenti, noné della loro interazione. ¹questo tipo di statistica viene definito omnibus
  • 106.  CAPITOLO . ANALISI DELLA VARIANZALipotesi nulla Lipotesi nulla assume e la media dei gruppi non sia fra loro diversa,e dunque e le medie dei gruppi siano approssimativamente pari alla media generale. Se le medie dei vari gruppi sono tue perfeamente uguali alla media generale, anela varianza dei gruppi sarà pari alla varianza generale, e dunque la varianza spiegata saràpari a zero.Errore di campionamento A causa dellerrore di campionamento, però, sappiamo e,ane qualora lipotesi nulla sia vera, le medie dei gruppi potranno discostarsi dallamedia generale, e dunque la varianza spiegata misurata sarà superiore a zero. Come nei casi già visti (t test, correlazione, i quadro), il valore del rapporto fra va-rianze va dunque confrontato con una distribuzione (teorica o generata empiricamente,ad esempio araverso una simulazione) in modo da valutare se la proporzione di va-rianza spiegata è da aribuire al caso (errore di campionamento), e dunque va acceatalipotesi nulla, oppure no.Il calcoloSomme dei quadrati Per calcolare il test dellanalisi della varianza, dobbiamo calco-lare tre valori. X la somma dei quadrati dellerrore totale, SST ; X la somma dei quadrati dellerrore residuo, SSR ; X la somma dei quadrati del modello, SSM ;Per calcolare le varianze totale, residua e spiegata dobbiamo dividere gli SS per i rispeivigradi di libertàSomma dei quadrati e varianza totale La somma dei quadrati dellerrore totale sicalcola con la formula ∑N SST = (Yi − Y.. )2 ¯ (.) n=1 ¯dove N è il numero totale di osservazioni e Y.. è la media totale. I gradi di libertà della varianza totale sono dfT = N − 1. La varianza totale è pari a M ST = SST /dfT .Somma dei quadrati e varianza residua La somma dei quadrati dellerrore residuo sicalcola con la formula ∑∑ I Ji SSR = (Yij − Yi. )2 ¯ (.) i=1 j=1dove I sono i livelli della variabile indipendente, Ji il numero di osservazioni del livello ¯i e Yi. la media delle osservazioni per il livello i. I gradi di libertà della varianza residua sono dfR = N − I. La varianza residua è pari a M SR = SSR /dfR .
  • 107. .. DISTRIBUZIONE DELLERRORE, INFERENZA Somma dei quadrati e varianza spiegata La somma dei quadrati del modello si cal-cola con ∑I SSM = (Yi. − Y.. )2 · Ji ¯ ¯ (.) i=1Ovvero, si calcola la differenza fra la media del gruppo i e la media totale, la si eleva alquadrato, e la si moltiplica per il numero di osservazioni di quel gruppo.I gradi di libertà della varianza del modello sono dfM = I − 1. La varianza spiegata è pari a M SM = SSM /dfM .Identità principale dellANOVA Proprio come per il modello di regressione lineare,SST = SSM + SSR . esta uguaglianza viene definita identità principale dellANO-VA. La significatività del rapporto fra la variabile indipendente e quella dipendente vienemisurata meendo a rapporto la varianza spiegata dal modello con la varianza residua:F = M SM /M SR .. Distribuzione dellerrore, inferenzaPer introdurre il calcolo dellanalisi della Varianza, usiamo la consueta sequenza logica X identificazione di una misura della relazione X identificazione di una popolazione virtuale X estrazione casuale di k· I campioni; calcolo della misura per ogni estrazione, e salvataggio nel veore delle misure X osservazione della distribuzione delle misure generate X calcolo del p-value araverso il confronto con il veore delle misure X identificazione di una distribuzione teorica e, previo opportuna trasformaizone, mappa quella osservata X calcolo del p-value utilizzando la probabilità della distribuzione teorica identifi- cata X utilizzo della funzione di RLa simulazione Per la nostra simulazione, immaginiamo un disegno sperimentalebivariato, dove la variabile indipendente ha tre livelli. X La misura della relazione è la statistica F identificata sopra; X generiamo per k volte tre campioni di numerosità m, con stessa media e deviazione standard (media e deviazione standard sono arbitrarie); X calcoliamo SST , SSR , SSM , dfT , dfR , dfM , M ST , M SR , M SM
  • 108.  CAPITOLO . ANALISI DELLA VARIANZA X Calcoliamo la statistica F = M SM /M SR , e la salviamo nel veore delle misure.> k <- 10000> distribuzione <- vector("numeric", k)> for (i in 1:k) {+ n <- 60+ osservazioni <- rnorm(n, 100, 6)+ osservazioniA <- osservazioni[1:20]+ osservazioniB <- osservazioni[21:40]+ osservazioniC <- osservazioni[41:60]+ meanA <- mean(osservazioniA)+ meanB <- mean(osservazioniB)+ meanC <- mean(osservazioniC)+ meanTot <- mean(osservazioni)+ SSRA <- sum((osservazioniA - meanA)^2)+ SSRB <- sum((osservazioniB - meanB)^2)+ SSRC <- sum((osservazioniC - meanC)^2)+ SSR <- SSRA + SSRB + SSRC+ SSMA <- 20 * (meanA - meanTot)^2+ SSMB <- 20 * (meanB - meanTot)^2+ SSMC <- 20 * (meanC - meanTot)^2+ SSM <- SSMA + SSMB + SSMC+ SST <- sum((osservazioni - meanTot)^2)+ MSM <- SSM/(3 - 1)+ MSR <- SSR/(60 - 3)+ Fvalue <- MSM/MSR+ distribuzione[i] <- Fvalue+ }.. La distribuzione Fisher-SnedecorNella figura ., listogramma rappresenta la distribuzione dellerrore di campionamentooenuto con la simulazione. La linea sovrapposta allistogramma rappresenta la distribuzione teorica F di Fisher-Snedecor. Similmente alla distribuzione t di Student e alla distribuzione χ2 , ane la F è unafamiglia di distribuzioni, e variano a seconda dei gradi di libertà. La distribuzione F, però, varia in base a due gradi di libertà. Nellesempio della si-mulazione, la linea corrisponde alla distribuzione F (,), ovvero ai gradi di libertà dellavarianza spiegata e della varianza residua.R: calcolo di F value Mostriamo il calcolo della statistica F con R, calcolando le tremedie, la media totale, SSR , SSM , SST , M SR , M SM , ed infine F.> osservazioniA <- zonaA
  • 109. .. DISTRIBUZIONE DELLERRORE, INFERENZA  Histogram of distribuzione 0.6 0.5 0.4Density 0.3 0.2 0.1 0.0 0 2 4 6 8 10 12 14 Figura .: La distribuzione dellerrore di distribuzione F di Fisher-Snedecor> osservazioniB <- zonaB> osservazioniC <- zonaC> osservazioni <- zone> meanA <- mean(osservazioniA)> meanB <- mean(osservazioniB)> meanC <- mean(osservazioniC)> meanTot <- mean (osservazioni)> SSRA <- sum ((osservazioniA-meanA)^2)> SSRB <- sum ((osservazioniB-meanB)^2)> SSRC <- sum ((osservazioniC-meanC)^2)> SSR <- SSRA + SSRB + SSRC> SSMA <- 20 * (meanA-meanTot)^2> SSMB <- 20 * (meanB-meanTot)^2> SSMC <- 20 * (meanC-meanTot)^2> SSM <- SSMA + SSMB + SSMC> SST <- sum((osservazioni-meanTot)^2)> MSR <- SSR/(n-3)> MSM <- SSM/(3-1)> F_Affitti <- MSM/MSR> c(SSM, SSR, SST)[1] 55090 61595 116685> c(MSM, MSR)[1] 27545.000 1080.614> F_Affitti[1] 25.49014
  • 110.  CAPITOLO . ANALISI DELLA VARIANZA F è dunque pari a .. Ora, possiamo calcolare il p-value nel modo consueto,confrontando la posizione di questa statistica con la distribuzione calcolata prima.> p_value_empirica_1 <- 1 -+ rank(c(F_Affitti, distribuzione))[1]/(k + 1)> p_value_empirica_1[1] 0 Ora, calcoliamo il p-value usando la funzione pf.> p_value_F_1 <- 1 - pf(F_Affitti, 2, 57)> p_value_F_1[1] 1.236281e-08 Il risultato è sostanzialmente simile... R: uso di aovR mee a disposizione, per il calcolo dellanalisi della varianza, la funzione aov(y x),dove y è la variabile dipendente, numerica, e x è il faore.> summary(aov(prezzo~quartiere,data=affitti)) Df Sum Sq Mean Sq F value Pr(>F)quartiere 2 55090 27545.0 25.49 1.236e-08 ***Residuals 57 61595 1080.6---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Leggere loutput utilizzando la funzione summary su aov è possibile avere il deagliodei risultati dellanalisi. Nel caso di una analisi ad una via, avremo una tabella con duerighe. La seconda riga calcola i gradi di libertà, la somma dei quadrati, e la media deiquadrati dei residui (ovvero dfR , SSR , M SR ). La prima riga calcola i gradi di libertà,la somma dei quadrati, e la media dei quadrati del modello: dfM , SSM , M SM ); Inoltre,calcola F = M SM /M SR ; infine, calcola il p-value. I codici simbolici (gli asterisi) cisuggeriscono la significatività: *** significa e p − value < 0.01.. Anova a due vie.. Due variabili indipendentiLanalisi della varianza e abbiamo introdoo, può essere estesa ane ai casi in cui levariabili indipendenti sono più di una. Nellanalisi della varianza a due vie, ad esempio, si indaga la relazione fra due va-riabili indipendenti, entrambe categoriali, ed una variabile dipendente, quantitativa. In questa sezione analizziamo la circostanza in cui le variabili indipendenti sono due,ma la logica rimane la stessa ane nelle circostanze in cui le variabili indipendenti sonopiù di due.
  • 111. .. ANOVA A DUE VIE Le ipotesiNellAnova a due vie, le domande e il ricercatore si pone sono tre: X La prima delle variabili indipendenti, influisce significativamente sulla variabile dipendente? X La seconda delle variabili indipendenti, influisce significativamente sulla variabile dipendente? X Vi è una interazione fra le due variabili?.. Un esempio: antidepressivi e attività aerobicaIntroduciamo lanalisi della varianza a due vie con un esempio. Dei ricercatori sono inte-ressati ad analizzare linfluenza dellaività aerobica e di un tipo di farmaci antidepressivi(ad esempio, gli RSSI, gli inibitori del reuptake della serotonina) sul tono dellumore dipazienti con diagnosi di depressione maggiore. Decidono pertanto di selezionare  pazienti con diagnosi di depressione, e di asse-gnarli casualmente a  gruppi sperimentali, in un disegno x.I fattori Un faore è dunque lantidepressivo: a  pazienti verrà somministrato, per giorni, una dose di RSSI, mentre agli altri  verrà somministrato, per lo stesso periodo,un placebo. Laltro faore, laività aerobica: a  pazienti verrà iesto di fare  minuti diaività aerobica due volte al giorno per  giorni. Agli altri  pazienti verrà iesto difare una aività non aerobica, di controllo, per lo stesso periodo di tempo.I gruppi sperimentali Avremo dunque  pazienti con placebo e aività non aerobica, con placebo e aività aerobica,  con farmaco e aività non aerobica,  con farmacoe aività aerobica. Alla fine dei  giorni, verrà somministrato un questionario (ad esempio il BDI, Bedepression inventory), per valutare il loro tono dellumore alla fine del traamento... Il calcoloSomma dei quadrati totale e residua La somma dei quadrati totale è identico al casodellanova ad una via: si somma il quadrato della differenza di ogni osservazione conla media generale. Per calcolare la varianza totale si divide il tuo per i gradi di libertàdella varianza totale, pari a n-. Ane la somma dei quadrati residui è identico al caso dellanova ad una via: per ognicondizione sperimentale, si sommano i quadrati delle differenze fra i valori osservati ela media di quel gruppo, si sommano i valori così oenuti da ogni gruppo. Di nuovo, lavarianza è data dalla somma dei quadrati divisa per i gradi di libertà
  • 112.  CAPITOLO . ANALISI DELLA VARIANZASomma dei quadrati dei fattori Il calcolo di SSA : per ogni livello della variabile A,si calcola la media delle osservazioni di quel livello. Si calcola il quadrato della differenza fra questa media e la media generale. Si moltiplica questo risultato per il numero di osservazioni del livello. Alla fine, si sommano i valori oenuti per ognuno dei livelli. Si dividono per i gradidi libertà (pari al numero di livelli meno uno) per oenere la varianza M SA In pratica, nel calcolare SSA si fa come se il faore B non esistesse. Lo stessoprocedimento viene usato per calcolare la varianza spiegata dal faore B.Somma dei quadrati dellinterazione Nel caso dellanova ad una via, la varianza tota-le era pari alla somma della varianza residua e della varianza spiegata dallunica variabileindipendente. Nel caso dellanova a due vie, però, la somma di varianza residua, varianza spiegatada A e varianza spiegata da B sarà minore della varianza totale. La differenza è data dalla varianza spiegata dallinterazione fra i due faori A e B.Più forte è linterazione fra le due variabili indipendenti, più alta sarà la varianza spie-gata dallinterazione (e dunque maggiore sarà la differenza fra la somma delle varianzeresidue, di A, di B e la varianza totale).Linterazione fra le variabili indipendentiPer introdurre il calcolo della varianza spiegata dallinterazione fra A e B, può essereutile riprendere il conceo di frequenza aesa introdoa nel test del χ2 . Ane in quelcaso si traava di valutare linterazione fra due variabili categoriali. La differenza è ementre nel χ2 si misurano le frequenze, in questo caso la misura è data da una variabilequantitativa. In maniera simile al χ2 , però, è possibile, conoscendo le medie marginali dei livelli diA e B, costruire una tabella delle medie aese, e costituisce il caso perfeo di assenzadi interazione fra i due faori. esta tabella costituisce il caso oimale di acceazionedellipotesi nulla relativa allinterazione fra le due variabili.Lesempio: calcolo delle somme dei quadratiPer esemplificare, torniamo allesempio di un disegno x. ello e vogliamo fare ècreare una tabella x delle medie aese. Il primo passaggio, è calcolare le medie marginali per ogni livello della variabile A,e dunque la media di A e la media di A. Il secondo passaggio, è calcolare le medie marginali per i livelli di B, e dunque lamedia di B e la media di B. Infine, per le quaro celle [,] [,] [,] e [,], calcolare la media aesa. La media aesa della cella [,] è pari alla media generale + la differenza fra A e lamedia generale e la differenza fra B e la media generale. Dunque, A + B - media.Calcolo delle somme dellinterazione SSInt si basa sul quadrato delle differenze frala tabella delle medie aese e la tabella delle medie osservate, moltiplicata per il numerodi osservazioni per gruppo.
  • 113. .. ANOVA A DUE VIE  Dunque, più la tabella delle medie osservate è simile alla tabelle delle medie aese,minore è linterazione fra le due variabili indipendenti, e dunque minore è la varianzaspiegata dallinterazione. Viceversa, maggiore è la differenza, maggiore linterazione, maggiore la varianzaspiegata dallinterazione.Il calcolo, formalizzazioneSomma dei quadrati e varianza totale La somma dei quadrati dellerrore totale sicalcola con la formula ∑N SST = (Yi − Y¯ )2 ... (.) n=1dove N è il numero totale di osservazioni e Y¯ è la media totale. ... I gradi di libertà della varianza totale sono dfT = N − 1. La varianza totale è pari a M ST = SST /dfT .Somma dei quadrati e varianza residua La somma dei quadrati dellerrore residuo sicalcola con la formula ∑∑∑ I J K SSR = (Yijk − Y¯ )2 ij. (.) i=1 j=1 k=1dove I sono i livelli di A, J i livelli di B, K il numero di osservazioni per ogni livello e Y¯ ij.la media delle osservazioni per il gruppo ij. I gradi di libertà della varianza residua sono dfT = N − I ∗ J. La varianza residua è pari a M SR = SSR /dfR .Somma dei quadrati e varianza spiegata La somma dei quadrati del modello si cal-cola con ∑I SSA = K· J· (Y¯ − Y¯ )2 i.. ... (.) i=1 ∑ J SSB = K· I· (Y¯ − Y¯ )2 .j. ... (.) j=1I gradi di libertà della varianza del modello sono dfA = I − 1, dfB = J − 1. Le varianze spiegate sono M SA = SSA /dfA , M SB = SSB /dfB .Somma dei quadrati e varianza dellinterazione ∑∑ I J SSint = K· (Y¯ − Y¯ − Y¯ + Y¯ )2 ij. i.. .j. ... (.) i=1 j=1ovvero la media osservata meno la media marginale di Ai , meno la media marginale diBj , più la media totale.
  • 114.  CAPITOLO . ANALISI DELLA VARIANZA I gradi di libertà della varianza dellinterazione sono dfint = (I − 1)· (J − 1). La varianza dellinterazione è M Sint = SSint /dfint .Le ipotesi inferenzialiLe ipotesi inferenziali sono tre: X H0 : linfluenza della variabile A sulla variabile dipendente non è significativa A X H0 : linfluenza della variabile B sulla variabile dipendente non è significativa B X H0 : linterazione fra A e B non è significativa. ABIpotesi inferenziali e F Per valutare le tre ipotesi inferenziali, vengono calcolati i trerapporti: X FA = M SA /M SR ; X FB = M SB /M SR ; X Fi nt = M Sint /M SR ;Ognuno dei rapporti viene confrontato con la distribuzione F di Fisher-Snedecor... Modello lineareIn maniera simile alla regressione lineare, ane lanalisi della varianza (sia a una e adue vie) può essere rappresentata araverso un modello lineare. Il modello generale perlanova a due vie è Yijk = µ + αi + βj + δij + ijk , i = 1...I, j = 1...J, k = 1...K (.)dove I è il numero di livelli del faore A, J il numero di livelli del faore B, K il numerodi osservazioni per ogni gruppo. µ corrisponde alla media totale di tue le osservazioni. αi corrisponde allo scostamento dalla media totale del livello Ai βj corrisponde allo scostamento dalla media totale del livello Bj δij corrisponde alla differenza fra la media del campione osservata e quella aesa inbase allipotesi di non interazione fra A e B. ijk è la componente di errore, ovvero la differenza fra il valore aeso dal modelloe il valore osservato... Lesempio dei trattamenti per la depressioneTorniamo allesempio dei traamenti per la depressione, e generiamo tre diversi scenari.
  • 115. .. ANOVA A DUE VIE  expDep$aerobica aerobico non aerobico 35mean of expDep$punteggi 30 25 placebo farmaco expDep$farmaco Figura .: Primo scenarioPrimo scenario non aerobico aerobicoplacebo 23.17468 27.80842farmaco 29.99511 38.29113 Df Sum Sq Mean Sq F value Pr(>F)farmaco 1 2245.5 2245.49 37.2503 1.414e-08 ***aerobica 1 1253.8 1253.84 20.7999 1.273e-05 ***farm:aer 1 100.6 100.59 1.6687 0.199Resid. 116 6992.6 60.28Dal modello dellanalisi della varianza possiamo dedurre e vi è una influenza signifi-cativa sia del primo faore (farmaco) e del secondo (aività aerobica); non vi è, però,interazione significativa fra i due faori.Lesempio, secondo scenario non aerobico aerobicoplacebo 23.17468 27.80842farmaco 29.99511 28.69854 Df Sum Sq Mean Sq F value Pr(>F)farmaco 1 445.9 445.89 7.4065 0.007501 **aerobica 1 83.5 83.53 1.3874 0.241257farm:aer 1 263.8 263.76 4.3812 0.038516 *Resid. 116 6983.6 60.20 In questo scenario, invece:
  • 116.  CAPITOLO . ANALISI DELLA VARIANZA 30 expDep$aerobica 29 non aerobico aerobicomean of expDep$punteggi 28 27 26 25 24 23 placebo farmaco expDep$farmaco Figura .: Secondo scenario X rifiutiamo lipotesi nulla H0 , in quanto leffeo del farmaco è significativo, con A p = 0.0075 < α = 0.01. X non rifiutiamo lipotesi nulla H0 , in quanto leffeo dellaività aerobica non è B significativa: p = 0.241 > α = 0.05 X rifiutiamo lipotesi nulla H0 , in quanto è significativa linterazione fra i due AB faori: p = 0.038 < α = 0.05. expDep$aerobica 45 aerobico non aerobicomean of expDep$punteggi 40 35 30 25 placebo farmaco expDep$farmaco Figura .: Terzo scenarioLesempio, terzo scenario
  • 117. .. CONFRONTI MULTIPLI  non aerobico aerobicoplacebo 23.17468 27.80842farmaco 29.99511 48.07014 Df Sum Sq Mean Sq F value Pr(>F)farmaco 1 5500.8 5500.8 90.080 3.701e-16 ***aerobica 1 3867.7 3867.7 63.336 1.301e-12 ***farm:aer 1 1355.0 1355.0 22.189 6.910e-06 ***Resid. 116 7083.7 61.1---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 In questo caso, si rifiutano tue le ipotesi nulle, in quanto risultano significativi sia ilfarmaco, e laività aerobica, e linterazione fra i due faori. In tui i casi p < 0.001.. Confronti multipliConfronti multipli ed errore Lanalisi della varianza ci permee di verificare se ledifferenze fra le medie di tre o più campioni sono da aribuire allerrore campionario, ose sono significative. Una volta rifiutata lipotesi nulla, però, resta da determinare quali differenze sonosignificative. Lanalisi della varianza, infai, ci dice se vi è almeno una coppia di gruppila cui differenza è significativa, ma non ci dice quali differenze lo sono. Per poter determinare quali differenze sono significative, diventa necessario con-frontare i gruppi a due a due. Come abbiamo visto allinizio del capitolo, si potrebbe decidere di utilizzare, per con-frontare a due a due i diversi gruppi, il t-test. Ma, come abbiamo già accennato, applicareripetutamente il t-test aumenta la probabilità di incorrere in un errore del primo tipo. Diventa dunque necessario adoare dei test di confronti multipli capaci di manteneresoo controllo lerrore del I tipo... La correzione di BonferroniUn possibile approccio, finalizzato a controllare la proliferazione dellerrore del I tipo, èquello di adoare la correzione di Bonferroni, e consiste nel dividere il valore α per ilnumero di confronti effeuati (o, in maniera corrispondente, moltiplicare il p-value peril numero di confronti). Se, ad esempio, dobbiamo confrontare le medie di  gruppi e decidiamo per un valoreα = 0.05, in base alla correzione di Bonferroni dovremo considerare significativi sol-tanto quei confronti il cui p-value sia inferiore a 0.05/6 = 0.0083 (in quanto i confrontiprevisti sono ). Il problema di questo metodo è e tende ad essere eccessivamente conservativo... Il test di TukeyUn metodo di confronto multiplo meno conservativo è il test di Tukey.
  • 118.  CAPITOLO . ANALISI DELLA VARIANZA Ane araverso il test di Tukey è possibile mantenere lerrore di tipo I entro unpredeterminato valore di α (generalmente pari a .). Il test di Tukey permee di correggere il p-value in base al numero di confrontie vengono effeuati nel confronto multiplo, senza però penalizzare eccessivamente lastatistica. Per correggere lerrore, il test di Tukey confronta la statistica calcolata con la distri-buzione studentized rangeIl test di Tukey: calcolo Per calcolare la significatività della differenza fra due gruppicon il metodo di Tukey si utilizza il seguente algoritmo: X si calcola lerrore standard, con la formula √ SE = (M SR /n) (.) dove n è il numero di osservazioni per gruppo. Nel caso di gruppi con numerosità diversa, la formula diventa √ M SR 1 1 SE = ·( + ) (.) 2 na nb dove na e nb sono la numerosità del primo e del secondo gruppo |Ya −Yb | X si calcola la statistica Q = SE X si calcola il p-value, usando la funzione ptukey(Q, k, DfR ) dove k è il numero di confronti effeuati, e DfR i gradi di libertà della varianza residua. La funzione ptukey calcola la probabilità sulla distribuzione studentized range.Affitti: confronti multipliTorniamo allesempio degli affii, e mostriamo il calcolo di uno dei confronti multiplicon il test di Tukey. Mostriamo le tre medie.> medieAffitti <- tapply(affitti$prezzo, affitti$quartiere, mean)> medieAffitti A B C560.5 579.0 632.0Tukey: il calcolo di un confronto Calcoliamo il cononto fra le medie dei gruppi Ae B.> confronto1 <-+ abs(medieAffitti[1] - medieAffitti[2])> SE <- sqrt(MSR/20)> Q <- confronto1/SE> p_value <- 1 - ptukey(Q, 3, 57)> c(confronto1, SE, Q, p_value)
  • 119. .. CONFRONTI MULTIPLI Differenza SE Q p-value 18.5 7.350558 2.516816 0.185548 Il p-value è alto, e dunque la differenza fra i gruppi A e B non è significativa.La funzione R TukeyHSDLa funzione di R per il calcolo del confronto con il metodo Tukey è TukeyHSD. Coe-rentemente con luso dei confronti multipli, la funzione si applica sul risultato dellacorrispondente analisi della varianza.> aovAffitti <- aov(prezzo ~ quartiere, data = affitti)> TukeyHSD(aovAffitti, ordered = TRUE) diff lwr upr p adjB-A 18.5 -6.515339 43.51534 0.185548C-A 71.5 46.484661 96.51534 0.000000C-B 53.0 27.984661 78.01534 0.000012La funzione ritorna una tabella, con una riga per ogni confronto, dove vengono mostrate: X la coppia confrontata (es, il confronto fra il gruppo B ed il gruppo A); lordine è tale e il gruppo con media più alta è davanti allaltro; X la differenza (positiva) fra i due gruppi; X lintervallo di confidenza della differenza; ad esempio, nel secondo confronto (C- A), la differenza è di ., lintervallo di confidenza va da un minimo di . ad un massimo di .. p adj è il p-value aggiustato; nellesempio, i confronti C-A e C-B sono significativi, il confronto B-A no... Analisi della Varianza: assuntiCome ogni approccio parametrico, ane lanalisi della varianza fa delle assunti: X indipendenza delle osservazioni X distribuzione normale degli errori X omosedasticità: la varianza dellerrore è costante X gli errori sono fra loro indipendentiDistribuzione degli errori Si assume e gli errori abbiano una distribuzione normale,con media pari a , e varianza costante fra i gruppi. Per testare lipotesi di normalità, èpossibile usare il test di Shapiro-Wilk sui residui del modello dellanalisi della varianza:> shapiro.test(aovAffitti$residuals)Per testare lipotesi di omosedasticità, si può usare il test di Bartle:> bartlett.test(prezzo ~ quartiere, data = affitti)
  • 120.  CAPITOLO . ANALISI DELLA VARIANZA. Test non parametricoVi sono circostanze in cui lanalisi della varianza non può essere applicata, in quantovengono meno alcuni assunti o condizioni: X non si può assumere la normalità della distribuzione degli errori X il numero di osservazioni per ogni gruppo è minore di  X la variabile dipendente non è ad intervalli, ma ordinaleIn questi casi è possibile applicare il test non parametrico di Kruskal-Wallis.. Il test di Kruskal-Wallisil test di Kruskal-Wallis è unestensione del test di Wilcoxon, e abbiamo visto nel ca-pitolo dedicato al t-test Chan and Walmsley (). Nel test di Kruskal-Wallis, la primaoperazione da compiere è quella di trasformare i punteggi osservati nel loro rango. Aquesto punto, si applica la formula ∑I ni (r¯ − r)2 i. ¯ K = (n − 1) ∑I i=1 ni∑ (.) i=1 j=1 (rij − r ) ¯2dove ni è il numero di osservazioni nel gruppo i, rij è la posizione ordinale dellosserva-zione j del gruppo i, N è il numero totale delle osservazioni, r¯ è la media dei rank del i.gruppo i.Semplificazioni Lequazione . può in realtà essere semplificata, in quanto r = (N + ¯1)/2 e denominatore è pari a (N − 1)N (N + 1)/12, e dunque oeniamo 12 ∑ I N +1 2 K= ni (r¯ − i. ) (.) N (N + 1) i=1 2 La statistica K assume una distribuzione χ2 con i- gradi di libertà.R: la funzione kruskal.testAppliiamo il test di Kruskal-Wallis al nostro esempio degli affii.> kruskal.test(prezzo ~ quartiere, data = affitti) Kruskal-Wallis rank sum testdata: prezzo by quartiereKruskal-Wallis chi-squared = 26.4763,df = 2, p-value = 1.781e-06Leggere i risultati La funzione restituisce la statistica, Kruskal-Wallis i-squared =.; I gradi di libertà: df = ; il p-value = .e-.
  • 121. .. CONCLUSIONI . ConclusioniDa fare.
  • 122.  CAPITOLO . ANALISI DELLA VARIANZA
  • 123. Capitolo Casi di studioIn questo capitolo verranno presentati alcuni casi di studio: un esperimento su framingeffect, un questionario sulla depressione, un test di riconoscimento di parole e non parole. La finalità è quella di mostrare luso di R ed i passaggi necessari per caricare il fi-le dei dati, filtrarli, lavorare sui valori mancanti (missing), utilizzare i metodi grafici enon grafici della statistica descriiva, applicare la statistica inferenziale e trarre delleconclusioni. Nellanalizzare i casi di studio, vedremo e, spesso, gli assunti alla base dei me-todi parametrici tendono ad essere violati (nella peggiore delle ipotesi) o tendono adessere al limite dellacceabilità (nella migliore). Per questo motivo, nella sezione .torneremo sul problema degli assunti, della loro violazione e delle statistie cosiddeerobuste, accennando alle trasformazioni non lineari, al trimming, alla winsorizzazione,alle permutazioni ed al bootstrapping. Infine, il capitolo si concluderà con una coppia di esempi i cui dati verranno creatiartificialmente.. Il framing effect nella scelta di un pacetto turistico: un esperimento on line.. IntroduzioneÈ noto in leeratura come i processi decisionali di un individuo possano essere significa-tivamente influenzati dalla modalità di presentazione delle alternative. Più in particolarela teoria del prospeo (Tversky and Kahneman, ) prevede e la prospeiva di unaperdita (o di un costo) abbia un impao decisionale maggiore della prospeiva di unguadagno (o di un risparmio). Abbiamo condoo un esperimento finalizzato a replicareil ``framing effect`` (Kahneman and Tversky, ) in un contesto decisionale legato allascelta di un paceo turistico. Lesperimento è stato condoo esclusivamente on-line,araverso un sito internet. 
  • 124.  CAPITOLO . CASI DI STUDIO.. MetodoNellesperimento veniva presentata una offerta turistica alberghiera e il partecipantedoveva scegliere se acquistare il paceo “pensione completa” o il paceo “mezzapensione”. I partecipanti sono stati reclutati araverso un invito a partecipare ad unesperimento sulla psicologia della decisione, pubblicato su due differenti siti. Coloroe decidevano di partecipare allesperimento venivano assegnati casualmente, dal ser-ver web, ad una delle due condizioni sperimentali. Hanno partecipato allesperimento persone. Per indurre leffeo del framing sono stati presentati due differenti scenari: unoscenario “supplemento” ed uno scenario “risparmio”. Nel primo veniva proposto comeofferta di base il paceo in mezza pensione ( giorni a  euro), con la possibilità discegliere la pensione completa pagando un supplemento di  euro. Nel secondo loffertadi base era il paceo in pensione completa a  euro, con la possibilità di scegliere lamezza pensione risparmiando  euro.Scenario SupplementoImmagina di voler trascorrere alcuni giorni di vacanza in una località turistica. Sul sitoweb di un albergo e ti piace viene proposta la seguente offerta:  giorni in mezzapensione a  euro. Maggiorazione per la pensione completa:  euro.Scenario RisparmioImmagina di voler trascorrere alcuni giorni di vacanza in una località turistica. Sul sitoweb di un albergo e ti piace viene proposta la seguente offerta:  giorni in pensionecompleta a  euro. Riduzione per la mezza pensione:  euro.Domanda (comune ai  scenari)Immagina di voler trascorrere  giorni in quellalbergo. Decidi di fare pensione completao mezza pensione?Mezza PensionePensione Completa> rm(list = ls(all = TRUE))> soggettiEsteso <- read.table("decisione1.log", header = TRUE,+ sep = "t")> names(soggettiEsteso) [1] "data" "ip" "referer" "navigator" "lang" "v1" [7] "v2" "v3" "i1" "scenario" "risposta"Conservo solo le colonne scenario e risposta> soggetti <- soggettiEsteso[, c(10, 11)]> summary(soggetti)
  • 125. .. IL FRAMING EFFECT NELLA SCELTA DI UN PACCHETTO TURISTICO: UN ESPERIMENTO ON LINE scenario risposta gain:243 completa:249 loss:217 mezza :211> freqScenario <- table(soggetti$risposta, soggetti$scenario)> freqScenario gain loss completa 152 97 mezza 91 120 Disegno il grafico> mosaicplot(freqScenario) freqScenario completa mezza gain loss Figura .: Mosaicplot: frequenza delle risposte in base allo scenario. Calcolo il χ2> chisqDecisione <- chisq.test(soggetti$risposta, soggetti$scenario)> chisqDecisione Pearsons Chi-squared test with Yates continuity correctiondata: soggetti$risposta and soggetti$scenarioX-squared = 14.0016, df = 1, p-value = 0.0001827Leggere loutput La statistica risulta significativa: χ2 (df = 1) = 14.0, p < 0.001.Dal test del χ2 si evince e vi è uninfluenza statisticamente significativa dello scenarionella scelta da parte dei partecipanti.
  • 126.  CAPITOLO . CASI DI STUDIO.. ConclusioniViene definito ``effeo framing`` linfluenza della modalità di presentazione delle al-ternative in un compito di decisione. Nel nostro esperimento due differenti modalitàdi presentazione della stessa offerta influenzano significativamente la scelta dei parteci-panti. I risultati confermano la solidità del framing effect nel condizionare le scelte deipartecipanti, ane nellambito di scelta di un paceo turistico-alberghiero. Lesperimento soolinea inoltre lefficacia del web come strumento per lo sviluppodi esperimenti e per la raccolta di partecipanti in ambiti di ricerca quali la psicologiadelle decisioni.. Depressioneesto dataframe rappresenta i risultati di un questionario, somministrato on line: in-ventario di depressione neuropsy.it Ai partecipanti veniva iesto di: X rispondere preliminarmente ad una domanda, su scala liert: quanto sei depresso, ora? X rispondere ad una lista di  sintomi della depressione, sempre su scala liert: per nulla - moltissimo X circa metà dei partecipanti ha ane risposto al Be depression inventory.Carico il dataframe> rm(list = ls(all = TRUE))> soggettiTutti <- read.table("depressione.txt", header = TRUE, sep = ",")> dim(soggettiTutti)[1] 500 8> summary(soggettiTutti) condizione sex age scol depress OK :452 f:307 Min. : 14.0 Min. : 5.00 Min. :0.000 Prova: 48 m:187 1st Qu.: 25.0 1st Qu.:13.00 1st Qu.:2.000 x: 6 Median : 33.0 Median :13.00 Median :2.000 Mean : 651.6 Mean :13.53 Mean :2.426 3rd Qu.: 44.0 3rd Qu.:18.00 3rd Qu.:3.000 Max. :9999.0 Max. :18.00 Max. :5.000 beck omessi somma Min. :-1.00 Min. : 0.000 Min. : 0.0 1st Qu.:-1.00 1st Qu.: 0.000 1st Qu.:248.0 Median :-1.00 Median : 0.000 Median :354.0 Mean :11.37 Mean : 4.656 Mean :339.4 3rd Qu.:24.00 3rd Qu.: 1.000 3rd Qu.:442.2 Max. :97.00 Max. :170.000 Max. :676.0
  • 127. .. CONFRONTO FRA  VARIABILI AD INTERVALLI Filtro i partecipanti Tolgo i partecipanti con più di  omissioni> soggetti2 <- soggettiTutti[soggettiTutti$omessi < 20, ]> dim(soggetti2)[1] 474 8Tolgo i partecipanti non sperimentali> soggetti3 <- soggetti2[soggetti2$condizione == "OK", ]> dim(soggetti3)[1] 431 8Assegno correamente i valori di missing delletà> soggetti3$age[soggetti3$age == 9999] <- NA> soggetti3 <- soggetti3[soggetti3$beck <= 63, ]> dim(soggetti3)[1] 428 8Assegno i missing del Be Inventory, e creo un nuovo dataframe, e include solo ipartecipanti e hanno fao ane il questionario di Be> soggetti3$beck[soggetti3$beck == -1] <- NA> soggetti3$sex[soggetti3$sex == "x"] <- NA> soggetti3$sex <- factor(soggetti3$sex)> beck_fatto <- !is.na(soggetti3$beck)> soggetti_beck <- soggetti3[beck_fatto, ]> dim(soggetti_beck)[1] 208 8. Confronto fra  variabili ad intervalli.. Disegno i grafici delle  variabiliDisegno alcuni grafici per studiare la distribuzione dei punteggi al Be inventory (be)e al questionario sulla depressione (somma). Inoltre, araverso il test di Kolmogorov-Smirnov e il test di Shapiro-Wilk , valuto lanormalità delle distribuzioni.> par(mfrow = c(2, 2))> boxplot(soggetti_beck$beck)> qqnorm(soggetti_beck$beck)> qqline(soggetti_beck$beck, col = 2)> boxplot(soggetti_beck$somma)
  • 128.  CAPITOLO . CASI DI STUDIO> qqnorm(soggetti_beck$somma)> qqline(soggetti_beck$somma, col = 2)> ks.test(soggetti_beck$beck, "pnorm", mean = mean(soggetti_beck$beck),+ sd = sd(soggetti_beck$beck)) One-sample Kolmogorov-Smirnov testdata: soggetti_beck$beckD = 0.0588, p-value = 0.4689alternative hypothesis: two-sided> ks.test(soggetti_beck$somma, "pnorm", mean = mean(soggetti_beck$somma),+ sd = sd(soggetti_beck$somma)) One-sample Kolmogorov-Smirnov testdata: soggetti_beck$sommaD = 0.076, p-value = 0.1808alternative hypothesis: two-sided> shapiro.test(soggetti_beck$beck) Shapiro-Wilk normality testdata: soggetti_beck$beckW = 0.9863, p-value = 0.04184> shapiro.test(soggetti_beck$somma) Shapiro-Wilk normality testdata: soggetti_beck$sommaW = 0.9777, p-value = 0.002185 Il test Kolmogorov-Smirnov risulta non significativo su entrambe le variabili (e dun-que, lipotesi nulla di normalità delle distribuzioni non viene rifiutata). Il test Shapiro-Wilk, però, risulta significativo su entrambe le variabili. I due test valutano la normalità araverso algoritmi differenti, e dunque non è pur-troppo insolito oenere risultati differenti sulla stessa variabile... CorrelazioneDisegno il grafico della relazione fra le due variabili, e disegno la linea di regressionelineare. Decido inoltre di usare il test Harvey-Collier per valutare la linearità del modello
  • 129. .. CONFRONTO FRA  VARIABILI AD INTERVALLI  Normal Q−Q Plot q 50 50 qq qq qq Sample Quantiles qq qq q q q qq qq qqqq qq qqq qq q qq q q q q qq q q q q qq 30 30 qq q q q qq q q q q q qq qq qq qq q qq q qq qq q qq q q qq q q q qq q qq qq qq q q qq q 0 10 0 10 qqq q qq qq qq q q q qq qq qq qq qq qq q −3 −2 −1 0 1 2 3 Theoretical Quantiles Normal Q−Q Plot q 600 600 q q q q qq qq q qq Sample Quantiles qq qq qq qq qq q q qq qq qq qqq qq qq qq qqqq 400 400 qq qq qq qq qq qq q q qq qq q q q q q q q q q q q qqq q qq q q 200 200 q q qq q q q q q q qq q q qq q qq q q q qq q q qq qq qq q 0 0 −3 −2 −1 0 1 2 3 Theoretical Quantiles Figura .: ---> par(mfrow = c(1, 2))> plot(soggetti_beck$somma, soggetti_beck$beck)> lmBeck <- lm(soggetti_beck$beck ~ soggetti_beck$somma)> abline(lmBeck)> library(lmtest)> harvtest(soggetti_beck$beck ~ soggetti_beck$somma, order.by = ~soggetti_beck$somma) Harvey-Collier testdata: soggetti_beck$beck ~ soggetti_beck$sommaHC = 5.6503, df = 205, p-value = 5.311e-08> cor.test(soggetti_beck$somma, soggetti_beck$beck, method = "pearson") Pearsons product-moment correlationdata: soggetti_beck$somma and soggetti_beck$beckt = 19.2223, df = 206, p-value < 2.2e-16alternative hypothesis: true correlation is not equal to 095 percent confidence interval: 0.7466245 0.8451883sample estimates: cor0.8012785 Creo il grafico dei residui, e con lines(smooth.spline()) cerco di capire landamentodei residui. Apparentemente, la non linearità è dovuta ad un outlier, e identifico conla funzione whi.> plot(lmBeck$fitted.values, lmBeck$residuals)> lines(smooth.spline(lmBeck$fitted.values, lmBeck$residuals),
  • 130.  CAPITOLO . CASI DI STUDIO+ col = "red", lwd = 2)> soggetti_beck[which(soggetti_beck$somma < 5), ] condizione sex age scol depress beck omessi somma151 OK m 52 18 0 48 0 0 Il modello dunque non è lineare. Probabilmente, eliminando loutlier (un parteci-pante con punteggio  allinventario neuropsy e  al Be Inventory), potrei correggerela non linearità della relazione. In ogni caso, decido di calcolare il coefficiente di Spearman> cor.test(soggetti_beck$somma, soggetti_beck$beck, method = "spearman") Spearmans rank correlation rhodata: soggetti_beck$somma and soggetti_beck$beckS = 282990.3, p-value < 2.2e-16alternative hypothesis: true rho is not equal to 0sample estimates: rho0.8113126 50 q q qq 50 q q 40 q q q q q q q qq qq q q q q q q 30 40 qq q q q qq q q q q qq qq soggetti_beck$beck q qq lmBeck$residuals q qq q q q q q q qq q q q 20 qq q qq q qq q 30 qq q q qqq q q qq q q q q qq q q q q q q qq q q q qq q 10 q qq q q q q q q q qq q q qqq q q q q q q q qq qqq q qq qq q q q qqq q q qq q q q q q qq q q q q q q q q q q q q q qqq qq q q q q 20 q q qqq q qq q qq q q q q qq q qqq q qq q q qq q qq q q q q q q q qq q q qq q q qq q qq q qq q qq q q qq qq q q qq qq q q q q q 0 q q qq q q q qq q q qq q q q q q q qq q qq q q q q qq q q q q q q q qq qqq q q q q q qqq q q qq qq qq q q q qq q q q qq q qq qq qq qq q qqq q q q qq qq q q q q q q qq q qq 10 −10 q qq q q q q q q q q q q q qq q q q qqq q q q qq q qq q q q q q q q q q −20 qq q q q q 0 0 200 400 600 0 10 20 30 40 Figura .: --- soggetti_beck$somma lmBeck$fitted.values.. ConclusioniIn questa sezione ho confrontato due variabili numerie. Il test parametrico delezioneè il test di correlazione di Pearson. In questo caso, però, non siamo sicuri e gli assuntisiano rispeati: X Dal test Kolmogorov-Smirnov non appare violato lassunto di normalità delle va- riabili. I risultati del test Shapiro-Wilk, però, sono diversi, e rifiutano lipotesi di normalità delle variabili.
  • 131. .. DIFFERENZA FRA MASCHI E FEMMINE  X Il test Harvey-Collier, e valuta la linearità del rapporto fra le due variabili, risulta significativo. Va dunque rifiutata lipotesi nulla della linearità della relazione.Formalmente, dunque, non sarebbe possibile applicare la correlazione di Pearson, e nem-meno il modello di correlazione lineare. Dallanalisi grafica dei grafici di dispersione edel qqplot, però, possiamo dire e né la violazione di normalità, né quella di linearitàappaiono estremamente gravi. In questi casi, una regola informale può essere quelladi applicare sia il test parametrico e quello non parametrico, e confrontare i risultati:se sono molto simili, come nel nostro caso, possiamo ragionevolmente assumere e irisultati inferenziali siano piuosto solidi.. Differenza fra masi e femmineSono interessato a capire se il punteggio medio, nellinventario neuropsy, è diverso frasoggei masi e femmine.> boxplot(soggetti3$somma ~ soggetti3$sex)> tapply(X = soggetti3$somma, INDEX = soggetti3$sex, FUN = mean) f m363.3948 325.7792.. Test non parametricoCome abbiamo visto, i risultati dei test sulla normalità danno pareri discordanti. An-e in questo caso potrebbe aver senso applicare sia il test parametrico e quello nonparametrico. Per motivi didaici, mostriamo lapplicazione del test non parametricoWilcoxon rank sum test> wilcox.test(soggetti3$somma[soggetti3$sex == "m"], soggetti3$somma[soggetti3$sex ==+ "f"]) Wilcoxon rank sum test with continuity correctiondata: soggetti3$somma[soggetti3$sex == "m"] and soggetti3$somma[soggetti3$sex == "f"]W = 17840, p-value = 0.0129alternative hypothesis: true location shift is not equal to 0 Poié il p-value risulta pari a ., la differenza risulta significativa per un α =0.05, ma non per un α = 0.01.. estionario parole-non paroleIn questo questionario, somministrato on line, al partecipante venivano elencate parole, di cui  parole vere, ma non comuni, e  non parole legali. adamantino affioragliare apologetico approprinquare aramenatoarduttuante aristofanio betabloccante brezzatura caldramo cardamomo
  • 132.  CAPITOLO . CASI DI STUDIO 700 600 500 400 300 200 100 0 f m Figura .: ---cariatide cariogenesi carsi cemblatore cologaria condroma cresticocretizzare cuspico elare epifita epilemma esagettato esatico fioganglio iatrogeno iconoclasta incorsarsi inflame intonso inusitatomantardica miscellaneo patofobia pianosequenza ralingare revocianterisura rogito scolta scorporo scutoso specile stuello tessurgiatrasfogenico vellizzante.. Filtro i datiIn primo luogo, creo un dataframe con le sole colonne e mi interessano.> rm(list = ls(all = TRUE))> soggettiEsteso <- read.table("nonparole.txt", header = TRUE,+ sep = "t")> soggettiTutti <- soggettiEsteso[, c(1, 3, 4, 5, 6, 7, 8, 9)]> summary(soggettiTutti) sogg sex age scol Min. : 1.0 - :188 - :188 - :188 1st Qu.:458.8 femmina:210 22 : 19 13_diploma :176 Median :589.5 maschio:123 24 : 19 16_laureabreve: 27 Mean :581.4 null : 3 26 : 18 18_laurea :104 3rd Qu.:720.2 30 : 18 5_elem : 1 Max. :851.0 23 : 17 8_medie : 21 (Other):245 NAs : 7 prof web risposte giuste - :188 - :188 Min. : 0.00 Min. : 0.00 XX : 92 01: 53 1st Qu.:48.00 1st Qu.:29.00 studente : 33 12: 56 Median :49.00 Median :34.00 studentessa: 24 35:227 Mean :45.91 Mean :32.12
  • 133. .. QUESTIONARIO PAROLE-NON PAROLE  impiegata : 20 3rd Qu.:49.00 3rd Qu.:37.00 impiegato : 16 Max. :49.00 Max. :48.00 (Other) :151> dim(soggettiTutti)[1] 524 8Escludo i partecipanti e hanno risposto a meno di  domande.> soggetti <- soggettiTutti[soggettiTutti$risposte > 40, ]> dim(soggetti)[1] 477 8Assegno i missing, e li filtro dal dataframe> soggetti$web[soggetti$web == "-"] <- NA> soggetti <- soggetti[!is.na(soggetti$web), ]> dim(soggetti)[1] 310 8> soggetti$sex[soggetti$sex == "null"] <- NA> soggetti <- soggetti[!is.na(soggetti$sex), ]> dim(soggetti)[1] 308 8> soggetti$sex <- factor(soggetti$sex)> dim(soggetti)[1] 308 8> soggetti$scol[soggetti$scol == "-"] <- NA> soggetti$scol[soggetti$scol == "5_elem"] <- NA> soggetti <- soggetti[!is.na(soggetti$scol), ]> soggetti$scol <- factor(soggetti$scol, ordered = TRUE)> summary(soggetti) sogg sex age scol Min. : 1.0 femmina:191 22 : 18 13_diploma :162 1st Qu.:410.0 maschio:110 24 : 18 16_laureabreve: 27 Median :489.0 26 : 18 18_laurea : 92 Mean :478.8 23 : 17 8_medie : 20 3rd Qu.:574.0 25 : 16 Max. :663.0 30 : 16 (Other):198 prof web risposte giuste
  • 134.  CAPITOLO . CASI DI STUDIO XX : 75 - : 0 Min. :41.00 Min. :19.00 studente : 31 01: 44 1st Qu.:49.00 1st Qu.:32.00 studentessa: 23 12: 48 Median :49.00 Median :35.00 impiegata : 19 35:209 Mean :48.56 Mean :34.23 impiegato : 14 3rd Qu.:49.00 3rd Qu.:38.00 insegnante : 8 Max. :49.00 Max. :48.00 (Other) :131Misuro la normalità della distribuzione della variabile giuste (numero di risposte corret-te). Dal test di Shapiro-Wilk devo rifiutare lipotesi nulla di normalità della distribuzionedella variabile.> shapiro.test(soggetti$giuste) Shapiro-Wilk normality testdata: soggetti$giusteW = 0.9823, p-value = 0.00091.. Rapporto fra scolarità e media di risposte corretteDisegno i grafici della distribuzione> par(mfrow = c(2, 2))> hist(soggetti$giuste)> qqnorm(soggetti$giuste)> qqline(soggetti$giuste)> boxplot(soggetti$giuste ~ soggetti$scol)> boxplot(soggetti$giuste ~ soggetti$sex) Histogram of soggetti$giuste Normal Q−Q Plot q 100 qq Sample Quantiles q qq qq qq qq qq q q qq qq q 40 qq qq q q Frequency qq qq q q q qq qq qq q qq qq qq q q qq qq qq q qq 60 qq qq q qq qq qq q qq q qq q q qq qq qq q q q q q qq q 30 qq q qq qq q q qq q qq q q q q qq q qq q 0 20 q q q q qq q qq qq q 20 q q 15 25 35 45 −3 −2 −1 0 1 2 3 soggetti$giuste Theoretical Quantiles q q 40 40 30 30 q q q q 20 20 q q q q 13_diploma 18_laurea femmina maschio Figura .: ---
  • 135. .. QUESTIONARIO PAROLE-NON PAROLE Alcune prove grafieProviamo a giocare con la funzione stripchart(), aggiungendo delle linee orizzontalicorrispondenti alle medie dei gruppi.> stripchart(giuste ~ scol, method = "jitter", jitter = 0.2, main = "Giuste per scolarità",+ vertical = TRUE, log = "y", data = soggetti)> lines(c(0.7, 1.3), rep(mean(soggetti$giuste[soggetti$scol ==+ "13_diploma"]), 2), col = "red", lwd = 2)> lines(c(1.7, 2.3), rep(mean(soggetti$giuste[soggetti$scol ==+ "16_laureabreve"]), 2), col = "red", lwd = 2)> lines(c(2.7, 3.3), rep(mean(soggetti$giuste[soggetti$scol ==+ "18_laurea"]), 2), col = "red", lwd = 2)> lines(c(3.7, 4.3), rep(mean(soggetti$giuste[soggetti$scol ==+ "8_medie"]), 2), col = "red", lwd = 2) Giuste per scolarità 45 40 35 giuste 30 25 20 13_diploma 16_laureabreve 18_laurea 8_medie Figura .: ---Confronto fra grafici diversiProviamo a sovrapporre tipologie di grafici diversi. Con tabulate creo una tabella con lefrequenze dei valori osservati.> tabulate(soggetti$giuste) [1] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 4 3 1 3[26] 8 6 12 7 14 13 26 19 28 25 27 24 27 16 11 8 8 4 1 2 0 0 1Sovrappongo listogramma al plot della tabella delle frequenze (in rosso) al plot dellafunzione density() (in verde).> frequenze <- tabulate(soggetti$giuste)/length(soggetti$giuste)> hist(soggetti$giuste, probability = TRUE, ylim = c(0, max(frequenze)))> lines(frequenze, col = 2)> lines(density(soggetti$giuste), col = 3)
  • 136.  CAPITOLO . CASI DI STUDIOTest non parametrico di Kruskal-WallisPoié la distribuzione della variabile dipendente (giuste) non è normale, e la numerositàdei campioni è differente, non è opportuno utilizzare lanalisi della varianza parametrica,ma la sua variante non parametrica.> kruskal.test(giuste ~ scol, data = soggetti) Kruskal-Wallis rank sum testdata: giuste by scolKruskal-Wallis chi-squared = 25.872, df = 3, p-value = 1.014e-05Leggere loutput Abbiamo confrontato la media di punteggi correi dei partecipanti,divisi in base alla scolarità diiarata. Dalla somministrazione del test non parametri-co Kruskal-Wallis rank sum test emerge e la differenza fra le medie è significativa:Kruskal-Wallis i-squared (df = ) = ., p < 0.001. Possiamo dunque rifiutare li-potesi nulla (e assume e le differenze fra le medie siano da aribuire al caso, ovveroe la differenza non sia significativa) ed acceare lipotesi alternativa: vi è una relazionesignificativa fra la scolarità dei partecipanti ed il punteggio medio di risposte corree. Histogram of soggetti$giuste 0.08 0.06 Density 0.04 0.02 0.00 15 20 25 30 35 40 45 50 Figura .: --- soggetti$giuste.. Confronto per genereAne in questo caso, valutiamo se la media del numero di risposte corree è diversafra masi e femmine. In primo luogo, verifiiamo e la varianza dei due gruppi non sia differente.> var.test(soggetti$giuste[soggetti$sex == "maschio"], soggetti$giuste[soggetti$sex ==+ "femmina"])
  • 137. .. QUESTIONARIO PAROLE-NON PAROLE  F test to compare two variancesdata: soggetti$giuste[soggetti$sex == "maschio"] and soggetti$giuste[soggetti$sex == "femmina"]F = 0.8176, num df = 109, denom df = 190, p-value = 0.2476alternative hypothesis: true ratio of variances is not equal to 195 percent confidence interval: 0.5896565 1.1511707sample estimates:ratio of variances 0.8175957 In questo caso, sebbene la distribuzione della variabile indipendente non sia normale,in leeratura si assume e possa essere utilizzato il test parametrico quando: X la non normalità della distribuzione non sia particolarmente pronunciata X vi sia un buon numero di osservazioni per ogni gruppo.Appliiamo dunque il t-test.> t.test(soggetti$giuste[soggetti$sex == "maschio"], soggetti$giuste[soggetti$sex ==+ "femmina"]) Welch Two Sample t-testdata: soggetti$giuste[soggetti$sex == "maschio"] and soggetti$giuste[soggetti$sex == "femmina"]t = 1.2965, df = 246.482, p-value = 0.1960alternative hypothesis: true difference in means is not equal to 095 percent confidence interval: -0.3805035 1.8460913sample estimates:mean of x mean of y 34.69091 33.95812Lapplicazione del test non parametrico di Wilcoxon da risultati paragonabili?> wilcox.test(soggetti$giuste[soggetti$sex == "maschio"], soggetti$giuste[soggetti$sex ==+ "femmina"]) Wilcoxon rank sum test with continuity correctiondata: soggetti$giuste[soggetti$sex == "maschio"] and soggetti$giuste[soggetti$sex == "femmina"]W = 11492.5, p-value = 0.1736alternative hypothesis: true location shift is not equal to 0In entrambi i casi, non possiamo rifiutare lipotesi nulla (in quanto in entrambi i casi p >0.1. La differenza di punteggio fra masi e femmine non è statisticamente significativa.
  • 138.  CAPITOLO . CASI DI STUDIO. Il problema della violazione degli assuntiello della violazione degli assunti di normalità della distribuzione e di omogeneitàdelle varianze è un problema molto delicato, soprauo nellambito della psicologiasperimentale. Alcuni studi metodologici, infai, hanno rivelato come: X lutilizzo di test parametrici, quali il t-test, la regressione lineare e lanalisi della varianza, siano usati estesamente nellambito della psicologia sperimentale; X ciononostante, raramente gli assunti di normalità e di omogeneità della varianza sono rispeati: – la distribuzione tende spesso ad assumere una forma diversa da quella nor- male – il rapporto fra varianze, e dovrebbe essere pari ad : in caso di uguaglian- za, arriva ad essere superiore ad : in molti casi.I test parametrici, dunque, sono spesso applicati nonostante vengano violati gli assuntidi normalità della distribuzione e di omogeneità della varianza. Il problema e emerge nellapplicare le classie statistie parametrie in viola-zione agli assunti è e il p-value e si oiene può non essere correo, risultando a voltesovrastimato (e dunque non rifiutando lipotesi nulla, commeendo un errore di tipo II),altre volte soostimato (rifiutando erroneamente lipotesi nulla, e dunque commeendoun errore di tipo I). Purtroppo, non è sempre iaro quando la statistica risulta robusta nonostante laviolazione degli assunti, e quando no. Vi sono, in genere, posizioni molto permissivein merito alla possibilità di applicare i test parametrici nonostante la violazione degliassunti. In genere, ad esempio, si assume e, se la numerosità delle osservazioni per gruppoè alta, e il numero di osservazioni fra i vari gruppi è simile, la statistica rimane robustaane in violazione dellassunto di normalità. Unaltra regola empirica e viene spesso utilizzata recita e, se il rapporto fra la va-rianze dei gruppi non supera il rapporto :, è possibile comunque assumere lomogeneitàdelle varianze. Altri autori, però, tendono ad essere molto più prudenti, in quanto vi sono ricer-e e confermano e la violazione degli assunti può portare ad errori nel calcolo delp-value e degli intervalli di confidenza piuosto notevoli. Più in particolare, la con-temporanea violazione dellassunto di normalità e di quello di uniformità della varianzatende ad avere effei deleteri sulla correezza dei risultati... Possibili soluzioniTest non parametriciUna possibile soluzione al problema è, come abbiamo visto, quella di usare la contropar-te non parametrica dei test parametrici. esto approccio, però, non è completamente
  • 139. .. IL PROBLEMA DELLA VIOLAZIONE DEGLI ASSUNTI soddisfacente, in quanto implica la trasformazione dei punteggi grezzi in ranking, rinun-ciando pertanto a parte dellinformazione. In secondo luogo, i metodi non parametricinon sono adeguati ai disegni sperimentali faoriali (ad esempio, lanalisi della varianzaa due vie). Infine, in presenza di eterosedasticità, ane questi test tendono a perdereaffidabilità.Trasformazione delle variabiliUn secondo approccio consiste nellapplicare alle variabili e violano lassunto di nor-malità delle trasformazioni, di tipo non lineare, capaci di modificare la curva e renderladi nuovo normale. Fra le trasformazioni più note, vanno ricordate la trasformazione in base al logaritmonaturale, la radice quadrata o lelevazione a potenza. Ane questo approccio ha però dei limiti: X non è noto a priori quale trasformazione applicare, e con quali parametri X non è deo e vi sia una trasformazione capace di rendre normale la distribuzione osservata X tendono a non aver effeo sugli outliers X in caso di contemporanea violazione dellassunto di normalità e di quello di omo- geneità delle variabili, la trasformazione, ane se capace di rendere normale la distribuzione, non garantisce una miglior stima del p-value. Ciononostante, questo approccio è utile quando non vi sia eterosedasticità (ovvero,quando vi sia omogeneità delle varianze), se dalla trasformazione si riesce ad oenereuna distribuzione di tipo normale.Trimming e Winsorized VarianceIl Trimming e la Winsorized Variance sono metodi finalizzati a gestire gli outliers, ovveroquelle osservazioni e si discostano fortemente dalle altre Keselman et al. (). Il trimming consiste nelleliminare le code alte e basse delle osservazioni. Ad esem-pio, togliere il % di osservazioni più basse ed il % di osservazioni più alte. La Winsorized Variance è una procedura simile. In questo caso, però, i valori elimi-nati vengono rimpiazzati con il valore più basso (per la coda inferiore) e quello più alto(per la coda superiore) rimanente. este operazioni, eliminando gli outliers, tendono a rendere più robusta la tecnicaparametrica.Permutazioni, simulazioni Monte Carlo, BootstrappingInfine, per calcolare parametri, stime dellerrore e intervalli di confidenza, può essereopportuno applicare delle tecnie e, generando uno spazio campionario a partire dalleosservazioni disponibili, permeono una stima dei parametri a partire da questo spazio.
  • 140.  CAPITOLO . CASI DI STUDIO Ane questa tecnica si è dimostrata efficace nel rendere più robusta linferenza sta-tistica in caso di violazione della normalità e dellomogeneità della varianza dei dati(Keselman et al., ).. Calcolo su dati artificialiConcludiamo i nostri esercizi con due esempi creati artificialmente... Correlazione> x <- rnorm(200, 25, 5)> y1 <- x[1:100] * 1.2 + rnorm(100, 0, 2) + 5> y2 <- x[101:200] * 0.7 + rnorm(100, 0, 2)> y <- c(y1, y2)> gruppo <- gl(2, 100, labels = c("neri", "rossi"))> plot(x, y, col = gruppo)> abline(lm(y[gruppo == "neri"] ~ x[gruppo == "neri"]))> abline(lm(y[gruppo == "rossi"] ~ x[gruppo == "rossi"])) q q qq q q q q q q q q q q q qq q qqq q q 40 qq q q q q q q q q q qq q q q q q q qqq q q q q qq q qq q q q q q q q qq q q q qq q qqq 30 q q q q qq q q y q qqq q q qq q q q q q q q q q q qq q q q q q q q q q q q qq qq q q q qq q 20 q qq qq q qqqq q q q qq q qq q qq q q qq q q q qq q q q qq q q q qq qq q q q qqqqq q q q qq q q qqq q q q q q q q q q qq qq q 10 q 15 20 25 30 35 40 Figura .: --- x.. Analisi della varianza a due vie> base <- 34> d1 <- 0> d2 <- 12> d3 <- 9> dA <- 0> dB <- 10> A1 <- rnorm(30, base + d1 + dA, 6)
  • 141. .. CALCOLO SU DATI ARTIFICIALI > A2 <- rnorm(30, base + d2 + dA, 6)> A3 <- rnorm(30, base + d3 + dA, 6)> B1 <- rnorm(30, base + d1 + dB, 6)> B2 <- rnorm(30, base + d2 + dB, 6)> B3 <- rnorm(30, base + d3 + dB - 12, 6)> ind1 <- gl(3, 30, length = 180, labels = c("uno", "due", "tre"))> ind2 <- gl(2, 90, labels = c("A", "B"))> dip <- c(A1, A2, A3, B1, B2, B3)> esempio5 <- data.frame(ind1, ind2, dip)> remove(ind1, ind2, dip)Calcolo lanalisi della varianza a due vie.> aovEsempio5 <- aov(dip ~ ind1 + ind2 + ind1:ind2, data = esempio5)> summary(aovEsempio5) Df Sum Sq Mean Sq F value Pr(>F)ind1 2 4182.5 2091.25 54.254 < 2.2e-16 ***ind2 1 1191.5 1191.46 30.910 1.001e-07 ***ind1:ind2 2 2496.2 1248.10 32.380 1.110e-12 ***Residuals 174 6707.0 38.55---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Che cosa posso concludere, da questi dati? Verifico la distribuzione normale dellerrore> shapiro.test(aovEsempio5$residuals) index{Assunti!normalità} Shapiro-Wilk normality testdata: aovEsempio5$residualsW = 0.988, p-value = 0.1289Verifico lomogeneità delle varianze> bartlett.test(dip ~ ind1 + ind2 + ind1:ind2, data = esempio5) Bartlett test of homogeneity of variancesdata: dip by ind1 by ind2Bartletts K-squared = 5.2645, df = 2, p-value = 0.07192Applico i confronti multipli,> hsdEsempio5 <- TukeyHSD(aovEsempio5, ordered = TRUE)> par(mfrow = c(1, 1))> interaction.plot(esempio5$ind1, esempio5$ind2, esempio5$dip)hsdEsempio5
  • 142.  CAPITOLO . CASI DI STUDIO 55 esempio5$ind2 A B 50 mean of esempio5$dip 45 40 35 uno due tre Figura .: --- esempio5$ind1 Tukey multiple comparisons of means 95% family-wise confidence level factor levels have been orderedFit: aov(formula = dip ~ ind1 + ind2 + ind1:ind2, data = esempio5)$ind1 diff lwr upr p adjtre-uno 2.680070 0.09378747 5.266352 0.0403294due-uno 10.942063 8.35578071 13.528345 0.0000000due-tre 8.261993 5.67571094 10.848276 0.0000000$ind2 diff lwr upr p adjB-A 5.389939 3.626857 7.153021 0$`ind1:ind2` diff lwr upr p adjtre:B-uno:A 6.331621 1.8729119 10.790329 0.0009121tre:A-uno:A 9.987382 5.5286729 14.446090 0.0000000uno:B-uno:A 10.958863 6.5001540 15.417571 0.0000000due:A-uno:A 11.988137 7.5294279 16.446845 0.0000000due:B-uno:A 20.854852 16.3961433 25.313561 0.0000000tre:A-tre:B 3.655761 -0.8029477 8.114470 0.1753317uno:B-tre:B 4.627242 0.1685333 9.085951 0.0369705due:A-tre:B 5.656516 1.1978073 10.115225 0.0045114due:B-tre:B 14.523231 10.0645227 18.981940 0.0000000uno:B-tre:A 0.971481 -3.4872277 5.430190 0.9888173due:A-tre:A 2.000755 -2.4579537 6.459464 0.7884944
  • 143. .. CALCOLO SU DATI ARTIFICIALI due:B-tre:A 10.867470 6.4087617 15.326179 0.0000000due:A-uno:B 1.029274 -3.4294347 5.487983 0.9854644due:B-uno:B 9.895989 5.4372806 14.354698 0.0000000due:B-due:A 8.866715 4.4080067 13.325424 0.0000006> plot(hsdEsempio5)> abline(v = 0, col = "red") 95% family−wise confidence level tre−uno due−uno due−tre 0 2 4 6 8 10 12 14 Differences in mean levels of ind1 Figura .: ---
  • 144.  CAPITOLO . CASI DI STUDIO
  • 145. Appendice APrimi passi con RDescriviamo, brevemente, alcuni concei basilari di R. Per una visione più esaustiva,rimandiamo a Muggeo and Ferrara (); Mineo ()A. Scaricare e avviare RA.. Scaricare RR è un soware free ed open source, e può essere liberamente scaricato dal sito R è disponibile per piaaforme Windows, Mac, Linux. Nel sito di R sono disponibili numerosi manuali in formato pdf. La maggior parte inInglese, ma vi sono alcune risorse ane in Italiano. In ambiente Windows, una volta scaricato il soware è possibile avviare linstalla-zione guidata. Una volta installato, a partire da Start è possibile avviare lambiente R, e vi meeràa disposizione la riga di comando. R è un soware a riga di comando. esto significa e ogni istruzione vienecomunicata ad R araverso il prompt della riga di comando. Il prompt è rappresentato dal simbolo >.A.. Usare R come una calcolatricePer iniziare a prendere confidenza con la riga di comando di R, è possibile cominciarea giocarci, provando le funzioni più elementari. La riga di comando, ad esempio, puòessere utilizzata per calcolare alcune semplici operazioni.Operazioni aritmetie di baseAddizione, sorazione, moltiplicazione, divisione, elevazione a potenza> 7 + 4[1] 11 
  • 146.  APPENDICE A. PRIMI PASSI CON R> 13 - 5[1] 8> 7 * 7[1] 49> 12/3[1] 4> 2^3[1] 8> 3^2 + (7 - 2) * 3[1] 24A.. Operazioni booleaneFinalizzate a confrontare due elementi. Loutput di queste operazioni è di tipo booleano.Aenzione: == è loperazione di confronto per valutare> pippo <- 4> pluto <- 5> pippo == 4[1] TRUE> pluto == 4[1] FALSE> pippo < pluto[1] TRUE> pippo <= 4[1] TRUE> pippo < 4[1] FALSE> pippo != pluto[1] TRUE
  • 147. A.. SCARICARE E AVVIARE R > giusto = TRUE> sbagliato = FALSE> giusto | sbagliato[1] TRUE> giusto & sbagliato[1] FALSE> (5 > 4) | (4 > 5)[1] TRUE> (5 > 4) & (4 > 5)[1] FALSE> (6 < 7) & (7 < 8)[1] TRUE> !sbagliato[1] TRUE> sbagliato & (pippo == 4)[1] FALSEAssegnazione di variabiliImplicitamente, abbiamo già visto come vengono assegnate le variabili. In R non è ne-cessario definire il tipo di variabile. Araverso lassegnazione, sarà R a creare un tipoopportuno di variabile (o di oggeo).> numero <- 5> etichetta <- "Antonio"> variabile1 <- 5.12> variabile2 <- 10/3> mode(numero)[1] "numeric"> mode(etichetta)[1] "character"> mode(variabile1)
  • 148.  APPENDICE A. PRIMI PASSI CON R[1] "numeric"> mode(variabile2)[1] "numeric"> variabile2[1] 3.333333> variabile2 <- 10 * 2> variabile2[1] 20> ls() [1] "etichetta" "giusto" "numero" "pippo" "pluto" [6] "sbagliato" "variabile1" "variabile2" "x" "xm" La funzione ls() mi permee di elencare tue le variabili (oggei) aualmente at-tivi nel framework. La funzione rm() rimuove un oggeo. Ad esempio, se iamorm(variabile) loggeo variabile sarà cancellato, e non più disponibile.A. HelpSebbene sia opportuno conoscere a memoria le funzioni più importanti, è assolutamentenormale non ricordare tue le funzioni, tui i parametri.Dalla sezione documenti del sito di R si possono scaricare delle R Reference Card, ovverodelle raccolte, con breve spiegazioni, delle funzioni più importanti. Inoltre, è opportuno imparare ad usare gli aiuti e lambiente R ci offre. X help.start() # help generale X help(nome) # help sulla funzione ``nome X ?nome # = a help(nome) X apropos(nome) # elenca le funzioni e contengono ``nome X example(funzione) # mostra degli esempi delluso della funzione X RSiteSear(kmeans) # cerca informazioni relative alla funzione ``kmeans su internet.> apropos("mean") [1] "colMeans" "kmeans" "mean" "mean.data.frame" [5] "mean.Date" "mean.default" "mean.difftime" "mean.POSIXct" [9] "mean.POSIXlt" "rowMeans" "weighted.mean"
  • 149. A.. FUNZIONI > example(mean)mean> x <- c(0:10, 50)mean> xm <- mean(x)mean> c(xm, mean(x, trim = 0.10))[1] 8.75 5.50mean> mean(USArrests, trim = 0.2) Murder Assault UrbanPop Rape 7.42 167.60 66.20 20.16A. FunzioniR mee a disposizione un enorme numero di funzioni. Inoltre, è possibile scaricare,installare e riiamare delle librerie esterne, e meono a disposizione altri insiemi difunzioni. Eleniamo, di seguito, alcune funzioni e si utilizzano più spesso.c() esta funzione permee di combinare una lista di argomenti in un veore.> c(1, 7:9)[1] 1 7 8 9> c(1:5, 10, 11)[1] 1 2 3 4 5 10 11> c(1:5, 10.5, 11)[1] 1.0 2.0 3.0 4.0 5.0 10.5 11.0> c(1:5, 10.5, "next")[1] "1" "2" "3" "4" "5" "10.5" "next"Poié nellultimo comando, abbiamo mescolato numeri interi, numeri decimali e strin-ghe, R ha trasformato il veore in un veore di stringhe.> serie1 <- c(1:10)> serie1 [1] 1 2 3 4 5 6 7 8 9 10> serie1[4]
  • 150.  APPENDICE A. PRIMI PASSI CON R[1] 4> serie2 <- serie1 * 3 + 1> serie2 [1] 4 7 10 13 16 19 22 25 28 31> serie2[3][1] 10> serie2[5:7][1] 16 19 22min, max, whi, length> variabile1 <- c(2, 3, 6, 4, 8, 4, 1)> min(variabile1)[1] 1> max(variabile1)[1] 8> which(variabile1 == 4)[1] 4 6> which(variabile1 == max(variabile1))[1] 5> length(variabile1)[1] 7Generare delle sequenze> seq(0, 1000, length = 11) [1] 0 100 200 300 400 500 600 700 800 900 1000> rep(2, times = 10) [1] 2 2 2 2 2 2 2 2 2 2> sequenza1 <- c(seq(0, 1000, length = 11), seq(1000, 0, length = 11))> sequenza1 [1] 0 100 200 300 400 500 600 700 800 900 1000 1000 900 800 700[16] 600 500 400 300 200 100 0> plot(sequenza1)
  • 151. A.. FUNZIONI Ordinare un vettore: sort, order> variabile1[1] 2 3 6 4 8 4 1> variabile2 <- c(3, 6, 7, 2, 4, 5, 1)> sort(variabile1)[1] 1 2 3 4 4 6 8> variabile1[order(variabile2)][1] 1 4 2 8 4 3 6A.. Creare e manipolare matrici> matrix(c(1, 2, 3, 11, 12, 13), nrow = 2, ncol = 3, byrow = TRUE) [,1] [,2] [,3][1,] 1 2 3[2,] 11 12 13> matrice1 <- matrix(seq(2, 20, length = 10), nrow = 2, ncol = 5,+ byrow = TRUE)> matrice1 [,1] [,2] [,3] [,4] [,5][1,] 2 4 6 8 10[2,] 12 14 16 18 20> matrice2 <- matrix(seq(10, 55, length = 10), nrow = 2, ncol = 5,+ byrow = FALSE)> matrice2 [,1] [,2] [,3] [,4] [,5][1,] 10 20 30 40 50[2,] 15 25 35 45 55> matrice1 + matrice2 [,1] [,2] [,3] [,4] [,5][1,] 12 24 36 48 60[2,] 27 39 51 63 75> matrice1 - matrice2 [,1] [,2] [,3] [,4] [,5][1,] -8 -16 -24 -32 -40[2,] -3 -11 -19 -27 -35
  • 152.  APPENDICE A. PRIMI PASSI CON R> matrice1/matrice2 [,1] [,2] [,3] [,4] [,5][1,] 0.2 0.20 0.2000000 0.2 0.2000000[2,] 0.8 0.56 0.4571429 0.4 0.3636364> t(matrice1) [,1] [,2][1,] 2 12[2,] 4 14[3,] 6 16[4,] 8 18[5,] 10 20> matrice3 <- matrix(c(2, 3, 4, 3, 2, 6, 7, 8, 5, 9), nrow = 5,+ ncol = 2, byrow = TRUE)> matrice3 [,1] [,2][1,] 2 3[2,] 4 3[3,] 2 6[4,] 7 8[5,] 5 9> t(matrice1) + matrice3 [,1] [,2][1,] 4 15[2,] 8 17[3,] 8 22[4,] 15 26[5,] 15 29> matrice4 <- cbind(c(3, 3), c(4, 4), c(7, 7))> matrice4 [,1] [,2] [,3][1,] 3 4 7[2,] 3 4 7> matrice5 <- rbind(c(3, 3), c(4, 4), c(7, 7))> matrice5 [,1] [,2][1,] 3 3[2,] 4 4[3,] 7 7
  • 153. A.. FUNZIONI > matrice4 == t(matrice5) [,1] [,2] [,3][1,] TRUE TRUE TRUE[2,] TRUE TRUE TRUE> dim(matrice1)[1] 2 5> dim(matrice4)[1] 2 3> matrice4[1:2, 1:2] [,1] [,2][1,] 3 4[2,] 3 4> matrice4[, 1:2] [,1] [,2][1,] 3 4[2,] 3 4> matrice1[1:2, 1:2] [,1] [,2][1,] 2 4[2,] 12 14> diag(matrice1[1:2, 1:2])[1] 2 14> diag(matrice1)[1] 2 14> matrice1[1:2, 3:4] [,1] [,2][1,] 6 8[2,] 16 18> diag(matrice1[1:2, 3:4])[1] 6 18
  • 154.  APPENDICE A. PRIMI PASSI CON R> as.vector(matrice4)[1] 3 3 4 4 7 7> as.vector(matrice5)[1] 3 4 7 3 4 7> array(1:24, dim = c(3, 4, 2)), , 1 [,1] [,2] [,3] [,4][1,] 1 4 7 10[2,] 2 5 8 11[3,] 3 6 9 12, , 2 [,1] [,2] [,3] [,4][1,] 13 16 19 22[2,] 14 17 20 23[3,] 15 18 21 24A.. Filtri> matrice1 [,1] [,2] [,3] [,4] [,5][1,] 2 4 6 8 10[2,] 12 14 16 18 20> matrice1 > 6 [,1] [,2] [,3] [,4] [,5][1,] FALSE FALSE FALSE TRUE TRUE[2,] TRUE TRUE TRUE TRUE TRUE> matrice4 [,1] [,2] [,3][1,] 3 4 7[2,] 3 4 7> matrice4%%2 == 1 [,1] [,2] [,3][1,] TRUE FALSE TRUE[2,] TRUE FALSE TRUE
  • 155. A.. FUNZIONI A.. Data frames> nome <- c("luigi", "mario", "antonella", "luca")> anno <- c(1956, 1945, 1972, 1976)> condizione <- c("exp", "controllo", "exp", "controllo")> soggetti <- data.frame(nome, anno, condizione)> soggetti nome anno condizione1 luigi 1956 exp2 mario 1945 controllo3 antonella 1972 exp4 luca 1976 controllo> soggetti$anno[1] 1956 1945 1972 1976> soggetti[, 3][1] exp controllo exp controlloLevels: controllo exp> soggetti[3, ] nome anno condizione3 antonella 1972 exp> soggetti[3, 3][1] expLevels: controllo expA.. ListeLe liste sono, appunto, liste di elementi o oggei fra loro differenti.> lista1 <- list(matrix(10:18, nrow = 3), rep("ciao", 3), c("alto",+ "basso"))> lista1[[1]] [,1] [,2] [,3][1,] 10 13 16[2,] 11 14 17[3,] 12 15 18[[2]][1] "ciao" "ciao" "ciao"[[3]][1] "alto" "basso"
  • 156.  APPENDICE A. PRIMI PASSI CON R> str(lista1)List of 3 $ : int [1:3, 1:3] 10 11 12 13 14 15 16 17 18 $ : chr [1:3] "ciao" "ciao" "ciao" $ : chr [1:2] "alto" "basso"
  • 157. A.. LE DISTRIBUZIONI TEORICHE A. Le distribuzioni teorieLapproccio parametrico allanalisi inferenziale si basa sul confronto delle statistie conle distribuzioni teorie. Per una panoramica completa sulle distribuzioni continue ediscrete, si vedano Seltman (); Wal () R mee a disposizione alcuni strumenti estremamente utili per lavorare con le piùimportanti distribuzioni. Più in particolare, data una distribuzione dist, R mee ge-neralmente a disposizione una famiglia di funzioni: rdist per generare dei numericasuali e rispeino quella distribuzione; ddist calcola la densità, pdist calcola laprobabilità, qdist calcola il quantile.A.. La distribuzione normaleIniziamo a giocare con la distribuzione normale. Come abbiamo visto nel corso delladispensa, per generare dei numeri casuali con distribuzione normale, si usa la funzionernorm. dnorm permee di calcolare la densità, e può essere utilizzata, ad esempio, perdisegnare il grafico della distribuzione.> plotnorm <- function(mean = 0, sd = 1, val = NA, left = TRUE) {+ min <- mean - sd * 4+ max <- mean + sd * 4+ x <- seq(min, max, length = 200)+ y <- dnorm(x, mean = mean, sd = sd)+ plot(x, y, type = "l")+ if (!is.na(val)) {+ if (left == TRUE) {+ x <- seq(min, val, length = 200)+ }+ else {+ x <- seq(val, max, length = 200)+ }+ y <- dnorm(x, mean = mean, sd = sd)+ polygon(c(x[1], x, x[length(x)]), c(0, y, 0), col = "gray")+ if (left == TRUE) {+ prob <- round(pnorm(val, mean, sd), 3)+ }+ else {+ prob <- round(1 - pnorm(val, mean, sd), 3)+ }+ text(x[100], y[1], prob)+ }+ }> plotnorm(val = 2, left = FALSE)
  • 158.  APPENDICE A. PRIMI PASSI CON R 0.4 0.3 0.2y 0.1 0.023 0.0 −4 −2 0 2 4 x 0.4 0.3 0.2 y 0.1 0.023 0.0Figura A.: La distribuzione normale.Larea in grigio corrisponde allarea della −4 −2 0 2 4distribuzione superiore a . x Grazie alla funzione plotnorm e abbiamo creato, possiamo disegnare la funzionenormale, e ritagliare larea soostante un determinato valore. La funzione disegna lacurva, larea, e calcola la superfice dellarea disegnata, e corrisponde alla probabilità.La funzione usa dnorm per calcolare laltezza della curva in ogni punto, e pnorm percalcolare larea associata al valore.
  • 159. A.. LE DISTRIBUZIONI TEORICHE A.. Altre distribuzioniLa distribuzione t di StudentLo stesso principio vale per la distribuzione t di Student. Lunica differenza è e inquesto caso vanno definiti ane i gradi di libertà desiderati. Come abbiamo visto nellasezione .., la distribuzione varia a seconda dei gradi di libertà, ma quando questi sonosuperiori a , la distribuzione approssima quella normale. Per mostrare questa approssimazione, usiamo la seguente funzione. Il grafico ci per-mee di visualizzare la distribuzione normale (in rosso) e le distribuzioni di t con diversigradi di libertà. Le distribuzioni con df= e df= si sovrappongono, di fao, allacurva della normale.> plott <- function(df = c(2, 5, 10, 20, 50, 100, 200)) {+ mean <- 0+ sd <- 1+ min <- mean - sd * 4+ max <- mean + sd * 4+ x <- seq(min, max, length = 200)+ y <- dnorm(x, mean = mean, sd = sd)+ plot(x, y, type = "l", col = 2, lwd = 3)+ conta <- 0+ for (d in df) {+ y <- dt(x, d)+ lines(x, y, col = conta + 3)+ conta <- conta + 1+ }+ legend(-4, 0.4, c("norm", df), text.col = 2:9)+ }> plott() 0.4 norm 2 5 10 0.3 20 50 100 200 0.2 y 0.1 0.0 Figura A.: Distribuzione t di Student −4 −2 0 2 4 per diversi gradi di libertà. In rosso, la x distribuzione normale.
  • 160.  APPENDICE A. PRIMI PASSI CON RLa distribuzione chi2Le funzioni standard sono disponibili ane per la distribuzione chi2 : dchisq per ladensità, pchisq per la probabilità, qchisq per i quartili, rchisq per la generazione dinumeri casuali. Ane in questo caso vanno definiti i gradi di libertà. Per visualizzarelhelp contestuale, digitate, come al solito, ?dchisq.La distribuzione FInfine, la distribuzione F: df, pf, qf, rf riiedono due valori per i gradi di libertà.
  • 161. Appendice BR: analisi descrittivaB. Analisi descrittiveDescriviamo brevemente gli strumenti e R mee a disposizione per lanalisi descriiva,grafica e non grafica. Per una descrizione più deagliata, si vedano Frascati () eMaindonald ()B.. Leggere un file di datiIn R, per leggere un file di dati possiamo usare la funzione read.table. Il parametro sep=stabilisce e i valori sono separati dal tab.> soggetti <- read.table("/home/bussolon/documenti/didattica/psicometria/R/parole_nonparole_mini.+ header = TRUE, sep = "t")B.. Visualizzare il sommarioIl comando summary permee di visualizzare alcune informazioni di ognuna delle va-riabili della tabella (data.frame)> summary(soggetti) sex age scol web femmina:210 Min. :20.00 05_elem : 1 Min. : 1.00 maschio:123 1st Qu.:25.00 08_medie : 21 1st Qu.:12.00 NAs : 3 Median :30.00 13_diploma :176 Median :35.00 Mean :33.48 16_laureabreve: 27 Mean :25.80 3rd Qu.:40.00 18_laurea :104 3rd Qu.:35.00 Max. :68.00 NAs : 7 Max. :35.00 risposte giuste Min. : 4.00 Min. : 4.00 1st Qu.:48.00 1st Qu.:30.00 Median :49.00 Median :34.00 
  • 162.  APPENDICE B. R: ANALISI DESCRITTIVA Mean :46.36 Mean :32.88 3rd Qu.:49.00 3rd Qu.:37.00 Max. :49.00 Max. :48.00B.. Variabili nominaliGenerePossiamo calcolare la frequenza araverso la funzione table().> freq_sex <- table(sex)> freq_sexsexfemmina maschio 210 123> freq_sex/sum(freq_sex)sex femmina maschio0.6306306 0.3693694> prop.table(freq_sex)sex femmina maschio0.6306306 0.3693694Grafici La funzione barplot mi permee di fare un grafico a barre.> barplot(freq_sex) pie è una funzione e permee di generare dei grafici a torta.> pie(freq_sex)> pareto.chart(freq_sex)Pareto chart analysis for freq_sex Frequency Cum.Freq. Percentage Cum.Percent. femmina 210 210 63.06306 63.06306 maschio 123 333 36.93694 100.00000
  • 163. B.. ANALISI DESCRITTIVE  200 150 100 50 0 femmina maschio femmina maschioCalcolo della moda> t_sex <- tabulate(sex)> mode_sex <- which(t_sex == max(t_sex))> mode_sex[1] 1> sex[mode_sex][1] femminaLevels: femmina maschio> t_sex[mode_sex][1] 210
  • 164.  APPENDICE B. R: ANALISI DESCRITTIVA Pareto Chart for freq_sex 100% q 300 75% 250 Cumulative Percentage 200 q Frequency 50% 150 100 25% 50 0% 0 femmina maschioScolarità> freq_scol <- table(scol)> freq_scolscol 05_elem 08_medie 13_diploma 16_laureabreve 18_laurea 1 21 176 27 104> prop.table(freq_scol)scol 05_elem 08_medie 13_diploma 16_laureabreve 18_laurea 0.003039514 0.063829787 0.534954407 0.082066869 0.316109422> barplot(freq_scol)Calcolo della moda> t_scol <- tabulate(scol)> mode_scol <- which(t_scol == max(t_scol))> mode_scol[1] 3> scol[mode_scol][1] 13_diplomaLevels: 05_elem 08_medie 13_diploma 16_laureabreve 18_laurea> t_scol[mode_scol][1] 176
  • 165. B.. ANALISI DESCRITTIVE  150 100 50 0 05_elem 08_medie 16_laureabreveB.. Variabili a rapporti> table(giuste)giuste 4 6 7 9 10 11 12 13 14 15 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 1 1 1 1 1 1 2 1 2 2 1 1 2 2 4 4 3 3 4 10 6 15 7 14 13 2633 34 35 36 37 38 39 40 41 42 43 44 45 4820 29 26 28 24 28 17 11 8 8 5 1 2 1 Luso di table non è molto pratico. Dato difficile da leggere.> hist(giuste) Histogram of giuste 100 80 Frequency 60 40 20 0 0 10 20 30 40 50 giuste> stripchart(giuste, method = "stack", xlab = "giuste")
  • 166.  APPENDICE B. R: ANALISI DESCRITTIVA 10 20 30 40 giusteIndici di centralità Media, mediana, moda> mean(giuste)[1] 32.88095> median(giuste)[1] 34> t_giuste <- tabulate(giuste)> mode_giuste <- which(t_giuste == max(t_giuste))> mode_giuste[1] 34> t_giuste[mode_giuste][1] 29Indici di dispersione antili, range, varianza, deviazione standard, range interquar-tilico> quantile(giuste, probs = seq(0, 1, 0.25)) 0% 25% 50% 75% 100% 4 30 34 37 48> range(giuste)[1] 4 48> var(giuste)
  • 167. B.. ANALISI DESCRITTIVE [1] 47.35295> sd(giuste)[1] 6.881348> IQR(giuste)[1] 7Boxplot> boxplot(giuste) q 40 30 20 q q q q q q q q 10 q q q q qQQ plot QQ plot: quantile quantile plots> qqnorm(giuste)> qqline(giuste, col = 2)
  • 168.  APPENDICE B. R: ANALISI DESCRITTIVA Normal Q−Q Plot q q q q qq q qq qqq qq q qq qq qq qq qq 40 qqq qq qq qq qq qqq qqq qq qq qq q qqqq qqq qqq qqq q qqq qqq qq qq qq qqq qqq qq qq qq qq qqq qq qq qq qq qq qqq qqq qqq qq qq qq qq qq qq qq q q Sample Quantiles qqq qq qq qq qq qq qq qq q qq 30 qq qq q q q q q qq qq qq qq qq qq q qq qq qq q q q qq q q q q q q q q qq q q q q qq 20 q q q q q q q q qq q qq q 10 q q q q q −3 −2 −1 0 1 2 3 Theoretical Quantiles
  • 169. BibliografiaAkritas, M. G. (). Statistics : An Introduction to Statistics for Engineers and Scientists. StatPublisher.Anscombe, F. J. (). Graphs in statistical analysis. e American Statistician, ():- -.Bollen, J., Mao, H., and Zeng, X. (). Twier mood predicts the sto market. Arxiv preprint arXiv:..Chan, Y. and Walmsley, R. P. (). Learning and understanding the kruskal- wallis one-way analysis-of-variance-by-rankstest for differences among three or more independent groups. Physical erapy, ().Frascati, F. (). Formulario di Statistica con R. GNU.Kahneman, D. and Tversky, A. (). Choices, values, and frames. American Psyologist, :--.Keselman, H. J., Wilcox, R. R., Othman, A. R., and Fradee, K. (). Trimming, transforming statistics, and bootstrapping: Circumventing the biasing effects of he- terescedasticity and nonnormality. Journal of Modern Applied Statistical Methods, ():--.Maindonald, J. H. (). Using r for data analysis and graphics -- introduction, co- de and commentary. Tenical report, Centre for Mathematics and Its Applications, Australian National University.Mineo, A. M. (). Una guida allutilizzo dellambiente statistico r. Tenical report, Universit` degli Studi di Palermo. aMolenaar, I. and Kiers, H. (). Statistics refresher course. Tenical report, Heymans Instituut Rijksuniversiteit Groningen.Muggeo, V. M. R. and Ferrara, G. (). Il linguaggio r: concei introduivi ed esempi. Tenical report, Universit` degli Studi di Palermo. aSeltman, H. J. (). Experimental design and analysis. Tenical report, College of Humanities and Social Sciences at Carnegie Mellon University. 
  • 170.  BIBLIOGRAFIATversky, A. and Kahneman, D. (). e framing of decisions and the psyology of oice. Science, :--.Vasishth, S. (). e foundations of statistics: A simulation-based approa. Tenical report, University of Potsdam.Wal, C. (). Hand-book on statistical distributions for experimentalists. Tenical report, University of Stoholm.Waltenburg, E. and McLaulan, W. (). Exploratory data analysis: A primer for undergraduates. Tenical report, Purdue University.Whitley, E. and Ball, J. (). Nonparametric methods. Critical Care, :--.
  • 171. Indice analiticoχ2 Wilcoxon U,  likelihood ratio i square,  Pearson,  Errore, ,  statistica,  campionamento, , ,  statistica bivariata,  distribuzione, , ,  distribuzione delle medie, Affidabilità, ,  errore standard, Analisi della Varianza,  non sistematico (bias),  a due vie,  varianza,  assunti,  identità principale,  Faori sperimentali,  interazione,  Frequenze modello,  aese, ,  modello lineare,  osservate, Assunti Funzioni R linearità,  aov,  normalità, ,  bartle.test,  omoskedasticità, , ,  isq.test, , ,  violazioni,  cor.test, ,  harvtest, Campionamento,  kruskal.test, ,  missing,  ks.test, Coefficiente di Spearman,  lm,  assunti,  pisq, Confronti multipli, , ,  shapiro.test, , ,  correzione di Bonferroni,  t.test, ,  correzione di Tukey,  TukeyHSD, , Correlazione e causazione,  wilcox.test, , , Correlazione lineare,  assunti,  Gradi di libertà modello,  Chi2 , Distribuzione Intervallo di confidenza, , ,  χ2 ,  Ipotesi di indipendenza,  Fisher-Snedecor,  Ipotesi nulla,  Normale,  t di Student, , ,  Modelli Lineari,  
  • 172.  INDICE ANALITICOOmnibus,  Wilcoxon,  Test di ipotesi, P-value,  Test non parametrici, , ,  confronto fra campione e popolazio- Trimming,  ne,  correlazione,  Validità,  VarianzaRegressione lineare,  residua, ,  Assunti,  spiegata, , ,  modello,  violazione assunti,  Winsorizzazione, Rea di regressione, , Ricerca qualitativa,  scientifica, Scale intervalli,  nominali, ,  ordinali,  quantitative,  rapporto, Simulazione χ2 ,  analisi della Varianza, ,  bootstrapping,  confronto fra due gruppi,  correlazione,  introduzione,  permutazioni,  resampling, Somma dei quadrati degli errori, Statistica,  descriiva, ,  inferenziale,  tendenze centrali, t test,  assunzioni, tatistica indici di dispersione, Test confronto fra medie,  Kruskal-Wallis, ,  Mann-Whitney-Wilcoxon U,  t test, 