SLIDES Primo intervento giornata 24 Maggio 2013 :
"Una Statistica più consapevole per decisioni migliori.
Giornata di Metodologia e Statistica per le Scienze Umane."
TITOLO "InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda, Francesco Cabiddu, Gianmarco Altoè)"
Università degli studi di Cagliari. Dipartimento di Pedagogia, Psicologia e Filosofia.
- See more at: http://www.insular.it
4. L’era dei dati
La corsa ai dati
• Il XXI secolo guarda sempre pi`u ai dati come a una risorsa: essi pos-
sono essere utilizzati per rappresentare la realt`a, capirla, interpretarla
e quindi governarla.
• Ormai l’hanno capito tutti: centri di ricerca, aziende, pubbliche ammi-
nistrazioni.
• `E un’opportunit`a da non lasciarsi sfuggire... ma dobbiamo attrezzarci
adeguatamente!
• Infatti, i dati sono importanti in quanto contengono informazioni. Ma
queste informazioni richiedono opportune tecniche e adeguati stru-
menti per essere estratte.
5. L’era dei dati
Dai dati all’informazione
• Le discipline statistiche offrono una soluzione.
• La statistica si occupa dell’analisi quantitativa e qualitativa di fenomeni,
adeguatamente misurati e quindi trasformati in un codice numerico.
• Attraverso specifiche elaborazioni statistiche, `e possibile risalire dal
valore numerico all’informazione sul comportamento di un fenomeno.
7. L’era dei dati
Cosa `e un data scientist?
• Un atleta in grado di nuotare in mezzo ai dati, capace di esplora-
re i numeri attraverso opportune analisi statistiche e visualizzazioni
grafiche.
• Una tecnico in grado di utilizzare gli strumenti informatici per il trat-
tamento dei dati.
• Un esperto conoscitore del fenomeno sotto analisi, capace di guidare
lo studio del dato e individuare le strade pi`u fertili su cui orientare il
lavoro.
• Un artista creativo, in grado di intrecciare dati preesistenti per trovare
soluzioni originali a un problema.
8. L’era dei dati
Come trovare un data scientist?
Davenport e Patil (2012):
“Esamina i membri dei gruppi di utenti dedicati agli strumenti della data
science. Gli R User Group (strumento statistico open source privilegiato dai
data scientist) e i Python Interest Group sono dei buoni punti di partenza.”
9. L’era dei dati
Come trovare un data scientist?
Davenport e Patil (2012):
“Esamina i membri dei gruppi di utenti dedicati agli strumenti della data
science. Gli R User Group (strumento statistico open source privilegiato dai
data scientist) e i Python Interest Group sono dei buoni punti di partenza.”
Due importanti aspetti da segnalare:
• L’importanza di conoscere strumenti open source come R o Python.
• L’importanza di essere sul web e di lasciarvi una traccia evidente.
11. Il progetto R
Il progetto R
• R `e un pacchetto statistico che permette di elaborare dati, eseguire
calcoli ed effettuare rappresentazioni grafiche (...e molto altro!)
• `E nato attorno al 1995 presso il Dipartimento di Statistica dell’Univer-
sit`a di Auckland. I primi sviluppatori furono Robert Gentleman e Ross
Ihaka.
• Fin dall’inizio, il progetto R aveva l’obiettivo di fornire un ambiente
statistico di alta qualit`a e a costo zero.
• Oggi, R `e diventato il riferimento per le analisi statistiche nel mondo
accademico, e negli ultimi anni sta entrando prepotentemente anche in
quello aziendale.
12. Il progetto R
Un progetto di successo
• Gratuito: svincola l’utilizzatore dalla dipendenza da costose licenze
software che difficilmente un privato potrebbe permettersi.
• Potente: permette di gestire modelli statistici dai pi`u semplici ai pi`u
complessi e di realizzare rappresentazioni grafiche di alto livello.
• Personalizzabile: `e concepito come un linguaggio di programmazio-
ne, per cui consente all’utente di creare istruzioni personalizzate per
risolvere problemi nuovi, originariamente non previsti dal programma,
oppure per migliorare istruzioni gi`a esistenti.
• All’avanguardia: difficilmente l’ultima frontiera dell’analisi statisti-
ca non ha un’implementazione in R. E se non ce l’ha oggi, molto
probabilmente ce l’avr`a domani (se non tra qualche ora).
13. Il progetto R
Un software open source
• R `e un software libero, distribuito con licenza GNU GPL: l’utente ha
libert`a di utilizzo, copia, modifica e ridistribuzione del prodotto.
• R `e anche un software open source: i suoi codici sorgenti sono noti,
per cui chiunque pu`o modificarli e utilizzarli come base per prodotti
derivati.
• Gli utenti possono collaborare attivamente allo sviluppo di R, principal-
mente creando e diffondendo nuovi pacchetti di istruzioni (ce ne sono
tantissimi... dall’analisi di dati fMRI al sudoku!)
15. Utilizzare R
La sintassi R
R `e un linguaggio interpretato: attraverso un terminale si inviano delle
istruzioni a un interprete, il quale elabora in diretta la richiesta e fornisce
un risultato.
16. Utilizzare R
La sintassi R
R `e un linguaggio interpretato: attraverso un terminale si inviano delle
istruzioni a un interprete, il quale elabora in diretta la richiesta e fornisce
un risultato.
R come calcolatrice
> 2+2 > log(1)
[1] 4 [1] 0
17. Utilizzare R
La sintassi R
R `e un linguaggio interpretato: attraverso un terminale si inviano delle
istruzioni a un interprete, il quale elabora in diretta la richiesta e fornisce
un risultato.
R come calcolatrice
> 2+2 > log(1)
[1] 4 [1] 0
Lettura di un file di dati
> dataset < − read.table(“myfile.csv”, header=T, sep=“;”)
18. Utilizzare R
La sintassi R
R `e un linguaggio interpretato: attraverso un terminale si inviano delle
istruzioni a un interprete, il quale elabora in diretta la richiesta e fornisce
un risultato.
R come calcolatrice
> 2+2 > log(1)
[1] 4 [1] 0
Lettura di un file di dati
> dataset < − read.table(“myfile.csv”, header=T, sep=“;”)
Analisi della varianza
> model < − lm(resp ∼ block * stimulus, data=dataset)
22. Utilizzare R
Principali usi di R
Manipolazione dei dati
Analisi statistica dei dati
Creazione di grafici
Reportistica
Web scraping
...e tanto altro ancora!
Il tutto pu`o essere eseguito in maniera automatizzata preparando degli
script di istruzioni.
23. Utilizzare R
Avvertenze
Maneggiare con cura
• In quanto strumento per l’analisi statistica, R permette di comprendere
meglio i dati che abbiamo a disposizione, estraendo l’informazione dal
valore numerico.
• A differenza di altri software, per`o, non `e un “punta e clicca”: richiede
all’utente un uso consapevole della metodologia d’analisi.
24. Utilizzare R
Avvertenze
Maneggiare con cura
• In quanto strumento per l’analisi statistica, R permette di comprendere
meglio i dati che abbiamo a disposizione, estraendo l’informazione dal
valore numerico.
• A differenza di altri software, per`o, non `e un “punta e clicca”: richiede
all’utente un uso consapevole della metodologia d’analisi.
25. Utilizzare R
Avvertenze
Agitare bene (l’utente) prima dell’uso
• L’utente necessita di un adeguato addestramento all’uso del linguag-
gio: il principale pregio di R si rivela essere anche un ostacolo per chi
vorrebbe usarlo senza avere nozioni di programmazione.
• L’utente necessita anche di un adeguato addestramento all’uso delle
metodologie statistiche.
27. InsulaR
Le motivazioni
• In un mondo dove le risorse economiche sono sempre pi`u esigue, ma la
richiesta di utilizzo dei dati `e sempre maggiore, R pu`o rappresentare una
grande risorsa. E questo sia che si parli di Universit`a che di pubbliche
amministrazioni o aziende private.
• Nonostante questo, R in Sardegna `e ancora poco diffuso.
28. InsulaR
Le motivazioni
• In un mondo dove le risorse economiche sono sempre pi`u esigue, ma la
richiesta di utilizzo dei dati `e sempre maggiore, R pu`o rappresentare una
grande risorsa. E questo sia che si parli di Universit`a che di pubbliche
amministrazioni o aziende private.
• Nonostante questo, R in Sardegna `e ancora poco diffuso.
• L’idea di un gruppo di “useR” cagliaritani scaturisce dalla forte richiesta
proveniente da alcuni studenti dei corsi di laurea di psicologia di Cagliari
di imparare a utilizzare il software.
• Da questa necessit`a, nasce la prima community di utenti cagliaritani
utilizzatori di R.
29. InsulaR
Gli scopi
• Condividere la conoscenza sull’uso di R, sia all’interno del gruppo che
all’esterno.
- Corsi di formazione
- Articoli sul blog
30. InsulaR
Gli scopi
• Condividere la conoscenza sull’uso di R, sia all’interno del gruppo che
all’esterno.
- Corsi di formazione
- Articoli sul blog
• Creare una rete di utilizzatori di R nell’Isola.
- Giornate d’incontro
- Mailing list
31. InsulaR
Gli scopi
• Condividere la conoscenza sull’uso di R, sia all’interno del gruppo che
all’esterno.
- Corsi di formazione
- Articoli sul blog
• Creare una rete di utilizzatori di R nell’Isola.
- Giornate d’incontro
- Mailing list
• Divulgare dati secondo la filosofia “open”.
- Dati prodotti dalla ricerca scientifica
- Dati prodotti in ambito non accademico
32. InsulaR
Corso “Introduzione all’ambiente R”
Il corso si propone di introdurre lo studente all’uso dell’ambiente R, per
metterlo in grado di esplorare e analizzare dati in completa autonomia.
Al termine del corso, lo studente sar`a in grado di organizzare un dataset,
importarlo in R ed eseguire le principali operazioni di pulizia, visualizzazione
e analisi dei dati.
Il corso `e organizzato in quattro moduli:
1 Il linguaggio R: primi passi
2 Manipolazione dei dati
3 Visualizzazione dei dati
4 Analisi statistica dei dati