«processo di selezione, esplorazione e
modellizzazione di grandi quantità di dati allo
scopo di estrarre regolarità o relazioni che in
principio sono sconosciuti»
(Bocci 2007, 303)
Regolarità e relazioni devono essere rilevanti
Data mining
20/09/2017 Agnese Vardanega (Univ. Teramo) 3
20/09/2017 Agnese Vardanega (Univ. Teramo) 4
The first step is to measure whatever can be easily
measured. This is OK as far as it goes.
The second step is to disregard that which can't be
easily measured or to give it an arbitrary
quantitative value. This is artificial and misleading.
The third step is to presume that what can't be
measured easily really isn't important. This is
blindness.
The fourth step is to say that what can't be easily
measured really doesn't exist. This is suicide
Charles Handy (The Empty Raincoat, 1994)
• Analisi del contesto e
definizione degli obiettivi
• Selezione e raccolta dei dati
• Pre-processing
• «pulitura» dei dati
• integrazione dei dati
• Trasformazione e ricodifica dei
dati
• Data mining patterns,
modelli
• Valutazione dei risultati
• Presentazione dei risultati
Fasi del data mining
20/09/2017 Agnese Vardanega (Univ. Teramo) 5
(immagine tratta da Han et al. 2011)
• è il problema metodologico fondamentale del data mining
• campione non costruito per la verifica di ipotesi o modelli,
ma
• necessità di controllare le condizioni di validità dei risultati
ex post
• i dati potrebbero non essere sufficienti o adeguati
• i modelli sono costruiti ad hoc
• in questo secondo caso, allo scopo di valutare i risultati, la
prassi comune è quella di dividere il campione in due (o
più) parti
• training sample (70% ca. del campione)
• test sample (30% ca. del campione), allo scopo di valutare i risultati
Analisi esplorativa
20/09/2017 Agnese Vardanega (Univ. Teramo) 6
• approcci descrittivi
• raggruppamenti (cluster analysis)
• riduzione delle dimensioni (analisi in componenti principali; analisi
delle corrispondenze multiple)
• approcci «causali»
• analisi delle regole associative
• approcci predittivi
• metodi gerarchici (decision tree, random forest)
• tecniche di statistica testuali corrispondenti
Tecniche di analisi
20/09/2017 Agnese Vardanega (Univ. Teramo) 7
L’analisi sistematica ed estensiva dei
contenuti del web richiede la preliminare
definizione:
• degli obiettivi dell’analisi stessa;
• Interessi teorici o applicativi
• Definiti dal ricercatore, o discussi con un committente
• del target – degli utenti e delle loro culture
• Noto, o probabile
• Ipotizzato o individuato come target di interesse
• Presupposto dalle caratteristiche del sito (utente
modello)
Decisioni preliminari
20/09/2017 Agnese Vardanega (Univ. Teramo) 9
• tracce «oggettive» (testi, immagini, contenuti,
clicks, etc.)
• opinioni
• aspetti relazionali (il grafo degli utenti, i links, le
communities)
• visibilità e reazioni (numero di visite, commenti,
likes etc.) rilevanza
• contesto della produzione (click), della raccolta e
della gestione dei dati
Dati
20/09/2017 Agnese Vardanega (Univ. Teramo) 11
Questi aspetti non possono scissi l’uno
dall’altro
• Consentono, e ad un tempo vincolano, le possibilità
di azione/comunicazione
• Co-evolvono con le pratiche sociali
• Vengono “ri-usate” dagli utenti (De Certeau)
• Alcuni attori hanno più potere (i proprietari, gli
sviluppatori, gli inserzionisti)
• Sono costruzioni discorsive, nel senso di Foucault
(Gillespie): hanno natura normativa e regolativa
• Consentono (ed esercitano) forme di controllo
Il «potere» delle piattaforme
20/09/2017 Agnese Vardanega (Univ. Teramo) 12
• Digital methods (Richard, 2009)
• «Big Data»
• tripla V: Volume, Velocity & Variety
• qualità dei dati
• validità dei modelli
• proprietà dei dati
• degli utenti o delle aziende?
• accessibili o no?
• privacy, property, authorship
• tutto quello che viene pubblicato è utilizzabile? in quale
forma?
• come controllare eventuali limitazioni?
Opportunità e problemi per la ricerca
Agnese Vardanega (Univ. Teramo) 13
Conseguenze metodologiche
• Indeterminatezza dell’universo di riferimento
• Problemi di campionamento e rappresentatività
• «Filter Bubble», digital divide
• Limiti alla sistematicità della ricerca e della raccolta
• Frammentazione dei contenuti
• Definizione problematica e soggettiva di «rilevanza»
• Difficile selezionare i contenuti rilevanti ex-ante
• Difficile ridurre i dati ex-post
• Paradosso dei Big Data
• I dati sono tanti, ma quelli individuali sono spesso
insufficienti
Agnese Vardanega (Univ. Teramo) 1420/09/2017
Qualità e quantità
• Il data mining deve tenere conto degli aspetti
culturali e «comunitari»
• linguaggio
• interazioni possibili
• L’approccio etnografico deve ricorrere a strumenti
e metriche del data mining
• come identificare una comunità?
• quanti parlano di un dato argomento, o condividono
determinate esperienze?
• cosa dicono? individuare ed analizzare i messaggi
Agnese Vardanega (Univ. Teramo) 1520/09/2017
• R è un ambiente di sviluppo e analisi, costituito da un
insieme di strumenti (distribuiti in pacchetti) utilizzabili
per gestire, analizzare e visualizzare i dati
• vantaggi: open source, quindi gratuito e personalizzabile;
estensibile attraverso pacchetti creati e distribuiti
liberamente da vari programmatori e utenti
• svantaggi: richiede la scrittura e/o l’uso di script ― anche
se esistono alcune interfacce con finestre di dialogo e
comandi.
Che cosa è R
20/09/2017 Agnese Vardanega (Univ. Teramo) 17
https://www.r-project.org
• Strumenti per raccogliere dati strutturati dal web (tabelle e
basi dati già esistenti)
• Strumenti per scaricare (scraping) pagine web, e
strumenti connessi (ad esempio ripulitura delle url)
• Strumenti per condividere documenti e analisi online,
utilizzando i servizi cloud
• Strumenti per l’accesso e l’uso di dati di vari servizi online
• social networking sites
• piattaforme di blogging
• strumenti di Google (mappe, grafici, ricerca, youtube ecc)
R e il web
20/09/2017 Agnese Vardanega (Univ. Teramo) 18
https://cran.r-project.org/web/views/
• R
• Nella sua versione originaria, il software base è disponibile sul sito
http://cran.r-project.org
• Microsoft ha recentemente acquistato una azienda che produce e
distribuisce una versione di R particolarmente adatto al calcolo in
parallelo – quindi per l’uso con i Big Data
https://mran.microsoft.com/open/ (la versione open source può
essere utilizzata per questi esempi)
• RStudio
• un ambiente integrato di sviluppo (IDE) che ― pur non costituendo
una interfaccia in senso proprio ― facilita l’uso di R
(https://www.rstudio.com/products/rstudio/#Desktop )
Gli strumenti necessari
20/09/2017 Agnese Vardanega (Univ. Teramo) 19
• Rfacebook (al momento, non può essere utilizzato per
raccogliere le informazioni sul grafo sociale)
https://cran.r-project.org/web/packages/Rfacebook/
• rtweet
https://cran.r-project.org/web/packages/rtweet/
I pacchetti che useremo
20/09/2017 Agnese Vardanega (Univ. Teramo) 20
i pacchetti vengono aggiornati spesso, quando vengono
modificate le condizioni d’uso delle piattaforme e delle Api
• Per accedere ai dati dei social network
sites, si utilizzano gli strumenti utilizzati dai
programmatori per creare le apps, ovvero
le API (Application Programming Interface)
• le piattaforme hanno restrizioni nella qualità e
nella quantità dei dati che è possibile utilizzare
• le piattaforme prevedono limiti nelle possibilità
di raccolta, conservazione, e diffusione dei dati
Le Api
20/09/2017 Agnese Vardanega (Univ. Teramo) 22
consultare la documentazione
1. Installare R e Rstudio
2. Installare i pacchetti necessari
3. Registrarsi sulla piattaforma come
sviluppatore
• potrebbe servire un sito web (i dati devono
essere pubblici)
4. Eseguire le procedure di accesso ai dati
Accedere ai dati: passaggi
20/09/2017 Agnese Vardanega (Univ. Teramo) 24
20/09/2017 Agnese Vardanega (Univ. Teramo) 25
autorizzare
l’accesso
raccogliere i
dati
esportare i dati
analizzare i dati
formati vari
collegare R a
Excel
Laboratorio: workflow