Advertisement

Social Media Mining con R

Professor at the University of Teramo
Sep. 26, 2017
Advertisement

More Related Content

Advertisement

Social Media Mining con R

  1. SOCIAL MEDIA MINING CON R Concetti di base 20 settembre 2017
  2. 20/09/2017 Agnese Vardanega (Univ. Teramo) 2 DATA MINING
  3. «processo di selezione, esplorazione e modellizzazione di grandi quantità di dati allo scopo di estrarre regolarità o relazioni che in principio sono sconosciuti» (Bocci 2007, 303) Regolarità e relazioni devono essere rilevanti Data mining 20/09/2017 Agnese Vardanega (Univ. Teramo) 3
  4. 20/09/2017 Agnese Vardanega (Univ. Teramo) 4 The first step is to measure whatever can be easily measured. This is OK as far as it goes. The second step is to disregard that which can't be easily measured or to give it an arbitrary quantitative value. This is artificial and misleading. The third step is to presume that what can't be measured easily really isn't important. This is blindness. The fourth step is to say that what can't be easily measured really doesn't exist. This is suicide Charles Handy (The Empty Raincoat, 1994)
  5. • Analisi del contesto e definizione degli obiettivi • Selezione e raccolta dei dati • Pre-processing • «pulitura» dei dati • integrazione dei dati • Trasformazione e ricodifica dei dati • Data mining  patterns, modelli • Valutazione dei risultati • Presentazione dei risultati Fasi del data mining 20/09/2017 Agnese Vardanega (Univ. Teramo) 5 (immagine tratta da Han et al. 2011)
  6. • è il problema metodologico fondamentale del data mining • campione non costruito per la verifica di ipotesi o modelli, ma • necessità di controllare le condizioni di validità dei risultati ex post • i dati potrebbero non essere sufficienti o adeguati • i modelli sono costruiti ad hoc • in questo secondo caso, allo scopo di valutare i risultati, la prassi comune è quella di dividere il campione in due (o più) parti • training sample (70% ca. del campione) • test sample (30% ca. del campione), allo scopo di valutare i risultati Analisi esplorativa 20/09/2017 Agnese Vardanega (Univ. Teramo) 6
  7. • approcci descrittivi • raggruppamenti (cluster analysis) • riduzione delle dimensioni (analisi in componenti principali; analisi delle corrispondenze multiple) • approcci «causali» • analisi delle regole associative • approcci predittivi • metodi gerarchici (decision tree, random forest) • tecniche di statistica testuali corrispondenti Tecniche di analisi 20/09/2017 Agnese Vardanega (Univ. Teramo) 7
  8. • Testi (text mining) • Commenti e risposte (conversazioni) • Connessioni • contenuti (links condivisi) • conversazioni (commenti, risposte) • grafi sociali • Dati individuali • Contenuti multimediali Web mining 20/09/2017 Agnese Vardanega (Univ. Teramo) 8
  9. L’analisi sistematica ed estensiva dei contenuti del web richiede la preliminare definizione: • degli obiettivi dell’analisi stessa; • Interessi teorici o applicativi • Definiti dal ricercatore, o discussi con un committente • del target – degli utenti e delle loro culture • Noto, o probabile • Ipotizzato o individuato come target di interesse • Presupposto dalle caratteristiche del sito (utente modello) Decisioni preliminari 20/09/2017 Agnese Vardanega (Univ. Teramo) 9
  10. 20/09/2017 Agnese Vardanega (Univ. Teramo) 10 SOCIAL MEDIA MINING
  11. • tracce «oggettive» (testi, immagini, contenuti, clicks, etc.) • opinioni • aspetti relazionali (il grafo degli utenti, i links, le communities) • visibilità e reazioni (numero di visite, commenti, likes etc.)  rilevanza • contesto della produzione (click), della raccolta e della gestione dei dati Dati 20/09/2017 Agnese Vardanega (Univ. Teramo) 11 Questi aspetti non possono scissi l’uno dall’altro
  12. • Consentono, e ad un tempo vincolano, le possibilità di azione/comunicazione • Co-evolvono con le pratiche sociali • Vengono “ri-usate” dagli utenti (De Certeau) • Alcuni attori hanno più potere (i proprietari, gli sviluppatori, gli inserzionisti) • Sono costruzioni discorsive, nel senso di Foucault (Gillespie): hanno natura normativa e regolativa • Consentono (ed esercitano) forme di controllo Il «potere» delle piattaforme 20/09/2017 Agnese Vardanega (Univ. Teramo) 12
  13. • Digital methods (Richard, 2009) • «Big Data» • tripla V: Volume, Velocity & Variety • qualità dei dati • validità dei modelli • proprietà dei dati • degli utenti o delle aziende? • accessibili o no? • privacy, property, authorship • tutto quello che viene pubblicato è utilizzabile? in quale forma? • come controllare eventuali limitazioni? Opportunità e problemi per la ricerca Agnese Vardanega (Univ. Teramo) 13
  14. Conseguenze metodologiche • Indeterminatezza dell’universo di riferimento • Problemi di campionamento e rappresentatività • «Filter Bubble», digital divide • Limiti alla sistematicità della ricerca e della raccolta • Frammentazione dei contenuti • Definizione problematica e soggettiva di «rilevanza» • Difficile selezionare i contenuti rilevanti ex-ante • Difficile ridurre i dati ex-post • Paradosso dei Big Data • I dati sono tanti, ma quelli individuali sono spesso insufficienti Agnese Vardanega (Univ. Teramo) 1420/09/2017
  15. Qualità e quantità • Il data mining deve tenere conto degli aspetti culturali e «comunitari» • linguaggio • interazioni possibili • L’approccio etnografico deve ricorrere a strumenti e metriche del data mining • come identificare una comunità? • quanti parlano di un dato argomento, o condividono determinate esperienze? • cosa dicono?  individuare ed analizzare i messaggi Agnese Vardanega (Univ. Teramo) 1520/09/2017
  16. USARE R 20/09/2017 Agnese Vardanega (Univ. Teramo) 16
  17. • R è un ambiente di sviluppo e analisi, costituito da un insieme di strumenti (distribuiti in pacchetti) utilizzabili per gestire, analizzare e visualizzare i dati • vantaggi: open source, quindi gratuito e personalizzabile; estensibile attraverso pacchetti creati e distribuiti liberamente da vari programmatori e utenti • svantaggi: richiede la scrittura e/o l’uso di script ― anche se esistono alcune interfacce con finestre di dialogo e comandi. Che cosa è R 20/09/2017 Agnese Vardanega (Univ. Teramo) 17 https://www.r-project.org
  18. • Strumenti per raccogliere dati strutturati dal web (tabelle e basi dati già esistenti) • Strumenti per scaricare (scraping) pagine web, e strumenti connessi (ad esempio ripulitura delle url) • Strumenti per condividere documenti e analisi online, utilizzando i servizi cloud • Strumenti per l’accesso e l’uso di dati di vari servizi online • social networking sites • piattaforme di blogging • strumenti di Google (mappe, grafici, ricerca, youtube ecc) R e il web 20/09/2017 Agnese Vardanega (Univ. Teramo) 18 https://cran.r-project.org/web/views/
  19. • R • Nella sua versione originaria, il software base è disponibile sul sito http://cran.r-project.org • Microsoft ha recentemente acquistato una azienda che produce e distribuisce una versione di R particolarmente adatto al calcolo in parallelo – quindi per l’uso con i Big Data https://mran.microsoft.com/open/ (la versione open source può essere utilizzata per questi esempi) • RStudio • un ambiente integrato di sviluppo (IDE) che ― pur non costituendo una interfaccia in senso proprio ― facilita l’uso di R (https://www.rstudio.com/products/rstudio/#Desktop ) Gli strumenti necessari 20/09/2017 Agnese Vardanega (Univ. Teramo) 19
  20. • Rfacebook (al momento, non può essere utilizzato per raccogliere le informazioni sul grafo sociale) https://cran.r-project.org/web/packages/Rfacebook/ • rtweet https://cran.r-project.org/web/packages/rtweet/ I pacchetti che useremo 20/09/2017 Agnese Vardanega (Univ. Teramo) 20 i pacchetti vengono aggiornati spesso, quando vengono modificate le condizioni d’uso delle piattaforme e delle Api
  21. ACCEDERE AI DATI 20/09/2017 Agnese Vardanega (Univ. Teramo) 21
  22. • Per accedere ai dati dei social network sites, si utilizzano gli strumenti utilizzati dai programmatori per creare le apps, ovvero le API (Application Programming Interface) • le piattaforme hanno restrizioni nella qualità e nella quantità dei dati che è possibile utilizzare • le piattaforme prevedono limiti nelle possibilità di raccolta, conservazione, e diffusione dei dati Le Api 20/09/2017 Agnese Vardanega (Univ. Teramo) 22 consultare la documentazione
  23. • Facebook https://developers.facebook.com/docs/ • Twitter https://dev.twitter.com/overview/documentation 20/09/2017 Agnese Vardanega (Univ. Teramo) 23 Documentazione
  24. 1. Installare R e Rstudio 2. Installare i pacchetti necessari 3. Registrarsi sulla piattaforma come sviluppatore • potrebbe servire un sito web (i dati devono essere pubblici) 4. Eseguire le procedure di accesso ai dati Accedere ai dati: passaggi 20/09/2017 Agnese Vardanega (Univ. Teramo) 24
  25. 20/09/2017 Agnese Vardanega (Univ. Teramo) 25 autorizzare l’accesso raccogliere i dati esportare i dati analizzare i dati formati vari collegare R a Excel Laboratorio: workflow
  26. FACEBOOK 20/09/2017 Agnese Vardanega (Univ. Teramo) 26
  27. Registrare l’applicazione: impostazioni di base 20/09/2017 Agnese Vardanega (Univ. Teramo) 27 https://developers.facebook.com/
  28. Registrare l’applicazione: impostazioni avanzate 20/09/2017 Agnese Vardanega (Univ. Teramo) 28
  29. GRAZIE! Agnese Vardanega www.agnesevardanega.eu - @agnesevardanega avardanega@unite.it 20/09/2017 Agnese Vardanega (Univ. Teramo) 29

Editor's Notes

  1. 8
  2. 9
Advertisement