BIG DATAGEWINNUNG, AUSWERTUNG UND DARSTELLUNG
GROßER MENGEN ONLINEGENERIERTER DATEN
IN DEN SOZIALWISSENSCHAFTEN
WORKSHOP A...
WILLKOMMEN!
Dr. Katrin Weller
GESIS Leibniz Institut für Sozialwissenschaften
katrin.weller@gesis.org
@kwelle
http://katri...
1. EINFÜHRUNG
3
„I keep saying that the sexy job in the next
10 years will be statisticians,“ said Hal
Varian, chief economist at Google.
...
5
Google Trends Suche „big data“
6
Amazon Suche „big data“
WIE GROß IST GROß?
• Datensätze, die nur von Supercomputern bearbeitet werden
können?
• Terabyte, Petabytes und Exabytes?
...
BIG DATA (FRÜHER)
„large surveys such as th NCVS may have 60,000
or more observations, and only recently has
research begu...
>900 Millionen Facebook-Nutzer, 30 Petabyte Daten
(täglich kommen etwa 15 Terabyte hinzu )
täglich zu verarbeitendes Daten...
ARTEN VON BIG DATA?
• Naturwissenschaftliche Forschung: z.B. Klimadaten, Genetik („Big
Science“)
• Finanz-Sektor: Börsenda...
AKTEURE
11
“Big Data is a Big Deal”
http://www.whitehouse.gov/blog/2012/03/29/big-data-big-deal
AKTEURE
• Wissenschaft: immer mehr Disziplinen, z.B. Informatik, Bio-
Informatik, Physik, Wirtschaftswissenschaft, Mathema...
BIG DATA, SMALL DATA?
NEW DATA!
13
Diskussion: Was liefern diese Daten Neues?
• Möglichkeiten für zeitnahe Analysen und Pr...
FAZIT
• Es gibt keine einheitliche Definition für Big Data – die
Einschätzung, was als „big“ gilt, ist stark kontextabhäng...
2. MÖGLICHKEITEN
UND BEISPIELE
15
BEISPIEL-TYPEN
16
Ansätze
Agrregierte
Daten
auslesen
Prognosen
Textanalysen
(CL)
Sentiment
analysis
Event
detection
Worthä...
Ansätze
Agrregierte
Daten
auslesen
Prognosen
Textanalysen
(CL)
Sentiment
analysis
Event
detection
Worthäufigkeit
Netzwerke...
VORHERSAGEN
18
DER KLASSIKER
19
http://www.google.org/flutrends/de/#DE-NW
GOOGLE FLU TRENDS
“In short, the initial version of GFT was part flu detector, part
winter detector.“ (Lazer et al., 2014)...
ARBEITSLOSIGKEIT
Nikolaos Askitas / Klaus F. Zimmermann, Google Econometrics and Unemployment Forecasting,
Forschungsinsti...
WAHLERGEBNISSE
22
Metaxas, P. T., Mustafaraj, E., & Gayo-Avello, D. (2011, 9-11 Oct. 2011). How (not) to predict elections...
WEITERE ANSÄTZE
• Eurovision Song Contest Sieger
• Box Office Revenue
• Aktienkurse, Wechselkurse
• …
23
STIMMUNGEN
24
Northeastern University and Harvard University
Daten: Twitter. http://www.ccs.neu.edu/home/amislove/twittermood/
25
00000000
000
Rahlf, T. (2014). Datendesign mit R: 100 Visualisierungsbeispiele. München: open source press.
Daten: Faceboo...
WER SPRICHT ÜBER…
27
SENTIMENT ANALYSE FÜR
POLITIK-TWEETS
28
Bakliwal, et al. (2013). Sentiment Analysis of Political Tweets: Towards an Accura...
GEO-DATEN
29
MOBILITÄT
Livehood Project
Daten: Foursquare (via Twitter)
http://livehoods.org/maps/montreal
30
31
ALLTAG
http://www.nytimes.com/interactive/2009/11/26/us/20091126-search-graphic.html?_r=0
Daten aus: Allrecipes.com
WEITERE ANSÄTZE
• Mietspiegel, z.B. mit Immobilienscout.
• Naturkatastrophen
• Sprachgebrauch
32
http://www.guardian.co.uk...
NETZWERKE
33
WER KENNT WEN?
34
Facebook (Paul Butler)
Daten: Facebook
https://www.facebook.com/note.php?note_id=469716398919
INTERAKTION
35
Paßmann, J., Boeschoten, T., & Shäfer, M.T. (2014). The Gift of the Gab: Retweet Cartels and Gift Economies...
WEITERE DATEN FÜR
SOZIALWISSENSCHAFTLER?
• Ebay: Kaufverhalten, Preisentwicklung
• Wikipedia: Versionshistorie von „umstri...
CASE STUDIES
37
BEISPIEL:
TWITTER & WAHLEN
38
0
10
20
30
40
50
60
2008 2009 2010 2011 2012 2013
Twitter and elections (Scopus and Web of
S...
Year of
election
Name of election Country/region No. of papers
(2013)
Date of
election
2008 40th Canadian General Election...
2011 Scottish parliament election 2011 Scotland 1 05.05.20
11
2011 Singapore’s 16th parliamentary General Election Singapo...
BIG DATA?
2013: TWITTER AND ELECTION
No. of Tweets No. Of publications (2013)
0-500 3
501-1.000 4
1.001-5.000 1
5.001-10.0...
METHODEN
Methodisch unterscheiden sich die Studien weiter darin, ob sie...
• Tweet-Inhalte analysieren (automatisch mit
Sp...
BEISPIEL:
POLITISCHE KOMMUNIKATION
43
Scharkow, M., & Vogelgesang, J. (2011). Measuring the public agenda using search eng...
BEISPIEL:
MEDIALE KOMMUNIKATION
44
Groshek, J., & Groshek, M. C. (2013). Agenda trending: Reciprocity and the predictive c...
FAZIT
Big Data, die für Sozialwissenschaftler interessant sind, sind nicht
unbedingt die größten Datensätze. Entscheidend ...
3. METHODEN UND
HERAUSFORDERUNGEN
46
47
METHODEN (IN DER SOZIALW.
TWITTER FORSCHUNG)
Weller, K. (in press). What do we get from Twitter – and what not? A close...
QUELLEN FÜR BIG DATA
• Application Programming Interface (API)
• Web Crawling
• Reseller
• Crowdsourcing (z.B. 23andMe)
• ...
49
DATENSAMMLUNG
Datenquelle Anzahl
Keine Angabe 11
Manuelle Datensammlung auf der Twitter-Website (Copy-Paste /
Screenshot)
...
TOOLS ZUR DATENSAMMLUNG
UND -ANALYSE
51
DIGITAL METHODS
INITIATIVE
https://wiki.digitalmethods.net/Dmi/ToolDatabase
GNIP
TOPSY
YOURTWAPPERKEEPER
NODEXL
Network Analysis
Sammelt Daten aus (u.a.): Facebook, Twitter,
YouTube, Flickr, Wikipedia
NODEXL
NodeXLGraphGallery.org
GEPHI
Stephen Wolfram
Daten: Facebook
http://blog.stephenwolfram.com/2013/04/data-science-of-the-facebook-world/
59
ALTERNATIVE:...
60
Stephen Wolfram
Daten: Facebook
http://blog.stephenwolfram.com/2013/04/data-science-of-the-facebook-world/
TECHNISCHE
HERAUSFORDERUNGEN
61
TECHNISCHE
HERAUSFORDERUNGEN
• Zugänglichkeit
• Data Sharing
• Änderungen
• Manipulation (z.B. Twitter Bomb) & Spam
• Pers...
ENDE DER THEORIE?
63
because it’s there?
Big Data vs. Found Data
ENDE DER THEORIE?
Sozialwissenschaften
1. Problem
2. Forschungsfrage/
Hypothesen
3. Theorien
4. Methoden
5. Daten
6. Analy...
ANFANG DER THEORIE?
“The interesting point is that these limitations can (and have to) be
addressed by theory guided resea...
METHODENPROBLEME
“There are a lot of small data problems that occur in big data,”
says Spiegelhalter. “They don’t disappea...
REPRÄSENTATIVITÄT
“The core challenge is that most big data that have
received popular attention are not the output of
ins...
REPRÄSENTATIVITÄT
Sampling Bias
N = All
68
REPRÄSENTATIVITÄT
69
Blank, G. (2014). Who uses Twitter? Representativeness of Twitter Users. Presentation at General Onli...
REPRÄSENTATIVITÄT
70
Blank, G. (2014). Who uses Twitter? Representativeness of Twitter Users. Presentation at General Onli...
REPRÄSENTATIVITÄTS-
PROBLEME AUF MEHREREN
EBENEN
“About a third of all UK Internet users have a twitter profile; a
subset ...
GEFAHREN DURCH FEHLENDE
REPRÄSENTATIVITÄT
Diskussion: Menschen, die durch Big Data nicht repräsentiert sind
72
http://stre...
ETHIK
73
DISKUSSION
Informed Consent?
Öffentlichkeit der Daten?
Bislang keine Standards, aber Diskussionen.
74
4. ÜBUNG
75
LANDTAGSWAHL NRW 2012
76
• Vorgezogene Wahl am 13. Mai 2012.
• Rot-grüne Mehrheit, Kraft bleibt Ministerpräsidentin
• CDU ...
LANDTAGSWAHL BEI TWITTER
77
Hashtag Tweets
(27.03.-15.06.13)
#ltw12 5.656
#ltwnrw 11.116
#ltw2012 165
#ltwnrw12 1.621
#ltw...
78
PERSONEN UND PARTEIEN
BEI TWITTER
@nrwspd @gruenenrw @cdunrw_de
@fdp_nrw @dielinkenrw @piratennrw
79
PERSONEN UND PARTEIEN
BEI TWITTER
@hannelorekraft (Sylvia Löhrmann) (Norbert Röttgen)
@c_lindner Katharina Schwabedisse...
CSV IMPORTIEREN
80
CSV IMPORTIEREN
81
WER DISKUTIERT MIT?
Aufgabe: #nrw12 oder #ltw12 oder #tlwnrw Tweets öffnen
Nutzer identifizieren, die min. einen Tweet ges...
HASHTAG-DISKUSSION
27.03.-15.06.2013
83
10.438 User
Davon 5.048 mit mehr als 1 Tweet
2.046 mit mehr als 5 Tweets
0
100
200...
WAS MACHEN DIE
KANDIDATEN?
Aufgabe: einen der Kandidaten auswählen, Dateien
fromKandidat und atKandidat öffnen
Wie viele T...
NETZWERK:
BUNDESTAGSWAHL
85
following
85
Lietz, H., Wagner, C., Bleier, A., & Strohmaier, M. (2014). When politicians talk...
WEITERE EINBLICKE
#ltw12 Tweets
• Wie viele Tweets haben einen Geo-Code?
• Tweets im Zeitverlauf?
86
ZEITVERLAUF
BUNDESTAGSWAHL
87
Gummer, T., Roßmann, J., & Wolf, C. (2014). Candidates’ Twitter Use in the German Election 2...
88
ZEITVERLAUF
BUNDESTAGSWAHL
Gummer, T., Roßmann, J., & Wolf, C. (2014). Candidates’ Twitter Use in the German Election 2...
TWEET-INHALTE
1. Manuelle Codierung
• Ca. 10 Tweets lesen – was fällt auf?
2. Automatische Analyse möglich?
• Problem: deu...
DISKUSSION
Welche Fragestellungen wären interessant?
90
4. FAZIT & DISKUSSION
91
EINFLUSS?
Welche Rolle kann Big Data langfristig in den
Sozialwissenschaften spielen?
92
NEUE WISSENSCHAFT?
Data Science?
Computational Social Science?
„scientization of social research“
Welche neuen Fähigkeiten...
NEUE JOBS?
Data Journalist?
94
VIELEN DANK!
95
LITERATUR
Die Literaturliste ist verfügbar unter:
http://kwelle.wordpress.com/2014/04/12/big-data-links-and-literature/
96
Upcoming SlideShare
Loading in …5
×

Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

4,074 views

Published on

Presentation at „Big Data“ Workshop for research group Political Communication in the Online World.
Düsseldorf, 13.04.2014.

Published in: Social Media

Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

  1. 1. BIG DATAGEWINNUNG, AUSWERTUNG UND DARSTELLUNG GROßER MENGEN ONLINEGENERIERTER DATEN IN DEN SOZIALWISSENSCHAFTEN WORKSHOP AN DER HEINRICH-HEINE-UNIVERSITÄT DÜSSELDORF 13.04.2014 DOZENTIN: KATRIN WELLER UND KOMMENTARE VON: MERJA MAHRT
  2. 2. WILLKOMMEN! Dr. Katrin Weller GESIS Leibniz Institut für Sozialwissenschaften katrin.weller@gesis.org @kwelle http://katrinweller.net Dr. Merja Mahrt Heinrich-Heine-Universität Düsseldorf mahrt@phil.uni-duesseldorf.de https://www.phil-fak.uni-duesseldorf.de/kmw- weiss/mitarbeiterinnen/dr-merja-mahrt/ 2
  3. 3. 1. EINFÜHRUNG 3
  4. 4. „I keep saying that the sexy job in the next 10 years will be statisticians,“ said Hal Varian, chief economist at Google. „And I’m not kidding.“ „The ability to take data - to be able to understand it, to process it, to extract value from it, to visualize it, to communicate it - that's going to be a hugely important skill in the next decades...“ http://www.mckinsey.com/insights/innovation/hal_varian_on_how_the_web_challenges_managers 4
  5. 5. 5 Google Trends Suche „big data“
  6. 6. 6 Amazon Suche „big data“
  7. 7. WIE GROß IST GROß? • Datensätze, die nur von Supercomputern bearbeitet werden können? • Terabyte, Petabytes und Exabytes? • So groß, dass man die Daten nicht mehr händisch analysieren kann? 7
  8. 8. BIG DATA (FRÜHER) „large surveys such as th NCVS may have 60,000 or more observations, and only recently has research begun on how to plot these massive datasets“ 1996, Fesco et al. aus: Unwin, A. / Theus, M. / Hofmann, H., Graphics of Large Datasets. Visualizing a Million (= Statistics and Computing), Springer 2006. Beispiele via Thomas Rahlf „the analysis of data recorded by Tel-Star, an early communication satellite, involved tens of thousands of observations and challenged contemporary computing technology“ 1965, Chambers „restricted in their analysis because the software there could only handle 88,000 real numbers.“ 1981, Aitken et al. 8
  9. 9. >900 Millionen Facebook-Nutzer, 30 Petabyte Daten (täglich kommen etwa 15 Terabyte hinzu ) täglich zu verarbeitendes Datenvolumen bei Facebook: 500 Terabyte, (mehr als das zehnfache der täglichen Datenproduktion der Detektoren des großen Teilchenbeschleunigers im Forschungszentrum Cern) Youtube: vier Milliarden Views pro Tag, davon 500 Millionen mobil. App-Store (2008 eröffnet): 25 Milliarden Downloads (2012) Google-Earth: > 1 Milliarde Downloads 400 Millionen Twitter Tweets weltweit pro Tag BIG DATA (HEUTE) 9 Beispiele via Thomas Rahlf
  10. 10. ARTEN VON BIG DATA? • Naturwissenschaftliche Forschung: z.B. Klimadaten, Genetik („Big Science“) • Finanz-Sektor: Börsendaten, Bankbewegungen • Gesundheitswesen: z.B.Krankenhausdaten, Krankmeldungen • Verwaltungsdaten aus öffentlichen Einrichtungen) / Open Governmental Data (auch unter Linked Open Data) • Kundendaten: z.B. Kassendaten, Telefonverbindungsdaten, Treukartendaten • Social Media Daten: Aktionen und Kommentare z.B. auf Facebook, Youtube, Wikipedia • Andere Online-Nutzungsdaten: z.B. Suchanfragen, Seitenaufrufe, Online-Käufe, Bewertungen • Gerätedaten / Sensordaten: z.B. GPS-Signale aus Navigationssystemen, RFID Chips 10
  11. 11. AKTEURE 11 “Big Data is a Big Deal” http://www.whitehouse.gov/blog/2012/03/29/big-data-big-deal
  12. 12. AKTEURE • Wissenschaft: immer mehr Disziplinen, z.B. Informatik, Bio- Informatik, Physik, Wirtschaftswissenschaft, Mathematik, Politikwissenschaft, Soziologie… • Privatwirtschaft: Unternehmen als Datenerzeuger und Besitzer; Marktforschung • Öffentlicher Sektor / Verwaltung • Politik / Geheimdienste • Nutzer: Citizen Science / Crowdsourcing 12
  13. 13. BIG DATA, SMALL DATA? NEW DATA! 13 Diskussion: Was liefern diese Daten Neues? • Möglichkeiten für zeitnahe Analysen und Prognosen • Entdeckung von Unregelmäßigkeiten (z.B. Epidemien, Finanzen), Entscheidungshilfe in Krisensituationen. Diskussion: Woher kommt der Hype? • Bessere Rechnerkapazität • Zunehmend „beiläufige“ Datenerzeugung
  14. 14. FAZIT • Es gibt keine einheitliche Definition für Big Data – die Einschätzung, was als „big“ gilt, ist stark kontextabhängig und kann sich im Laufe der Zeit verändern. • Unterschiedliche Akteure haben unterschiedliche Interessen im Umgang mit Big Data. 14
  15. 15. 2. MÖGLICHKEITEN UND BEISPIELE 15
  16. 16. BEISPIEL-TYPEN 16 Ansätze Agrregierte Daten auslesen Prognosen Textanalysen (CL) Sentiment analysis Event detection Worthäufigkeit Netzwerke Geo-Analysen
  17. 17. Ansätze Agrregierte Daten auslesen Prognosen Textanalysen (CL) Sentiment analysis Event detection Worthäufigkeit Netzwerke Geo-Analysen BIG DATA IN DEN SOZIALWISSENSCHAFTEN 17 Wahlvorhersage Politische Stimmungen, Kundenzufriedenheit Politische Krisen erkennen Akteursnetze, z.B. Politiker Ortsbezug bei Meinungsanalysen
  18. 18. VORHERSAGEN 18
  19. 19. DER KLASSIKER 19 http://www.google.org/flutrends/de/#DE-NW
  20. 20. GOOGLE FLU TRENDS “In short, the initial version of GFT was part flu detector, part winter detector.“ (Lazer et al., 2014) • Googles Ergebnisse sind nicht besser als „klassische“ Vorhersagedaten. • Aber: Kombination ist sinnvoll. 20 Lazer, D., Kennedy, R., King, G., & Vespignani, A. (2014). The parable of Google Flu: Traps in big data analysis. Science, 343(6176), 1203-1205.
  21. 21. ARBEITSLOSIGKEIT Nikolaos Askitas / Klaus F. Zimmermann, Google Econometrics and Unemployment Forecasting, Forschungsinstitut zur Zukunft der Arbeit IZA DP No. 4201. June 2009. Daten: Google 21
  22. 22. WAHLERGEBNISSE 22 Metaxas, P. T., Mustafaraj, E., & Gayo-Avello, D. (2011, 9-11 Oct. 2011). How (not) to predict elections. Paper presented at the Privacy, security, risk and trust (passat) conference, Boston, MA. Doi: 10.1109/PASSAT/SocialCom.2011.98
  23. 23. WEITERE ANSÄTZE • Eurovision Song Contest Sieger • Box Office Revenue • Aktienkurse, Wechselkurse • … 23
  24. 24. STIMMUNGEN 24
  25. 25. Northeastern University and Harvard University Daten: Twitter. http://www.ccs.neu.edu/home/amislove/twittermood/ 25
  26. 26. 00000000 000 Rahlf, T. (2014). Datendesign mit R: 100 Visualisierungsbeispiele. München: open source press. Daten: Facebook 26
  27. 27. WER SPRICHT ÜBER… 27
  28. 28. SENTIMENT ANALYSE FÜR POLITIK-TWEETS 28 Bakliwal, et al. (2013). Sentiment Analysis of Political Tweets: Towards an Accurate Classifier. In Workshop on Language Analysis in Social Media (LASM 2013), Atlanta, Georgia, US. Retrieved from: http://www.mpi- sws.org/~cristian/LASM_2013_files/LASM/pdf/LASM06.pdf
  29. 29. GEO-DATEN 29
  30. 30. MOBILITÄT Livehood Project Daten: Foursquare (via Twitter) http://livehoods.org/maps/montreal 30
  31. 31. 31 ALLTAG http://www.nytimes.com/interactive/2009/11/26/us/20091126-search-graphic.html?_r=0 Daten aus: Allrecipes.com
  32. 32. WEITERE ANSÄTZE • Mietspiegel, z.B. mit Immobilienscout. • Naturkatastrophen • Sprachgebrauch 32 http://www.guardian.co.uk/news/datablog/2012/nov/28/data- shadows-twitter-uk-floods-mapped#zoomed-picture
  33. 33. NETZWERKE 33
  34. 34. WER KENNT WEN? 34 Facebook (Paul Butler) Daten: Facebook https://www.facebook.com/note.php?note_id=469716398919
  35. 35. INTERAKTION 35 Paßmann, J., Boeschoten, T., & Shäfer, M.T. (2014). The Gift of the Gab: Retweet Cartels and Gift Economies on Twitter. In K. Weller, A. Bruns, J. Burgess, M. Mahrt & C. Puschmann (Eds.), Twitter and Society. New York et al.: Peter Lang.
  36. 36. WEITERE DATEN FÜR SOZIALWISSENSCHAFTLER? • Ebay: Kaufverhalten, Preisentwicklung • Wikipedia: Versionshistorie von „umstrittenen“ Themen. • Google: Häufigkeiten von Suchbegriffen • Kommentare • Bewertungen: Amazon, Movie Ratings, … • Video on Demand: Netflix, Lovefilm, YouTube, … • TV-Backchannel: z.B. Twitter • RFID Chips für Interaktionen • Voting Advice Applications: Wahl-O-Mat 36
  37. 37. CASE STUDIES 37
  38. 38. BEISPIEL: TWITTER & WAHLEN 38 0 10 20 30 40 50 60 2008 2009 2010 2011 2012 2013 Twitter and elections (Scopus and Web of Science) Weller, K (im Druck): Twitter und Wahlen: Zwischen 140 Zeichen und Milliarden von Tweets. Erscheint in: R. Reichert (Hrsg), Big Data: Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie. Transcript.
  39. 39. Year of election Name of election Country/region No. of papers (2013) Date of election 2008 40th Canadian General Election Canada 1 14.10.20 08 2009 European Parliament election, 2009 Europe 1 07.06.20 09 2009 German federal election, 2009 Germany 2 27.09.20 09 2010 2010 UK general election United Kingdom 4 06.05.20 10 2010 South Korean local elections, 2010 South Korea 1 02.06.20 10 2010 Dutch general election, 2010 Netherlands 2 09.06.20 10 2010 Australian federal election, 2010 Australia 1 21.08.20 10 2010 Swedish general election, 2010 Sweden 1 19.09.20 10 2010 Midterm elections / United States House of Representatives elections, 2010 USA 4 02.11.20 10 2010 Gubernational elections: Georgia USA 1 02.11.20 10 2010 Gubernational elections: Ohio USA 1 02.11.20 10 2010 Gubernational elections: Rhode Island USA 1 02.11.20 10 2010 Gubernational elections: Vermont USA 1 02.11.20 10 2010 2010 superintendent elections South Korea 1 17.12.20 10 2011 Baden-Württemberg state election, 2011 Germany 1 27.03.20 11 2011 Rhineland-Palatinate state election, 2011 Germany 1 27.03.20 11 2011 Scottish parliament election 2011 Scotland 1 05.05.20 11 2011 Singapore’s 16th parliamentary General Election Singapore 1 07.05.20 11 2011 Norwegian local elections, 2011 Norway 2 12.09.20 11 2011 2011 Danish parliamentary election Denmark 2 15.09.20 11
  40. 40. 2011 Scottish parliament election 2011 Scotland 1 05.05.20 11 2011 Singapore’s 16th parliamentary General Election Singapore 1 07.05.20 11 2011 Norwegian local elections, 2011 Norway 2 12.09.20 11 2011 2011 Danish parliamentary election Denmark 2 15.09.20 11 2011 Berlin state election, 2011 Germany 2 18.09.20 11 2011 Gubernational elections: West Virginia USA 1 04.10.20 11 2011 Gubernational elections: Louisiana USA 1 22.10.20 11 2011 Swiss federal election, 2011 Switzerland 1 23.10.20 11 2011 2011 Seoul mayoral elections South Korea 1 26.10.20 11 2011 Gubernational eletions: Kentucky USA 1 08.11.20 11 2011 Gubernational elections: Mississippi USA 1 08.11.20 11 2011 Spanish national election 2011 Spain 1 20.11.20 11 2012 Queensland State election Australia 1 24.03.20 12 2012 South Korean legislative election, 2012 South Korea 1 11.04.20 12 2012 French presidential election, 2012 France 2 22.04.20 12 2012 Mexican general election, 2012 Mexico 1 01.07.20 12 2012 United States presidential election, 2012 / United States House of Representatives elections, 2012 USA 17 06.11.20 12 2012 South Korean presidential election, 2012 South Korea 2 19.12.20 12 2013 Ecuadorian general election, 2013 Ecuador 1 17.02.20 13 2013 Venezuelan presidential election, 2013 Venezuela 1 14.04.20 13 2013 Paraguayan general election, 2013 Paraguay 1 21.04.20 13
  41. 41. BIG DATA? 2013: TWITTER AND ELECTION No. of Tweets No. Of publications (2013) 0-500 3 501-1.000 4 1.001-5.000 1 5.001-10.000 1 10.001-50.000 7 50.001-100.000 4 100.001-500.000 5 500.001-1.000.000. 3 1.000.001-5.000.000 3 mehr als 5.000.000 3 mehr als 100.000.000 1 mehr als 1.000.000.000 1 keine/ungenaue Angabe 13
  42. 42. METHODEN Methodisch unterscheiden sich die Studien weiter darin, ob sie... • Tweet-Inhalte analysieren (automatisch mit Sprachverarbeitungsprogrammen oder manuell codiert), • Nutzer-Profile und Nutzer-Netzwerke vermessen, • Tweet-Typen unterscheiden • oder URLs in Tweets untersuchen. • Neben Wahlvorhersagen können auch Verfahren zur automatischen Erkennung von Stimmungen in Tweets (Sentiment Analyse) als wiederkehrende Thematik indentifiziert werden. Knapp mehr als die Hälfte der betrachteten Studien (26 von 49) setzen die Twitter-Datensätze mit anderen Daten in Beziehung. Dabei kann es sich sowohl um Wahlprognosen und Wahlergebnisse oder Umfragedaten handeln, als auch um Daten aus anderen Social-Media-Diensten wie Facebook oder Blogs. 42 Weller, K (im Druck): Twitter und Wahlen: Zwischen 140 Zeichen und Milliarden von Tweets. Erscheint in: R. Reichert (Hrsg), Big Data: Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie. Transcript.
  43. 43. BEISPIEL: POLITISCHE KOMMUNIKATION 43 Scharkow, M., & Vogelgesang, J. (2011). Measuring the public agenda using search engine queries. International Journal of Public Opinion Research, 23(1), 104-113. doi: 10.1093/ijpor/edq048
  44. 44. BEISPIEL: MEDIALE KOMMUNIKATION 44 Groshek, J., & Groshek, M. C. (2013). Agenda trending: Reciprocity and the predictive capacity of social networking sites in intermedia agenda setting across topics over time. Media and Communication, 1(1), 15-27. doi: 10.12924/mac2013.01010015
  45. 45. FAZIT Big Data, die für Sozialwissenschaftler interessant sind, sind nicht unbedingt die größten Datensätze. Entscheidend ist hier die Art der Daten und die damit verbundenen ggf. neuartigen Einblicke. Die neuen Daten werfen aber auch viele neue Fragen auf, v.a. bezüglich der Methoden. 45
  46. 46. 3. METHODEN UND HERAUSFORDERUNGEN 46
  47. 47. 47 METHODEN (IN DER SOZIALW. TWITTER FORSCHUNG) Weller, K. (in press). What do we get from Twitter – and what not? A close look at Twitter research in the social sciences. Knowledge Organization.
  48. 48. QUELLEN FÜR BIG DATA • Application Programming Interface (API) • Web Crawling • Reseller • Crowdsourcing (z.B. 23andMe) • Bislang kaum: Datenarchive, Korpora. 48
  49. 49. 49
  50. 50. DATENSAMMLUNG Datenquelle Anzahl Keine Angabe 11 Manuelle Datensammlung auf der Twitter-Website (Copy-Paste / Screenshot) 6 Twitter API (one näheren Angaben) 8 Twitter Search API 3 Twitter Streaming API 1 Twitter Rest API 1 Twitter API user timeline 1 Selbstgeschriebenes Programm mit Zugriff auf Twitter APIs 4 Twitter Gardenhose 1 Offizielle Reseller (Gnip, DataSift) 3 YourTwapperKeeper 3 Andere Drittanbieter (z.B. Topsy) 6 Von Kooperationspartner erhalten 1 50 Weller, K (im Druck): Twitter und Wahlen: Zwischen 140 Zeichen und Milliarden von Tweets. Erscheint in: R. Reichert (Hrsg), Big Data: Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie. Transcript. Twitter and Election (2013 papers)
  51. 51. TOOLS ZUR DATENSAMMLUNG UND -ANALYSE 51
  52. 52. DIGITAL METHODS INITIATIVE https://wiki.digitalmethods.net/Dmi/ToolDatabase
  53. 53. GNIP
  54. 54. TOPSY
  55. 55. YOURTWAPPERKEEPER
  56. 56. NODEXL Network Analysis Sammelt Daten aus (u.a.): Facebook, Twitter, YouTube, Flickr, Wikipedia
  57. 57. NODEXL NodeXLGraphGallery.org
  58. 58. GEPHI
  59. 59. Stephen Wolfram Daten: Facebook http://blog.stephenwolfram.com/2013/04/data-science-of-the-facebook-world/ 59 ALTERNATIVE: CROWDSOURCING
  60. 60. 60 Stephen Wolfram Daten: Facebook http://blog.stephenwolfram.com/2013/04/data-science-of-the-facebook-world/
  61. 61. TECHNISCHE HERAUSFORDERUNGEN 61
  62. 62. TECHNISCHE HERAUSFORDERUNGEN • Zugänglichkeit • Data Sharing • Änderungen • Manipulation (z.B. Twitter Bomb) & Spam • Personalisierte Ergebnisse  Fehlende Reproduzierbarkeit und Nachvollziehbarkeit 62
  63. 63. ENDE DER THEORIE? 63 because it’s there? Big Data vs. Found Data
  64. 64. ENDE DER THEORIE? Sozialwissenschaften 1. Problem 2. Forschungsfrage/ Hypothesen 3. Theorien 4. Methoden 5. Daten 6. Analyse 7. Ergebnispräsentation 64 Typische Big Data-Analyse 1. Methoden 2. Daten 3. Analyse 4. Ergebnispräsentation 5. Problem Korrelation vs. Kausalität Pfeffer, J. (2013). Big data, big research? Opportunities and constraints for computer supported social science. Keynote zur „Digital methods“-Tagung der DGPuK-Fachgruppe Computervermittelte Kommunikation, Wien. Abgerufen von http://www.pfeffer.at/slides/DigitalMethods-BigData.pdf
  65. 65. ANFANG DER THEORIE? “The interesting point is that these limitations can (and have to) be addressed by theory guided research that is typically conducted by social scientists. Accordingly, opportunities emerge for those social and behavioral scientists who are willing to collaborate with the Big Data researchers in the natural, engineering, and computer sciences.” 65 Snijders, C., Matzat, U., & Reips, U.-D. (2012). ‘Big Data’: Big gaps of knowledge in the field of Internet. International Journal of Internet Science, 7, 1-5. Retrieved from http://www.ijis.net/ijis7_1/ijis7_1_editorial.html
  66. 66. METHODENPROBLEME “There are a lot of small data problems that occur in big data,” says Spiegelhalter. “They don’t disappear because you’ve got lots of the stuff. They get worse.” Tim Harford (2014): Big data: are we making a big mistake? FT Magazine, retrieved from: http://www.ft.com/cms/s/2/21a6e7d8-b479-11e3-a09a- 00144feabdc0.html#axzz2xGqAnW8a?utm_source=pocket&utm_medium=email&utm_campaign=pockethits 66
  67. 67. REPRÄSENTATIVITÄT “The core challenge is that most big data that have received popular attention are not the output of instruments designed to produce valid and reliable data amenable for scientific analysis.“ 67 Lazer, D., Kennedy, R., King, G., & Vespignani, A. (2014). The parable of Google Flu: Traps in big data analysis. Science, 343(6176), 1203-1205.
  68. 68. REPRÄSENTATIVITÄT Sampling Bias N = All 68
  69. 69. REPRÄSENTATIVITÄT 69 Blank, G. (2014). Who uses Twitter? Representativeness of Twitter Users. Presentation at General Online Research GOR 14. Retrieved from: http://conftool.gor.de/conftool14/index.php?page=downloadPaper&filename=Blank- Who_uses_Twitter_Representativeness-119.pptx&form_id=119&form_version=final 13 29 14 44 17 51 32 56 44 69 54 74 44 82 67 87 75 87 73 99 0 20 40 60 80 100 ViceCreative produc- tion Blog- ging School & work Info- tain- ment Commer- cial activity Enter- tain- ment Classic news Infor- mation seeking Social- ize OxIS current users: 2013 N=1,613 Figure 2: Activities of Twitter Users & Non-users Twitter user Non-user
  70. 70. REPRÄSENTATIVITÄT 70 Blank, G. (2014). Who uses Twitter? Representativeness of Twitter Users. Presentation at General Online Research GOR 14. Retrieved from: http://conftool.gor.de/conftool14/index.php?page=downloadPaper&filename=Blank- Who_uses_Twitter_Representativeness-119.pptx&form_id=119&form_version=final 34 26 8 12 18 14 10 17 12 23 28 3330 35 0 20 40 60 80 100 InterestPolitical activities Interest in politics Send political message Contact MP online Re-post political news Political comment on SNS Find political facts Sign online petition OxIS current users: 2013 N=1,613 Figure 6: Political Activities of Twitter Users Twitter user Non-user
  71. 71. REPRÄSENTATIVITÄTS- PROBLEME AUF MEHREREN EBENEN “About a third of all UK Internet users have a twitter profile; a subset of that group are the active tweeters who produce the bulk of content; and then a tiny subset of that group (about 1%) geocode their tweets (essential information if you want to know about where your information is coming from).” 71 Graham M. (2012). Big data and the end of theory?". The Guardian. Retrieved from: http://www.theguardian.com/news/datablog/2012/mar/09/big-data-theory
  72. 72. GEFAHREN DURCH FEHLENDE REPRÄSENTATIVITÄT Diskussion: Menschen, die durch Big Data nicht repräsentiert sind 72 http://streetbump.org Siehe auch: http://www.wired.com/2014/03/potholes-big-data- crowdsourcing-way-better-government/
  73. 73. ETHIK 73
  74. 74. DISKUSSION Informed Consent? Öffentlichkeit der Daten? Bislang keine Standards, aber Diskussionen. 74
  75. 75. 4. ÜBUNG 75
  76. 76. LANDTAGSWAHL NRW 2012 76 • Vorgezogene Wahl am 13. Mai 2012. • Rot-grüne Mehrheit, Kraft bleibt Ministerpräsidentin • CDU schlechtestes Ergebnis seit 1947, Rücktritt Röttgen • Piratenpartei erstmals im Landtag • Linke scheitert an 5%-Hürde http://de.wikipedia.org/wiki/Landtagswahl_in_Nordrhein-Westfalen_2012
  77. 77. LANDTAGSWAHL BEI TWITTER 77 Hashtag Tweets (27.03.-15.06.13) #ltw12 5.656 #ltwnrw 11.116 #ltw2012 165 #ltwnrw12 1.621 #ltwnrw2012 27 #nrw12 41.106 #nrw2012 1.991 Total (ohne Dubletten) 56.145 Demmer, C.J., & Weller, K. (2013). Stimmungsschwankungen bei Twitter? Eine Sentiment-Analyse anhand von Tweets nach der Landtagswahl in Nordrhein-Westfalen 2012. In H.-C. Hobohm (Ed.), Proceedings of the 13th International Symposium of Information Science (ISI 2013), Potsdam, March 2013 (pp. 482-485). Glückstadt: Hülsbusch.
  78. 78. 78 PERSONEN UND PARTEIEN BEI TWITTER @nrwspd @gruenenrw @cdunrw_de @fdp_nrw @dielinkenrw @piratennrw
  79. 79. 79 PERSONEN UND PARTEIEN BEI TWITTER @hannelorekraft (Sylvia Löhrmann) (Norbert Röttgen) @c_lindner Katharina Schwabedissen @Nick_Haflinger
  80. 80. CSV IMPORTIEREN 80
  81. 81. CSV IMPORTIEREN 81
  82. 82. WER DISKUTIERT MIT? Aufgabe: #nrw12 oder #ltw12 oder #tlwnrw Tweets öffnen Nutzer identifizieren, die min. einen Tweet geschrieben haben. Wie viele Nutzer haben genau einen Tweet? Wie sieht die Verteilung der Tweets pro User aus? Wer sind die fünf aktivsten Nutzer? 82
  83. 83. HASHTAG-DISKUSSION 27.03.-15.06.2013 83 10.438 User Davon 5.048 mit mehr als 1 Tweet 2.046 mit mehr als 5 Tweets 0 100 200 300 400 500 600 700 1 501 1001 1501 2001 Tweets pro User
  84. 84. WAS MACHEN DIE KANDIDATEN? Aufgabe: einen der Kandidaten auswählen, Dateien fromKandidat und atKandidat öffnen Wie viele Tweets hat „ihr Kandidat“ veröffentlicht? Wie viele @messages und Retweets hat „ihr“ Kandidat erhalten? Was wurde besonders häufig geretweetet? 84
  85. 85. NETZWERK: BUNDESTAGSWAHL 85 following 85 Lietz, H., Wagner, C., Bleier, A., & Strohmaier, M. (2014). When politicians talk: Assessing online conversational practices of political parties on twitter. In International AAAI Conference on Weblogs and Social Media (ICWSM2014), Ann Arbor, MI, USA, June 2-4, 2014. mentioningretweeting
  86. 86. WEITERE EINBLICKE #ltw12 Tweets • Wie viele Tweets haben einen Geo-Code? • Tweets im Zeitverlauf? 86
  87. 87. ZEITVERLAUF BUNDESTAGSWAHL 87 Gummer, T., Roßmann, J., & Wolf, C. (2014). Candidates’ Twitter Use in the German Election 2013. Presentation at the General Online Research 2014, Cologne, Germany.
  88. 88. 88 ZEITVERLAUF BUNDESTAGSWAHL Gummer, T., Roßmann, J., & Wolf, C. (2014). Candidates’ Twitter Use in the German Election 2013. Presentation at the General Online Research 2014, Cologne, Germany.
  89. 89. TWEET-INHALTE 1. Manuelle Codierung • Ca. 10 Tweets lesen – was fällt auf? 2. Automatische Analyse möglich? • Problem: deutschsprachige Texte • http://sentistrength.wlv.ac.uk/ ausprobieren mit einzelnen englischen Tweets (z.B. Twitter suche nach election https://twitter.com/search) 89
  90. 90. DISKUSSION Welche Fragestellungen wären interessant? 90
  91. 91. 4. FAZIT & DISKUSSION 91
  92. 92. EINFLUSS? Welche Rolle kann Big Data langfristig in den Sozialwissenschaften spielen? 92
  93. 93. NEUE WISSENSCHAFT? Data Science? Computational Social Science? „scientization of social research“ Welche neuen Fähigkeiten müssen erlernt werden? Verändert sich die Fachausbildung? 93
  94. 94. NEUE JOBS? Data Journalist? 94
  95. 95. VIELEN DANK! 95
  96. 96. LITERATUR Die Literaturliste ist verfügbar unter: http://kwelle.wordpress.com/2014/04/12/big-data-links-and-literature/ 96

×