0
STREETFIGHTING DATA SCIENCE

Joerg Blumtritt & Benedikt Koehler

1
Michele Banko und Eric Brill 2001: http://acl.ldc.upenn.edu/P/P01/P01-1005.pdf
DATA SCIENCE

3
DATA SCIENCE

http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
DATA SCIENTISTS?

http://www.forbes.com/sites/danwoods/2012/03/08/hilary-mason-what-is-a-data-scientist/
STREET FIGHTING DATA SCIENCE
• Umnutzen vorhandener
Daten (Tweets -> Bewegungsgeschwindigkeit)
• Umwidmen von
Methoden (Bi...
DATA SCIENCE 101
1. Daten erzeugen Sammeln
2. Daten ablegen / abrufen (=wiederfinden)
3. Daten bereinigen
4. Daten analysi...
TOOLS FINDEN

http://github.com

8
CRAWLING
• HTTrack Website Copier etc.
• Simple Web Crawler in Python

9
TEXTANALYSE
Wort
Aar

Limburg
1

Aartalbahn
Aartalhalle
Abbild
Abbildung
aber
Abgaben

1
2
7
1

abgegrenzten
Abgeordnete

...
TEXTANALYSE
jbenno X tirsales: 0.875271765478
jbenno X christiansoeder: 0.867212021813
jbenno X afelia: 0.846274132298
jbe...
NETZWERKANALYSE

12
13
14
15
N-GRAMME

Google Ngram Viewer http://books.google.com/ngrams + DB http://books.google.com/ngrams/datasets
WORDNET
• WordNet:
semantische
und lexikalische
Bedeutung von
Wörtern
• Daraus z.B.
Wörter mit
Stimmungen
identifizierbar
...
N-GRAMME + WORDNET
• Emotionen im Zeitverlauf

Acerbi et al 2013 http://www.plosone.org/article/info:doi/10.1371/journal.p...
FOOD PAIRINGS

Ahn et al 2011 http://www.nature.com/srep/2011/111215/srep00196/full/srep00196.html
FOOD PAIRINGS

Ahn et al 2011 http://www.nature.com/srep/2011/111215/srep00196/full/srep00196.html
FOOD PAIRINGS

Ahn et al 2011 http://www.nature.com/srep/2011/111215/srep00196/full/srep00196.html
GOOGLE CORRELATE

Google Correlate www.google.com/trends/correlate
FUNNEL PLOTS

http://www.cochrane-net.org/openlearning/html/mod15-3.htm
TWITTER TAGS
http://mashe.hawksey.info/2013/02/twitter-archive-tagsv5/
Item
id_str
from_user
text

Value
35609270280010500...
NODEXL – NETZWERK-ANALYSE

NodeXL http://nodexl.codeplex.com/
FLICKR FÜR TOURISTEN

Eric Fischer „See something or say something“http://www.flickr.com/photos/walkingsf/5935471000/in/se...
OPENPATHS

27

http://openpaths.cc
WEATHER SIGNAL

28
FUNF.ORG

29
NOCH EIN PAAR LINKS:
http://twitter.com/jbenno/bigdata
http://strataconf.com/
http://www.r-bloggers.com/
http://oreilly.co...
Joerg Blumtritt
@jbenno
Datarella GmbH
Oskar-von-Miller-Ring 36
80333 München
089/44 23 69 99
info@datarella.com
Upcoming SlideShare
Loading in...5
×

Streetfighting datascience

212

Published on

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
212
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
3
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Transcript of "Streetfighting datascience"

  1. 1. STREETFIGHTING DATA SCIENCE Joerg Blumtritt & Benedikt Koehler 1
  2. 2. Michele Banko und Eric Brill 2001: http://acl.ldc.upenn.edu/P/P01/P01-1005.pdf
  3. 3. DATA SCIENCE 3
  4. 4. DATA SCIENCE http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
  5. 5. DATA SCIENTISTS? http://www.forbes.com/sites/danwoods/2012/03/08/hilary-mason-what-is-a-data-scientist/
  6. 6. STREET FIGHTING DATA SCIENCE • Umnutzen vorhandener Daten (Tweets -> Bewegungsgeschwindigkeit) • Umwidmen von Methoden (BioTech -> Sozialwissenschaften) • Agile Ad-hoc-Analysen • Improvisation http://en.wikipedia.org/wiki/File:Fightingmanstones.jpg
  7. 7. DATA SCIENCE 101 1. Daten erzeugen Sammeln 2. Daten ablegen / abrufen (=wiederfinden) 3. Daten bereinigen 4. Daten analysieren 5. Daten visualisieren 7
  8. 8. TOOLS FINDEN http://github.com 8
  9. 9. CRAWLING • HTTrack Website Copier etc. • Simple Web Crawler in Python 9
  10. 10. TEXTANALYSE Wort Aar Limburg 1 Aartalbahn Aartalhalle Abbild Abbildung aber Abgaben 1 2 7 1 abgegrenzten Abgeordnete 1 1 Abgeordneter abgerissen Abgerufen abgeschlossen abgetrennt Abitur 1 Abschluss Abschnitt 10 Abschnitten 1 2 1 Stockdorf Taunusstein 2 1 1 1 1 Cos(Taunusstein, Stockdorf) 0,75 Cos(Stockdorf, Limburg) 0,81 Cos(Taunusstein, Limburg) 0,76 3 3 1 1 2 1
  11. 11. TEXTANALYSE jbenno X tirsales: 0.875271765478 jbenno X christiansoeder: 0.867212021813 jbenno X afelia: 0.846274132298 jbenno X sekor: 0.839620669666 jbenno X sommercharlie: 0.798025077486 jbenno X zinken: 0.762690512216 jbenno X djanecek: 0.746300186002 jbenno X holadiho: 0.718939291016 jbenno X furukama: 0.674379861632 jbenno X schlenzalot: 0.664230808291 jbenno X dr_ultra: 0.627733894581 jbenno X praetorius: 0.586885278055 Analyse 2012 von Benedikt Köhler ( http://blog.metaroll.de ) 11
  12. 12. NETZWERKANALYSE 12
  13. 13. 13
  14. 14. 14
  15. 15. 15
  16. 16. N-GRAMME Google Ngram Viewer http://books.google.com/ngrams + DB http://books.google.com/ngrams/datasets
  17. 17. WORDNET • WordNet: semantische und lexikalische Bedeutung von Wörtern • Daraus z.B. Wörter mit Stimmungen identifizierbar (WN Affect) WordNet http://wordnet.princeton.edu/ WordNet Affect http://wndomains.fbk.eu/wnaffect.html
  18. 18. N-GRAMME + WORDNET • Emotionen im Zeitverlauf Acerbi et al 2013 http://www.plosone.org/article/info:doi/10.1371/journal.pone.0059030
  19. 19. FOOD PAIRINGS Ahn et al 2011 http://www.nature.com/srep/2011/111215/srep00196/full/srep00196.html
  20. 20. FOOD PAIRINGS Ahn et al 2011 http://www.nature.com/srep/2011/111215/srep00196/full/srep00196.html
  21. 21. FOOD PAIRINGS Ahn et al 2011 http://www.nature.com/srep/2011/111215/srep00196/full/srep00196.html
  22. 22. GOOGLE CORRELATE Google Correlate www.google.com/trends/correlate
  23. 23. FUNNEL PLOTS http://www.cochrane-net.org/openlearning/html/mod15-3.htm
  24. 24. TWITTER TAGS http://mashe.hawksey.info/2013/02/twitter-archive-tagsv5/ Item id_str from_user text Value 356092702800105000 winedanddined Picking up an orange wine (Arboreus) (@ Italian Wine Merchants) [pic]: http://t.co/u0xcPXTTSP Sat Jul 13 16:48:10 +0000 2013 13/07/2013 17:48:10 loc: 40.73580099,-73.98906051 en created_at time geo_coordinates user_lang in_reply_to_user_id_str in_reply_to_screen_nam from_user_id_str 18657048 in_reply_to_status_id_st source <a href="http://foursquare.com" rel="nofollow">foursquare</a> profile_image_url http://a0.twimg.com/profile_images/716129754/jump_normal.jpg user_followers_count 6925 user_friends_count 2754 user_utc_offset -18000 status_url http://twitter.com/winedanddined/statuses/356092702800105472 24 entities_str {"symbols":[],"urls":[{"expanded_url":"http://4sq.com/15qYMPc","indices
  25. 25. NODEXL – NETZWERK-ANALYSE NodeXL http://nodexl.codeplex.com/
  26. 26. FLICKR FÜR TOURISTEN Eric Fischer „See something or say something“http://www.flickr.com/photos/walkingsf/5935471000/in/set72157627140310742 and „Locals and Tourists“http://www.flickr.com/photos/walkingsf/4671578001/in/set72157624209158632
  27. 27. OPENPATHS 27 http://openpaths.cc
  28. 28. WEATHER SIGNAL 28
  29. 29. FUNF.ORG 29
  30. 30. NOCH EIN PAAR LINKS: http://twitter.com/jbenno/bigdata http://strataconf.com/ http://www.r-bloggers.com/ http://oreilly.com/ http://iognos.com/blog-3/ 30
  31. 31. Joerg Blumtritt @jbenno Datarella GmbH Oskar-von-Miller-Ring 36 80333 München 089/44 23 69 99 info@datarella.com
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×