Světový a český Twitter
          jako
 zdroj pro data mining




            Josef Šlerka, WebExpo 2009
Twitter.com
Twitter je poskytovatel sociální sítě a mikroblogu,
který umožňuje uživatelům posílat a číst příspěvky
zaslané...
Co je data mining
a jak se má k
Twitteru?
Data mining je analytická metodologie
získávání netriviálních skrytých a potenciálně
užitečných informací z dat. (Wikipedi...
Data mining Twitteru
- umožňuje využití všech klasických metod DM

- přidává jim čas a prostor

- díky tomu je lépe propoj...
Příklady takovýchto metod
- různé varianty sémantické distance či
podobnosti (Jaccardův index apod.)

- frekvenční analýzy...
Transmission News
aneb dejme API
dohromady pro lepší
analýzu
Transmission News - 5 API v jednom
          na adrese www. transnews.tw
Twitter API
Yahoo Geo
Open Calais (on-line semant...
www.transnews.tw
Jenže všechny tyhle
krásné věci naráží na
limit v Twitter API
Search API je omezeno
na počet dotazů, ale
hlavně omezuje hledání
v čase (v průměru 1,5
týdne do minulosti).
A proto vznikla aplikace
Vrabčák....
Český Twitter v číslech
    aneb Vrabčák
Užitá metodika aplikace Vrabčák 1.0
- od června 2009 zálohování twittů z lokace v
ČR pomocí API Twitteru v hodinových
inte...
Vrabčák 1.0 - čísla červen - září 2009
- celkem shromážděno přes 700.000 twittů

- od 10.628 unikátních uživatelů kteří o ...
Kolik má tedy český Twitter uživatelů?


   Česky píšících mezi 6.000 - 8.000
          Další 1.000 až 2.000
   preferují ...
Jaká je jejich dynamika?

 Každé čtyři týdny rostl počet uživatel, kteří
 alespoň jednou twittli česky průměrně o 25
     ...
Charekteristika česky psaných twittů?



2 % jsou RT
4 % obsahují hash
21.5 % tvoří odpovědi a konverzace
34.6 % obsahují ...
Jak mluví česká kotlina
na Twitteru?
Jazyková skladba twittů z České republiky

   angličtina    čeština    slovenština   němčina
   ostatní


                ...
Geografické rozložení Twittů mezi největší města
                    (červenec až září 2009)                    6. Liberec ...
Jak jde čas... a co s tím
Co víme, ale nevíme proč...
        aneb co se za pár měsíc naznačilo

- nejčastěji twittují Češi ve čtvrtek a v úterý, ne...
Predikce přítomnosti
Google vs. Twitter
MADONNA
 V PRAZE
13. 8. 2009
Madonna - srpen 2009 - Google search
Madonna - srpen 2009 - český twitter
Někdy je ale Twitter rychlejší a
predikuje tak i budoucí hledání na internetu
17. září v Ostravě
Rammstein - září 2009 - Google search
Rammstein - září 2009 - český Twitter




                          17.9.2009
Děkuji za pozornost.
 Otázky? Nápady?
 slerka@ataxo.com
Upcoming SlideShare
Loading in...5
×

Světový a český Twitter jako zdroj pro data mining

4,253

Published on

Přednáška na WebExpo 2009 o světovém a českém Twitteru.

Published in: Business

Světový a český Twitter jako zdroj pro data mining

  1. 1. Světový a český Twitter jako zdroj pro data mining Josef Šlerka, WebExpo 2009
  2. 2. Twitter.com Twitter je poskytovatel sociální sítě a mikroblogu, který umožňuje uživatelům posílat a číst příspěvky zaslané jinými uživateli, známé jako tweety. Tweety jsou textové příspěvky dlouhé maximálně 140 znaků, které se zobrazují na uživatelově profilové stránce a na stránkách jeho odběratelů (followers). (Wikipedia)
  3. 3. Co je data mining a jak se má k Twitteru?
  4. 4. Data mining je analytická metodologie získávání netriviálních skrytých a potenciálně užitečných informací z dat. (Wikipedie) Různé variace jsou pak: text mining, web mining a další včetně semantických analýz.
  5. 5. Data mining Twitteru - umožňuje využití všech klasických metod DM - přidává jim čas a prostor - díky tomu je lépe propojuje do skutečnosti než klasické dokumenty na webu - relativně snadné propojení s ostatními sociálními sítěmi (až 30 % uživatelů má jeden nickname pro všechny sítě) - možnost sledovat jak lidi, tak věci
  6. 6. Příklady takovýchto metod - různé varianty sémantické distance či podobnosti (Jaccardův index apod.) - frekvenční analýzy celkového korpusu členěné podle času (jsou lidé smutnější ráno nebo večer?) - frekvenční analýzy korpusu členěné podle místa (od marketingu po vědu) - identifikace opinion makerů v síti
  7. 7. Transmission News aneb dejme API dohromady pro lepší analýzu
  8. 8. Transmission News - 5 API v jednom na adrese www. transnews.tw Twitter API Yahoo Geo Open Calais (on-line semantický analyzér) Google Search AJAX Google Maps plus propojení na Wikipedii
  9. 9. www.transnews.tw
  10. 10. Jenže všechny tyhle krásné věci naráží na limit v Twitter API
  11. 11. Search API je omezeno na počet dotazů, ale hlavně omezuje hledání v čase (v průměru 1,5 týdne do minulosti).
  12. 12. A proto vznikla aplikace Vrabčák....
  13. 13. Český Twitter v číslech aneb Vrabčák
  14. 14. Užitá metodika aplikace Vrabčák 1.0 - od června 2009 zálohování twittů z lokace v ČR pomocí API Twitteru v hodinových intervalech - automatická detekce jazyka - pomocí frekvenčího slovníku zachycování možných českých autorů - komparace se zahraničními statistikami
  15. 15. Vrabčák 1.0 - čísla červen - září 2009 - celkem shromážděno přes 700.000 twittů - od 10.628 unikátních uživatelů kteří o sobě povolili údaj o lokaci (ČR) nebo twittli česky - z toho 5.880 alespoň jednou twittlo česky - jen 2.424 česky píšících uživatelů uvedlo svou lokaci (obvykle svou lokaci uvádí 30 procent uživatelů)
  16. 16. Kolik má tedy český Twitter uživatelů? Česky píšících mezi 6.000 - 8.000 Další 1.000 až 2.000 preferují pravděpodobně angličtinu Celkem tedy má český Twitter přibližně až 10.000 aktivních uživatelů
  17. 17. Jaká je jejich dynamika? Každé čtyři týdny rostl počet uživatel, kteří alespoň jednou twittli česky průměrně o 25 procent. Počet aktivních uživatelů roste mezi týdny jen o 3 až 5 procent. Absolutní počty twittů rostou také o 25 procent zhruba po 4 týdnech.
  18. 18. Charekteristika česky psaných twittů? 2 % jsou RT 4 % obsahují hash 21.5 % tvoří odpovědi a konverzace 34.6 % obsahují link
  19. 19. Jak mluví česká kotlina na Twitteru?
  20. 20. Jazyková skladba twittů z České republiky angličtina čeština slovenština němčina ostatní 13% 4% 7% 44% 33%
  21. 21. Geografické rozložení Twittů mezi největší města (červenec až září 2009) 6. Liberec 14178x 1. Praha 247685x en - 9561x ~ 67.44% en - 116580x ~ 47.07% cs - 2864x ~ 20.20% cs - 79957x ~ 32.28% 9 měst Praha ostatní sk - 462x ~ 3.26% sk - 16449x ~ 6.64% 7. České Budějovice 2. Brno 37021x 6219x en - 16104x ~ 43.50% cs - 2589x ~ 41.63% cs - 14753x ~ 39.85% en - 1386x ~ 22.29% sk - 3360x ~ 9.08% es - 551x ~ 8.86% 3. Ostrava 23836x 8. Hradec Králové 11888x en - 13885x ~ 58.25% 25% cs - 4696x ~ 39.50% cs - 5306x ~ 22.26% 30% en - 4400x ~ 37.01% pl - 1638x ~ 6.87% de - 1113x ~ 9.36% 4. Plzeň 13681x 9. Ústí nad Labem en - 9160x ~ 66.95% 12016x cs - 2206x ~ 16.12% en - 4266x ~ 35.50% fr - 417x ~ 3.05% de - 2882x ~ 23.98% cs - 2570x ~ 21.39% 5. Olomouc 10754 en - 4619x ~ 42.95% 10. Pardubice 5576x cs - 3062x ~ 28.47% cs - 2718x ~ 48.74% pt - 999x ~ 9.29% en - 1831x ~ 32.84% 45% sk - 414x ~ 7.42%
  22. 22. Jak jde čas... a co s tím
  23. 23. Co víme, ale nevíme proč... aneb co se za pár měsíc naznačilo - nejčastěji twittují Češi ve čtvrtek a v úterý, nejméně v sobotu. Ve světě je naopak nejpopulárnějším dnem úterý, nejméně využívaná je pak neděle. - počet twittů stoupá od začátku měsíce do jeho konce, pak o něco poklesne a zase stoupá, stručně řečeno lidé twittují více na konci než na začátku
  24. 24. Predikce přítomnosti Google vs. Twitter
  25. 25. MADONNA V PRAZE 13. 8. 2009
  26. 26. Madonna - srpen 2009 - Google search
  27. 27. Madonna - srpen 2009 - český twitter
  28. 28. Někdy je ale Twitter rychlejší a predikuje tak i budoucí hledání na internetu
  29. 29. 17. září v Ostravě
  30. 30. Rammstein - září 2009 - Google search
  31. 31. Rammstein - září 2009 - český Twitter 17.9.2009
  32. 32. Děkuji za pozornost. Otázky? Nápady? slerka@ataxo.com
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×