Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Zmiana sposobu myślenia<br />
Ogromne ilości danych<br />(konieczność wymusiła powstanie serwisów agregujących treści)<br />
Rozwój urządzeń mobilnych<br />(posiadam w domu 8 nieużywanych/zepsutych telefonów komórkowych)<br />
Nowe kanały komunikacji<br />
Twitter<br />
Krótkie wiadomości<br />
Ekstrakcja informacji<br /><ul><li> Sposób publikacji (WWW, API, SMS)
 Miejsce publikacji (geolokalizacja)
 Użycie tagów „#” (podkreślenie ważności)
 Zawartość linków, słów kluczowych w linkach, występowanie linków
 Aktualne tematy, tzw. trendingtopics
 Lista osób obserwowanych i obserwujących dany profil
 Użycie polskich znaków (dbałość o szczegóły)</li></ul>Contentisthe king<br />(mechaniczna klasyfikacja tekstu)<br />
Analiza tweetu<br /><ul><li> Wypowiedź jest dzielona na wyrazy.
Następuje usunięcie polskich znaków diakrytycznych.
Usunięte zostają wyrazy jednoliterowe.
Upcoming SlideShare
Loading in …5
×

Michał Stefanów - MSc Final Presentation

1,274 views

Published on

http://nekatwork.blogspot.com/search/label/master%20thesis

Published in: Education, Travel, Technology
  • Be the first to comment

  • Be the first to like this

Michał Stefanów - MSc Final Presentation

  1. 1.
  2. 2. Zmiana sposobu myślenia<br />
  3. 3. Ogromne ilości danych<br />(konieczność wymusiła powstanie serwisów agregujących treści)<br />
  4. 4. Rozwój urządzeń mobilnych<br />(posiadam w domu 8 nieużywanych/zepsutych telefonów komórkowych)<br />
  5. 5. Nowe kanały komunikacji<br />
  6. 6. Twitter<br />
  7. 7. Krótkie wiadomości<br />
  8. 8. Ekstrakcja informacji<br /><ul><li> Sposób publikacji (WWW, API, SMS)
  9. 9. Miejsce publikacji (geolokalizacja)
  10. 10. Użycie tagów „#” (podkreślenie ważności)
  11. 11. Zawartość linków, słów kluczowych w linkach, występowanie linków
  12. 12. Aktualne tematy, tzw. trendingtopics
  13. 13. Lista osób obserwowanych i obserwujących dany profil
  14. 14. Użycie polskich znaków (dbałość o szczegóły)</li></ul>Contentisthe king<br />(mechaniczna klasyfikacja tekstu)<br />
  15. 15. Analiza tweetu<br /><ul><li> Wypowiedź jest dzielona na wyrazy.
  16. 16. Następuje usunięcie polskich znaków diakrytycznych.
  17. 17. Usunięte zostają wyrazy jednoliterowe.
  18. 18. Wyrazy zostają doprowadzone do formy podstawowej.
  19. 19. Następuje porównanie do predefiniowanej listy wyrazów.
  20. 20. Występowanie takie wyrazu klasyfikuje tweet. </li></li></ul><li>Przygotowanie listy wyrazów<br />Negatywne<br />Pozytywne<br />sexy<br />słodki<br />spoko<br />super<br />szczęśliwy<br />śpiewać<br />świetny<br />uczucie<br />uczuć<br />ulubić<br />uprzejmość<br />uwielbiać<br />wielki<br />wow<br />zajebisty<br />zakochać<br />talent<br />koncert<br />plaża<br />relaks<br />power<br />skarb<br />mniam<br />wow<br />pasja<br />najpiekniejszy<br />opalac<br />polknac<br />popełnić<br />przestraszyc<br />samotnosc<br />słabo<br />smutny<br />sorry<br />szkoda<br />tragicznie<br />uciekac<br />unikac<br />ups<br />uraz<br />uwalic<br />winic<br />wymuszac<br />wywalic<br />zakazić<br />zalamac<br />zalamanie<br />zaraza<br />zbytni<br />zlamac<br />zly<br />znienawidzic<br />źle<br />całować<br />ciekawy<br />dobra<br />dobry<br />dziękować<br />dziękuję<br />fajny<br />ha<br />haha<br />hahaha<br />hahahaha<br />hahahahaha<br />kochać<br />kochana<br />lepszy<br />lola<br />lubić<br />luby<br />ładny<br />miłość<br />mniam<br />najlepszy<br />najmilszy<br />pasja<br />piękny<br />pocałować<br />podobać<br />bad<br />bandyta<br />bloto<br />błędnie<br />bol<br />bulic<br />chory<br />down<br />durny<br />idiota<br />insomnia<br />jajco<br />jebany<br />kat<br />kiepsko<br />leniwy<br />martwica<br />nadziac<br />najgorzej<br />nuda<br />oskarzenie<br />oskarzyc<br />oszaleć<br />pasc<br />pieprzyc<br />pokracznie<br />pokrecic<br />
  21. 21. Ograniczenia Trudności Problemy<br /><ul><li> Głębokość czasowa poszukiwań
  22. 22. W Polsce niewiele osób korzysta z Twittera
  23. 23. Konieczność wyboru gorącego tematu
  24. 24. Limit wywołań funkcji API
  25. 25. Gromadzenie danych
  26. 26. Pamięć operacyjna
  27. 27. Naiwność metody</li></li></ul><li>Obserwacje<br /><ul><li> Użytkownicy nie piszą wprost o emocjach.
  28. 28. Użytkownicy często posługują się ironią i sarkazmem.
  29. 29. Krótkie wypowiedzi analizowane pojedynczo są oderwane od kontekstu.
  30. 30. Stosunkowo niewielka ilość tweetów została sklasyfikowana.
  31. 31. Konieczne są dalsze prace w tym temacie
  32. 32. Sektor usług mobilnych z pewnością będzie się rozwijać (trendy UK)</li></ul>(na początku chciałem zmienić świat, czas pokazał że to nie jest proste)<br />
  33. 33. Istniejące narzędzia<br />(w momencie zabierania się do pracy ponad połowa z nich jeszcze nie istaniała)<br />
  34. 34. Kampania wyborcza<br />(W USA BarrackObama w trakcie kampanii wyborczej bardzo aktywnie korzystał z Twittera)<br />
  35. 35. Powtórzenie eksperymentu<br /><ul><li>Stworzenie listy słów kluczowych (Kaczyński, Komorowski, prezydent)
  36. 36. Znalezienie tweetów na podstawie listy
  37. 37. Zbieranie danych z określonym okresie czasu
  38. 38. Odfiltrowanie niechcianych wyników (obcojęzyczne, bez tekstu)
  39. 39. Stworzenie listy słów pozytywnych i negatywnych </li></li></ul><li>Przewidywanie wyników<br />
  40. 40. Dziękuje<br />Michał Stefanów<br />

×