Vícejazyčný monitoring sociálních médií Yeseter
Upcoming SlideShare
Loading in...5
×
 

Vícejazyčný monitoring sociálních médií Yeseter

on

  • 1,024 views

 

Statistics

Views

Total Views
1,024
Views on SlideShare
1,004
Embed Views
20

Actions

Likes
1
Downloads
4
Comments
0

3 Embeds 20

http://www.datovazurnalistika.cz 9
http://www.linkedin.com 8
https://www.linkedin.com 3

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

CC Attribution-NonCommercial LicenseCC Attribution-NonCommercial License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Vícejazyčný monitoring sociálních médií Yeseter Vícejazyčný monitoring sociálních médií Yeseter Presentation Transcript

  • V´ ıcejazyˇn´ sledov´n´ a vyhled´v´n´ c e a ı a a ı V´clav Nov´k a a Yellow Snow, Captaworks vaclav@yellowsnow.cz New Media Inspiration, leden 2012
  • Yeseter• Nov´ v´ y ıcejazyˇn´ vyhled´vaˇ ve spoleˇensk´ch m´di´ c y a c c y e ıch ◦ Sb´ a vybran´ diskuze, blogy, f´ra a soci´ln´ s´ e ır´ e o a ı ıtˇ ◦ Tˇıd´ nalezen´ zm´ r´ ı e ınky do t´mat a t´matick´ch skupin e e y ◦ Zobrazuje statistiky a grafy pro t´mata, zdroje a autory e ◦ Umoˇnuje pokroˇil´ vyhled´v´n´ a exporty zˇ c e a a ı ◦ Pˇıdavn´ funkce (reporting, alerting, workflow, detekce spamu, r´ e sentiment, ˇebˇıˇek sd´ ych odkaz˚, nastaviteln´ n´stˇnka, z r´c ılen´ u a a e rebranding, vyˇazen´ zdroj˚ pro urˇit´ projekt, real-time API) r ı u c y• Pˇıstup z yeseter.com, wlip.cz, mss-adv.newtonmedia.cz r´• Uˇivatel´: z e ◦ Firmy, o kter´ch se mluv´ y ı ◦ Marketing ◦ Vˇda, politia a v´zkum (sociologie, stranick´ sekretari´ty) e y e a ◦ Bezpeˇnostn´ sloˇky (zakryt´ z´jmu pˇed prohled´van´mi servery) c ı z ı a r a y 2 z 14
  • Rozpozn´n´ jazyka a ı• U diskuzn´ f´r a blog˚ se lze ˇıdit dom´nou ıch o u r´ e• Nˇkter´ soci´ln´ s´ e ˇıkaj´ o uˇivatel´ vˇe, jin´ ne e e a ı ıtˇ r´ ı z ıch s eProbl´mov´ zdroje e e• YouTube• Twitter• Google+• N´ˇeˇ´ nespisovn´ tvary ar cı, e• Chybˇj´ ı diakritika e ıc´• Kr´tk´ texty, zkratky, #tagy, @jm´na, exotick´ ♥♥♥znaky♥♥♥ a e e e 3 z 14
  • Nejhorˇ´ zm´ sı ınka v˚bec u 4 z 14
  • Kr´tk´ texty a e 5 z 14
  • Sm´sen´ texty ıˇ e 6 z 14
  • Podivn´ slova a 7 z 14
  • Kategorizace t´mat (sn´ e ımky z online.wlip.cz)• V´ ıcejazyˇn´ projekty sd´ ı strukturu t´mat c e ılej´ e• Lze srovn´vat tyt´ˇ grafy pro r˚zn´ zemˇ: a ez u e e 8 z 14
  • Srovnateln´ vizualizace: t´mata znaˇky: HU × CZ e e c9 z 14
  • Nesrovnateln´ vizualizace? t´mata dom´n: PL × CZ e e e10 z 14
  • Stemming• Stemming umoˇnuje vyhled´vat r˚zn´ tvary t´hoˇ slova zˇ a u e e z• Nokie“, Noki´ ım“, Nokii“, Nokia“ ” ” ” ”• Nˇkdy neˇ´douc´ Matrix“ × Matrika“, Sportif“ × Sportage“ e za ı: ” ” ” ”• R˚zn´ typy jazyk˚ vyˇaduj´ r˚zn´ pˇıstup: u e u z ı u y r´ ◦ Aglutinaˇn´ nˇkolik pˇıpon c ı: e r´ mad’arˇtina, tureˇtina s c ◦ Flektivn´ jedna koncovka ı: ˇeˇtina, ruˇtina c s s ◦ Izolaˇn´ nejjednoduˇˇ´ t´mˇˇ nen´ tˇeba c ı: ssı, e er ı r mandar´ stina, angliˇtina ınˇ c ◦ Introflektivn´ tˇˇk´: variace uvnitˇ slova ı: ez y r arabˇtina s ◦ Polysyntetick´: tˇˇk´: nezn´me hranice slov y ez y a papu´nˇtina a s• Ve skuteˇnosti jsou jazyky smˇs´ typ˚ a maj´ tendenci se pˇesouvat. c eı u ı r11 z 14
  • Specifika stemmingu v soci´ln´ m´di´ a ıch e ıch• Pravidla psan´ pro spisovnou ˇeˇtinu nefunguj´ a c s ı: ◦ Znaˇky, zkratky ( Ikea“ → Ikey“ vs. Nokia“ → Nokie“, HM“ → c ” ” ” ” ” HMka“) ” ◦ N´ˇeˇ´ ( votravujou“, nab´ ar cı ızej“, kupuj´“) o ” ” ” ◦ V´ chyb neˇ v novin´ch (st´tn´ zpr´vy) ıc z a a ı a ◦ Interpunkce ( kaˇd´ tv˚j dotek tu bolest hoj´ ritul se l´sko jeˇtˇ z y u ı.Pˇ a se ” bl´z,to jak tˇ miluji“) ıˇ e ˇ ◦ Diakritika (kl´cov´ slova ( CS“), koncovky) ıˇ a ”12 z 14
  • Smˇry ˇeˇen´ e r s ı • Dva alternativn´ pˇıstupy: ı r´ ◦ Opravit a normalizovat text (kolik lid´ to dok´ˇe?) ı az ◦ Rozvolnˇn´ pravidel a klasifikace slov na z´kladˇ podobnosti e ı a eOpravy a desambiguace Fuzzy matching+ V principu lze dos´hnout 100% a − Nelze b´t 100% uspˇˇn´ y ´ es ı− N´roˇn´ na implementaci a c e + Lze rychle zlepˇit baseline s+ V praxi lepˇ´ pˇesnost sı r + V praxi lepˇ´ pokryt´ sı ı− V praxi horˇ´ pokryt´ sı ı − V praxi horˇ´ pˇesnost sı r 13 z 14
  • Dalˇ´ v´voj zpracov´n´ jazyk˚ v Yeseteru sı y a ı u• Ladˇn´ modelu parametr˚ stemmingu pro jednotliv´ jazyky e ı u e• Sbl´zen´ moˇnost´ ad hoc hled´n´ a klasifikace do t´mat ıˇ ı z ı a ı e ◦ Klasifikace umoˇnuje v´bˇrov´ zak´z´n´ stemmingu a oper´tor MINUS zˇ y e e a a ı a ◦ Ad hoc hled´n´ umoˇnuje fuzzy matching v okruhu omezen´m a ı zˇ e Levenshteinovskou vzd´lenost´ a ı ◦ Ad hoc hled´n´ um´ zohlednit bl´ a ı ı ızkost slov14 z 14
  • Dalˇ´ v´voj zpracov´n´ jazyk˚ v Yeseteru sı y a ı u• Ladˇn´ modelu parametr˚ stemmingu pro jednotliv´ jazyky e ı u e• Sbl´zen´ moˇnost´ ad hoc hled´n´ a klasifikace do t´mat ıˇ ı z ı a ı e ◦ Klasifikace umoˇnuje v´bˇrov´ zak´z´n´ stemmingu a oper´tor MINUS zˇ y e e a a ı a ◦ Ad hoc hled´n´ umoˇnuje fuzzy matching v okruhu omezen´m a ı zˇ e Levenshteinovskou vzd´lenost´ a ı ◦ Ad hoc hled´n´ um´ zohlednit bl´ a ı ı ızkost slovDˇkuji. Dalˇ´ novinky a podrobnosti: e sı • twitter.com/hlidka • yeseter.com • wlip.cz14 z 14