Vícejazyčný monitoring sociálních médií Yeseter

  • 805 views
Uploaded on

 

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
805
On Slideshare
0
From Embeds
0
Number of Embeds
2

Actions

Shares
Downloads
5
Comments
0
Likes
1

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. V´ ıcejazyˇn´ sledov´n´ a vyhled´v´n´ c e a ı a a ı V´clav Nov´k a a Yellow Snow, Captaworks vaclav@yellowsnow.cz New Media Inspiration, leden 2012
  • 2. Yeseter• Nov´ v´ y ıcejazyˇn´ vyhled´vaˇ ve spoleˇensk´ch m´di´ c y a c c y e ıch ◦ Sb´ a vybran´ diskuze, blogy, f´ra a soci´ln´ s´ e ır´ e o a ı ıtˇ ◦ Tˇıd´ nalezen´ zm´ r´ ı e ınky do t´mat a t´matick´ch skupin e e y ◦ Zobrazuje statistiky a grafy pro t´mata, zdroje a autory e ◦ Umoˇnuje pokroˇil´ vyhled´v´n´ a exporty zˇ c e a a ı ◦ Pˇıdavn´ funkce (reporting, alerting, workflow, detekce spamu, r´ e sentiment, ˇebˇıˇek sd´ ych odkaz˚, nastaviteln´ n´stˇnka, z r´c ılen´ u a a e rebranding, vyˇazen´ zdroj˚ pro urˇit´ projekt, real-time API) r ı u c y• Pˇıstup z yeseter.com, wlip.cz, mss-adv.newtonmedia.cz r´• Uˇivatel´: z e ◦ Firmy, o kter´ch se mluv´ y ı ◦ Marketing ◦ Vˇda, politia a v´zkum (sociologie, stranick´ sekretari´ty) e y e a ◦ Bezpeˇnostn´ sloˇky (zakryt´ z´jmu pˇed prohled´van´mi servery) c ı z ı a r a y 2 z 14
  • 3. Rozpozn´n´ jazyka a ı• U diskuzn´ f´r a blog˚ se lze ˇıdit dom´nou ıch o u r´ e• Nˇkter´ soci´ln´ s´ e ˇıkaj´ o uˇivatel´ vˇe, jin´ ne e e a ı ıtˇ r´ ı z ıch s eProbl´mov´ zdroje e e• YouTube• Twitter• Google+• N´ˇeˇ´ nespisovn´ tvary ar cı, e• Chybˇj´ ı diakritika e ıc´• Kr´tk´ texty, zkratky, #tagy, @jm´na, exotick´ ♥♥♥znaky♥♥♥ a e e e 3 z 14
  • 4. Nejhorˇ´ zm´ sı ınka v˚bec u 4 z 14
  • 5. Kr´tk´ texty a e 5 z 14
  • 6. Sm´sen´ texty ıˇ e 6 z 14
  • 7. Podivn´ slova a 7 z 14
  • 8. Kategorizace t´mat (sn´ e ımky z online.wlip.cz)• V´ ıcejazyˇn´ projekty sd´ ı strukturu t´mat c e ılej´ e• Lze srovn´vat tyt´ˇ grafy pro r˚zn´ zemˇ: a ez u e e 8 z 14
  • 9. Srovnateln´ vizualizace: t´mata znaˇky: HU × CZ e e c9 z 14
  • 10. Nesrovnateln´ vizualizace? t´mata dom´n: PL × CZ e e e10 z 14
  • 11. Stemming• Stemming umoˇnuje vyhled´vat r˚zn´ tvary t´hoˇ slova zˇ a u e e z• Nokie“, Noki´ ım“, Nokii“, Nokia“ ” ” ” ”• Nˇkdy neˇ´douc´ Matrix“ × Matrika“, Sportif“ × Sportage“ e za ı: ” ” ” ”• R˚zn´ typy jazyk˚ vyˇaduj´ r˚zn´ pˇıstup: u e u z ı u y r´ ◦ Aglutinaˇn´ nˇkolik pˇıpon c ı: e r´ mad’arˇtina, tureˇtina s c ◦ Flektivn´ jedna koncovka ı: ˇeˇtina, ruˇtina c s s ◦ Izolaˇn´ nejjednoduˇˇ´ t´mˇˇ nen´ tˇeba c ı: ssı, e er ı r mandar´ stina, angliˇtina ınˇ c ◦ Introflektivn´ tˇˇk´: variace uvnitˇ slova ı: ez y r arabˇtina s ◦ Polysyntetick´: tˇˇk´: nezn´me hranice slov y ez y a papu´nˇtina a s• Ve skuteˇnosti jsou jazyky smˇs´ typ˚ a maj´ tendenci se pˇesouvat. c eı u ı r11 z 14
  • 12. Specifika stemmingu v soci´ln´ m´di´ a ıch e ıch• Pravidla psan´ pro spisovnou ˇeˇtinu nefunguj´ a c s ı: ◦ Znaˇky, zkratky ( Ikea“ → Ikey“ vs. Nokia“ → Nokie“, HM“ → c ” ” ” ” ” HMka“) ” ◦ N´ˇeˇ´ ( votravujou“, nab´ ar cı ızej“, kupuj´“) o ” ” ” ◦ V´ chyb neˇ v novin´ch (st´tn´ zpr´vy) ıc z a a ı a ◦ Interpunkce ( kaˇd´ tv˚j dotek tu bolest hoj´ ritul se l´sko jeˇtˇ z y u ı.Pˇ a se ” bl´z,to jak tˇ miluji“) ıˇ e ˇ ◦ Diakritika (kl´cov´ slova ( CS“), koncovky) ıˇ a ”12 z 14
  • 13. Smˇry ˇeˇen´ e r s ı • Dva alternativn´ pˇıstupy: ı r´ ◦ Opravit a normalizovat text (kolik lid´ to dok´ˇe?) ı az ◦ Rozvolnˇn´ pravidel a klasifikace slov na z´kladˇ podobnosti e ı a eOpravy a desambiguace Fuzzy matching+ V principu lze dos´hnout 100% a − Nelze b´t 100% uspˇˇn´ y ´ es ı− N´roˇn´ na implementaci a c e + Lze rychle zlepˇit baseline s+ V praxi lepˇ´ pˇesnost sı r + V praxi lepˇ´ pokryt´ sı ı− V praxi horˇ´ pokryt´ sı ı − V praxi horˇ´ pˇesnost sı r 13 z 14
  • 14. Dalˇ´ v´voj zpracov´n´ jazyk˚ v Yeseteru sı y a ı u• Ladˇn´ modelu parametr˚ stemmingu pro jednotliv´ jazyky e ı u e• Sbl´zen´ moˇnost´ ad hoc hled´n´ a klasifikace do t´mat ıˇ ı z ı a ı e ◦ Klasifikace umoˇnuje v´bˇrov´ zak´z´n´ stemmingu a oper´tor MINUS zˇ y e e a a ı a ◦ Ad hoc hled´n´ umoˇnuje fuzzy matching v okruhu omezen´m a ı zˇ e Levenshteinovskou vzd´lenost´ a ı ◦ Ad hoc hled´n´ um´ zohlednit bl´ a ı ı ızkost slov14 z 14
  • 15. Dalˇ´ v´voj zpracov´n´ jazyk˚ v Yeseteru sı y a ı u• Ladˇn´ modelu parametr˚ stemmingu pro jednotliv´ jazyky e ı u e• Sbl´zen´ moˇnost´ ad hoc hled´n´ a klasifikace do t´mat ıˇ ı z ı a ı e ◦ Klasifikace umoˇnuje v´bˇrov´ zak´z´n´ stemmingu a oper´tor MINUS zˇ y e e a a ı a ◦ Ad hoc hled´n´ umoˇnuje fuzzy matching v okruhu omezen´m a ı zˇ e Levenshteinovskou vzd´lenost´ a ı ◦ Ad hoc hled´n´ um´ zohlednit bl´ a ı ı ızkost slovDˇkuji. Dalˇ´ novinky a podrobnosti: e sı • twitter.com/hlidka • yeseter.com • wlip.cz14 z 14