Your SlideShare is downloading. ×
0
Vícejazyčný monitoring sociálních médií Yeseter
Vícejazyčný monitoring sociálních médií Yeseter
Vícejazyčný monitoring sociálních médií Yeseter
Vícejazyčný monitoring sociálních médií Yeseter
Vícejazyčný monitoring sociálních médií Yeseter
Vícejazyčný monitoring sociálních médií Yeseter
Vícejazyčný monitoring sociálních médií Yeseter
Vícejazyčný monitoring sociálních médií Yeseter
Vícejazyčný monitoring sociálních médií Yeseter
Vícejazyčný monitoring sociálních médií Yeseter
Vícejazyčný monitoring sociálních médií Yeseter
Vícejazyčný monitoring sociálních médií Yeseter
Vícejazyčný monitoring sociálních médií Yeseter
Vícejazyčný monitoring sociálních médií Yeseter
Vícejazyčný monitoring sociálních médií Yeseter
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Vícejazyčný monitoring sociálních médií Yeseter

875

Published on

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
875
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
5
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. V´ ıcejazyˇn´ sledov´n´ a vyhled´v´n´ c e a ı a a ı V´clav Nov´k a a Yellow Snow, Captaworks vaclav@yellowsnow.cz New Media Inspiration, leden 2012
  • 2. Yeseter• Nov´ v´ y ıcejazyˇn´ vyhled´vaˇ ve spoleˇensk´ch m´di´ c y a c c y e ıch ◦ Sb´ a vybran´ diskuze, blogy, f´ra a soci´ln´ s´ e ır´ e o a ı ıtˇ ◦ Tˇıd´ nalezen´ zm´ r´ ı e ınky do t´mat a t´matick´ch skupin e e y ◦ Zobrazuje statistiky a grafy pro t´mata, zdroje a autory e ◦ Umoˇnuje pokroˇil´ vyhled´v´n´ a exporty zˇ c e a a ı ◦ Pˇıdavn´ funkce (reporting, alerting, workflow, detekce spamu, r´ e sentiment, ˇebˇıˇek sd´ ych odkaz˚, nastaviteln´ n´stˇnka, z r´c ılen´ u a a e rebranding, vyˇazen´ zdroj˚ pro urˇit´ projekt, real-time API) r ı u c y• Pˇıstup z yeseter.com, wlip.cz, mss-adv.newtonmedia.cz r´• Uˇivatel´: z e ◦ Firmy, o kter´ch se mluv´ y ı ◦ Marketing ◦ Vˇda, politia a v´zkum (sociologie, stranick´ sekretari´ty) e y e a ◦ Bezpeˇnostn´ sloˇky (zakryt´ z´jmu pˇed prohled´van´mi servery) c ı z ı a r a y 2 z 14
  • 3. Rozpozn´n´ jazyka a ı• U diskuzn´ f´r a blog˚ se lze ˇıdit dom´nou ıch o u r´ e• Nˇkter´ soci´ln´ s´ e ˇıkaj´ o uˇivatel´ vˇe, jin´ ne e e a ı ıtˇ r´ ı z ıch s eProbl´mov´ zdroje e e• YouTube• Twitter• Google+• N´ˇeˇ´ nespisovn´ tvary ar cı, e• Chybˇj´ ı diakritika e ıc´• Kr´tk´ texty, zkratky, #tagy, @jm´na, exotick´ ♥♥♥znaky♥♥♥ a e e e 3 z 14
  • 4. Nejhorˇ´ zm´ sı ınka v˚bec u 4 z 14
  • 5. Kr´tk´ texty a e 5 z 14
  • 6. Sm´sen´ texty ıˇ e 6 z 14
  • 7. Podivn´ slova a 7 z 14
  • 8. Kategorizace t´mat (sn´ e ımky z online.wlip.cz)• V´ ıcejazyˇn´ projekty sd´ ı strukturu t´mat c e ılej´ e• Lze srovn´vat tyt´ˇ grafy pro r˚zn´ zemˇ: a ez u e e 8 z 14
  • 9. Srovnateln´ vizualizace: t´mata znaˇky: HU × CZ e e c9 z 14
  • 10. Nesrovnateln´ vizualizace? t´mata dom´n: PL × CZ e e e10 z 14
  • 11. Stemming• Stemming umoˇnuje vyhled´vat r˚zn´ tvary t´hoˇ slova zˇ a u e e z• Nokie“, Noki´ ım“, Nokii“, Nokia“ ” ” ” ”• Nˇkdy neˇ´douc´ Matrix“ × Matrika“, Sportif“ × Sportage“ e za ı: ” ” ” ”• R˚zn´ typy jazyk˚ vyˇaduj´ r˚zn´ pˇıstup: u e u z ı u y r´ ◦ Aglutinaˇn´ nˇkolik pˇıpon c ı: e r´ mad’arˇtina, tureˇtina s c ◦ Flektivn´ jedna koncovka ı: ˇeˇtina, ruˇtina c s s ◦ Izolaˇn´ nejjednoduˇˇ´ t´mˇˇ nen´ tˇeba c ı: ssı, e er ı r mandar´ stina, angliˇtina ınˇ c ◦ Introflektivn´ tˇˇk´: variace uvnitˇ slova ı: ez y r arabˇtina s ◦ Polysyntetick´: tˇˇk´: nezn´me hranice slov y ez y a papu´nˇtina a s• Ve skuteˇnosti jsou jazyky smˇs´ typ˚ a maj´ tendenci se pˇesouvat. c eı u ı r11 z 14
  • 12. Specifika stemmingu v soci´ln´ m´di´ a ıch e ıch• Pravidla psan´ pro spisovnou ˇeˇtinu nefunguj´ a c s ı: ◦ Znaˇky, zkratky ( Ikea“ → Ikey“ vs. Nokia“ → Nokie“, HM“ → c ” ” ” ” ” HMka“) ” ◦ N´ˇeˇ´ ( votravujou“, nab´ ar cı ızej“, kupuj´“) o ” ” ” ◦ V´ chyb neˇ v novin´ch (st´tn´ zpr´vy) ıc z a a ı a ◦ Interpunkce ( kaˇd´ tv˚j dotek tu bolest hoj´ ritul se l´sko jeˇtˇ z y u ı.Pˇ a se ” bl´z,to jak tˇ miluji“) ıˇ e ˇ ◦ Diakritika (kl´cov´ slova ( CS“), koncovky) ıˇ a ”12 z 14
  • 13. Smˇry ˇeˇen´ e r s ı • Dva alternativn´ pˇıstupy: ı r´ ◦ Opravit a normalizovat text (kolik lid´ to dok´ˇe?) ı az ◦ Rozvolnˇn´ pravidel a klasifikace slov na z´kladˇ podobnosti e ı a eOpravy a desambiguace Fuzzy matching+ V principu lze dos´hnout 100% a − Nelze b´t 100% uspˇˇn´ y ´ es ı− N´roˇn´ na implementaci a c e + Lze rychle zlepˇit baseline s+ V praxi lepˇ´ pˇesnost sı r + V praxi lepˇ´ pokryt´ sı ı− V praxi horˇ´ pokryt´ sı ı − V praxi horˇ´ pˇesnost sı r 13 z 14
  • 14. Dalˇ´ v´voj zpracov´n´ jazyk˚ v Yeseteru sı y a ı u• Ladˇn´ modelu parametr˚ stemmingu pro jednotliv´ jazyky e ı u e• Sbl´zen´ moˇnost´ ad hoc hled´n´ a klasifikace do t´mat ıˇ ı z ı a ı e ◦ Klasifikace umoˇnuje v´bˇrov´ zak´z´n´ stemmingu a oper´tor MINUS zˇ y e e a a ı a ◦ Ad hoc hled´n´ umoˇnuje fuzzy matching v okruhu omezen´m a ı zˇ e Levenshteinovskou vzd´lenost´ a ı ◦ Ad hoc hled´n´ um´ zohlednit bl´ a ı ı ızkost slov14 z 14
  • 15. Dalˇ´ v´voj zpracov´n´ jazyk˚ v Yeseteru sı y a ı u• Ladˇn´ modelu parametr˚ stemmingu pro jednotliv´ jazyky e ı u e• Sbl´zen´ moˇnost´ ad hoc hled´n´ a klasifikace do t´mat ıˇ ı z ı a ı e ◦ Klasifikace umoˇnuje v´bˇrov´ zak´z´n´ stemmingu a oper´tor MINUS zˇ y e e a a ı a ◦ Ad hoc hled´n´ umoˇnuje fuzzy matching v okruhu omezen´m a ı zˇ e Levenshteinovskou vzd´lenost´ a ı ◦ Ad hoc hled´n´ um´ zohlednit bl´ a ı ı ızkost slovDˇkuji. Dalˇ´ novinky a podrobnosti: e sı • twitter.com/hlidka • yeseter.com • wlip.cz14 z 14

×