Mi ma astatisztikai megközelítéssel ismerkedünk!
- viszonylag egyszerűek az alapok
- az iparban is elterjedt
- megértéséhez nem kell nyelvésznek lenni, vagy mélyebben belemenni a
statisztikába
A továbbiakban a szövegbányászat megnevezést erre a megközelítésre
alkalmazzuk!
Ha nincs adatunk
Webcrawling == adott lista szisztematikus bejárása a linkek mentén n
mélységben
Scraping == szövegek esetében ez valamilyen extra formázást tartalmazó
formátumból való kiszabadítást jelent (pl. word vagy pdf dokumentumokból a
szöveges információ kinyerése)
...és felügyelt módszert szeretnénk használni
Annotálás == adatok felcímkézése különböző szempontok szerint
Tisztítás
A bag-of-words módszerekhezáltalában plain text-re van szükségünk, azaz
- minden formázástól mentes
- utf-8 (vagy más szabványú) karakterkódolású szövegekre
14.
Előfeldolgozás
Plain text =>csak karakterek (betűk, esetleg számok, emojik)
Nyelvi feldolgozás
- tokenizálás (tokenekre bontás)
- kisbetűsre alakítás, írásjelek törlése
- stemmelés (tövezés), lemmatizálás (szótári tő)
- POS tagging (szófaj meghatározása)
Szűrés
- stopszavak kiszűrése (lista alapján)
- szófajok szerinti szűrés
- egyedi szempontok alapján további szűrés
A korpusz
600 magyarTwitter-felhasználó több mint 30 ezer csiripjét gyűjtöttük le a Twitter
API-n keresztül
4000 tweetet véletlenszerűen kiválasztottuk és polaritásra annotáltuk
A szövegeket magyarlánc használatával dolgoztuk fel (lemmatálás, szófaji szűrés)
18.
Eszközök
Szentimentszótár: pozitív ésnegatív szavak listája. Saját gyűjtés, kutatási célra
szabadon használható
Emojiszótár: a magyar tweetekben előforduló emojikat kezelő szótár, a könnyebb
kezelhetőség érdekében mindegyiket átváltja egy karaktersorra pl. :)) és :)))))))
“sokMosoly” lesz
19.
Ha érdekel adolog
Kereső Világ
http://kereses.blog.hu/
NLP meetup
http://www.meetup.com/Hungarian-nlp/