2. Vázlat
1. Bővebben
2. Odi et amo
3. Előfeldolgozás
4. TermDocumentMatrix
5. Számoljunk szavakat
6. A szavak titkos élete
3. Kreatív kölcsönzés
•
•
•
•
Ingo Feinerer: A text mining framework in R
and its applications
Gaston Sanchez: Mining Twitter with R
Machine Learning for Hackers
Natural Language Annotation for Machine
Learning
4. Odi et amo
•
•
•
Elvileg mindent megcsinálhatunk R-ben
Elvileg!
Gyakorlatilag egyszerűbb barkácsolni
5. Alternatívák
•
•
•
•
Python NLTK - átfogó, nagyon jó
de nem annyira mint az R
OpenNLP/GATE/UIMA - robosztusabb,
gyorsabb, skálázhatóbb
de nem csak a főbb eljárásokat
implementálták
6. Magyar
•
•
•
•
•
boilerpipe - netes szövegek beszerzésére
ocamorph - szótövezésre
hunpos - POS tagging
Érdemesebb az előfeldolgozást Python-ban
végezni (mindegyikhez van wrapper)
puristák system()
8. Előfeldolgozás
# adding metadata
meta(oz, "Heading", "local") <c("The Wonderful Wizard of Oz",
"The Marvelous Land of Oz",
"Ozma of Oz",
"The Royal Book of Oz",
"Ozoplaning with the Wizard of Oz")
17. twitteR
> twitCred$handshake()
To enable the connection, please direct your web browser to:
http://api.twitter.com/oauth/authorize?oauth_token=XXXXXjRac3X3XX4dGrC
VhXXXXXW22VycNXFb6U
When complete, record the PIN given to you and provide it here: XXXXXXX
> registerTwitterOAuth(twitCred)
[1] TRUE
•
RStudio momentán nem képes ezt kezelni!!!!
37. Mi a baj a szófelhőkkel?
• Gyakorisági táblák, csak szebbek
• Nem mondanak el semmit egy szövegről,
normális esetben
• Több szövegről nem képesek beszélni
• Túl kell lépni rajtuk!
40. Ami kimaradt
• Dokumentum összehasonlítás
• Információkinyerés (IR) és keresés
• Korpusznyelvészet – pl. mutual information,
Google sets
• Entity extraction, relation mining
• POS tagging, stemming, szemantika
41. Take-home message
• NLP pipeline (előfeldolgozás, normalizálás,
elemzés)
• Barkácsolás (nyugodtan használd amit a
neten találsz)
• Értelmezés (a szövegbányászat sokszor
nem technikai, hanem értelmezési
probléma)
42. A szavak titkos élete
• Pennebaker: The Secret Life of Pronouns
• Miller: Spent
• Szentiment- és emócióelemzés