More Related Content More from Natalia Ostapuk
More from Natalia Ostapuk (20) Presentation2. Ñâåäåíèÿ î ïðîåêòå
 äîêëàäå ïðåäñòàâëåíà ÷àñòü ðåçóëüòàòîâ ðàáîòû â ðàìêàõ
ïðîåêòà ¾Ðàçðàáîòêà ìåòîäîëîãèè ñåòåâîãî è ñåìàíòè÷åñêîãî
àíàëèçà áëîãîâ äëÿ ñîöèîëîãè÷åñêèõ çàäà÷¿. Ó÷àñòíèêè:
Å.Þ.Êîëüöîâà (ðóêîâîäèòåëü)
À.Â.Êèí÷àðîâà
Ë.Â.Ïèâîâàðîâà
Ê.À.Ìàñëèíñêèé
Ò.Ã.Åôèìîâà
Å.À.Òåðåùåíêî
Þ.Â.Ïàâëîâà
Ñ.Í.Êîëüöîâ, Ð.Ì.Áàõìóäîâ (òåõïîääåðæêà è
ïðîãðàììèðîâàíèå)
3. Ïëàí
Îáñóæäåíèÿ â áëîãîñôåðå
Ýêñïåðòíûé ïîäõîä
Ñòàòèñòè÷åñêèé ïîäõîä
Ñðàâíèòåëüíûé àíàëèç ðåçóëüòàòîâ
4. Outline
Îáñóæäåíèÿ â áëîãîñôåðå
Ýêñïåðòíûé ïîäõîä
Ñòàòèñòè÷åñêèé ïîäõîä
Ñðàâíèòåëüíûé àíàëèç ðåçóëüòàòîâ
5. Ìîäåëü îáñóæäåíèé â áëîãîñôåðå
Áëîãîñôåðà:
Ñîâîêóïíîñòü òåêñòîâ
Îïóáëèêîâàííûõ çà îïðåäåë¼ííûé ïåðèîä (ñèíõðîííûé
ñðåç)
Êàæäûé òåêñò õàðàêòåðèçóåòñÿ òåìàòèêîé
Îáñóæäåíèå çíà÷èòåëüíîå ÷èñëî òåêñòîâ ñî ñõîäíîé
òåìàòèêîé
6. Ïîñòàíîâêà ïðîáëåìû
Çàäà÷à: èçó÷åíèå îáñóæäåíèÿ êîíêðåòíîé òåìû â áëîãîñôåðå.
Ïðîáëåìû:
íàñêîëüêî ïðàâîìåðíî âû÷ëåíåíèå òåìû;
êàêîå ìåñòî òåìà çàíèìàåò â ñòðóêòóðå îáñóæäåíèé â
áëîãîñôåðå.
Case study: òåìà èñëàìà â ñîâðåìåííîé ðîññèéñêîé áëîãîñôåðå
7. Ìàòåðèàë
Äàííûå ñîáðàíû ñ ïîìîùüþ ñïåöèàëüíî ðàçðàáîòàííîãî ÏÎ:
Koltran Blogminer
Òåñòîâàÿ êîëëåêöèÿ:
Ïëàòôîðìà: livejournal.com (ðóññêîÿçû÷íàÿ ÷àñòü)
Âûáîðêà: òîï-2500 æóðíàëîâ (ïî ðåéòèíãó ÆÆ)
Ïåðèîä: 115 ñåíòÿáðÿ 2011
Òîëüêî òåêñòû ïîñòîâ (áåç êîììåíòàðèåâ)
Îáú¼ì: 19143 ïîñòà (≈4 ìëí ñëîâ)
8. Îáðàáîòêà òåêñòîâ
âûäåëåíèå ñïåöèôè÷åñêîé LJ-ðàçìåòêè
ññûëêè, èçîáðàæåíèÿ è (íåêîòîðûå) ñìàéëèêè
ïðåîáðàçîâàíû â óñëîâíûå ñëîâà
óäàëåíèå âñåé ïðî÷åé ðàçìåòêè
ëåììàòèçàöèÿ (mystem)
âûáîð áîëåå ÷àñòîòíîé (èëè ïåðâîé) ëåììû
9. Outline
Îáñóæäåíèÿ â áëîãîñôåðå
Ýêñïåðòíûé ïîäõîä
Ñòàòèñòè÷åñêèé ïîäõîä
Ñðàâíèòåëüíûé àíàëèç ðåçóëüòàòîâ
10. Ïðîöåäóðà ñîñòàâëåíèÿ ñïèñêà êëþ÷åâûõ ñëîâ
1. Ïÿòåðûõ ýêñïåðòîâ â îáëàñòè èñëàìà ïîïðîñèëè íàçâàòü
íåñêîëüêî êëþ÷åâûõ ñîáûòèé ïîñëåäíåãî âðåìåíè,
ñâÿçàííûõ ñ èñëàìîì.
2. Íà îñíîâàíèè ñïèñêà ñîáûòèé áûë îñóùåñòâë¼í ïîèñê
òåêñòîâ áëîãîâ, óïîìèíàþùèõ íàçâàííûå ñîáûòèÿ (ñ
ïîìîùüþ ïîèñêà ïî áëîãàì ñèñòåìû ßíäåêñ).
3. Ïåðâûå 100 íàéäåííûõ òàêèì îáðàçîì òåêñòîâ áûëè
ïðî÷èòàíû êîäèðîâùèêàìè, êîòîðûå âûäåëèëè â íèõ
êëþ÷åâûå ôðàçû, îòíîñÿùèåñÿ ê èñëàìó.
11. Òåìà èñëàìà êàê ñïèñîê êëþ÷åâûõ ôðàç
157 êëþ÷åâûõ ôðàç:
ñëîâîñî÷åòàíèÿ, âêëþ÷àþùèå îñíîâû èñëàì-, ìóñóëüìàí-
Èñëàìèçàöèÿ, èñëàìîôîá, èñëàìñêàÿ óììà, ìóñóëüìàíå
áåðóò â ðóêè îðóæèå, ìóñóëüìàíå è ïðàâîñëàâíûå,
Ìóñóëüìàíñêàÿ îáùåñòâåííîñòü
èñëàìñêèå ðåëèãèîçíûå òåðìèíû, ïðåäìåòû îáèõîäà
áëàãîðîäíûé Êîðàí, ìîëèòâåííûé êîâðèê, Ïàðàíäæà
òåððîðèçì è ýêñòðåìèçì;
òåððîðèñòû, áîåâèêè, àãðåññèâíî íàñòðîåííûå ìóñóëüìàíå
ñîáûòèÿ
óáèéñòâî ïîëêîâíèêà Áóäàíîâà, Óáèéñòâî Øàìèëÿ
Äæèêàåâà, âòîðàÿ ÷å÷åíñêàÿ
èñëàìñêèå îðãàíèçàöèè
Àëü-Êàèäà, Äóõîâíîå Óïðàâëåíèå Ìóñóëüìàí
...
12. Òåìà èñëàìà êàê ñïèñîê êëþ÷åâûõ ôðàç
157 êëþ÷åâûõ ôðàç:
ñëîâîñî÷åòàíèÿ, âêëþ÷àþùèå îñíîâû èñëàì-, ìóñóëüìàí-
Èñëàìèçàöèÿ, èñëàìîôîá, èñëàìñêàÿ óììà, ìóñóëüìàíå
áåðóò â ðóêè îðóæèå, ìóñóëüìàíå è ïðàâîñëàâíûå,
Ìóñóëüìàíñêàÿ îáùåñòâåííîñòü
èñëàìñêèå ðåëèãèîçíûå òåðìèíû, ïðåäìåòû îáèõîäà
áëàãîðîäíûé Êîðàí, ìîëèòâåííûé êîâðèê, Ïàðàíäæà
òåððîðèçì è ýêñòðåìèçì;
òåððîðèñòû, áîåâèêè, àãðåññèâíî íàñòðîåííûå ìóñóëüìàíå
ñîáûòèÿ
óáèéñòâî ïîëêîâíèêà Áóäàíîâà, Óáèéñòâî Øàìèëÿ
Äæèêàåâà, âòîðàÿ ÷å÷åíñêàÿ
èñëàìñêèå îðãàíèçàöèè
Àëü-Êàèäà, Äóõîâíîå Óïðàâëåíèå Ìóñóëüìàí
...
13. Òåìà èñëàìà êàê ñïèñîê êëþ÷åâûõ ôðàç
157 êëþ÷åâûõ ôðàç:
ñëîâîñî÷åòàíèÿ, âêëþ÷àþùèå îñíîâû èñëàì-, ìóñóëüìàí-
Èñëàìèçàöèÿ, èñëàìîôîá, èñëàìñêàÿ óììà, ìóñóëüìàíå
áåðóò â ðóêè îðóæèå, ìóñóëüìàíå è ïðàâîñëàâíûå,
Ìóñóëüìàíñêàÿ îáùåñòâåííîñòü
èñëàìñêèå ðåëèãèîçíûå òåðìèíû, ïðåäìåòû îáèõîäà
áëàãîðîäíûé Êîðàí, ìîëèòâåííûé êîâðèê, Ïàðàíäæà
òåððîðèçì è ýêñòðåìèçì;
òåððîðèñòû, áîåâèêè, àãðåññèâíî íàñòðîåííûå ìóñóëüìàíå
ñîáûòèÿ
óáèéñòâî ïîëêîâíèêà Áóäàíîâà, Óáèéñòâî Øàìèëÿ
Äæèêàåâà, âòîðàÿ ÷å÷åíñêàÿ
èñëàìñêèå îðãàíèçàöèè
Àëü-Êàèäà, Äóõîâíîå Óïðàâëåíèå Ìóñóëüìàí
...
14. Òåìà èñëàìà êàê ñïèñîê êëþ÷åâûõ ôðàç
157 êëþ÷åâûõ ôðàç:
ñëîâîñî÷åòàíèÿ, âêëþ÷àþùèå îñíîâû èñëàì-, ìóñóëüìàí-
Èñëàìèçàöèÿ, èñëàìîôîá, èñëàìñêàÿ óììà, ìóñóëüìàíå
áåðóò â ðóêè îðóæèå, ìóñóëüìàíå è ïðàâîñëàâíûå,
Ìóñóëüìàíñêàÿ îáùåñòâåííîñòü
èñëàìñêèå ðåëèãèîçíûå òåðìèíû, ïðåäìåòû îáèõîäà
áëàãîðîäíûé Êîðàí, ìîëèòâåííûé êîâðèê, Ïàðàíäæà
òåððîðèçì è ýêñòðåìèçì;
òåððîðèñòû, áîåâèêè, àãðåññèâíî íàñòðîåííûå ìóñóëüìàíå
ñîáûòèÿ
óáèéñòâî ïîëêîâíèêà Áóäàíîâà, Óáèéñòâî Øàìèëÿ
Äæèêàåâà, âòîðàÿ ÷å÷åíñêàÿ
èñëàìñêèå îðãàíèçàöèè
Àëü-Êàèäà, Äóõîâíîå Óïðàâëåíèå Ìóñóëüìàí
...
15. Òåìà èñëàìà êàê ñïèñîê êëþ÷åâûõ ôðàç
157 êëþ÷åâûõ ôðàç:
ñëîâîñî÷åòàíèÿ, âêëþ÷àþùèå îñíîâû èñëàì-, ìóñóëüìàí-
Èñëàìèçàöèÿ, èñëàìîôîá, èñëàìñêàÿ óììà, ìóñóëüìàíå
áåðóò â ðóêè îðóæèå, ìóñóëüìàíå è ïðàâîñëàâíûå,
Ìóñóëüìàíñêàÿ îáùåñòâåííîñòü
èñëàìñêèå ðåëèãèîçíûå òåðìèíû, ïðåäìåòû îáèõîäà
áëàãîðîäíûé Êîðàí, ìîëèòâåííûé êîâðèê, Ïàðàíäæà
òåððîðèçì è ýêñòðåìèçì;
òåððîðèñòû, áîåâèêè, àãðåññèâíî íàñòðîåííûå ìóñóëüìàíå
ñîáûòèÿ
óáèéñòâî ïîëêîâíèêà Áóäàíîâà, Óáèéñòâî Øàìèëÿ
Äæèêàåâà, âòîðàÿ ÷å÷åíñêàÿ
èñëàìñêèå îðãàíèçàöèè
Àëü-Êàèäà, Äóõîâíîå Óïðàâëåíèå Ìóñóëüìàí
...
16. Îòáîð òåêñòîâ èç êîëëåêöèè
Ñïèñîê ñëîâ ëåììàòèçèðîâàí (àíàëîãè÷íî òåêñòàì)
Ïîèñê òåêñòîâ ïî òî÷íîìó ñîâïàäåíèþ êëþ÷åâîé ôðàçû
Ïðèìåð: áðàò ïî âåðà
Ïðîáëåìà îìîíèìèè: áîåâèêè→áîåâèê, àëëàõ→àëëà
Ðåçóëüòàò: 563 òåêñòà (èç 19143), 2.9%
17. Outline
Îáñóæäåíèÿ â áëîãîñôåðå
Ýêñïåðòíûé ïîäõîä
Ñòàòèñòè÷åñêèé ïîäõîä
Ñðàâíèòåëüíûé àíàëèç ðåçóëüòàòîâ
18. Òåìàòè÷åñêîå ìîäåëèðîâàíèå
Topic modeling
Èäåÿ topic modeling:
êàæäûé äîêóìåíò ñìåñü êàòåãîðèé (òåì)
òåìà ïðåäïî÷òåíèå îïðåäåë¼ííûõ ñëîâ
ãåíåðàòèâíàÿ ìîäåëü: ïîäîáðàòü âåðîÿòíîñòè
ðàñïðåäåëåíèÿ ñëîâ ïî òåìàì, ïðè êîòîðûõ ìîæåò áûòü
ñãåíåðèðîâàí äàííûé êîðïóñ
Ïîñòóëàòû î äàííûõ:
êàæäûé òåêñò êàê ìåøîê ñëîâ (bag-of-words)
àíàëèç ñîâìåñòíîé âñòðå÷àåìîñòè ñëîâ â òåêñòàõ
Ïàðàìåòð: ÷èñëî òåì, íà êîòîðûå íóæíî ðàçáèòü
êîëëåêöèþ
19. Òåìàòè÷åñêîå ìîäåëèðîâàíèå
Topic modeling
Èäåÿ topic modeling:
êàæäûé äîêóìåíò ñìåñü êàòåãîðèé (òåì)
òåìà ïðåäïî÷òåíèå îïðåäåë¼ííûõ ñëîâ
ãåíåðàòèâíàÿ ìîäåëü: ïîäîáðàòü âåðîÿòíîñòè
ðàñïðåäåëåíèÿ ñëîâ ïî òåìàì, ïðè êîòîðûõ ìîæåò áûòü
ñãåíåðèðîâàí äàííûé êîðïóñ
Ïîñòóëàòû î äàííûõ:
êàæäûé òåêñò êàê ìåøîê ñëîâ (bag-of-words)
àíàëèç ñîâìåñòíîé âñòðå÷àåìîñòè ñëîâ â òåêñòàõ
Ïàðàìåòð: ÷èñëî òåì, íà êîòîðûå íóæíî ðàçáèòü
êîëëåêöèþ
20. Stanford Topic MOdeling Toolbox
Stanford Topic Modeling Toolbox (Free Software, Java):
Latent Dirichlet Allocation (← probabilistic Latent Semantic
Indexing)
ýôôåêòèâíûå àëãîðèòìû:
collapsed Gibbs sampler (T. L. Griths and M. Steyvers 2004)
collapsed variational Bayes approximation to the LDA objective
(Asuncion, A., Welling, M., Smyth, P. and Teh, Y. W. 2009)
Ãðàôè÷åñêèé èíòåðôåéñ
21. Ðàçáèåíèå íà òåìû
òåìà1 òåìà2 òåìà3 ñóììà
òåðìèí1 0.9 0.1 0.0 = 1
òåðìèí2 0.3 0.3 0.4 = 1
òåðìèí3 0.1 0.3 0.6 = 1
òåìà1 òåìà2 òåìà3 ñóììà
äîêóìåíò1 0.9 0.1 0.0 = 1
äîêóìåíò2 0.3 0.3 0.4 = 1
äîêóìåíò3 0.1 0.3 0.6 = 1
22. Ðàçáèåíèå íà òåìû
òåìà1 òåìà2 òåìà3 ñóììà
òåðìèí1 0.9 0.1 0.0 = 1
òåðìèí2 0.3 0.3 0.4 = 1
òåðìèí3 0.1 0.3 0.6 = 1
òåìà1 òåìà2 òåìà3 ñóììà
äîêóìåíò1 0.9 0.1 0.0 = 1
äîêóìåíò2 0.3 0.3 0.4 = 1
äîêóìåíò3 0.1 0.3 0.6 = 1
23. Topic modeling â ñîöèàëüíûõ íàóêàõ
Ìàòåðèàë, íà êîòîðîì ðàáîòàåò Topic modeling:
Íàó÷íûå ñòàòüè
Ãàçåòû
Áëîãè
Ìèêðîáëîãè (twitter)
Õóäîæåñòâåííàÿ ëèòåðàòóðà è áåëëåòðèñòèêà
Ñèíõðîííûå è äèàõðîííûå êîëëåêöèè.
24. Õàðàêòåðèñòèêà òåìû: 20 âåðîÿòíûõ òåðìèíîâ
âûáîð ïàðòèÿ åäèíûé ïîëèòè÷åñêèé ïóòèí íàðîäíûé âëàñòü
ãîëîñîâàòü ãîëîñ èçáèðàòåëü äåïóòàò ðåçóëüòàò èçáèðàòåëüíûé
ãîëîñîâàíèå îïðîñ ïîëèòèêà êàíäèäàò äóìà ïðåäâûáîðíûé ôðîíò
ïðàçäíèê ìîñêâà ìåðîïðèÿòèå øîó ôåñòèâàëü òîëïà ïðîéòè ïëîùàäü
ïàðê ñåíòÿáðü òûñÿ÷à ñïåöèàëüíûé óëèöà ñåãîäíÿ íàðîä îòìå÷àòü
ó÷àñòíèê äðóã èäòè ïðîõîäèòü
ñïàòü ñèäåòü äîì ïîòîì ëþáèòü êîøêà âñåãäà ñìîòðåòü óòðî íîãà
êîòèê êàæäûé êîò ìóæ ëåæàòü âòîðîé ïîë õîäèòü ãîëîâà ïðèõîäèòü
íàäî äåëàòü äåíüãè ïîòîìó ñåé÷àñ íóæíûé ïîíèìàòü íóæíî ìíîãî
ñäåëàòü ðàáîòàòü äóìàòü ïî÷åìó âåäü áåç âîîáùå ëè êîíå÷íî
íàõîäèòü äîëæíûé
25. Îöåíêà ÷èñëà òåì â êîëëåêöèè
Ïåðïëåêñèâíîñòü:
Ðèñ.: Çíà÷åíèÿ perplexity äëÿ 25250 òåì
26. Ñòàáèëüíîñòü òåì
30 òåì
Topic 29 âîéíà ñøà ëèâèé âîåííûé êàääàôè àðìèÿ
àìåðèêàíñêèé íàòî ìèðîâîé èçðàèëü ïðîòèâ ñèëà ëèâèéñêèé
âîéñêî âòîðîé òóðöèÿ ïðàâèòåëüñòâî ñîëäàò âëàñòü àìåðèêàíåö
100 òåì
Topic 083 ëèâèé êàääàôè ëèâèéñêèé íàòî âîéíà ïîâñòàíåö
òðèïîëè âîåííûé ñèëà ñèðèÿ ïðîòèâ ðåæèì ìÿòåæíèê
ïîëêîâíèê ïîòåðÿ âëàñòü óáèâàòü îîí ñîâåò âçÿòü
225 òåì
Topic 186 ëèâèé êàääàôè ëèâèéñêèé íàòî ïîâñòàíåö òðèïîëè
âîéíà ìÿòåæíèê âîåííûé ïðîòèâ ïîòåðÿ ïîëêîâíèê ñèëà ñèðèÿ
ñîâåò óáèâàòü èíôîðìàöèÿ ÏÍÑ âàëèä ïëåìÿ
27. Outline
Îáñóæäåíèÿ â áëîãîñôåðå
Ýêñïåðòíûé ïîäõîä
Ñòàòèñòè÷åñêèé ïîäõîä
Ñðàâíèòåëüíûé àíàëèç ðåçóëüòàòîâ
28. Èñëàì è äðîáíîñòü òåìàòè÷åñêîãî äåëåíèÿ
Âåñ òåìû â âûáîðêå: ñóììà ñòîëáöà âåðîÿòíîñòåé
(ïðèíàäëåæíîñòè äîêóìåíòîâ ê äàííîé òåìå)
Ñðàâíåíèå âåñà òåìû â êîëëåêöèè è â èñëàìñêîé âûáîðêå:
Mann-Whitney test, p 0, 001.
îáùåå êîë-âî òåì çíà÷èìûõ â èñëàìñêîé âûáîðêå äîëÿ
30 7 0,23
100 40 0,40
150 53 0,35
225 75 0,33
29. Çíà÷èìûå òåìû èñëàìñêîé âûáîðêè: 30
Ïðè ðàçáèåíèè íà 30 òåì:
âîéíà (ñîáûòèÿ â Ëèâèè),
íàöèîíàëüíûå âîïðîñû,
òåðàêò 11 ñåíòÿáðÿ,
ðåëèãèÿ è öåðêîâü,
êðèìèíàë è ïðàâîñóäèå
30. Çíà÷èìûå òåìû èñëàìñêîé âûáîðêè: 100
Ïðè ðàçáèåíèè íà 100 òåì:
òåðàêò 11 ñåíòÿáðÿ
ïèñüìî ñòóäåíòîâ ÌÃÓÊ î ìóñóëüìàíñòâå â âóçå (?)
ÑØÀ, âîéíà â Èðàíå
Èçðàèëü-Òóðöèÿ
ñîáûòèÿ â Ëèâèè
âëàñòüãîñóäàðñòâîîáùåñòâî
îòäåëåíèå Ñåâåðíîãî Êàâêàçà
íàöèñòû
31. Çíà÷èìûå òåìû èñëàìñêîé âûáîðêè: 150
Ïðè ðàçáèåíèè íà 150 òåì:
òåðàêò 11 ñåíòÿáðÿ
Èçðàèëü-Òóðöèÿ
Äàãåñòàí
ñîáûòèÿ â Ëèâèè
ïèñüìî ñòóäåíòîâ ÌÃÓÊ î ìóñóëüìàíñòâå â âóçå (?)
íàöèîíàëüíûé âîïðîñ (¾ðóññêèé íàðîä¿)
âûñêàçûâàíèå Ìåäâåäåâà îá ýêñòðåìèçìå íà ßðîñëàâñêîì
ôîðóìå
×å÷íÿ
âîéíû ÑØÀ
íàöèñòû
32. Âûâîäû
Òåìà èñëàìà ñòàòèñòè÷åñêè íå âû÷ëåíÿåòñÿ êàê öåëîñòíàÿ.
Topic modeling ïîçâîëÿåò âûÿâèòü îáñóæäàåìûå â áëîãàõ
ñîáûòèÿ, ñâÿçàííûå ñ ïðîáëåìíûì ïîëåì èñëàìà.
Ñ ïîìîùüþ topic modeling íàèáîëåå ïîëíàÿ õàðàêòåðèñòèêà
òåìàòèêè áëîãîâ âûÿâëÿåòñÿ ïðè ñîïîñòàâëåíèè ðàçáèåíèé
íà ðàçíîå ÷èñëî òåì.