SlideShare a Scribd company logo
¾Ýêñïåðòíûé¿ è ¾ñòàòèñòè÷åñêèé¿ ïîäõîäû
 ê ñîöèîëîãè÷åñêîìó èññëåäîâàíèþ òåìû
             â áëîãîñôåðå
           ñðàâíèòåëüíûé àíàëèç

             Ê. À. Ìàñëèíñêèé
                  ÃÓ ÂØÝ

                14.10.2011
Ñâåäåíèÿ î ïðîåêòå

    äîêëàäå ïðåäñòàâëåíà ÷àñòü ðåçóëüòàòîâ ðàáîòû â ðàìêàõ
   ïðîåêòà ¾Ðàçðàáîòêà ìåòîäîëîãèè ñåòåâîãî è ñåìàíòè÷åñêîãî
   àíàëèçà áëîãîâ äëÿ ñîöèîëîãè÷åñêèõ çàäà÷¿. Ó÷àñòíèêè:
       Å.Þ.Êîëüöîâà (ðóêîâîäèòåëü)
       À.Â.Êèí÷àðîâà
       Ë.Â.Ïèâîâàðîâà
       Ê.À.Ìàñëèíñêèé
       Ò.Ã.Åôèìîâà
       Å.À.Òåðåùåíêî
       Þ.Â.Ïàâëîâà
       Ñ.Í.Êîëüöîâ, Ð.Ì.Áàõìóäîâ (òåõïîääåðæêà è
       ïðîãðàììèðîâàíèå)
Ïëàí



  Îáñóæäåíèÿ â áëîãîñôåðå

  Ýêñïåðòíûé ïîäõîä

  Ñòàòèñòè÷åñêèé ïîäõîä

  Ñðàâíèòåëüíûé àíàëèç ðåçóëüòàòîâ
Outline



   Îáñóæäåíèÿ â áëîãîñôåðå

   Ýêñïåðòíûé ïîäõîä

   Ñòàòèñòè÷åñêèé ïîäõîä

   Ñðàâíèòåëüíûé àíàëèç ðåçóëüòàòîâ
Ìîäåëü îáñóæäåíèé â áëîãîñôåðå




  Áëîãîñôåðà:
      Ñîâîêóïíîñòü òåêñòîâ
      Îïóáëèêîâàííûõ çà îïðåäåë¼ííûé ïåðèîä (ñèíõðîííûé
      ñðåç)
      Êàæäûé òåêñò õàðàêòåðèçóåòñÿ òåìàòèêîé
      Îáñóæäåíèå  çíà÷èòåëüíîå ÷èñëî òåêñòîâ ñî ñõîäíîé
      òåìàòèêîé
Ïîñòàíîâêà ïðîáëåìû




  Çàäà÷à: èçó÷åíèå îáñóæäåíèÿ êîíêðåòíîé òåìû â áëîãîñôåðå.
  Ïðîáëåìû:
      íàñêîëüêî ïðàâîìåðíî âû÷ëåíåíèå òåìû;
      êàêîå ìåñòî òåìà çàíèìàåò â ñòðóêòóðå îáñóæäåíèé â
      áëîãîñôåðå.
  Case study: òåìà èñëàìà â ñîâðåìåííîé ðîññèéñêîé áëîãîñôåðå
Ìàòåðèàë



  Äàííûå ñîáðàíû ñ ïîìîùüþ ñïåöèàëüíî ðàçðàáîòàííîãî ÏÎ:
  Koltran Blogminer
  Òåñòîâàÿ êîëëåêöèÿ:
       Ïëàòôîðìà: livejournal.com (ðóññêîÿçû÷íàÿ ÷àñòü)
       Âûáîðêà: òîï-2500 æóðíàëîâ (ïî ðåéòèíãó ÆÆ)
       Ïåðèîä: 115 ñåíòÿáðÿ 2011
       Òîëüêî òåêñòû ïîñòîâ (áåç êîììåíòàðèåâ)
       Îáú¼ì: 19143 ïîñòà (≈4 ìëí ñëîâ)
Îáðàáîòêà òåêñòîâ




      âûäåëåíèå ñïåöèôè÷åñêîé LJ-ðàçìåòêè
      ññûëêè, èçîáðàæåíèÿ è (íåêîòîðûå) ñìàéëèêè
      ïðåîáðàçîâàíû â óñëîâíûå ñëîâà
      óäàëåíèå âñåé ïðî÷åé ðàçìåòêè
      ëåììàòèçàöèÿ (mystem)
      âûáîð áîëåå ÷àñòîòíîé (èëè ïåðâîé) ëåììû
Outline



   Îáñóæäåíèÿ â áëîãîñôåðå

   Ýêñïåðòíûé ïîäõîä

   Ñòàòèñòè÷åñêèé ïîäõîä

   Ñðàâíèòåëüíûé àíàëèç ðåçóëüòàòîâ
Ïðîöåäóðà ñîñòàâëåíèÿ ñïèñêà êëþ÷åâûõ ñëîâ



    1. Ïÿòåðûõ ýêñïåðòîâ â îáëàñòè èñëàìà ïîïðîñèëè íàçâàòü
       íåñêîëüêî êëþ÷åâûõ ñîáûòèé ïîñëåäíåãî âðåìåíè,
       ñâÿçàííûõ ñ èñëàìîì.
    2. Íà îñíîâàíèè ñïèñêà ñîáûòèé áûë îñóùåñòâë¼í ïîèñê
       òåêñòîâ áëîãîâ, óïîìèíàþùèõ íàçâàííûå ñîáûòèÿ (ñ
       ïîìîùüþ ïîèñêà ïî áëîãàì ñèñòåìû ßíäåêñ).
    3. Ïåðâûå 100 íàéäåííûõ òàêèì îáðàçîì òåêñòîâ áûëè
       ïðî÷èòàíû êîäèðîâùèêàìè, êîòîðûå âûäåëèëè â íèõ
       êëþ÷åâûå ôðàçû, îòíîñÿùèåñÿ ê èñëàìó.
Òåìà èñëàìà êàê ñïèñîê êëþ÷åâûõ ôðàç
  157 êëþ÷åâûõ ôðàç:
      ñëîâîñî÷åòàíèÿ, âêëþ÷àþùèå îñíîâû èñëàì-, ìóñóëüìàí-
      Èñëàìèçàöèÿ, èñëàìîôîá, èñëàìñêàÿ óììà, ìóñóëüìàíå
      áåðóò â ðóêè îðóæèå, ìóñóëüìàíå è ïðàâîñëàâíûå,
      Ìóñóëüìàíñêàÿ îáùåñòâåííîñòü
      èñëàìñêèå ðåëèãèîçíûå òåðìèíû, ïðåäìåòû îáèõîäà
      áëàãîðîäíûé Êîðàí, ìîëèòâåííûé êîâðèê, Ïàðàíäæà
      òåððîðèçì è ýêñòðåìèçì;
      òåððîðèñòû, áîåâèêè, àãðåññèâíî íàñòðîåííûå ìóñóëüìàíå
      ñîáûòèÿ
      óáèéñòâî ïîëêîâíèêà Áóäàíîâà, Óáèéñòâî Øàìèëÿ
      Äæèêàåâà, âòîðàÿ ÷å÷åíñêàÿ
      èñëàìñêèå îðãàíèçàöèè
      Àëü-Êàèäà, Äóõîâíîå Óïðàâëåíèå Ìóñóëüìàí
      ...
Òåìà èñëàìà êàê ñïèñîê êëþ÷åâûõ ôðàç
  157 êëþ÷åâûõ ôðàç:
      ñëîâîñî÷åòàíèÿ, âêëþ÷àþùèå îñíîâû èñëàì-, ìóñóëüìàí-
      Èñëàìèçàöèÿ, èñëàìîôîá, èñëàìñêàÿ óììà, ìóñóëüìàíå
      áåðóò â ðóêè îðóæèå, ìóñóëüìàíå è ïðàâîñëàâíûå,
      Ìóñóëüìàíñêàÿ îáùåñòâåííîñòü
      èñëàìñêèå ðåëèãèîçíûå òåðìèíû, ïðåäìåòû îáèõîäà
      áëàãîðîäíûé Êîðàí, ìîëèòâåííûé êîâðèê, Ïàðàíäæà
      òåððîðèçì è ýêñòðåìèçì;
      òåððîðèñòû, áîåâèêè, àãðåññèâíî íàñòðîåííûå ìóñóëüìàíå
      ñîáûòèÿ
      óáèéñòâî ïîëêîâíèêà Áóäàíîâà, Óáèéñòâî Øàìèëÿ
      Äæèêàåâà, âòîðàÿ ÷å÷åíñêàÿ
      èñëàìñêèå îðãàíèçàöèè
      Àëü-Êàèäà, Äóõîâíîå Óïðàâëåíèå Ìóñóëüìàí
      ...
Òåìà èñëàìà êàê ñïèñîê êëþ÷åâûõ ôðàç
  157 êëþ÷åâûõ ôðàç:
      ñëîâîñî÷åòàíèÿ, âêëþ÷àþùèå îñíîâû èñëàì-, ìóñóëüìàí-
      Èñëàìèçàöèÿ, èñëàìîôîá, èñëàìñêàÿ óììà, ìóñóëüìàíå
      áåðóò â ðóêè îðóæèå, ìóñóëüìàíå è ïðàâîñëàâíûå,
      Ìóñóëüìàíñêàÿ îáùåñòâåííîñòü
      èñëàìñêèå ðåëèãèîçíûå òåðìèíû, ïðåäìåòû îáèõîäà
      áëàãîðîäíûé Êîðàí, ìîëèòâåííûé êîâðèê, Ïàðàíäæà
      òåððîðèçì è ýêñòðåìèçì;
      òåððîðèñòû, áîåâèêè, àãðåññèâíî íàñòðîåííûå ìóñóëüìàíå
      ñîáûòèÿ
      óáèéñòâî ïîëêîâíèêà Áóäàíîâà, Óáèéñòâî Øàìèëÿ
      Äæèêàåâà, âòîðàÿ ÷å÷åíñêàÿ
      èñëàìñêèå îðãàíèçàöèè
      Àëü-Êàèäà, Äóõîâíîå Óïðàâëåíèå Ìóñóëüìàí
      ...
Òåìà èñëàìà êàê ñïèñîê êëþ÷åâûõ ôðàç
  157 êëþ÷åâûõ ôðàç:
      ñëîâîñî÷åòàíèÿ, âêëþ÷àþùèå îñíîâû èñëàì-, ìóñóëüìàí-
      Èñëàìèçàöèÿ, èñëàìîôîá, èñëàìñêàÿ óììà, ìóñóëüìàíå
      áåðóò â ðóêè îðóæèå, ìóñóëüìàíå è ïðàâîñëàâíûå,
      Ìóñóëüìàíñêàÿ îáùåñòâåííîñòü
      èñëàìñêèå ðåëèãèîçíûå òåðìèíû, ïðåäìåòû îáèõîäà
      áëàãîðîäíûé Êîðàí, ìîëèòâåííûé êîâðèê, Ïàðàíäæà
      òåððîðèçì è ýêñòðåìèçì;
      òåððîðèñòû, áîåâèêè, àãðåññèâíî íàñòðîåííûå ìóñóëüìàíå
      ñîáûòèÿ
      óáèéñòâî ïîëêîâíèêà Áóäàíîâà, Óáèéñòâî Øàìèëÿ
      Äæèêàåâà, âòîðàÿ ÷å÷åíñêàÿ
      èñëàìñêèå îðãàíèçàöèè
      Àëü-Êàèäà, Äóõîâíîå Óïðàâëåíèå Ìóñóëüìàí
      ...
Òåìà èñëàìà êàê ñïèñîê êëþ÷åâûõ ôðàç
  157 êëþ÷åâûõ ôðàç:
      ñëîâîñî÷åòàíèÿ, âêëþ÷àþùèå îñíîâû èñëàì-, ìóñóëüìàí-
      Èñëàìèçàöèÿ, èñëàìîôîá, èñëàìñêàÿ óììà, ìóñóëüìàíå
      áåðóò â ðóêè îðóæèå, ìóñóëüìàíå è ïðàâîñëàâíûå,
      Ìóñóëüìàíñêàÿ îáùåñòâåííîñòü
      èñëàìñêèå ðåëèãèîçíûå òåðìèíû, ïðåäìåòû îáèõîäà
      áëàãîðîäíûé Êîðàí, ìîëèòâåííûé êîâðèê, Ïàðàíäæà
      òåððîðèçì è ýêñòðåìèçì;
      òåððîðèñòû, áîåâèêè, àãðåññèâíî íàñòðîåííûå ìóñóëüìàíå
      ñîáûòèÿ
      óáèéñòâî ïîëêîâíèêà Áóäàíîâà, Óáèéñòâî Øàìèëÿ
      Äæèêàåâà, âòîðàÿ ÷å÷åíñêàÿ
      èñëàìñêèå îðãàíèçàöèè
      Àëü-Êàèäà, Äóõîâíîå Óïðàâëåíèå Ìóñóëüìàí
      ...
Îòáîð òåêñòîâ èç êîëëåêöèè




       Ñïèñîê ñëîâ ëåììàòèçèðîâàí (àíàëîãè÷íî òåêñòàì)
       Ïîèñê òåêñòîâ ïî òî÷íîìó ñîâïàäåíèþ êëþ÷åâîé ôðàçû
       Ïðèìåð: áðàò ïî âåðà
       Ïðîáëåìà îìîíèìèè: áîåâèêè→áîåâèê, àëëàõ→àëëà
   Ðåçóëüòàò: 563 òåêñòà (èç 19143), 2.9%
Outline



   Îáñóæäåíèÿ â áëîãîñôåðå

   Ýêñïåðòíûé ïîäõîä

   Ñòàòèñòè÷åñêèé ïîäõîä

   Ñðàâíèòåëüíûé àíàëèç ðåçóëüòàòîâ
Òåìàòè÷åñêîå ìîäåëèðîâàíèå
Topic modeling

    Èäåÿ topic modeling:
        êàæäûé äîêóìåíò  ñìåñü êàòåãîðèé (òåì)
        òåìà  ïðåäïî÷òåíèå îïðåäåë¼ííûõ ñëîâ
        ãåíåðàòèâíàÿ ìîäåëü: ïîäîáðàòü âåðîÿòíîñòè
        ðàñïðåäåëåíèÿ ñëîâ ïî òåìàì, ïðè êîòîðûõ ìîæåò áûòü
        ñãåíåðèðîâàí äàííûé êîðïóñ
    Ïîñòóëàòû î äàííûõ:
        êàæäûé òåêñò êàê ìåøîê ñëîâ (bag-of-words)
        àíàëèç ñîâìåñòíîé âñòðå÷àåìîñòè ñëîâ â òåêñòàõ
        Ïàðàìåòð: ÷èñëî òåì, íà êîòîðûå íóæíî ðàçáèòü
        êîëëåêöèþ
Òåìàòè÷åñêîå ìîäåëèðîâàíèå
Topic modeling

    Èäåÿ topic modeling:
        êàæäûé äîêóìåíò  ñìåñü êàòåãîðèé (òåì)
        òåìà  ïðåäïî÷òåíèå îïðåäåë¼ííûõ ñëîâ
        ãåíåðàòèâíàÿ ìîäåëü: ïîäîáðàòü âåðîÿòíîñòè
        ðàñïðåäåëåíèÿ ñëîâ ïî òåìàì, ïðè êîòîðûõ ìîæåò áûòü
        ñãåíåðèðîâàí äàííûé êîðïóñ
    Ïîñòóëàòû î äàííûõ:
        êàæäûé òåêñò êàê ìåøîê ñëîâ (bag-of-words)
        àíàëèç ñîâìåñòíîé âñòðå÷àåìîñòè ñëîâ â òåêñòàõ
        Ïàðàìåòð: ÷èñëî òåì, íà êîòîðûå íóæíî ðàçáèòü
        êîëëåêöèþ
Stanford Topic MOdeling Toolbox



   Stanford Topic Modeling Toolbox (Free Software, Java):
       Latent Dirichlet Allocation (← probabilistic Latent Semantic
       Indexing)
       ýôôåêòèâíûå àëãîðèòìû:
            collapsed Gibbs sampler (T. L. Griths and M. Steyvers 2004)
            collapsed variational Bayes approximation to the LDA objective
            (Asuncion, A., Welling, M., Smyth, P. and Teh, Y. W. 2009)
       Ãðàôè÷åñêèé èíòåðôåéñ
Ðàçáèåíèå íà òåìû



            òåìà1 òåìà2 òåìà3 ñóììà
   òåðìèí1   0.9 0.1 0.0 = 1
   òåðìèí2   0.3 0.3 0.4 = 1
   òåðìèí3   0.1 0.3 0.6 = 1
              òåìà1 òåìà2 òåìà3 ñóììà
   äîêóìåíò1 0.9 0.1 0.0 = 1
   äîêóìåíò2 0.3 0.3 0.4 = 1
   äîêóìåíò3 0.1 0.3 0.6 = 1
Ðàçáèåíèå íà òåìû



            òåìà1 òåìà2 òåìà3 ñóììà
   òåðìèí1   0.9 0.1 0.0 = 1
   òåðìèí2   0.3 0.3 0.4 = 1
   òåðìèí3   0.1 0.3 0.6 = 1
              òåìà1 òåìà2 òåìà3 ñóììà
   äîêóìåíò1 0.9 0.1 0.0 = 1
   äîêóìåíò2 0.3 0.3 0.4 = 1
   äîêóìåíò3 0.1 0.3 0.6 = 1
Topic modeling â ñîöèàëüíûõ íàóêàõ



   Ìàòåðèàë, íà êîòîðîì ðàáîòàåò Topic modeling:
       Íàó÷íûå ñòàòüè
       Ãàçåòû
       Áëîãè
       Ìèêðîáëîãè (twitter)
       Õóäîæåñòâåííàÿ ëèòåðàòóðà è áåëëåòðèñòèêà
   Ñèíõðîííûå è äèàõðîííûå êîëëåêöèè.
Õàðàêòåðèñòèêà òåìû: 20 âåðîÿòíûõ òåðìèíîâ


  âûáîð ïàðòèÿ åäèíûé ïîëèòè÷åñêèé ïóòèí íàðîäíûé âëàñòü
  ãîëîñîâàòü ãîëîñ èçáèðàòåëü äåïóòàò ðåçóëüòàò èçáèðàòåëüíûé
  ãîëîñîâàíèå îïðîñ ïîëèòèêà êàíäèäàò äóìà ïðåäâûáîðíûé ôðîíò

  ïðàçäíèê ìîñêâà ìåðîïðèÿòèå øîó ôåñòèâàëü òîëïà ïðîéòè ïëîùàäü
  ïàðê ñåíòÿáðü òûñÿ÷à ñïåöèàëüíûé óëèöà ñåãîäíÿ íàðîä îòìå÷àòü
  ó÷àñòíèê äðóã èäòè ïðîõîäèòü

  ñïàòü ñèäåòü äîì ïîòîì ëþáèòü êîøêà âñåãäà ñìîòðåòü óòðî íîãà
  êîòèê êàæäûé êîò ìóæ ëåæàòü âòîðîé ïîë õîäèòü ãîëîâà ïðèõîäèòü

  íàäî äåëàòü äåíüãè ïîòîìó ñåé÷àñ íóæíûé ïîíèìàòü íóæíî ìíîãî
  ñäåëàòü ðàáîòàòü äóìàòü ïî÷åìó âåäü áåç âîîáùå ëè êîíå÷íî
  íàõîäèòü äîëæíûé
Îöåíêà ÷èñëà òåì â êîëëåêöèè
  Ïåðïëåêñèâíîñòü:




             Ðèñ.: Çíà÷åíèÿ perplexity äëÿ 25250 òåì
Ñòàáèëüíîñòü òåì


  30 òåì
  Topic 29 âîéíà ñøà ëèâèé âîåííûé êàääàôè àðìèÿ
  àìåðèêàíñêèé íàòî ìèðîâîé èçðàèëü ïðîòèâ ñèëà ëèâèéñêèé
  âîéñêî âòîðîé òóðöèÿ ïðàâèòåëüñòâî ñîëäàò âëàñòü àìåðèêàíåö
  100 òåì
  Topic 083 ëèâèé êàääàôè ëèâèéñêèé íàòî âîéíà ïîâñòàíåö
  òðèïîëè âîåííûé ñèëà ñèðèÿ ïðîòèâ ðåæèì ìÿòåæíèê
  ïîëêîâíèê ïîòåðÿ âëàñòü óáèâàòü îîí ñîâåò âçÿòü
  225 òåì
  Topic 186 ëèâèé êàääàôè ëèâèéñêèé íàòî ïîâñòàíåö òðèïîëè
  âîéíà ìÿòåæíèê âîåííûé ïðîòèâ ïîòåðÿ ïîëêîâíèê ñèëà ñèðèÿ
  ñîâåò óáèâàòü èíôîðìàöèÿ ÏÍÑ âàëèä ïëåìÿ
Outline



   Îáñóæäåíèÿ â áëîãîñôåðå

   Ýêñïåðòíûé ïîäõîä

   Ñòàòèñòè÷åñêèé ïîäõîä

   Ñðàâíèòåëüíûé àíàëèç ðåçóëüòàòîâ
Èñëàì è äðîáíîñòü òåìàòè÷åñêîãî äåëåíèÿ



  Âåñ òåìû â âûáîðêå: ñóììà ñòîëáöà âåðîÿòíîñòåé
  (ïðèíàäëåæíîñòè äîêóìåíòîâ ê äàííîé òåìå)
  Ñðàâíåíèå âåñà òåìû â êîëëåêöèè è â èñëàìñêîé âûáîðêå:
  Mann-Whitney test, p  0, 001.
   îáùåå êîë-âî òåì çíà÷èìûõ â èñëàìñêîé âûáîðêå äîëÿ
   30                  7                             0,23
   100                 40                            0,40
   150                 53                            0,35
   225                 75                            0,33
Çíà÷èìûå òåìû èñëàìñêîé âûáîðêè: 30




  Ïðè ðàçáèåíèè íà 30 òåì:
      âîéíà (ñîáûòèÿ â Ëèâèè),
      íàöèîíàëüíûå âîïðîñû,
      òåðàêò 11 ñåíòÿáðÿ,
      ðåëèãèÿ è öåðêîâü,
      êðèìèíàë è ïðàâîñóäèå
Çíà÷èìûå òåìû èñëàìñêîé âûáîðêè: 100


  Ïðè ðàçáèåíèè íà 100 òåì:
      òåðàêò 11 ñåíòÿáðÿ
      ïèñüìî ñòóäåíòîâ ÌÃÓÊ î ìóñóëüìàíñòâå â âóçå (?)
      ÑØÀ, âîéíà â Èðàíå
      Èçðàèëü-Òóðöèÿ
      ñîáûòèÿ â Ëèâèè
      âëàñòüãîñóäàðñòâîîáùåñòâî
      îòäåëåíèå Ñåâåðíîãî Êàâêàçà
      íàöèñòû
Çíà÷èìûå òåìû èñëàìñêîé âûáîðêè: 150

  Ïðè ðàçáèåíèè íà 150 òåì:
      òåðàêò 11 ñåíòÿáðÿ
      Èçðàèëü-Òóðöèÿ
      Äàãåñòàí
      ñîáûòèÿ â Ëèâèè
      ïèñüìî ñòóäåíòîâ ÌÃÓÊ î ìóñóëüìàíñòâå â âóçå (?)
      íàöèîíàëüíûé âîïðîñ (¾ðóññêèé íàðîä¿)
      âûñêàçûâàíèå Ìåäâåäåâà îá ýêñòðåìèçìå íà ßðîñëàâñêîì
      ôîðóìå
      ×å÷íÿ
      âîéíû ÑØÀ
      íàöèñòû
Âûâîäû




     Òåìà èñëàìà ñòàòèñòè÷åñêè íå âû÷ëåíÿåòñÿ êàê öåëîñòíàÿ.
     Topic modeling ïîçâîëÿåò âûÿâèòü îáñóæäàåìûå â áëîãàõ
     ñîáûòèÿ, ñâÿçàííûå ñ ïðîáëåìíûì ïîëåì èñëàìà.
     Ñ ïîìîùüþ topic modeling íàèáîëåå ïîëíàÿ õàðàêòåðèñòèêà
     òåìàòèêè áëîãîâ âûÿâëÿåòñÿ ïðè ñîïîñòàâëåíèè ðàçáèåíèé
     íà ðàçíîå ÷èñëî òåì.

More Related Content

What's hot

№ 25
№ 25№ 25
№ 25Sosedy
 
ЖАДНЫЕ АЛГОРИТМЫ
ЖАДНЫЕ АЛГОРИТМЫ ЖАДНЫЕ АЛГОРИТМЫ
ЖАДНЫЕ АЛГОРИТМЫ
DEVTYPE
 
Видеть наощупь....
Видеть наощупь....Видеть наощупь....
мастер и маргарита
мастер и маргаритамастер и маргарита
мастер и маргаритаAnhelinaAir
 
Spiridonova v i_byurokratiya_i_reforma_analiz_koncepcii_m_kr
Spiridonova v i_byurokratiya_i_reforma_analiz_koncepcii_m_krSpiridonova v i_byurokratiya_i_reforma_analiz_koncepcii_m_kr
Spiridonova v i_byurokratiya_i_reforma_analiz_koncepcii_m_krshulenina_nv
 
7 литер волощук_слободянюк_рус_зар_2015_рус
7 литер волощук_слободянюк_рус_зар_2015_рус7 литер волощук_слободянюк_рус_зар_2015_рус
7 литер волощук_слободянюк_рус_зар_2015_рус
Aira_Roo
 
8 oz b 2016_ros
8 oz b 2016_ros8 oz b 2016_ros
8 oz b 2016_ros
8new
 
Автомобильный тахометр TХ-319
Автомобильный тахометр TХ-319Автомобильный тахометр TХ-319
Автомобильный тахометр TХ-319kvz
 
"Смілянські обрії", випуск від 14.09.11
"Смілянські обрії", випуск від 14.09.11"Смілянські обрії", випуск від 14.09.11
"Смілянські обрії", випуск від 14.09.11Смілянська РДА
 
Ты моя синеглазая Русь - 2
Ты моя синеглазая Русь - 2Ты моя синеглазая Русь - 2
Ты моя синеглазая Русь - 2libuspu
 
Linch poymat bolshuyu-rybu-meditaciya-osoznannost-i-tvorchestvo.160317
Linch poymat bolshuyu-rybu-meditaciya-osoznannost-i-tvorchestvo.160317Linch poymat bolshuyu-rybu-meditaciya-osoznannost-i-tvorchestvo.160317
Linch poymat bolshuyu-rybu-meditaciya-osoznannost-i-tvorchestvo.160317
ChristinaPysmennaya
 
Маршрутный компьютер МК-05
Маршрутный компьютер МК-05Маршрутный компьютер МК-05
Маршрутный компьютер МК-05kvz
 

What's hot (16)

4 net.12.21
 4 net.12.21 4 net.12.21
4 net.12.21
 
№ 25
№ 25№ 25
№ 25
 
ЖАДНЫЕ АЛГОРИТМЫ
ЖАДНЫЕ АЛГОРИТМЫ ЖАДНЫЕ АЛГОРИТМЫ
ЖАДНЫЕ АЛГОРИТМЫ
 
Voloshin philosophy
Voloshin philosophyVoloshin philosophy
Voloshin philosophy
 
Видеть наощупь....
Видеть наощупь....Видеть наощупь....
Видеть наощупь....
 
мастер и маргарита
мастер и маргаритамастер и маргарита
мастер и маргарита
 
Spiridonova v i_byurokratiya_i_reforma_analiz_koncepcii_m_kr
Spiridonova v i_byurokratiya_i_reforma_analiz_koncepcii_m_krSpiridonova v i_byurokratiya_i_reforma_analiz_koncepcii_m_kr
Spiridonova v i_byurokratiya_i_reforma_analiz_koncepcii_m_kr
 
7 литер волощук_слободянюк_рус_зар_2015_рус
7 литер волощук_слободянюк_рус_зар_2015_рус7 литер волощук_слободянюк_рус_зар_2015_рус
7 литер волощук_слободянюк_рус_зар_2015_рус
 
8 oz b 2016_ros
8 oz b 2016_ros8 oz b 2016_ros
8 oz b 2016_ros
 
2009 7
2009 72009 7
2009 7
 
2009 5
2009 52009 5
2009 5
 
Автомобильный тахометр TХ-319
Автомобильный тахометр TХ-319Автомобильный тахометр TХ-319
Автомобильный тахометр TХ-319
 
"Смілянські обрії", випуск від 14.09.11
"Смілянські обрії", випуск від 14.09.11"Смілянські обрії", випуск від 14.09.11
"Смілянські обрії", випуск від 14.09.11
 
Ты моя синеглазая Русь - 2
Ты моя синеглазая Русь - 2Ты моя синеглазая Русь - 2
Ты моя синеглазая Русь - 2
 
Linch poymat bolshuyu-rybu-meditaciya-osoznannost-i-tvorchestvo.160317
Linch poymat bolshuyu-rybu-meditaciya-osoznannost-i-tvorchestvo.160317Linch poymat bolshuyu-rybu-meditaciya-osoznannost-i-tvorchestvo.160317
Linch poymat bolshuyu-rybu-meditaciya-osoznannost-i-tvorchestvo.160317
 
Маршрутный компьютер МК-05
Маршрутный компьютер МК-05Маршрутный компьютер МК-05
Маршрутный компьютер МК-05
 

Viewers also liked

Клышинский 8.12
Клышинский 8.12Клышинский 8.12
Клышинский 8.12Natalia Ostapuk
 
Let you call me hough
Let you call me houghLet you call me hough
Let you call me houghNLPseminar
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)NLPseminar
 
Nlp seminar academicwriting
Nlp seminar academicwritingNlp seminar academicwriting
Nlp seminar academicwritingLidia Pivovarova
 
Давайте напишем морфологию
Давайте напишем морфологиюДавайте напишем морфологию
Давайте напишем морфологию
Lidia Pivovarova
 
Open Corpora
Open CorporaOpen Corpora
Open Corpora
Lidia Pivovarova
 
Максим Литвинов
Максим ЛитвиновМаксим Литвинов
Максим Литвинов
Lidia Pivovarova
 

Viewers also liked (12)

Gromov
GromovGromov
Gromov
 
Клышинский 8.12
Клышинский 8.12Клышинский 8.12
Клышинский 8.12
 
Let you call me hough
Let you call me houghLet you call me hough
Let you call me hough
 
Kiseleva
KiselevaKiseleva
Kiseleva
 
RussNet
RussNetRussNet
RussNet
 
PressPortrets
PressPortretsPressPortrets
PressPortrets
 
Dictum
DictumDictum
Dictum
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)
 
Nlp seminar academicwriting
Nlp seminar academicwritingNlp seminar academicwriting
Nlp seminar academicwriting
 
Давайте напишем морфологию
Давайте напишем морфологиюДавайте напишем морфологию
Давайте напишем морфологию
 
Open Corpora
Open CorporaOpen Corpora
Open Corpora
 
Максим Литвинов
Максим ЛитвиновМаксим Литвинов
Максим Литвинов
 

More from Natalia Ostapuk

Nlp seminar.kolomiyets.dec.2013
Nlp seminar.kolomiyets.dec.2013Nlp seminar.kolomiyets.dec.2013
Nlp seminar.kolomiyets.dec.2013Natalia Ostapuk
 
Mt engine on nlp semniar
Mt engine on nlp semniarMt engine on nlp semniar
Mt engine on nlp semniarNatalia Ostapuk
 
место онтологий в современной инженерии на примере Iso 15926 v1
место онтологий в современной инженерии на примере Iso 15926 v1место онтологий в современной инженерии на примере Iso 15926 v1
место онтологий в современной инженерии на примере Iso 15926 v1Natalia Ostapuk
 
2011 04 troussov_graph_basedmethods-weakknowledge
2011 04 troussov_graph_basedmethods-weakknowledge2011 04 troussov_graph_basedmethods-weakknowledge
2011 04 troussov_graph_basedmethods-weakknowledgeNatalia Ostapuk
 
2011 04 troussov_graph_basedmethods-weakknowledge
2011 04 troussov_graph_basedmethods-weakknowledge2011 04 troussov_graph_basedmethods-weakknowledge
2011 04 troussov_graph_basedmethods-weakknowledgeNatalia Ostapuk
 

More from Natalia Ostapuk (20)

Aist academic writing
Aist academic writingAist academic writing
Aist academic writing
 
Aist academic writing
Aist academic writingAist academic writing
Aist academic writing
 
Ponomareva
PonomarevaPonomareva
Ponomareva
 
Nlp seminar.kolomiyets.dec.2013
Nlp seminar.kolomiyets.dec.2013Nlp seminar.kolomiyets.dec.2013
Nlp seminar.kolomiyets.dec.2013
 
Tomita одесса
Tomita одессаTomita одесса
Tomita одесса
 
Mt engine on nlp semniar
Mt engine on nlp semniarMt engine on nlp semniar
Mt engine on nlp semniar
 
Tomita 4марта
Tomita 4мартаTomita 4марта
Tomita 4марта
 
Konyushkova
KonyushkovaKonyushkova
Konyushkova
 
Braslavsky 13.12.12
Braslavsky 13.12.12Braslavsky 13.12.12
Braslavsky 13.12.12
 
Zizka synasc 2012
Zizka synasc 2012Zizka synasc 2012
Zizka synasc 2012
 
Zizka immm 2012
Zizka immm 2012Zizka immm 2012
Zizka immm 2012
 
Zizka aimsa 2012
Zizka aimsa 2012Zizka aimsa 2012
Zizka aimsa 2012
 
Analysis by-variants
Analysis by-variantsAnalysis by-variants
Analysis by-variants
 
место онтологий в современной инженерии на примере Iso 15926 v1
место онтологий в современной инженерии на примере Iso 15926 v1место онтологий в современной инженерии на примере Iso 15926 v1
место онтологий в современной инженерии на примере Iso 15926 v1
 
Text mining
Text miningText mining
Text mining
 
Additional2
Additional2Additional2
Additional2
 
Additional1
Additional1Additional1
Additional1
 
Seminar1
Seminar1Seminar1
Seminar1
 
2011 04 troussov_graph_basedmethods-weakknowledge
2011 04 troussov_graph_basedmethods-weakknowledge2011 04 troussov_graph_basedmethods-weakknowledge
2011 04 troussov_graph_basedmethods-weakknowledge
 
2011 04 troussov_graph_basedmethods-weakknowledge
2011 04 troussov_graph_basedmethods-weakknowledge2011 04 troussov_graph_basedmethods-weakknowledge
2011 04 troussov_graph_basedmethods-weakknowledge
 

Presentation

  • 1. ¾Ýêñïåðòíûé¿ è ¾ñòàòèñòè÷åñêèé¿ ïîäõîäû ê ñîöèîëîãè÷åñêîìó èññëåäîâàíèþ òåìû â áëîãîñôåðå ñðàâíèòåëüíûé àíàëèç Ê. À. Ìàñëèíñêèé ÃÓ ÂØÝ 14.10.2011
  • 2. Ñâåäåíèÿ î ïðîåêòå  äîêëàäå ïðåäñòàâëåíà ÷àñòü ðåçóëüòàòîâ ðàáîòû â ðàìêàõ ïðîåêòà ¾Ðàçðàáîòêà ìåòîäîëîãèè ñåòåâîãî è ñåìàíòè÷åñêîãî àíàëèçà áëîãîâ äëÿ ñîöèîëîãè÷åñêèõ çàäà÷¿. Ó÷àñòíèêè: Å.Þ.Êîëüöîâà (ðóêîâîäèòåëü) À.Â.Êèí÷àðîâà Ë.Â.Ïèâîâàðîâà Ê.À.Ìàñëèíñêèé Ò.Ã.Åôèìîâà Å.À.Òåðåùåíêî Þ.Â.Ïàâëîâà Ñ.Í.Êîëüöîâ, Ð.Ì.Áàõìóäîâ (òåõïîääåðæêà è ïðîãðàììèðîâàíèå)
  • 3. Ïëàí Îáñóæäåíèÿ â áëîãîñôåðå Ýêñïåðòíûé ïîäõîä Ñòàòèñòè÷åñêèé ïîäõîä Ñðàâíèòåëüíûé àíàëèç ðåçóëüòàòîâ
  • 4. Outline Îáñóæäåíèÿ â áëîãîñôåðå Ýêñïåðòíûé ïîäõîä Ñòàòèñòè÷åñêèé ïîäõîä Ñðàâíèòåëüíûé àíàëèç ðåçóëüòàòîâ
  • 5. Ìîäåëü îáñóæäåíèé â áëîãîñôåðå Áëîãîñôåðà: Ñîâîêóïíîñòü òåêñòîâ Îïóáëèêîâàííûõ çà îïðåäåë¼ííûé ïåðèîä (ñèíõðîííûé ñðåç) Êàæäûé òåêñò õàðàêòåðèçóåòñÿ òåìàòèêîé Îáñóæäåíèå çíà÷èòåëüíîå ÷èñëî òåêñòîâ ñî ñõîäíîé òåìàòèêîé
  • 6. Ïîñòàíîâêà ïðîáëåìû Çàäà÷à: èçó÷åíèå îáñóæäåíèÿ êîíêðåòíîé òåìû â áëîãîñôåðå. Ïðîáëåìû: íàñêîëüêî ïðàâîìåðíî âû÷ëåíåíèå òåìû; êàêîå ìåñòî òåìà çàíèìàåò â ñòðóêòóðå îáñóæäåíèé â áëîãîñôåðå. Case study: òåìà èñëàìà â ñîâðåìåííîé ðîññèéñêîé áëîãîñôåðå
  • 7. Ìàòåðèàë Äàííûå ñîáðàíû ñ ïîìîùüþ ñïåöèàëüíî ðàçðàáîòàííîãî ÏÎ: Koltran Blogminer Òåñòîâàÿ êîëëåêöèÿ: Ïëàòôîðìà: livejournal.com (ðóññêîÿçû÷íàÿ ÷àñòü) Âûáîðêà: òîï-2500 æóðíàëîâ (ïî ðåéòèíãó ÆÆ) Ïåðèîä: 115 ñåíòÿáðÿ 2011 Òîëüêî òåêñòû ïîñòîâ (áåç êîììåíòàðèåâ) Îáú¼ì: 19143 ïîñòà (≈4 ìëí ñëîâ)
  • 8. Îáðàáîòêà òåêñòîâ âûäåëåíèå ñïåöèôè÷åñêîé LJ-ðàçìåòêè ññûëêè, èçîáðàæåíèÿ è (íåêîòîðûå) ñìàéëèêè ïðåîáðàçîâàíû â óñëîâíûå ñëîâà óäàëåíèå âñåé ïðî÷åé ðàçìåòêè ëåììàòèçàöèÿ (mystem) âûáîð áîëåå ÷àñòîòíîé (èëè ïåðâîé) ëåììû
  • 9. Outline Îáñóæäåíèÿ â áëîãîñôåðå Ýêñïåðòíûé ïîäõîä Ñòàòèñòè÷åñêèé ïîäõîä Ñðàâíèòåëüíûé àíàëèç ðåçóëüòàòîâ
  • 10. Ïðîöåäóðà ñîñòàâëåíèÿ ñïèñêà êëþ÷åâûõ ñëîâ 1. Ïÿòåðûõ ýêñïåðòîâ â îáëàñòè èñëàìà ïîïðîñèëè íàçâàòü íåñêîëüêî êëþ÷åâûõ ñîáûòèé ïîñëåäíåãî âðåìåíè, ñâÿçàííûõ ñ èñëàìîì. 2. Íà îñíîâàíèè ñïèñêà ñîáûòèé áûë îñóùåñòâë¼í ïîèñê òåêñòîâ áëîãîâ, óïîìèíàþùèõ íàçâàííûå ñîáûòèÿ (ñ ïîìîùüþ ïîèñêà ïî áëîãàì ñèñòåìû ßíäåêñ). 3. Ïåðâûå 100 íàéäåííûõ òàêèì îáðàçîì òåêñòîâ áûëè ïðî÷èòàíû êîäèðîâùèêàìè, êîòîðûå âûäåëèëè â íèõ êëþ÷åâûå ôðàçû, îòíîñÿùèåñÿ ê èñëàìó.
  • 11. Òåìà èñëàìà êàê ñïèñîê êëþ÷åâûõ ôðàç 157 êëþ÷åâûõ ôðàç: ñëîâîñî÷åòàíèÿ, âêëþ÷àþùèå îñíîâû èñëàì-, ìóñóëüìàí- Èñëàìèçàöèÿ, èñëàìîôîá, èñëàìñêàÿ óììà, ìóñóëüìàíå áåðóò â ðóêè îðóæèå, ìóñóëüìàíå è ïðàâîñëàâíûå, Ìóñóëüìàíñêàÿ îáùåñòâåííîñòü èñëàìñêèå ðåëèãèîçíûå òåðìèíû, ïðåäìåòû îáèõîäà áëàãîðîäíûé Êîðàí, ìîëèòâåííûé êîâðèê, Ïàðàíäæà òåððîðèçì è ýêñòðåìèçì; òåððîðèñòû, áîåâèêè, àãðåññèâíî íàñòðîåííûå ìóñóëüìàíå ñîáûòèÿ óáèéñòâî ïîëêîâíèêà Áóäàíîâà, Óáèéñòâî Øàìèëÿ Äæèêàåâà, âòîðàÿ ÷å÷åíñêàÿ èñëàìñêèå îðãàíèçàöèè Àëü-Êàèäà, Äóõîâíîå Óïðàâëåíèå Ìóñóëüìàí ...
  • 12. Òåìà èñëàìà êàê ñïèñîê êëþ÷åâûõ ôðàç 157 êëþ÷åâûõ ôðàç: ñëîâîñî÷åòàíèÿ, âêëþ÷àþùèå îñíîâû èñëàì-, ìóñóëüìàí- Èñëàìèçàöèÿ, èñëàìîôîá, èñëàìñêàÿ óììà, ìóñóëüìàíå áåðóò â ðóêè îðóæèå, ìóñóëüìàíå è ïðàâîñëàâíûå, Ìóñóëüìàíñêàÿ îáùåñòâåííîñòü èñëàìñêèå ðåëèãèîçíûå òåðìèíû, ïðåäìåòû îáèõîäà áëàãîðîäíûé Êîðàí, ìîëèòâåííûé êîâðèê, Ïàðàíäæà òåððîðèçì è ýêñòðåìèçì; òåððîðèñòû, áîåâèêè, àãðåññèâíî íàñòðîåííûå ìóñóëüìàíå ñîáûòèÿ óáèéñòâî ïîëêîâíèêà Áóäàíîâà, Óáèéñòâî Øàìèëÿ Äæèêàåâà, âòîðàÿ ÷å÷åíñêàÿ èñëàìñêèå îðãàíèçàöèè Àëü-Êàèäà, Äóõîâíîå Óïðàâëåíèå Ìóñóëüìàí ...
  • 13. Òåìà èñëàìà êàê ñïèñîê êëþ÷åâûõ ôðàç 157 êëþ÷åâûõ ôðàç: ñëîâîñî÷åòàíèÿ, âêëþ÷àþùèå îñíîâû èñëàì-, ìóñóëüìàí- Èñëàìèçàöèÿ, èñëàìîôîá, èñëàìñêàÿ óììà, ìóñóëüìàíå áåðóò â ðóêè îðóæèå, ìóñóëüìàíå è ïðàâîñëàâíûå, Ìóñóëüìàíñêàÿ îáùåñòâåííîñòü èñëàìñêèå ðåëèãèîçíûå òåðìèíû, ïðåäìåòû îáèõîäà áëàãîðîäíûé Êîðàí, ìîëèòâåííûé êîâðèê, Ïàðàíäæà òåððîðèçì è ýêñòðåìèçì; òåððîðèñòû, áîåâèêè, àãðåññèâíî íàñòðîåííûå ìóñóëüìàíå ñîáûòèÿ óáèéñòâî ïîëêîâíèêà Áóäàíîâà, Óáèéñòâî Øàìèëÿ Äæèêàåâà, âòîðàÿ ÷å÷åíñêàÿ èñëàìñêèå îðãàíèçàöèè Àëü-Êàèäà, Äóõîâíîå Óïðàâëåíèå Ìóñóëüìàí ...
  • 14. Òåìà èñëàìà êàê ñïèñîê êëþ÷åâûõ ôðàç 157 êëþ÷åâûõ ôðàç: ñëîâîñî÷åòàíèÿ, âêëþ÷àþùèå îñíîâû èñëàì-, ìóñóëüìàí- Èñëàìèçàöèÿ, èñëàìîôîá, èñëàìñêàÿ óììà, ìóñóëüìàíå áåðóò â ðóêè îðóæèå, ìóñóëüìàíå è ïðàâîñëàâíûå, Ìóñóëüìàíñêàÿ îáùåñòâåííîñòü èñëàìñêèå ðåëèãèîçíûå òåðìèíû, ïðåäìåòû îáèõîäà áëàãîðîäíûé Êîðàí, ìîëèòâåííûé êîâðèê, Ïàðàíäæà òåððîðèçì è ýêñòðåìèçì; òåððîðèñòû, áîåâèêè, àãðåññèâíî íàñòðîåííûå ìóñóëüìàíå ñîáûòèÿ óáèéñòâî ïîëêîâíèêà Áóäàíîâà, Óáèéñòâî Øàìèëÿ Äæèêàåâà, âòîðàÿ ÷å÷åíñêàÿ èñëàìñêèå îðãàíèçàöèè Àëü-Êàèäà, Äóõîâíîå Óïðàâëåíèå Ìóñóëüìàí ...
  • 15. Òåìà èñëàìà êàê ñïèñîê êëþ÷åâûõ ôðàç 157 êëþ÷åâûõ ôðàç: ñëîâîñî÷åòàíèÿ, âêëþ÷àþùèå îñíîâû èñëàì-, ìóñóëüìàí- Èñëàìèçàöèÿ, èñëàìîôîá, èñëàìñêàÿ óììà, ìóñóëüìàíå áåðóò â ðóêè îðóæèå, ìóñóëüìàíå è ïðàâîñëàâíûå, Ìóñóëüìàíñêàÿ îáùåñòâåííîñòü èñëàìñêèå ðåëèãèîçíûå òåðìèíû, ïðåäìåòû îáèõîäà áëàãîðîäíûé Êîðàí, ìîëèòâåííûé êîâðèê, Ïàðàíäæà òåððîðèçì è ýêñòðåìèçì; òåððîðèñòû, áîåâèêè, àãðåññèâíî íàñòðîåííûå ìóñóëüìàíå ñîáûòèÿ óáèéñòâî ïîëêîâíèêà Áóäàíîâà, Óáèéñòâî Øàìèëÿ Äæèêàåâà, âòîðàÿ ÷å÷åíñêàÿ èñëàìñêèå îðãàíèçàöèè Àëü-Êàèäà, Äóõîâíîå Óïðàâëåíèå Ìóñóëüìàí ...
  • 16. Îòáîð òåêñòîâ èç êîëëåêöèè Ñïèñîê ñëîâ ëåììàòèçèðîâàí (àíàëîãè÷íî òåêñòàì) Ïîèñê òåêñòîâ ïî òî÷íîìó ñîâïàäåíèþ êëþ÷åâîé ôðàçû Ïðèìåð: áðàò ïî âåðà Ïðîáëåìà îìîíèìèè: áîåâèêè→áîåâèê, àëëàõ→àëëà Ðåçóëüòàò: 563 òåêñòà (èç 19143), 2.9%
  • 17. Outline Îáñóæäåíèÿ â áëîãîñôåðå Ýêñïåðòíûé ïîäõîä Ñòàòèñòè÷åñêèé ïîäõîä Ñðàâíèòåëüíûé àíàëèç ðåçóëüòàòîâ
  • 18. Òåìàòè÷åñêîå ìîäåëèðîâàíèå Topic modeling Èäåÿ topic modeling: êàæäûé äîêóìåíò ñìåñü êàòåãîðèé (òåì) òåìà ïðåäïî÷òåíèå îïðåäåë¼ííûõ ñëîâ ãåíåðàòèâíàÿ ìîäåëü: ïîäîáðàòü âåðîÿòíîñòè ðàñïðåäåëåíèÿ ñëîâ ïî òåìàì, ïðè êîòîðûõ ìîæåò áûòü ñãåíåðèðîâàí äàííûé êîðïóñ Ïîñòóëàòû î äàííûõ: êàæäûé òåêñò êàê ìåøîê ñëîâ (bag-of-words) àíàëèç ñîâìåñòíîé âñòðå÷àåìîñòè ñëîâ â òåêñòàõ Ïàðàìåòð: ÷èñëî òåì, íà êîòîðûå íóæíî ðàçáèòü êîëëåêöèþ
  • 19. Òåìàòè÷åñêîå ìîäåëèðîâàíèå Topic modeling Èäåÿ topic modeling: êàæäûé äîêóìåíò ñìåñü êàòåãîðèé (òåì) òåìà ïðåäïî÷òåíèå îïðåäåë¼ííûõ ñëîâ ãåíåðàòèâíàÿ ìîäåëü: ïîäîáðàòü âåðîÿòíîñòè ðàñïðåäåëåíèÿ ñëîâ ïî òåìàì, ïðè êîòîðûõ ìîæåò áûòü ñãåíåðèðîâàí äàííûé êîðïóñ Ïîñòóëàòû î äàííûõ: êàæäûé òåêñò êàê ìåøîê ñëîâ (bag-of-words) àíàëèç ñîâìåñòíîé âñòðå÷àåìîñòè ñëîâ â òåêñòàõ Ïàðàìåòð: ÷èñëî òåì, íà êîòîðûå íóæíî ðàçáèòü êîëëåêöèþ
  • 20. Stanford Topic MOdeling Toolbox Stanford Topic Modeling Toolbox (Free Software, Java): Latent Dirichlet Allocation (← probabilistic Latent Semantic Indexing) ýôôåêòèâíûå àëãîðèòìû: collapsed Gibbs sampler (T. L. Griths and M. Steyvers 2004) collapsed variational Bayes approximation to the LDA objective (Asuncion, A., Welling, M., Smyth, P. and Teh, Y. W. 2009) Ãðàôè÷åñêèé èíòåðôåéñ
  • 21. Ðàçáèåíèå íà òåìû òåìà1 òåìà2 òåìà3 ñóììà òåðìèí1 0.9 0.1 0.0 = 1 òåðìèí2 0.3 0.3 0.4 = 1 òåðìèí3 0.1 0.3 0.6 = 1 òåìà1 òåìà2 òåìà3 ñóììà äîêóìåíò1 0.9 0.1 0.0 = 1 äîêóìåíò2 0.3 0.3 0.4 = 1 äîêóìåíò3 0.1 0.3 0.6 = 1
  • 22. Ðàçáèåíèå íà òåìû òåìà1 òåìà2 òåìà3 ñóììà òåðìèí1 0.9 0.1 0.0 = 1 òåðìèí2 0.3 0.3 0.4 = 1 òåðìèí3 0.1 0.3 0.6 = 1 òåìà1 òåìà2 òåìà3 ñóììà äîêóìåíò1 0.9 0.1 0.0 = 1 äîêóìåíò2 0.3 0.3 0.4 = 1 äîêóìåíò3 0.1 0.3 0.6 = 1
  • 23. Topic modeling â ñîöèàëüíûõ íàóêàõ Ìàòåðèàë, íà êîòîðîì ðàáîòàåò Topic modeling: Íàó÷íûå ñòàòüè Ãàçåòû Áëîãè Ìèêðîáëîãè (twitter) Õóäîæåñòâåííàÿ ëèòåðàòóðà è áåëëåòðèñòèêà Ñèíõðîííûå è äèàõðîííûå êîëëåêöèè.
  • 24. Õàðàêòåðèñòèêà òåìû: 20 âåðîÿòíûõ òåðìèíîâ âûáîð ïàðòèÿ åäèíûé ïîëèòè÷åñêèé ïóòèí íàðîäíûé âëàñòü ãîëîñîâàòü ãîëîñ èçáèðàòåëü äåïóòàò ðåçóëüòàò èçáèðàòåëüíûé ãîëîñîâàíèå îïðîñ ïîëèòèêà êàíäèäàò äóìà ïðåäâûáîðíûé ôðîíò ïðàçäíèê ìîñêâà ìåðîïðèÿòèå øîó ôåñòèâàëü òîëïà ïðîéòè ïëîùàäü ïàðê ñåíòÿáðü òûñÿ÷à ñïåöèàëüíûé óëèöà ñåãîäíÿ íàðîä îòìå÷àòü ó÷àñòíèê äðóã èäòè ïðîõîäèòü ñïàòü ñèäåòü äîì ïîòîì ëþáèòü êîøêà âñåãäà ñìîòðåòü óòðî íîãà êîòèê êàæäûé êîò ìóæ ëåæàòü âòîðîé ïîë õîäèòü ãîëîâà ïðèõîäèòü íàäî äåëàòü äåíüãè ïîòîìó ñåé÷àñ íóæíûé ïîíèìàòü íóæíî ìíîãî ñäåëàòü ðàáîòàòü äóìàòü ïî÷åìó âåäü áåç âîîáùå ëè êîíå÷íî íàõîäèòü äîëæíûé
  • 25. Îöåíêà ÷èñëà òåì â êîëëåêöèè Ïåðïëåêñèâíîñòü: Ðèñ.: Çíà÷åíèÿ perplexity äëÿ 25250 òåì
  • 26. Ñòàáèëüíîñòü òåì 30 òåì Topic 29 âîéíà ñøà ëèâèé âîåííûé êàääàôè àðìèÿ àìåðèêàíñêèé íàòî ìèðîâîé èçðàèëü ïðîòèâ ñèëà ëèâèéñêèé âîéñêî âòîðîé òóðöèÿ ïðàâèòåëüñòâî ñîëäàò âëàñòü àìåðèêàíåö 100 òåì Topic 083 ëèâèé êàääàôè ëèâèéñêèé íàòî âîéíà ïîâñòàíåö òðèïîëè âîåííûé ñèëà ñèðèÿ ïðîòèâ ðåæèì ìÿòåæíèê ïîëêîâíèê ïîòåðÿ âëàñòü óáèâàòü îîí ñîâåò âçÿòü 225 òåì Topic 186 ëèâèé êàääàôè ëèâèéñêèé íàòî ïîâñòàíåö òðèïîëè âîéíà ìÿòåæíèê âîåííûé ïðîòèâ ïîòåðÿ ïîëêîâíèê ñèëà ñèðèÿ ñîâåò óáèâàòü èíôîðìàöèÿ ÏÍÑ âàëèä ïëåìÿ
  • 27. Outline Îáñóæäåíèÿ â áëîãîñôåðå Ýêñïåðòíûé ïîäõîä Ñòàòèñòè÷åñêèé ïîäõîä Ñðàâíèòåëüíûé àíàëèç ðåçóëüòàòîâ
  • 28. Èñëàì è äðîáíîñòü òåìàòè÷åñêîãî äåëåíèÿ Âåñ òåìû â âûáîðêå: ñóììà ñòîëáöà âåðîÿòíîñòåé (ïðèíàäëåæíîñòè äîêóìåíòîâ ê äàííîé òåìå) Ñðàâíåíèå âåñà òåìû â êîëëåêöèè è â èñëàìñêîé âûáîðêå: Mann-Whitney test, p 0, 001. îáùåå êîë-âî òåì çíà÷èìûõ â èñëàìñêîé âûáîðêå äîëÿ 30 7 0,23 100 40 0,40 150 53 0,35 225 75 0,33
  • 29. Çíà÷èìûå òåìû èñëàìñêîé âûáîðêè: 30 Ïðè ðàçáèåíèè íà 30 òåì: âîéíà (ñîáûòèÿ â Ëèâèè), íàöèîíàëüíûå âîïðîñû, òåðàêò 11 ñåíòÿáðÿ, ðåëèãèÿ è öåðêîâü, êðèìèíàë è ïðàâîñóäèå
  • 30. Çíà÷èìûå òåìû èñëàìñêîé âûáîðêè: 100 Ïðè ðàçáèåíèè íà 100 òåì: òåðàêò 11 ñåíòÿáðÿ ïèñüìî ñòóäåíòîâ ÌÃÓÊ î ìóñóëüìàíñòâå â âóçå (?) ÑØÀ, âîéíà â Èðàíå Èçðàèëü-Òóðöèÿ ñîáûòèÿ â Ëèâèè âëàñòüãîñóäàðñòâîîáùåñòâî îòäåëåíèå Ñåâåðíîãî Êàâêàçà íàöèñòû
  • 31. Çíà÷èìûå òåìû èñëàìñêîé âûáîðêè: 150 Ïðè ðàçáèåíèè íà 150 òåì: òåðàêò 11 ñåíòÿáðÿ Èçðàèëü-Òóðöèÿ Äàãåñòàí ñîáûòèÿ â Ëèâèè ïèñüìî ñòóäåíòîâ ÌÃÓÊ î ìóñóëüìàíñòâå â âóçå (?) íàöèîíàëüíûé âîïðîñ (¾ðóññêèé íàðîä¿) âûñêàçûâàíèå Ìåäâåäåâà îá ýêñòðåìèçìå íà ßðîñëàâñêîì ôîðóìå ×å÷íÿ âîéíû ÑØÀ íàöèñòû
  • 32. Âûâîäû Òåìà èñëàìà ñòàòèñòè÷åñêè íå âû÷ëåíÿåòñÿ êàê öåëîñòíàÿ. Topic modeling ïîçâîëÿåò âûÿâèòü îáñóæäàåìûå â áëîãàõ ñîáûòèÿ, ñâÿçàííûå ñ ïðîáëåìíûì ïîëåì èñëàìà. Ñ ïîìîùüþ topic modeling íàèáîëåå ïîëíàÿ õàðàêòåðèñòèêà òåìàòèêè áëîãîâ âûÿâëÿåòñÿ ïðè ñîïîñòàâëåíèè ðàçáèåíèé íà ðàçíîå ÷èñëî òåì.