Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Topic modeling
sosiologin työkaluna
Alustavia havaintoja
tekstin koneellisesta analysoinnista
Tuukka Ylä-Anttila
Topic modeling luokittelee tekstiaineiston ”aiheisiin”:
usein yhdessä esiintyvien sanojen joukkoihin
Topic modeling ja sosiologia
• Sanaklusterit tulkitaan yleensä ”aiheiksi”, mutta jos
tutkitaan sosiaalisesti vakiintuneita...
1: ”Topic Modeling the Global Climate Policy
Debate” (Eranti, Kukkonen & Ylä-Anttila 2015)
• New York Times & The Hindu ha...
2: Suomi24-kokeilu
• ”Esi-” tai ”protopoliittinen puhe”: mitä ja miten
arkisia huolenaiheita politisoidaan?
• (Chantal Mou...
”Mitä saa, jos heittää LDA:lle kasan lajittelematonta Suomi24-aineistoa?”
Mitä jos äskeistä karkeaa mallia käyttäisi esipoliittisen puheen
etsimiseen, ja sitten jatkomallintaisi sitä aineiston osa...
3: Vastatietodiskurssien leviäminen laitamedioista yleisempään
julkisuuteen: MV-lehti, Hommaforum, Suomi24?
• Hypoteesi:
Topic modeling sosiologin työkaluna:
alustavia havaintoja
• Aineiston tunteminen ja teoreettinen tulkinta
• Pitää osata ky...
Topic modeling sosiologin työkaluna
Topic modeling sosiologin työkaluna
Topic modeling sosiologin työkaluna
Topic modeling sosiologin työkaluna
Topic modeling sosiologin työkaluna
Topic modeling sosiologin työkaluna
Topic modeling sosiologin työkaluna
Topic modeling sosiologin työkaluna
Topic modeling sosiologin työkaluna
Topic modeling sosiologin työkaluna
Topic modeling sosiologin työkaluna
Upcoming SlideShare
Loading in …5
×

Topic modeling sosiologin työkaluna

144 views

Published on

Rajapinta DCCS 30.9.2016

Published in: Science
  • Be the first to comment

  • Be the first to like this

Topic modeling sosiologin työkaluna

  1. 1. Topic modeling sosiologin työkaluna Alustavia havaintoja tekstin koneellisesta analysoinnista Tuukka Ylä-Anttila
  2. 2. Topic modeling luokittelee tekstiaineiston ”aiheisiin”: usein yhdessä esiintyvien sanojen joukkoihin
  3. 3. Topic modeling ja sosiologia • Sanaklusterit tulkitaan yleensä ”aiheiksi”, mutta jos tutkitaan sosiaalisesti vakiintuneita tapoja puhua jostain (diskurssi, kehys), niin... • Bail, 2014; DiMaggio, Nag & Blei, 2013: topicit tulkittavissa ”kehyksiksi” • 3 kokeilua
  4. 4. 1: ”Topic Modeling the Global Climate Policy Debate” (Eranti, Kukkonen & Ylä-Anttila 2015) • New York Times & The Hindu hakusanalla “climate change” or “global warming” ilmastoneuvottelujen aikaan 1997, 2009 ja 2011 • 677 käsin koodattua ”vaadetta”, joista koodattu puhujaryhmä (expert, govt, NGO) • Puhuvatko asiantuntijat, hallitukset ja kansalaisjärjestöt eri tavalla ilmastonmuutoksesta? Puhutaanko USA:ssa ja Intiassa eri tavoin? • Aineisto MALLETiin niin, että yksi vaade oli yksi tiedosto, nimetty esim. nyt_expert132.txt, tiedostoja muutama tuhat
  5. 5. 2: Suomi24-kokeilu • ”Esi-” tai ”protopoliittinen puhe”: mitä ja miten arkisia huolenaiheita politisoidaan? • (Chantal Mouffe, Peter Dahlgren, Iris Marion Young, Kari Palonen...) • Demokraattisen kulttuurin jäljet näkyvät politisaation reunaehdoissa • Miten löytää nettikeskusteluista politisaation paikkoja, siis ”esipoliittista”, ja analysoida sitä? • Aineiston ”tislaaminen”?
  6. 6. ”Mitä saa, jos heittää LDA:lle kasan lajittelematonta Suomi24-aineistoa?”
  7. 7. Mitä jos äskeistä karkeaa mallia käyttäisi esipoliittisen puheen etsimiseen, ja sitten jatkomallintaisi sitä aineiston osaa?
  8. 8. 3: Vastatietodiskurssien leviäminen laitamedioista yleisempään julkisuuteen: MV-lehti, Hommaforum, Suomi24? • Hypoteesi:
  9. 9. Topic modeling sosiologin työkaluna: alustavia havaintoja • Aineiston tunteminen ja teoreettinen tulkinta • Pitää osata kysyä oikeita kysymyksiä ja arvioida tuloksia • Kvalitatiivisten menetelmien hyödyntäminen • Luokittelut, ”tislaaminen” • Käsityötä on suht paljon • Näissä käytetty bash- ja Python-skriptejä BeautifulSoup-kirjastolla, Exceliä, wgetiä, MALLETia ja FinnPos-lemmatisoijaa, joita kaikkia piti opetella käyttämään • Algoritmi ”black box” • Kuinka hyvin tutkijan täytyy tuntea käyttämänsä algoritmi? • Puuttuu menetelmällinen konsensus joten pitää mennä ad hoc • Miten määritellään ja sitten operationalisoidaan vaikka ”kehys”? • Miten validoidaan että löydetty ”topic” on (tietty) ”kehys”? • Tutkimusasetelmat, joissa tästä käpistelystä on muutakin kuin kuriositeettihyötyä • ”Digitalisaation” vaikutus maailmaan jota tutkitaan vs. tutkimusmenetelmiin – molemmat!

×