Sometutkimus

eli mitä opin kirjasta
The SAGE Handbook of Social Media Research Methods
@MiiaKosonen
http://tohtorilletoita.com
Sosiaalisen median tutkimusmenetelmät

Taustaa
• Harvalla on aikaa ja energiaa käydä tutkimus- tai opetustyön ohessa läpi 700-
sivuisia käsikirjoja. Lukiessani aloin ajatella, ettei ole mitään järkeä jättää opittua
ja havaittua vain itselle: se on tiedon vajaakäyttöä ja sosiaalisen median
kulttuurien vastaista.
• Sosiaalisen median tutkimus on erityisen vakiintumatonta ja nopeasti
muuttuvaa aluetta, jossa standardit ja hyvät käytännöt hakevat muotoaan. Kts.
http://otteitaverkosta.fi
• Esitykseen on valittu, tiivistetty ja yhdistelty mielestäni olennainen ja vain se. 38
eri luvun kirjoittamiseen osallistui yli 40 asiantuntijaa ympäri maailman.
Kirjoittajat on listattu kunkin alaluvun lopussa.

Materiaalin käyttö
Esitystä voi hyödyntää ei-kaupalliseen tutkimukseen ja koulutukseen
viittaamalla
1) Kyseiseen artikkeliin: kirjoittajat on listattu kunkin luvun lopussa
2) Alkuperäiseen teokseen: L. Sloan & A. Quan-Haase (Eds.), The SAGE
Handbook of Social Media Research Methods. SAGE Publications, 2017.
3) Tähän esitykseen: Miia Kosonen 2018, yhteenveto sosiaalisen median
tutkimusmenetelmistä http://slideshare.net/miiak/sometutkimus

Materiaalin käyttö
Käytä omalla vastuulla: mukana on aivan
varmasti myös käännös- tai tulkintavirheitä.
Geolokaatio tai datan muuttaminen ääneksi
eivät ole alaani.
Klout.com, 2016

HUOM!
Kirjan artikkelit on kirjoitettu 2015-2016. Sen jälkeen moni asia on jo ehtinyt
muuttua ja sisältö voi olla yksityiskohtien osalta vanhentunutta.
Samasta syystä tässä esityksessä ei ole mukana kirjan viimeistä osiota, jossa
esitellään sosiaalisen median alustoja tutkimuskäytössä.
“Facebook’s API is becoming a closed system. -- The Cambridge Analytica
scandal, which saw Facebook user data gathered supposedly for academic
purposes but instead used by a private firm for political campaigning, created
an opportunity for positive change. But Facebook sadly appears to be making
its platform more opaque, unknown and unaccountable to the public. Once
apps like Netvizz are gone, there will be no accessible way of gathering
large amounts of public page Facebook data.”
https://thenextweb.com/syndication/2018/08/27/facebooks-attitude-towards-researchers-should-worry-you/

Johdanto
Käsikirja määrittelee sosiaaliseksi mediaksi sovellukset, jotka
1. mahdollistavat käyttäjien luoman sisällön kuten kuvat, tekstin,
videot ja statukset
2. antavat käyttäjille mahdollisuuden kytkeytyä muihin käyttäjiin
3. tukevat käyttäjien välistä vuorovaikutusta esimerkiksi
mahdollistamalla yhteistyön, yhteisön rakentamisen, osallistumisen,
linkittämisen ja jakamisen.

Johdanto
Sosiaalisen median
menetelmälliset haasteet,
vrt. big data: 6Vs
• Volume
• Variety
• Velocity
• Veracity
• Virtue
• Value

Sisältö: 7 osaa
• Käsitteellistäminen ja tutkimuksen suunnittelu
• Datan kerääminen ja säilytys
• Kvalitatiivisia lähestymistapoja sosiaalisen median dataan
• Kvantitatiivisia lähestymistapoja sosiaalisen median dataan
• Erilaisia lähestymistapoja sosiaalisen median dataan
• Tutkimuksen ja analyysin työvälineet
• (Sosiaalisen median alustat)

Osa 1: käsitteellistäminen ja tutkimuksen
suunnittelu
• Mitä sosiaalinen media on
• Big data – hype vai vallankumous?
• Monitieteiset sosiaalisen median tutkimustiimit
• Sosiaalisen median käyttäjät ja tutkimusetiikka
• Virtuaalinen minä
• Twitter-aineistot ja demografia

Osa 2: Datan kerääminen ja säilytys
• Ajattele ennen kuin keräät dataa
• Datan prosessointi
• APIt ja data sampling
• Datan elinkaari – kuratointi, säilytys, pitkäaikaissäilytys
• Qualitative E-Research framework

Osa 3: Kvalitatiivisia lähestymistapoja
• Small data, thick data ja sakeuttamisen strategiat
• Visuaalisuus sosiaalisessa mediassa
• Ei-tekstuaalisen datan koodaaminen
• Twitter metodina
• Small stories -tutkimus

Osa 4: Kvantitatiivisia lähestymistapoja
• Geospatiaalinen analyysi
• Verkoston keskeisyyden pragmatiikkaa
• Ennustava analytiikka sosiaalisen median datalla
• Huijausten tunnistaminen ja huhujen kumoaminen
sosiaalisessa mediassa

Osa 5: Erilaisia lähestymistapoja
• Sivustospesifi vai hyperlokaali? Paikan ilmentymät sosiaalisessa
mediassa
• Muut datalähteet sosiaalisen median rinnalla
• Sonifikaatio – sosiaalisten rytmien kuunteleminen
• Sosiaaliset paikkatietoiset palvelut mobiililaitteille

Osa 6: Tutkimuksen ja analyysin työvälineet
• COSMOS – Collaborative on-line social media observatory
• Social Lab – open source ’Facebook’
• R ja sosiaalisen median analyysi
• GATE – open source NLP-työkalu sosiaaliseen mediaan
• Netlytic datan kerun ja analysoinnin työvälineenä
• Teemojen tunnistaminen sosiaalisesta mediasta
• Sentimenttianalyysi

Osa 1: Käsitteellistäminen ja tutkimuksen
suunnittelu

Mitä sosiaalinen media on
• Kts. käsikirjan perusmääritelmä edellä
• Eräiden tulkintojen mukaan aina dynaamista ja kontekstuaalista:
’temporally, spatially and technologically sensitive’ (Papacharissi,
2015)
• Näkemys on muuttunut 10-15 vuodessa ja muuttuu edelleen

Mihin kysymyksiin sosiaalinen media vastaa
• Pakottaa tutkijat nostamaan esille 1) metodologiaan 2) eettiseen
perusteisiin 3) tutkimuksen mittakaavaan liittyviä uusia kysymyksiä.
• Vastaaminen tutkimuskysymyksiin, jotka liittyvät
• sosiaalisen median käyttöön itseensä
• tiettyyn sosiaaliseen ilmiöön, josta sosiaalinen media voi tarjota
lisää tietoa.

Sosiaalisen median palveluiden tyyppejä
Tyyppi Esimerkkejä
Sosiaaliset verkostopalvelut Facebook, LinkedIn
Kirjanmerkit Delicious, StumbleUpon
Mikroblogit Twitter, Tumblr
Blogit ja foorumit LiveJournal, WordPress
Median jakaminen YouTube, Flickr, Pinterest
Sosiaaliset uutispalvelut Digg, Reddit
Yhteiskirjoittaminen Wikipedia
Web-konferenssit Skype, GoToMeeting, Zoho Meeting
Paikkatieto Foursquare
Aikataulutus Doodle
Tiivistetty ja kääännetty luvun 2 artikkelista McCay-Peet, L. & Quan-Haase, A. 2017. What is social media and what questions can social media
research help us answer? Sloan, L. & Quan-Haase, A. (Eds.), The SAGE Handbook of Social Media Research Methods, p. 18.

Big data – hype vai vallankumous?
• Kärjekkäimmät puhuvat ”end of theorysta”, jossa ei tarvita lainkaan
taustateoriaa ja hypoteeseja, vaan data luo ne itse
• Käytännössä teoriaa tarvitaan aina, mm. suhteuttamaan ilmiöt
aiempaan tietoon
• Myös big data on monella tapaa vinoutunutta
• Big dataa ei ole suunniteltu vastaamaan tutkimuskysymykseen X
• Tuottaa pintapuolisia kuvauksia, vaikutelmia; esimerkiksi mikä on
twiittien valtakieli suurkaupungin eri osissa

Big data – hype vai vallankumous?
• Big datan arvo: auttaa havaitsemaan uutta, ”data kertoo kysymyksiä
joihin kannattaisi vastata”
• Ei uusi paradigma vaan täydentävä teorianmuodostuksen tapa
• Digitaalisen humanismin kaksi leiriä: digitaaliset ympäristöt tuottavat
rikkaampia aineistoja ja tuovat uusine tekniikoineen menetelmällistä
uskottavuutta, toisen koulukunnan mukaan taas täydentää perinteisiä
metodeja.
Kitchin, 2017

Monitieteiset sosiaalisen median tutkimustiimit
• IDR eli inter-disciplinary research
• Sosiaalinen, tekninen ja eettinen lähestymistapa, kaikki kolme puolta
ymmärrettävä
• Sopivasti monitieteisyyttä – ei liikaa, siis tyyliin yksi joka alalta
• Miksi tärkeää: kompleksiset tutkimusongelmat, jäsenten motivaatio
ymmärtää ilmiötä eri näkökulmista, luovemmat ratkaisut ja löydökset

Monitieteiset sosiaalisen median tutkimustiimit
• Artikkeli tunnistaa useita haasteita, esim. sosiaalitieteissä ei palkita
työvälinekehityksestä, lyhytjänteinen rahoitus, näennäisyhteistyö
jotta saadaan rasti oikeaan ruutuun
• Tarvitaan myös koulutusta ja tukea siihen, kuinka luoda eri taustoista
tulevien ihmisten välille common ground – toiselle riittää aineistoksi
100, toinen haluaa 10 miljoonaa jotta mitään kannattaisi edes tehdä
Quan-Haase & McCay-Peet, 2017

Sosiaalisen median käyttäjät ja tutkimusetiikka
• Haluttiin selvittää, mitä sosiaalisen median käyttäjät itse ajattelevat
siitä, että aineistoa hyödynnetään tutkimustarkoituksiin
• Esim. tuleeko informed consent pyytää aina, vai ainoastaan ei-
avoimissa verkkopalveluissa
• Aineistoa kerättiin 34 focus group –haastateltavalta
• Sosiaalinen media koettiin tilana, joka on lähes aina julkinen ja josta
tietoa on vaikea saada pois.

• Kolmenlaisia käyttäjärooleja: creators, sharers, observers
• Riskitietoisuus yleisesti kasvamaan päin, Facebook-kohujen vaikutus?
• Huolena yksityisyys, maine, turvallisuus, tiedon laillinen vs.
moraalinen omistajuus: omistaako palveluntarjoaja vai viestin
kirjoittaja
• Lähdeviitteiden käyttö vs. jäljitettävyys, köydenvetotilanteet: jos suora
lainaus, anonymisoidun käyttäjän saattaa löytää googlaamalla -
tarvitaan fabrikaatiota (Markham, 2012)
• Näkemykset käytöstä tutkimustarkoituksiin ”vaihtelevat merkittävästi”
skeptikoista hyväksyjiin ja ambivalentteihin

• Kaiken perustana SAL = Suostumus, Anonymiteetti, Luottamuksellisuus
• Kts. myös Kosonen, Laaksonen, Rydenfelt, Terkamo-Moisio, 2018: Sosiaalinen
media ja tutkijan etiikka. https://journal.fi/mediaviestinta/article/view/69924
• Palvelujen käyttöehdot tulee kansantajuistaa, mutta vaatisi ihmettä. Käytännön
toteutukseen vaikuttaa se
• Millaisesta postauksesta on kyse
• Millaisessa sosiaalisen median palvelussa se on jaettu
• Mikä on konteksti ja tilanne, mitä käyttäjät odottavat
• Mikä on tutkimuksen luonne: ei-kaupallinen useimmiten hyväksytään
Beninger, 2017

Virtuaalinen minä
”Data ei valehtele, mutta ihmiset valehtelevat datalla”
Artikkeli käsittelee käyttäjien verkkopersoonaa, maineenhallintaa sekä
trollausta ilmiönä
Konteksti, konteksti, konteksti! Tutkijoiden on kaikissa tilanteissa
huomioitava alustaspesifit sosiaaliset normit ja se, missä palvelussa
profiili on luotu.

Virtuaalinen minä: tutkijan huoneentaulu
Sosiaalinen konteksti
- Anonyymi
- Tunnistettavat
Some-alustan tyyppi
- Avoin
- Suljettu
Verkkomaineen hallinta
Self-presentation –
strategiat
Verkkopersoonallisuus,
ml. dark traits
Trollaaminen ja sen
todennäköisyys
1) Perehdy aiempaan
kirjallisuuteen aiheesta
2) Hyödynnä
datatriangulaatiota
3) Digital traces: kaikki
käyttäjään liittyvä data
eri alustoilta ml.
metadata
4) Arvioi verkkomaine ja –
persoona em. pohjalta

Virtuaalinen minä
• Tutkimukset osoittaneet, ettei täysin eri minä (vrt. Turkle, 1984),
muttei myöskään yksi yhteen IRL-minän kanssa
• Anchored relationships (esim. Facebookin ystäväpiiri) vs. anonyymi
kanssakäyminen
• Introvertit postaavat omalla nimellään ja kasvoillaan vähemmän?!
• Kyber-psykopaatit, narsismi: esim. runsaasti statuspäivityksiä (Carpenter,
2012) tai ylikorostaa saavutuksia (Marshall et al., 2015)
• On the internet, nobody knows you’re a dog yhä ajankohtainen – big
data ei yksinään tajua vivahteita tai vedätyksiä

Virtuaalinen minä
• Trollaus tärkeä osa nettikulttuuria, valtapelit
• Ilmiön yleisyydestä ei tarkkaa
tutkimustietoa
• Merkitys tutkijalle: mitään viestiä ei koskaan
kannata ottaa kirjaimellisesti!
• Osa harmitonta, osa käytännössä
verkkorikollisuutta ja häirintää
Yang, Quan-Haase, Nevin & Chen, 2017

Twitter-aineistot ja demografia
• Tutkijoiden varta vasten keräämä data vs. naturally occurring data, tutkijan
aarrearkku
• Artikkelissa kuvataan, millaisia tapoja on yhdistää ainutlaatuiseen Twitter-
dataan demografista tietoa, jotta se olisi hyödyllisempää – muutoin emme
tiedä, ketkä sanoivat tai tekivät, mitkä väestöryhmät ovat edustettuina jne.
• Esimerkki: onko twiittien kieli erilaista niillä alueilla, joilla rikollisuutta on
tilastojen mukaan paljon? Ilmentääkö se pelkoa tai uhkaa? Kysymykseen
vastaamiseksi twiitit on voitava ensin paikallistaa tietylle alueelle. Lisäksi
vain käyttäjien oma sisältö, retweetit on suodatettava pois.

• Paikka
• Alle 1 % Twitterin käyttäjistä paljastaa sijaintinsa
• Varavaihtoehtona profiilin Location, ei kuitenkaan välttämättä oikea tieto,
epäselvää onko syntymä- vai asuinpaikka jne.
• Yahoo Place Finderin avulla tunnistettiin 52 %:ssa tapauksista twiittaajan
kotimaa ja pienelle osalle jopa postinumeron tarkkuudella
• Ikä
• Jää lähes aina piiloon
• Facebookista ja blogeista helpompi tunnistaa, language processing
• Twitterin profiilitiedoista voi saada suuntaa olettaen että todenmukaista,
samoin emojien ja hashtagien käytöstä

• Sukupuoli
• Nimitietokannan avulla neljä kategoriaa: M, F, unisex, ei tunnistettavissa
• Esimerkissä noin puolet tunnistettiin, mutta ei tässäkään luotettavaa tietoa
• Kieli
• Käyttöliittymän kieli, profiilitekstin kieli, twiittisisällön kieli
• Käytännössä harvalla vain yksi kieli, entä puhekieli tai murteet
• LDLJ: Language Detection Library for Java
• Ammatti ja yhteiskuntaluokka
• Kohta, joka vaatii eniten ihmistyönä validointia
Sloan, 2017

Kiinnostavia linkkejä ja vinkkejä osasta 1
• #Fail! The workshop series. Things that didn’t work out in social media
research and what can we learn from them.
https://failworkshops.wordpress.com/
• Tapor.ca: research tools for studying texts http://tapor.ca/home
• Baym, N. 2013. Data not seen: The uses and shortcomings of social media
metrics. First Monday, 18(10)
http://firstmonday.org/article/view/4873/3752
• Ethics and Information Technology journal
https://www.springer.com/computer/swe/journal/10676

Osa 2: Datan kerääminen ja säilytys

Ajattele ennen kuin keräät dataa
• Mitä dataa? Sen tyyppi, laatu ja määrä vaikuttaa kaikkeen.
• Yleensä tutkimuskysymys  data, joskus myös data  tutkimuskysymys
• Tässä rajaus suoraan sosiaalisesta mediasta kerättyyn dataan ja
erityisesti Facebookiin ja Twitteriin, ei esim. käyttäjäkyselyt. Casena
Saksan vaalit 2013.
• Tutkimus on vasta matkalla kohti hyviä käytäntöjä!

• Mitkä alustat? Yksi vai monta?
• Kriteerit datan valintaan?
• Big vai small data?
• Mitä dataa jää pois – collection bias?

• Alustat: usein yksi, vaikka linkittyvät vahvasti toisiinsa
• Datan aikajänne: pari tuntia, kuukausi, vuosia
• Kriteerejä datan valintaan: user accounts, aiheet, metadata, random
• Dokumentoi hakutermit ja kartoita myös rinnakkaiset vaihtoehdot!
• Saksan vaalit-casessa >2000 ehdokkaiden käyttäjätiliä, aitous
todennettava manuaalisesti. Facebook-analyysi: SODATO, Social
Media Data Analysis Tool, Twitter-korpukselle Tweet Observer.
Soveltuvin osin dataa myös julkaistiin avoimena.
Mayr & Weller, 2017

Datan prosessointi
• Kuvaa kolme yleispätevää vaihetta, kaikenlaiselle datalle
• Modelling
• Cleaning
• Transformation
• Fokus verkostoanalyysin valmistelussa: kuinka toimijat ja sisällöt
kytkeytyvät yhteen
• Case Twitter ja Pariisin terrori-iskujen 40k twiitin testiaineisto

Datan prosessointi
• Mallinnuksessa tunnistetaan datan rakenne ja merkitys. Tuloksena
tuotetaan malli, skeemadiagrammi. Avoimen lähdekoodin SylvaDB, johon
voi mallin luotuaan tuoda aineistoa esim. CSV- tai XML-muodossa.
• Käsitteelliset, loogiset ja fyysiset mallit
• Datamallin osat ovat yksiköt (entities, nodes), suhteet (relationships,
associations) sekä näiden molempien ominaisuudet (attributes)
• Esimerkiksi Twitterissä yksiköitä ovat twiitit ja käyttäjät. Ominaisuuksia
ovat esimerkiksi yksilöivä id ja käyttäjän sijainti. Esimerkkejä suhteesta:
user tweets tweet, tweet references user.

TWEET
Id
Teksti
Luontihetki
Maa
Kaupunki
Koordinaatit
Esimerkki: Twitterin datamalli
USER
Id
Käyttäjänimi
HASHTAG
Id
Teksti
twiittaa
viittaa
sisältää
seuraa
uudelleen-
twiittaa
vastaa
Brown, Soto-Corominas, Suárez & de la Rosa, 2017, s. 130

Datan prosessointi
• Cleaning-vaiheessa esimerkkinä OpenRefine –työkalu. Poistetaan
epäjohdonmukaisuudet, puuttuvat kohdat, duplikaatit jne. korvaten
arvot uusilla.
• Casessa tuotettiin Pariisin iskujen aineistosta clean text field: kaikki
erikoismerkit, URLit, RT-maininnat poistettu OpenRefinellä tekstin
sisällönanalyysia varten, esim. value.replace{/RTs/, ””)
• Transformation-vaiheessa input-parsing-output. Aineiston osittaminen,
jolloin helpompi analysoida ja käsitellä. Suoraan APIn kautta (REST),
simppeli tekstitiedosto tai DBMS ja esim. Python-kirjastot.
Brown, Soto-Corominas, Suárez & de la Rosa, 2017

APIt ja data sampling
• Application Programming Interface, tapa jolla eri ohjelmistot
”keskustelevat” ja vaihtavat tietoja keskenään; kuvailtu digimaailman
yhteenliittäväksi liimaksi, mutta pikemminkin dynaaminen ja
mahdollistaa yhteentoimivuuden
• APIt nykyään olennainen osa scientific toolboxia, tietoisuus
lisääntynyt muuallakin kuin it-ammattilaisten parissa
• Palvelujen käyttöehdot: ”APIs ok, web scraping often sued”

APIt ja data sampling
• Yleinen API-sanasto mm.
• Protokollat: SOAP ja REST (JSON, XML)
• Omat endpointit eri tietotyypeille
• Keys/tokens
• Resource of request URL
• Sovellukset, apps
• Pääsyrajoitukset ja autentikointi, de facto –standardi OAuth
• Facebook: Graph API, hyvin rajallisesti tietoa, RFacebook -esimerkki
• Twitter: REST, Streaming API kautta uusimmat
Janetzko, 2017

Datan elinkaari
”The challenge for acquiring, using and preserving social media data
lies in capturing enough content to provide meaning but also finding
practical solutions to managing such large, diverse, and interlinked
material.”
Dataa on kaikkialla – tämä ei kuitenkaan ole laadun, saatavuuden,
käytettävyyden tai hyödyllisyyden synonyymi!
Luvun inspiraationa toiminut Data Curation Model, Higgins, 2012.
Kts. http://dcc.ac.uk ja http://DMPOnline.dcc.ac.uk

Datan elinkaari
• Sosiaalisen median data on haurasta. Jos dataa ei kuratoida, siitä tulee helposti
”dark data” – ei muun tiedeyhteisön saatavilla, vaikea hyödyntää, katoaa
myöhemmin tutkijan henkilökohtaisten tiedostojen mukana
• Datan hankinta
1. APIt, myös näiden versiot dokumentoitava ja arkistoitava muun datan mukana
2. Automaattinen tai manuaalinen scraping – jälkimmäinen on työlästä ja vain pienille
aineistoille, esim. web-sivujen tallennus, kuvakaappaukset, copypaste
3. Ostettu data, esim. GNIP, DataSift, DialogFeed. Myyjien tulisi myös tarjota lisenssejä
kuratoituun dataan.
4. Analytical platforms, esim. Sysomos MAP, Social Bakers – ei halpaa ja menetelmissä
voi olla epäselvyyksiä

Datan elinkaari
• Kolmenlaista säilyttämistä
• for data processing
• for disaster recovery, back-up
• for archiving, long-term preservation
• Metadata uudelleenkäytön mahdollistamiseksi
• Flat file, indeksoitu (Lucene, Solr), RDMS, NoSQL-ratkaisut. Arkistoitaessa
mieluiten flat file ja metadata oheen myös tiedostona, ei esim. tiedoston
nimessä! JSON ok, sosiaalisen median metadatan standardit puuttuvat.
• Säilytyksen IPR ja eettiset kysymykset, vrt. aiempi luku tutkimusetiikasta
Voss, Lvov & Thomson, 2017

Qualitative E-Research Framework
• Holistinen kokonaisuus laadullisen tutkimuksen suunnitteluun,
lähteenä Salmons, 2015, 2016
• Alustojen yleiset ominaisuudet, ei tietyt some-brändit
• Kvalin etuna ”more than data”: kysytään tarkentavia kysymyksiä,
osallistutaan toimintaan, mahdollistetaan syvempi ymmärrys
• Kolmentyyppistä dataa
• Extant – muiden luomaa ilman tutkijan erillistä pyyntöä
• Elicited – pyydetään vastauksia, näkemyksiä, tarinoita jne.
• Enacted – tutkija on itse tuottamassa dataa, esimerkiksi osana peliympäristöä

Tutkijan huoneentaulu yleisön informointiin
• Esittele itsesi uskottavana tutkijana. Luo oma sivu, blogi tai
esittelyvideo, jossa linkität virallisen instituution tai projektin sivuille.
• Kerro, miksi tutkimus on tärkeä ja mitä siihen osallistuminen
edellyttää.
• Kuvaa yleisön saamaa hyötyä, ei omia tarpeitasi! Vältä tiedejargonia.
• Kirjaa selkeästi näkyviin, miten osallistujien yksityisyys ja tiedot
suojataan, miten ja kuka dataa käyttää, ja missä tulokset julkaistaan.
• Muistuta osallistujia, että tutkimuksesta voi koska tahansa vetäytyä.
• Pidä osallistujat ajan tasalla koko tutkimusprosessin ajan.

Muokattu ja käännetty kuvasta Salmons, 2017, s. 180
Qualitative
E-Research
Framework
Tavoite ja
asetelma
Tutkijan
positio:
sisällä vai
ulkopuolella
Metodit: 3
datatyyppiä
ICT ja miten
viestitään
Otanta ja
rekrytointi
Eettiset
kysymykset
Datan
keruun
toteutus
Analyysi ja
raportointi
Ketkä voivat tarjota tarvittavan tiedon?
Osallistujat nimeävät uusia osallistujia vs. ennakkovalinnat.
Moderaattorit tukena. Tutkijan oma läsnäolo yhteisössä, luottamus.
Lähtökohta: luodaanko vai sovelletaanko teoriaa?
Vrt. SAL: suostumus,
anonymiteetti,
luottamuksellisuus. Kts.
edellinen slide tutkimuksesta
tiedottamisesta.

• Social Data Analytics Tool: http://cssl.cbs.dk/software/sodato/
• Datan mallintaminen: http://www.sylvaDB.com
• Datan siivoaminen: http://openrefine.org/
• Big datan laatuun liittyvää kritiikkiä kts. six provocations Boyd & Crawford, 2012, ethical
challenges Zimmer, 2010, lack of replicability Bruns 2013, changing nature of platforms
Tinati et al. 2014, changes in user behavior Lazer et al. 2014
• Hoeren et al. 2013. Legal aspects of digital preservation. Cheltenham: Edward Elgar
Publishing.
• Redwine, G. 2015. Personal digital archiving. DPC TechWatch Report 15-01. Digital
Preservation Coalition. doi: 10.7207/twr15-01

Osa 3: Kvalitatiivisia lähestymistapoja

Datan sakeuttaminen
• Huom! Oma vapaa käännös thickening –strategiasta
• Kytkeytyy digitaalisiin jälkiin – kaikki mahdollinen tieto käyttäjästä
• Tällä tavoin jo 20-30 käyttäjäprofiilia voi olla rikas aineisto, huomio
kuitenkin työmäärään ja aikaan, ei absoluuttiseen määrään
• Juuret etnografiassa: dense, detailed, less breadth, more depth
• Artikkeli kritisoi ”positivistis-empirististä uskoa siihen, että big data =
direct access to social reality”, sen sijaan ”carefully cooked data”
• Oma tulkinta: sakea data vs. big data = valmis lautasellinen keitettyä
spagettia vs. kuorma-autollinen kuivia herneitä
Kirjallisuus: Geertz 1973, Stake, 1985, virtual etnography Hine 2000, 2015, netnography Kozinets, 2010

Datan sakeuttaminen
Artikkeli esittelee 3 sakeuttamisen strategiaa
1. Trace –haastattelut: metadiskurssi tietyn käyttäjän digitaalisesta
jalanjäljestä, mitä, miksi ja miten sisältöä luotu, suora vuorovaikutus
tukee eettisempää tutkimusta ja herättää luottamusta, co-analysis
2. Manuaalinen aineiston keruu: esim. kuvat ja kommentit, tarpeen
erityisesti kun tutkitaan useita kanavia rinnakkain
3. Pitkäaikainen ketterä observointi: transplatform fashion, connective
etnography, ketteryys tarpeen koska liikutaan sujuvasti palvelusta toiseen
– twiitataan blogikirjoitukset, jaetaan instasisällöt Facebookissa jne.

Datan sakeuttaminen
• Esimerkki 1: co-analysis semistrukturoiduilla
haastatteluilla, commented visit, casena
opiskelijoiden lakon Fb-kommentit
• Esimerkki 2: working out loud, miten
ihmiset kertovat työstään Twitterissä,
aineisto vain 200 twiittiä
• Esimerkki 3: miten kanadanranskalainen
kielivähemmistö käyttää somea poliittisessa
vaikuttamisessa, 2,5 v havainnointijakso
Latztko-Toth, Bonneau & Millette, 2017
Tiedon
konteksti
Kuvaus
käytännöistä
Käyttäjien
kokemukset
Metadata
AINEISTOSIPULI

Visuaalisuus sosiaalisessa
mediassa
• Visuaalisuusartikkeli ilman yhtäkään kuvaa
• Miten kuvallinen sisältö luodaan, miten sitä
käytetään ja miten se tulkitaan – sense-
making, creating meaning
• Visuaalisessa kulttuurissa kuva ei koskaan ole
”tyhjä taulu” irrallaan muusta todellisuudesta
• Tutkimuskohteena alusta jossa jaetaan, kuva
itsessään, yleisö eli tykkäykset, jaot ja
kommentit
• Esimerkkinä selfiet: Instagramissa
kuvankorjaus rutiinia, Twitterissä jaetaan
spontaaneita hetkiä, kulttuuri määrittää missä
soveliasta ottaa

Visuaalisuus sosiaalisessa mediassa
• Presentism: sisällön nykyhetkisyys on kuvien analysoinnin haaste, eli
sama ongelma, joka on sosiaalisen median arkistoijilla – konteksti ja
yhteydet puuttuvat
• Artikkeli ei pääse alkua pidemmälle eli esitä ratkaisuja ongelmiin;
yleiskuvausta visuaalisuuden merkityksestä ja suurista tietomääristä,
jotka ovat itsestäänselvyyksiä sosiaalisen median käyttäjille
• Hyviä huomioita big data –aineiston ja kvalitatiivisen kuljettamisesta
rinnakkain tutkimuksessa
Hand, 2017

Ei-tekstuaalisen datan koodaaminen
• Kuvat, videot, musiikki, kaaviot, pelit, kartat, maalaukset
• Merkittävä osa sosiaalista mediaa, jonka vuoksi menetelmäkehitystä
tarvitaan lisää ja yhdistettävä tekstuaaliseen
• Musiikki yksi vaikeimmin analysoitavista sisällöistä – esimerkkinä last.fm ja
emootio-tagit
• Sisällönanalyysi määrällisenä tai laadullisena, kaksi tai useampi koodaa
• Laadullisessa induktiivisesti datasta nostaen, Exhaustive, Exclusive & Useful codes
• Määrällisestä esimerkkinä eläinkuvat: 100 kuvan aineistossa koiria 42:ssa ja kissoja
37:ssa, ja neljäsosassa kaikista kuvista on mukana myös ihminen tai ihmisiä

Metodi Lähteet
Compositional interpretation Rose, 2012
Määrällinen sisällönanalyysi Bell, 2001, Banks, 2007, Rose, 2000, Rose, 2012
Laadullinen sisällönanalyysi Julien, 2008, Mayring, 2000
Dokumenttianalyysi Prior, 2008, Saumure & Given, 2008
Videografia Knoblauch & Tuma, 2011
Musiikinanalyysi Bauer, 2000
Kulttuurintutkimus Lister & Wells, 2001
Visuaalinen sosiologia tai antropologia Collier, 2001, Pauwels, 2012
Semioottinen analyysi Penn, 2000
Ikonografia Müller, 2011
Diskurssianalyysi Van Leeuwen, 2008
Visuaalinen sosiaalinen semiotiikka Jewitt & Oyama, 2001
Multimodaalinen tutkimus Iedema, 2003
Multimodaalinen etnografia Dicks et al., 2006
Rasmussen Pennington, 2017, s. 235

Twitter metodina
• Otsikko hämäävä: lähinnä kuvaus siitä, miten Twitter toimii osana
etnografista tutkimusprosessia, kirjoittajan oman väitöksen esittely
• Soveltuu hyvin situated knowledges –tutkimukseen, omat valtarakenteet,
resurssit ja lokaatiot
• Välinearvoa hakevat visitors vs. residents, White & LeCornu, 2011
• Tuottaa akateemisille ”visibility, care, vulnerability”, tutkimus
institutionaalisen roolin ja avoimesti verkottuneen roolin suhteesta
• Tutkija tavoitti Twitterin kautta nopeasti osallistujia, jatkuva vuorovaikutus
tutkittavien kanssa, avoin koodaus, lopulta 14 osallistujaa
• Metodeissa profiiliarviot kiinnostava yksityiskohta: ”Seuraisitko tätä
käyttäjää? Miksi, miksi et?”

”Experiments in new genres of scholarship and
dissemination are occurring in every field, but they
are taking place within the context of relatively
conservative value and reward systems that have
the practice of peer review at their core.”
”Even when digital practices were considered within
the academy, they were seldom taken up on their
own terms but rather as shadows of conventional
practices.”
Harley et al., 2010, p. 13, Stewart, 2017, p. 253

Small stories -tutkimus
• Artikkelissa kuvataan vaihtoehto perinteiselle narratiivikäsitykselle, joka
korostaa ”pitkiä” kertomuksia ja tekstuaalista muotoa
• Sopii sosiaalisen median tutkimukseen hyvin, koska sen tarinat
• fragmentoituneita
• tietyn alustan tai palvelun rajat ylittäviä
• epälineaarisia, ei selkeää alkua, keskikohtaa ja loppua
• yhdessä tuotettuja
• suoraan arkipäivästä, naturalistic stories
• Kaksi avainkäsitellä narrative stancetaking ja rescripting, jälkimmäistä
esim. kuva- ja videomanipulaatiot, meemit
• Kolme toisiinsa kytkeytyvää analyysitasoa: kerronnan tavat, paikat ja
kertojat
Georgakopoulou, 2017

• Tools for social media data http://truthy.indiana.edu/tools/
• Context collapse erityisesti Twitterissä, kts. Marwick, A. & boyd, D. 2011. I tweet honestly, I
tweet passionately: Twitter users, context collapse, and the imagined audience. New Media
& Society, 13(1), 114-133.
• Harley, D., Acord, S., Earl-Novell, S., Lawrence, S. & King, C. 2010. Assessing the future
landscape of scholarly communication: An exploration of faculty values and needs in seven
disciplines. Center for Studies in Higher Education, UC Berkeley.
• Stewart, Bonnie, 2015. Scholarship in abundance: Influence, engagement, and attention in
scholarly networks. PhD thesis. Myös lukuisia muita julkaisuja sosiaalisen median
verkostoista tieteessä ja korkeakoulutuksessa, kts. http://bonstewart.com/sample-page/

Osa 4: Kvantitatiivisia lähestymistapoja

Geospatiaalinen analyysi
• Somen myötä kansalaisista on tullut geodataa tuottavia ”sensoreita”
• Ei kuitenkaan primääriä geodataa, ihmiset ja yhteisöt huomioitava aina
• Analyysin taustalla maantiede ja geomaantiede, mutta myös
informaatiotieteet, sosiaalitieteet ja visuaalinen analytiikka, esim.
sosiaalisen verkoston topologia sijoitettuna kartalle
• Datan hankinta, otanta, geokoodaus ja analyysi
• Datan attribuutit natural ja cultural, esim. vuoret ja järvet vs. rakennukset
• Some-dataa kahdessa muodossa
• Footprints, geospatiaaliset koordinaatit
• Tekstuaalinen, esim. ”Helsinki”, ”00100”, ”GMT +0200”

Geospatiaalinen analyysi
• Geoparsing, geocoding, disambiguation
• Staattiset vs. interaktiiviset kartat ja mash-upit: Google Maps,
OpenStreetMap – ei ainoastaan varastoida vaan rakennetaan tietoa
• Lähtökohtana usein exploratory analysis, arvioidaan koko data suhteessa
paikkaan ja aikaan, tunnistetaan ja vertaillaan osayhteisöjä
• Aineiston luokittelusta esimerkkinä kvantiilimetodi
• Voronoi –diagrammit, ”largest empty circle”, esim. analyysi kulkutaudin
leviämisestä tai etsitään optimaalinen sijainti uudelle kivijalkakaupalle
• Standard Deviational Ellipse, jakauman suunta esiin
• Monet analyysityökalut vasta protoja
• Kts. GeoTime.com, nspace2
Buchel & Rasmussen Pennington, 2017

Verkoston keskeisyyden pragmatiikkaa
• Keskeisyys = tietyn toimijan eli noodin tärkeys verkostolle
• Analyysi auttaa ymmärtämään sosiaalisia rooleja, ennustamaan ihmisten
käyttäytymistä ja viime kädessä luomaan parempia some-palveluja
• Verkoston kaksi avainkriteeriä shape ja reach, noodien ominaisuudet vs.
koko verkoston ominaisuudet: koko, tiheys, topologia
• Eri määrittelytavat esillä: eroja topologia ja jäsenten vuorovaikutuksen tapa
• Mitkä noodit ovat kriittisimpiä koheesiolle ja tiedonkululle? Esim. betweenness
centrality
• Mitkä noodit ovat lähimpänä verkoston muita noodeja? Esim. closeness centrality
• Mitkä noodit ovat vahvimmin kytkeytyneet ympäristöön, kuten tiettyyn
maantieteelliseen alueeseen? Esim. clustering coefficient
• Mitkä noodit välittävät tehokkaimmin tietoa eri verkostojen välillä?

Verkoston keskeisyyden pragmatiikkaa
• Artikkelin fokus Fb, jossa verkostosuhde
molemminpuolinen; undirected, unweighted
• Perusongelmana 3. osapuolen data
• Betweenness työläs etenkin isolla datalla,
sosiaalisessa mediassa usein arvio
• Noodin tärkeyden arvioinnissa (Borgatti, 2005) eri
päämääriä: esim. closeness siihen kuinka nopeasti
tieto liikkuu, betweenness pullonkaulojen ja
portinvartijoiden tunnistamiseen
Ghajar-Khosravi & Chignell, 2017

Ennustava analytiikka
• Ennustava vs. selittävä analytiikka: yhteydet selitettävien muuttujien
välillä vs. kausaalisuhteet käsitteiden välillä
• Teoria- vs. dataohjautuvat mallit, datan etukäteisprosessointi
• Aikasarjat, cross-sectional, näiden yhdistelmät
• Facebookin ja Twitterin dataa on käytetty muun muassa myyntituottojen
ennustamiseen ja epidemioiden leviämisen ennakointiin
• Datan frekvenssi olennaisen tärkeä: jos myyntiluvut kk-tasolla, somelle
tyypilliset muutaman päivän piikit jäävät piiloon

Ennustava analytiikka
• Artikkeli taulukoi 38 esimerkkiä tutkimuksista, joissa on ennakoitu sosiaalisen
median datalla – mukana on kaikkea tuotemyynnistä politiikkaan ja
influenssaan, sydänkohtauksiin ja itsemurhiin
• Datan riittävyys: analytiikka onnistuu tyypillisesti vain isoille
kuluttajabrändeille, kuten Apple, Nike, H&M, Pepsi, Starbucks… ei esim.
pankki- ja vakuutusalalla, logistiikassa tai arkisille kuluttajatuotteille
• iPhone ja H&M –esimerkeissä lisähaaste kiinalaisten oma sosiaalinen media
• Stock prizes: Twitter ja Google Trends
• Ihmisten käyttäytyminen ja brändisuhteet: Facebook
• YouTuben ja Instagramin analyysi kasvusuunnassa
Buus Lassen, la Cour & Vatrapu, 2017

Huijausten tunnistaminen
• Artikkelin fokuksessa kaiken vale –alkuisen automaattinen
tunnistaminen ja suodatus: valeuutiset, huhut, feikkiprofiilit, tietojen
kalastelu jne., tutkijalle myös osa datan laatua
• Valitettavasti tässäkin keskitytään yksinomaan tekstiin
• Esittelee faktantarkistuksen ja tiedon verifioinnin menetelmiä
ammentaen lingvistiikasta ja journalismista
• Kokonainen A4 kriteerejä blogin luotettavuuden arviointiin 
• Ihmisten tietoisuus sosiaalisen median subjektiivisuudesta on hyvä,
mutta tiedon manipuloinnin systemaattisuus edelleen yllätys monille
• ”Haluamme uskoa asioiden olevan totta”

4 totuudellisuuden maksiimia (Grice, 1975) – huoneentaulu
sosiaaliseen mediaan?
1. Maxim of Quality: sano vain sellaista minkä uskot olevan totta
2. Maxim of Quantity: sano vain sen verran kuin on tarpeen
3. Maxim of Relevance: pysy aiheessa
4. Maxim of Manner: vältä epämääräisyyttä

• Tulkittava aina myös viestien kontekstia, ei pelkkää sisältöä: miten
sanoma esitetään, kuka esittää, ja missä tilanteessa
• Ihmiset eivät koeasetelmissa erota valheita todesta silloinkaan kun he
tietävät, että heille saatetaan valehdella!
• Tunnistamme noin 50-65 % valesisällöstä valheeksi
• Koneet pystyvät noin 70-75 % tarkkuuteen
• Valesisällössä
• Enemmän aistipohjaisia verbejä – nähdä, kuulla, tuntea (Hancock et al., 2007)
• Pronominit other-oriented, ei minä (Hancock et al., 2007)
• Yksinkertaisempi sanasto ja lauserakenne (Burgoon et al., 2003)
• Epämääräinen, epätäsmällinen ilmaisu (Burgoon et al., 2003)
• Paljon negatiivisia tunteita (Newman et al., 2003) tai puhuttuna
yltiöpositiivinen ilmaisu (Larcker & Zakolyukina, 2012)

• Viisi menetelmää tekstihuijausten tunnistamiseen (Zhou et al. 2004)
• Criteria-Based Content Analysis (CBCA)
• Reality Monitoring (RM)
• Scientific Content Analysis (SCAN)
• Verbal Immediacy (VI)
• Interpersonal Deception Theory (IDT)
• Useimpien sovellusten taustalla LIWC eli linguistic inquiry and word
count, kirjoittajan oma mittari: Veracity Roadmap
• Hybridiratkaisut suositeltavia: tekstianalyysi, verkostoanalyysi, world
knowledge databases
Rubin, 2017

Huhua vai totta – Twitter-esimerkki
Kategoria Ominaisuus
Lähteen uskottavuus Luotettava uutislähde vs. parodiatili
Uutisen url
Profiilin domain
Client application
Lähteen identiteetti Profiilissa on oikein henkilön nimi
Profiililla on sijainti
Profiilissa on tietoa henkilön taustoista
Lähteen diversiteetti Monipuolinen sisältö
Saman aiheen twiiteissä eri sanamuotoja
Lähteen sijainti ja todistusvoima Twiitti samassa paikassa kuin huhun kohteella
Profiilin sijainti samassa paikassa kuin huhun kohteella
Todentavat lauseet, ”näin”, ”kuulin”
Viestin sävy Tukee, kieltää, kysyy tai on neutraali
Tiedon leviäminen Tapahtuman aihe, uudelleentwiittaukset, maininnat, hashtagin h-
index, graph4 size/depth
Käännetty lähteestä Liu et al., 2015, viitattu Rubin, 2017, s. 352

• ESRI: GIS mapping software https://www.esri.com/en-us/home
• Edellä ArcGIS, kts. myös open source Geographic Information System QGIS
https://qgis.org/fi/site/
• One Million Tweet Map, twiitit kartalla http://onemilliontweetmap.com
• Botometer, aiemmin BotOrNot https://botometer.iuni.iu.edu/#!/
• Rieh, S. 2010. Credibility and Cognitive Authority of Information. In Bates, M. (ed.),
Encyclopedia of Library and Information Science. New York. Taylor & Francis.

Osa 5: Erilaisia/sekalaisia lähestymistapoja
sosiaalisen median dataan

Sivustospesifi vai hyperlokaali? Paikan
ilmentymät sosiaalisessa mediassa
• Miten fyysinen paikka tuodaan somessa esille – tässä ihmisten omien
kokemusten ja niiden moninaisuuden kautta, ei vain koordinaatteina
• Artikkeli on risteytys digitaalista humanismia ja taiteen analyysia
• Hyperlokaalissa informaatiossa automaattisesti mukana paikkatieto ja
aikaleima
• Casena katutaiteilija Banksyn projekti lokakuussa 2013
• taiteilija loi joka päivä uuden teoksen eri puolille New Yorkia
• tieto sijainnista levisi viraalisti somessa
• analyysin kohteena 28 400 Instagram-kuvaa tunnisteilla #banksy ja #banksyny
• kuvasisältöjen klusterointi, konenäkö apuna
• samantyyppinen sisältö ryhmiteltynä esim. temporal, visual ja spatial –
ulottuvuuksien kautta
Hochman, 2017

Muut datalähteet sosiaalisen median rinnalla
• Datan luonne, haasteet ja mahdollisuudet  mixed methods
• Somessa yhdistyy data found vs. data made
• ”Kilpajuoksu big datassa on jo hävitty Googlelle ja Facebookille”, sen sijaan
laadullinen tutkimus small datalla onnistuu – ja voi kertoa paljon
• Hyvin käytäntölähtöistä! Kontekstin löytäminen datalle. Esim. pöhinä
Twitterissä ei kerro paljoa, myös sen laatu on selvitettävä
• Tässä erityisesti some tutkimusinstrumenttina, ei -kohteena
• Casena Greenpeacen avoin Facebook-ryhmä
• analyysin kohteena sekä teksti että kuvat
• pelkästään sanoja 2,7 milj., tilastollinen tekstianalyysi: frekvenssi, avainsanat
• kuvien kommenttien laadullinen sisällönanalyysi
Zeller, 2017

Tutkimuskysymys
Hypoteesit
Tutkimusasetelma
ja metodit
Datan keruu
Analyysi
Tulokset
Laajennettu empiirinen tutkimusprosessi
Zeller 2017, alkuperäinen lähteestä Bryman et al. 2012
Data retrieval
Parsing
Data storing
Queries

Laajennettu empiirinen tutkimusprosessi
• Data retrieval: APIt, valmiit työkalut ei-ohjelmointitaitoisille, myös web
crawlers & scrapers tietyn teemaan tai sivustokokonaisuuteen liittyvän
sisällön seulomiseen
• Data processing/parsing: datan läpikäynti ja siivoaminen, vain relevantit
osat, konvertointi käyttökelpoiseen muotoon
• Esimerkiksi verkostoanalyysissa ei twiittien sisältöä
• Esimerkiksi automaattisessa sisällönanalyysissa twiiteistä URLit pois, koska niissä
esiintyvät sanat voivat vääristää tuloksia
• Data storing ja Queries: vaiheet rinnakkain, koska säilytysmuoto vaikuttaa
siihen, miten tietoa voidaan hakea
• Esimerkiksi relaatiotietokannat
• Myös hakujen testaus mahdollisimman varhaisessa vaiheessa
Zeller, 2017

Sonifikaatio
• Sonifikaatio on datan konvertointia ääneksi
• Temporaalisuus: aikaleimallinen data soveltuu erinomaisesti trendien
ja vuorovaikutuskuvioiden tutkimiseen
• Poikkeamat on helpompi havaita äänestä, myös maallikoiden
• Eksploratiivinen analyysi, ei hypoteesien testausta; analyysi ryhmän,
yksilön tai dyadin tasolla, tai näiden yhdistelmät

Sonifikaatio
• Työkaluja toistaiseksi vähän ja vain harva tutkija tuntee menetelmän
• Max/MSP, SuperCollider ja muut syntetisoijat
• Sonification Sandbox, E-Rhythms Data Sonifier
• Laatukriteerit: objective, systematic, reproducible, sets of different data
• Millaista on kuunnella sosiaalista mediaa? Saksassa #tweetscapes –
projektissa muutettiin twiitit ääneksi, kts. esittelyvideo:
https://www.youtube.com/watch?v=0lKSFlB_-Q0
• Esim. osakemarkkinadata, Ballora et al. 2012
• Artikkelissa casena txt-viestit ja vuorovaikutuskäytäntöjen tutkiminen
• osallistujia 77, noin 11 000 viestiä, kaikkiaan 149 henkilön kesken
• taustaoletusten vastaisesti tutkimus osoitti, että perheenjäsenten kesken viesteihin
vastataan hitaammin kuin kollegoiden tai kavereiden, vrt. Walther & Tidwell, 1995
Jamieson & Boase, 2017

Innovatiiviset paikkatietoiset mobiilipalvelut
• Esittelee MUGGES-projektia – Mobile User Generated Geo Services
• Living lab –lähestymistapa
• Survey ja log data yhdistettynä palvelun todelliseen käyttöön
• Fyysinen, symbolinen ja semanttinen paikkatieto
• Avainsanojen liittäminen tiettyyn paikkaan ja näin syntyvän informaation jakaminen
muille joko avoimena tai vain kavereille
• Mugglets: muistiinpanot tietystä paikasta (notes), näistä muodostuvat mash-upit
(journal, trail, race)
• Koekäyttäjät pieni joukko it-ammattilaisia Bilbaosta ja Espoosta (VTT), jälkimmäisestä
ei kuulemma löytynyt tutkimukseen yhtään naisosallistujaa 
• Löydökset eivät välttämättä kovin hyödyllisiä muille kuin palvelun kehittäjille: perus-
TAM eli koettu hyödyllisyys ja käytön helppous, kellonajan ja sään vaikutus, pieni
ydinjoukko tekee eniten, käyttö alussa aktiivisinta, useita metodeja tarvitaan
Klein & Reips, 2017

Osa 6: Tutkimuksen ja analyysin työvälineet

COSMOS – Collaborative on-line social media
observatory
• Artikkeli esittelee vuonna 2015 päättyneen projektin ja tieto on ollut jo
kirjan julkaisuhetkellä osin vanhentunutta – cosmosproject.net sijaan kts.
http://socialdatalab.net/COSMOS
• Collect, mash & visualize social media data
• Projektin perusteet eivät toki vanhene
• Tarve helppokäyttöisille työkaluille, joita yhteiskuntatieteilijät voivat hyödyntää ilman
ohjelmointiosaamista, monimutkaisuuden sijaan huomio siihen mitä data voi kertoa
• ”Kaikkea ei pidä jättää computer scientistien varaan”
• Big data –skaalautuvuus ongelma: Cosmoksen HCP-pilotissa Hadoop ja MongoDB
• Myös analyysin algoritmit mahdollisimman läpinäkyviä, kriittinen tarkastelu
• Vaivattomasti yhdistettävissä muihin datoihin, esimerkkinä UK Census
• Eettisiä haasteita käsitelty peräti yhden palstan verran, käyttöopasta 20 sivua 
• Esimerkiksi geodatan ”tihentymä” kartalla voi paljastaa kotiosoitteen

• Kolme käyttöliittymän perusosaa: Data Set Library, Data View Library ja
Workspace
• Eri formaatit ja yhteensopivuus muiden analyysityökalujen kanssa
• RSS-syötteet, CSV-tiedostot, twiitit
• Twitterin stream-data (1 %), random tai filtered
• Visualisointiin 10 perustyökalua ja näiden yhdistelmät, esim. sanapilvi
twiiteistä, paikannus kartalle ja frekvenssidiagrammit
• Shapefile –mash kiinnostava: väritetään karttapohja census –tiedoilla,
esim. työllisyysaste maassa alueittain, ja sijoitetaan tietyn ajanjakson tai
tapahtuman twiittien sentimenttianalyysi suoraan tämän kartan päälle
COSMOS – Collaborative on-line social media
observatory
Morgan, 2017

Social Lab – avoimen lähdekoodin ’Facebook’
• http://www.sociallab.es
• Tutkimus kaupallisilla SNS-alustoilla hyvin rajoittunutta – siksi luotu
klooni, laboratorioympäristö jossa Facebookin perusominaisuudet
• Simulointia ja stimulointia
• Sosiaalisten bottien luominen helposti
• Koulutuskäyttö: yksityisyydenhallinnan opettelu bottien avulla
• Eksperimentit: esim. jaetaan ihmiset satunnaisiin verkostoihin ja
tutkitaan vuorovaikutuksen luonnetta, tällaista tutkimusta on vähän
• Myös havainnointi, verkostoanalyysi, kyselyt, haastattelut, osin
automatisoiden
Reips & Garaizar, 2017

R ja sosiaalisen median analyysi
• Koko data scientistin työnkulku: getting, cleaning, testing, showing
• Ei helpoin mahdollinen, mutta tunnetusti monia etuja
• Ilmainen, joustava
• Vahva kehittäjäyhteisö
• Tools for text mining, data manipulation, visual analysis
• Handbook-tyyppinen konkreettinen esimerkki Kalifornian alueen
twiittien aiheista ja teemoista tietyllä ajanjaksolla kartalle sijoitettuna
• Ei mielekästä kopioida tähän yhteenvetoon – jos tunnet R:n perusteet,
kokeile itse esimerkkiä seuraten! (Note: allekirjoittaneelle jo datan
indeksointivaihe aiheutti masennuskohtauksen)
Hegelich, 2017

GATE – open source NLP-työkalu
Ennen luvun varsinaista sisältöä muistutuksena perussanastoa
• Ontologia = käsitteet ja käsitteiden väliset suhteet
• Korpus = kokoelma: järjestelmällinen ja laaja koonti näytteitä luonnollisesta
kielestä, tekstejä tai puhutun kielen nauhoitteita
• Annotaatio = merkintä: järjestelmälliset merkinnät tietyistä
aineistokohdista, esimerkiksi lauseiden kieliopillinen jäsennys
• NLP = Natural Language Processing, koneellista luonnolliseen kieleen
pohjautuvan datan käsittelyä ja analysointia
• NER = Named Entity Recognition, menetelmiä, joilla etsitään henkilöihin,
paikkoihin ja tapahtumiin viittaavaa sisältöä aineistosta ja annotoidaan ne

GATE – open source NLP-työkalu
• Koko elinkaari: korpukset, lingvistiikan työkalut (eri kielet, POS eli part of speech -
taggaus, NER, entity linking), semanttinen haku, visuaalinen analytiikka
• GATE Developer, Teamware, M’imir, Cloud; fokus mikroblogeissa, Twitter
• Kirjoittajan mukaan haastavin NLP: lyhyitä tekstejä, monia merkityksiä, kielen
variaatiot ja leikittely, nimistä usein vain yksi maininta
• Pelkkä tviittitekstien analyysi johtaa siksi huonoihin tuloksiin, konteksti
huomioitava, JSON metadata
• ANNIE  TwitIE
• Tokenisation (tekstin jakaminen yksiköiksi, somessa esimerkiksi URLit, hashtagit,
maininnat, vakiolyhenteet, hymiöt, emojit) tehtävä laadukkailla työkaluilla,
”kaksoispiste voikin olla hymiön osa”
• Indeksointi: M´imir mahdollistaa semanttiset haut
Bontcheva, 2017

Netlytic datan kerun ja analysoinnin työvälineenä
• Pilvipohjainen some-analyysiratkaisu erityisesti tutkijoille, kts.
https://netlytic.org, Social Media Lab, Ryerson University
• Artikkelissa casena Euromaidan 2014, Twitter-viestintä ja sen mahdolliset erot
erikielisessä aineistossa: ukraina, venäjä, englanti. ENG enemmän yleistä
tiedonjakoa ja vähemmän vastavuoroista, korostettiin idän ja lännen konfliktia.
• Myös muita kuin Netlytic esitelty, Social Media Labin sivuilla tarkemmin
• Foller.me, Twitterin käyttäjätileistä taustatietoa
• NodeXL, vanha tuttu verkostoanalyysiratkaisu
• Tweet Archivist, maksua vastaan, lataa tai arkistoi myöhemmin, Twitter ja Insta
• NCapture add-on Nvivoon, tekstin analysointi ja visualisointi, mm. Twitter, Fb, YouTube
• Webometrics Analyst, mm. Twitter, YouTube, Mendeley, yhteydet kommentoijien välillä
• Textexture, verkoston tekstien visualisointi
• STACK, SOCRATES, SocialTap, DMI-DCAT ja muut OS-työkalut

Netlytic datan keruun ja analysoinnin työvälineenä
• Jo vuodesta 2006, tuolloin keskustelufoorumien dataa
• Twitter, Fb, Insta, YouTube, RSS-feed, cloud storage, csv-tiedosto
• Rinnakkain tekstianalyysi, verkostoanalyysi, visualisoinnit
• Sanapilvet
• Stacked chart, termien esiintyvyys aikajanalla
• Concept coding
• Distributed Recursive Graph Layout (DrL), Fruchterman & Reingold (erityisesti
alle 1000 noodin verkostoille), Large Graph Layout
Gruzd, Mai & Kampen, 2017

Teemojen tunnistaminen sosiaalisesta mediasta
• Discursis, Leximancer  visuaalinen tekstianalyysi Twitter-datalla,
esimerkissä 50k, rinnalla perinteiset Gephi ja Excel
• Palveluja valtavasti eri tarkoituksiin ja erityyppiselle datalle
• Taustalla information visualization, computational linguistics
• ”Content analysis seeks to interpret documents or other artefacts of
communicative processes”, Krippendorff 2012
• Perusongelma tässäkin, ettei tunnista sarkasmia tai suhtautumisen laatua
• Kolme pääosaa
• Miten aineisto koodataan automaattisesti, NLP
• Kuinka tulos esitetään visuaalisesti
• Sense-making, analyysi merkityksistä eli teemat

Teemojen tunnistaminen sosiaalisesta mediasta
• Leximancerilla visuaalinen käsitekartta, concept = word+weight
• Workflow: CSV tms,  GUI  concept seeds  list  analysis  output
• Discursis lisää mukaan visualisoinnin ajassa
• Myös NLTK, Stanford NLP, D3.js
• Casena Australian #QANDA, vrt. #astudio tai #ateema
• Stop listille normaalit and, or, the, Twitterin tapauksessa myös RT
• Stream graph = theme river visualization
• 74 concepts, 8 themes: government, law etc.
• Aktiivisimpien tviittaajien vertailu käsitteiden käytön osalta: voidaan esim.
tunnistaa samaan tapaan viestivät, jotka eivät kuitenkaan seuraa toisiaan
Angus, 2017

Sentimenttianalyysi
• Automaattinen tunteiden tunnistaminen tekstistä
• Alun pelin kaupallisiin tarkoituksiin: tuotearviot, opinion mining
• Sovellusalueet laajentuneet – somen käyttö, HCI, markkinointi, taloustiede,
terveydenhuolto, politiikka, koulutus, esim. opiskelijoiden tyytyväisyys
• Myös tunteiden eri tasoja kyetään jossain määrin erottamaan
• Machine learning vs. lexical approach
• http://sentistrength.wlv.ac.uk ilmainen ja nopea
• Ongelmia vivahteet, piilomerkitykset, sarkasmi ja ironia, sanojen eri
merkitys eri kontekstissa: heavy on huono matkapuhelimelle, neutraali
elokuvissa tai musiikissa
Thelwall, 2017

Kiinnostavia linkkejä ja vinkkejä osiosta 6
• Big Data and Society –journal http://journals.sagepub.com/home/bds
• Social Media Planner: sopivan palvelun valinta demografisten tietojen
ja intressien pohjalta https://www.inpromo.de/wordpress/en/social-
tools/social-media-planner/
• Bontcheva, K. & Rout, D. 2014. Making sense of social media through
semantics: A survey. Semantic Web – Interoperability, Usability,
Applicability, 5(5), 373-403.

Lopuksi: omia kriittisiä huomioita
• Artikkelit eivät käsitelleet lainkaan sosiaalisen median algoritmeja ja sitä, millä
tavoin ne vaikuttavat tutkittavaan maisemaan – kaikki mitä saamme eteemme,
on todellisuudessa jo kerran suodatettua. Tämä pitäisi huomioida etenkin
laadullisten menetelmien ja datan sakeuttamisen kohdalla!
• Kvalitutkijoiden tulisi kiinnittää enemmän huomiota tutkimuskysymystensä
laatuun. Esim. kirjassa kuvattu small stories –tutkimus tunnisti, miten tarinat
saavat Facebookissa alkunsa. Ovatko profiilikuvan vaihto, postaus, tapahtuma,
paikka ja taggaus todella ”tutkimustuloksia” vai kaikille tuttuja Facebookin
perustoimintoja? Mielummin huomio sisältöihin kuin toiminnallisuuteen:
esim. millaiset postaukset käynnistävät somekohun.

Lopuksi: omia kriittisiä huomioita
• Odotetusti mukana oli itsestäänselvyyksiä sosiaalisen median luonteesta ja datan
analysoinnin vaikeudesta, ei vastauksia kyseisiin ongelmiin.
• Algoritmivajetta lukuunottamatta erittäin kattava esitys koko tutkimusprosessiin. Osa
luvuista on tekno-optimistisia, osa huomioi myös eettiset kysymykset ja
kokonaisuuden. Tuo paljon uutta tietoa, koska kukaan ei voi olla oman elämänsä IDR
ja hallita kaikkia tarvittavia osa-alueita.
• Tämän näytteen perusteella Twitter ylikorostuu tutkimusdatan lähteenä. Facebook
on merkittävä mutta tunnetusti myös vaikea, ja umpioituu koko ajan. Kuva- ja
videosisältöjen tutkimukseen ollaan vasta havahtumassa ja akateemisista enemmistö
hallitsee vain tekstin.
• M.O.T.

Sometutkimus

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Sometutkimus

Similar to Sometutkimus (20)

More from Miia Kosonen

More from Miia Kosonen (20)

Sometutkimus