Advertisement
Advertisement

More Related Content

Advertisement
Advertisement

Sometutkimus

  1. eli mitä opin kirjasta The SAGE Handbook of Social Media Research Methods @MiiaKosonen http://tohtorilletoita.com Sosiaalisen median tutkimusmenetelmät
  2. Taustaa • Harvalla on aikaa ja energiaa käydä tutkimus- tai opetustyön ohessa läpi 700- sivuisia käsikirjoja. Lukiessani aloin ajatella, ettei ole mitään järkeä jättää opittua ja havaittua vain itselle: se on tiedon vajaakäyttöä ja sosiaalisen median kulttuurien vastaista. • Sosiaalisen median tutkimus on erityisen vakiintumatonta ja nopeasti muuttuvaa aluetta, jossa standardit ja hyvät käytännöt hakevat muotoaan. Kts. http://otteitaverkosta.fi • Esitykseen on valittu, tiivistetty ja yhdistelty mielestäni olennainen ja vain se. 38 eri luvun kirjoittamiseen osallistui yli 40 asiantuntijaa ympäri maailman. Kirjoittajat on listattu kunkin alaluvun lopussa.
  3. Materiaalin käyttö Esitystä voi hyödyntää ei-kaupalliseen tutkimukseen ja koulutukseen viittaamalla 1) Kyseiseen artikkeliin: kirjoittajat on listattu kunkin luvun lopussa 2) Alkuperäiseen teokseen: L. Sloan & A. Quan-Haase (Eds.), The SAGE Handbook of Social Media Research Methods. SAGE Publications, 2017. 3) Tähän esitykseen: Miia Kosonen 2018, yhteenveto sosiaalisen median tutkimusmenetelmistä http://slideshare.net/miiak/sometutkimus
  4. Materiaalin käyttö Käytä omalla vastuulla: mukana on aivan varmasti myös käännös- tai tulkintavirheitä. Geolokaatio tai datan muuttaminen ääneksi eivät ole alaani. Klout.com, 2016
  5. HUOM! Kirjan artikkelit on kirjoitettu 2015-2016. Sen jälkeen moni asia on jo ehtinyt muuttua ja sisältö voi olla yksityiskohtien osalta vanhentunutta. Samasta syystä tässä esityksessä ei ole mukana kirjan viimeistä osiota, jossa esitellään sosiaalisen median alustoja tutkimuskäytössä. “Facebook’s API is becoming a closed system. -- The Cambridge Analytica scandal, which saw Facebook user data gathered supposedly for academic purposes but instead used by a private firm for political campaigning, created an opportunity for positive change. But Facebook sadly appears to be making its platform more opaque, unknown and unaccountable to the public. Once apps like Netvizz are gone, there will be no accessible way of gathering large amounts of public page Facebook data.” https://thenextweb.com/syndication/2018/08/27/facebooks-attitude-towards-researchers-should-worry-you/
  6. Johdanto Käsikirja määrittelee sosiaaliseksi mediaksi sovellukset, jotka 1. mahdollistavat käyttäjien luoman sisällön kuten kuvat, tekstin, videot ja statukset 2. antavat käyttäjille mahdollisuuden kytkeytyä muihin käyttäjiin 3. tukevat käyttäjien välistä vuorovaikutusta esimerkiksi mahdollistamalla yhteistyön, yhteisön rakentamisen, osallistumisen, linkittämisen ja jakamisen.
  7. Johdanto Sosiaalisen median menetelmälliset haasteet, vrt. big data: 6Vs • Volume • Variety • Velocity • Veracity • Virtue • Value
  8. Sisältö: 7 osaa • Käsitteellistäminen ja tutkimuksen suunnittelu • Datan kerääminen ja säilytys • Kvalitatiivisia lähestymistapoja sosiaalisen median dataan • Kvantitatiivisia lähestymistapoja sosiaalisen median dataan • Erilaisia lähestymistapoja sosiaalisen median dataan • Tutkimuksen ja analyysin työvälineet • (Sosiaalisen median alustat)
  9. Osa 1: käsitteellistäminen ja tutkimuksen suunnittelu • Mitä sosiaalinen media on • Big data – hype vai vallankumous? • Monitieteiset sosiaalisen median tutkimustiimit • Sosiaalisen median käyttäjät ja tutkimusetiikka • Virtuaalinen minä • Twitter-aineistot ja demografia
  10. Osa 2: Datan kerääminen ja säilytys • Ajattele ennen kuin keräät dataa • Datan prosessointi • APIt ja data sampling • Datan elinkaari – kuratointi, säilytys, pitkäaikaissäilytys • Qualitative E-Research framework
  11. Osa 3: Kvalitatiivisia lähestymistapoja • Small data, thick data ja sakeuttamisen strategiat • Visuaalisuus sosiaalisessa mediassa • Ei-tekstuaalisen datan koodaaminen • Twitter metodina • Small stories -tutkimus
  12. Osa 4: Kvantitatiivisia lähestymistapoja • Geospatiaalinen analyysi • Verkoston keskeisyyden pragmatiikkaa • Ennustava analytiikka sosiaalisen median datalla • Huijausten tunnistaminen ja huhujen kumoaminen sosiaalisessa mediassa
  13. Osa 5: Erilaisia lähestymistapoja • Sivustospesifi vai hyperlokaali? Paikan ilmentymät sosiaalisessa mediassa • Muut datalähteet sosiaalisen median rinnalla • Sonifikaatio – sosiaalisten rytmien kuunteleminen • Sosiaaliset paikkatietoiset palvelut mobiililaitteille
  14. Osa 6: Tutkimuksen ja analyysin työvälineet • COSMOS – Collaborative on-line social media observatory • Social Lab – open source ’Facebook’ • R ja sosiaalisen median analyysi • GATE – open source NLP-työkalu sosiaaliseen mediaan • Netlytic datan kerun ja analysoinnin työvälineenä • Teemojen tunnistaminen sosiaalisesta mediasta • Sentimenttianalyysi
  15. Osa 1: Käsitteellistäminen ja tutkimuksen suunnittelu
  16. Mitä sosiaalinen media on • Kts. käsikirjan perusmääritelmä edellä • Eräiden tulkintojen mukaan aina dynaamista ja kontekstuaalista: ’temporally, spatially and technologically sensitive’ (Papacharissi, 2015) • Näkemys on muuttunut 10-15 vuodessa ja muuttuu edelleen
  17. Mihin kysymyksiin sosiaalinen media vastaa • Pakottaa tutkijat nostamaan esille 1) metodologiaan 2) eettiseen perusteisiin 3) tutkimuksen mittakaavaan liittyviä uusia kysymyksiä. • Vastaaminen tutkimuskysymyksiin, jotka liittyvät • sosiaalisen median käyttöön itseensä • tiettyyn sosiaaliseen ilmiöön, josta sosiaalinen media voi tarjota lisää tietoa.
  18. Sosiaalisen median palveluiden tyyppejä Tyyppi Esimerkkejä Sosiaaliset verkostopalvelut Facebook, LinkedIn Kirjanmerkit Delicious, StumbleUpon Mikroblogit Twitter, Tumblr Blogit ja foorumit LiveJournal, WordPress Median jakaminen YouTube, Flickr, Pinterest Sosiaaliset uutispalvelut Digg, Reddit Yhteiskirjoittaminen Wikipedia Web-konferenssit Skype, GoToMeeting, Zoho Meeting Paikkatieto Foursquare Aikataulutus Doodle Tiivistetty ja kääännetty luvun 2 artikkelista McCay-Peet, L. & Quan-Haase, A. 2017. What is social media and what questions can social media research help us answer? Sloan, L. & Quan-Haase, A. (Eds.), The SAGE Handbook of Social Media Research Methods, p. 18.
  19. Big data – hype vai vallankumous? • Kärjekkäimmät puhuvat ”end of theorysta”, jossa ei tarvita lainkaan taustateoriaa ja hypoteeseja, vaan data luo ne itse • Käytännössä teoriaa tarvitaan aina, mm. suhteuttamaan ilmiöt aiempaan tietoon • Myös big data on monella tapaa vinoutunutta • Big dataa ei ole suunniteltu vastaamaan tutkimuskysymykseen X • Tuottaa pintapuolisia kuvauksia, vaikutelmia; esimerkiksi mikä on twiittien valtakieli suurkaupungin eri osissa
  20. Big data – hype vai vallankumous? • Big datan arvo: auttaa havaitsemaan uutta, ”data kertoo kysymyksiä joihin kannattaisi vastata” • Ei uusi paradigma vaan täydentävä teorianmuodostuksen tapa • Digitaalisen humanismin kaksi leiriä: digitaaliset ympäristöt tuottavat rikkaampia aineistoja ja tuovat uusine tekniikoineen menetelmällistä uskottavuutta, toisen koulukunnan mukaan taas täydentää perinteisiä metodeja. Kitchin, 2017
  21. Monitieteiset sosiaalisen median tutkimustiimit • IDR eli inter-disciplinary research • Sosiaalinen, tekninen ja eettinen lähestymistapa, kaikki kolme puolta ymmärrettävä • Sopivasti monitieteisyyttä – ei liikaa, siis tyyliin yksi joka alalta • Miksi tärkeää: kompleksiset tutkimusongelmat, jäsenten motivaatio ymmärtää ilmiötä eri näkökulmista, luovemmat ratkaisut ja löydökset
  22. Monitieteiset sosiaalisen median tutkimustiimit • Artikkeli tunnistaa useita haasteita, esim. sosiaalitieteissä ei palkita työvälinekehityksestä, lyhytjänteinen rahoitus, näennäisyhteistyö jotta saadaan rasti oikeaan ruutuun • Tarvitaan myös koulutusta ja tukea siihen, kuinka luoda eri taustoista tulevien ihmisten välille common ground – toiselle riittää aineistoksi 100, toinen haluaa 10 miljoonaa jotta mitään kannattaisi edes tehdä Quan-Haase & McCay-Peet, 2017
  23. Sosiaalisen median käyttäjät ja tutkimusetiikka • Haluttiin selvittää, mitä sosiaalisen median käyttäjät itse ajattelevat siitä, että aineistoa hyödynnetään tutkimustarkoituksiin • Esim. tuleeko informed consent pyytää aina, vai ainoastaan ei- avoimissa verkkopalveluissa • Aineistoa kerättiin 34 focus group –haastateltavalta • Sosiaalinen media koettiin tilana, joka on lähes aina julkinen ja josta tietoa on vaikea saada pois.
  24. Sosiaalisen median käyttäjät ja tutkimusetiikka • Kolmenlaisia käyttäjärooleja: creators, sharers, observers • Riskitietoisuus yleisesti kasvamaan päin, Facebook-kohujen vaikutus? • Huolena yksityisyys, maine, turvallisuus, tiedon laillinen vs. moraalinen omistajuus: omistaako palveluntarjoaja vai viestin kirjoittaja • Lähdeviitteiden käyttö vs. jäljitettävyys, köydenvetotilanteet: jos suora lainaus, anonymisoidun käyttäjän saattaa löytää googlaamalla - tarvitaan fabrikaatiota (Markham, 2012) • Näkemykset käytöstä tutkimustarkoituksiin ”vaihtelevat merkittävästi” skeptikoista hyväksyjiin ja ambivalentteihin
  25. Sosiaalisen median käyttäjät ja tutkimusetiikka • Kaiken perustana SAL = Suostumus, Anonymiteetti, Luottamuksellisuus • Kts. myös Kosonen, Laaksonen, Rydenfelt, Terkamo-Moisio, 2018: Sosiaalinen media ja tutkijan etiikka. https://journal.fi/mediaviestinta/article/view/69924 • Palvelujen käyttöehdot tulee kansantajuistaa, mutta vaatisi ihmettä. Käytännön toteutukseen vaikuttaa se • Millaisesta postauksesta on kyse • Millaisessa sosiaalisen median palvelussa se on jaettu • Mikä on konteksti ja tilanne, mitä käyttäjät odottavat • Mikä on tutkimuksen luonne: ei-kaupallinen useimmiten hyväksytään Beninger, 2017
  26. Virtuaalinen minä ”Data ei valehtele, mutta ihmiset valehtelevat datalla” Artikkeli käsittelee käyttäjien verkkopersoonaa, maineenhallintaa sekä trollausta ilmiönä Konteksti, konteksti, konteksti! Tutkijoiden on kaikissa tilanteissa huomioitava alustaspesifit sosiaaliset normit ja se, missä palvelussa profiili on luotu.
  27. Virtuaalinen minä: tutkijan huoneentaulu Sosiaalinen konteksti - Anonyymi - Tunnistettavat Some-alustan tyyppi - Avoin - Suljettu Verkkomaineen hallinta Self-presentation – strategiat Verkkopersoonallisuus, ml. dark traits Trollaaminen ja sen todennäköisyys 1) Perehdy aiempaan kirjallisuuteen aiheesta 2) Hyödynnä datatriangulaatiota 3) Digital traces: kaikki käyttäjään liittyvä data eri alustoilta ml. metadata 4) Arvioi verkkomaine ja – persoona em. pohjalta
  28. Virtuaalinen minä • Tutkimukset osoittaneet, ettei täysin eri minä (vrt. Turkle, 1984), muttei myöskään yksi yhteen IRL-minän kanssa • Anchored relationships (esim. Facebookin ystäväpiiri) vs. anonyymi kanssakäyminen • Introvertit postaavat omalla nimellään ja kasvoillaan vähemmän?! • Kyber-psykopaatit, narsismi: esim. runsaasti statuspäivityksiä (Carpenter, 2012) tai ylikorostaa saavutuksia (Marshall et al., 2015) • On the internet, nobody knows you’re a dog yhä ajankohtainen – big data ei yksinään tajua vivahteita tai vedätyksiä
  29. Virtuaalinen minä • Trollaus tärkeä osa nettikulttuuria, valtapelit • Ilmiön yleisyydestä ei tarkkaa tutkimustietoa • Merkitys tutkijalle: mitään viestiä ei koskaan kannata ottaa kirjaimellisesti! • Osa harmitonta, osa käytännössä verkkorikollisuutta ja häirintää Yang, Quan-Haase, Nevin & Chen, 2017
  30. Twitter-aineistot ja demografia • Tutkijoiden varta vasten keräämä data vs. naturally occurring data, tutkijan aarrearkku • Artikkelissa kuvataan, millaisia tapoja on yhdistää ainutlaatuiseen Twitter- dataan demografista tietoa, jotta se olisi hyödyllisempää – muutoin emme tiedä, ketkä sanoivat tai tekivät, mitkä väestöryhmät ovat edustettuina jne. • Esimerkki: onko twiittien kieli erilaista niillä alueilla, joilla rikollisuutta on tilastojen mukaan paljon? Ilmentääkö se pelkoa tai uhkaa? Kysymykseen vastaamiseksi twiitit on voitava ensin paikallistaa tietylle alueelle. Lisäksi vain käyttäjien oma sisältö, retweetit on suodatettava pois.
  31. Twitter-aineistot ja demografia • Paikka • Alle 1 % Twitterin käyttäjistä paljastaa sijaintinsa • Varavaihtoehtona profiilin Location, ei kuitenkaan välttämättä oikea tieto, epäselvää onko syntymä- vai asuinpaikka jne. • Yahoo Place Finderin avulla tunnistettiin 52 %:ssa tapauksista twiittaajan kotimaa ja pienelle osalle jopa postinumeron tarkkuudella • Ikä • Jää lähes aina piiloon • Facebookista ja blogeista helpompi tunnistaa, language processing • Twitterin profiilitiedoista voi saada suuntaa olettaen että todenmukaista, samoin emojien ja hashtagien käytöstä
  32. Twitter-aineistot ja demografia • Sukupuoli • Nimitietokannan avulla neljä kategoriaa: M, F, unisex, ei tunnistettavissa • Esimerkissä noin puolet tunnistettiin, mutta ei tässäkään luotettavaa tietoa • Kieli • Käyttöliittymän kieli, profiilitekstin kieli, twiittisisällön kieli • Käytännössä harvalla vain yksi kieli, entä puhekieli tai murteet • LDLJ: Language Detection Library for Java • Ammatti ja yhteiskuntaluokka • Kohta, joka vaatii eniten ihmistyönä validointia Sloan, 2017
  33. Kiinnostavia linkkejä ja vinkkejä osasta 1 • #Fail! The workshop series. Things that didn’t work out in social media research and what can we learn from them. https://failworkshops.wordpress.com/ • Tapor.ca: research tools for studying texts http://tapor.ca/home • Baym, N. 2013. Data not seen: The uses and shortcomings of social media metrics. First Monday, 18(10) http://firstmonday.org/article/view/4873/3752 • Ethics and Information Technology journal https://www.springer.com/computer/swe/journal/10676
  34. Osa 2: Datan kerääminen ja säilytys
  35. Ajattele ennen kuin keräät dataa • Mitä dataa? Sen tyyppi, laatu ja määrä vaikuttaa kaikkeen. • Yleensä tutkimuskysymys  data, joskus myös data  tutkimuskysymys • Tässä rajaus suoraan sosiaalisesta mediasta kerättyyn dataan ja erityisesti Facebookiin ja Twitteriin, ei esim. käyttäjäkyselyt. Casena Saksan vaalit 2013. • Tutkimus on vasta matkalla kohti hyviä käytäntöjä!
  36. Ajattele ennen kuin keräät dataa • Mitkä alustat? Yksi vai monta? • Kriteerit datan valintaan? • Big vai small data? • Mitä dataa jää pois – collection bias?
  37. Ajattele ennen kuin keräät dataa • Alustat: usein yksi, vaikka linkittyvät vahvasti toisiinsa • Datan aikajänne: pari tuntia, kuukausi, vuosia • Kriteerejä datan valintaan: user accounts, aiheet, metadata, random • Dokumentoi hakutermit ja kartoita myös rinnakkaiset vaihtoehdot! • Saksan vaalit-casessa >2000 ehdokkaiden käyttäjätiliä, aitous todennettava manuaalisesti. Facebook-analyysi: SODATO, Social Media Data Analysis Tool, Twitter-korpukselle Tweet Observer. Soveltuvin osin dataa myös julkaistiin avoimena. Mayr & Weller, 2017
  38. Datan prosessointi • Kuvaa kolme yleispätevää vaihetta, kaikenlaiselle datalle • Modelling • Cleaning • Transformation • Fokus verkostoanalyysin valmistelussa: kuinka toimijat ja sisällöt kytkeytyvät yhteen • Case Twitter ja Pariisin terrori-iskujen 40k twiitin testiaineisto
  39. Datan prosessointi • Mallinnuksessa tunnistetaan datan rakenne ja merkitys. Tuloksena tuotetaan malli, skeemadiagrammi. Avoimen lähdekoodin SylvaDB, johon voi mallin luotuaan tuoda aineistoa esim. CSV- tai XML-muodossa. • Käsitteelliset, loogiset ja fyysiset mallit • Datamallin osat ovat yksiköt (entities, nodes), suhteet (relationships, associations) sekä näiden molempien ominaisuudet (attributes) • Esimerkiksi Twitterissä yksiköitä ovat twiitit ja käyttäjät. Ominaisuuksia ovat esimerkiksi yksilöivä id ja käyttäjän sijainti. Esimerkkejä suhteesta: user tweets tweet, tweet references user.
  40. TWEET Id Teksti Luontihetki Maa Kaupunki Koordinaatit Esimerkki: Twitterin datamalli USER Id Käyttäjänimi HASHTAG Id Teksti twiittaa viittaa sisältää seuraa uudelleen- twiittaa vastaa Brown, Soto-Corominas, Suárez & de la Rosa, 2017, s. 130
  41. Datan prosessointi • Cleaning-vaiheessa esimerkkinä OpenRefine –työkalu. Poistetaan epäjohdonmukaisuudet, puuttuvat kohdat, duplikaatit jne. korvaten arvot uusilla. • Casessa tuotettiin Pariisin iskujen aineistosta clean text field: kaikki erikoismerkit, URLit, RT-maininnat poistettu OpenRefinellä tekstin sisällönanalyysia varten, esim. value.replace{/RTs/, ””) • Transformation-vaiheessa input-parsing-output. Aineiston osittaminen, jolloin helpompi analysoida ja käsitellä. Suoraan APIn kautta (REST), simppeli tekstitiedosto tai DBMS ja esim. Python-kirjastot. Brown, Soto-Corominas, Suárez & de la Rosa, 2017
  42. APIt ja data sampling • Application Programming Interface, tapa jolla eri ohjelmistot ”keskustelevat” ja vaihtavat tietoja keskenään; kuvailtu digimaailman yhteenliittäväksi liimaksi, mutta pikemminkin dynaaminen ja mahdollistaa yhteentoimivuuden • APIt nykyään olennainen osa scientific toolboxia, tietoisuus lisääntynyt muuallakin kuin it-ammattilaisten parissa • Palvelujen käyttöehdot: ”APIs ok, web scraping often sued”
  43. APIt ja data sampling • Yleinen API-sanasto mm. • Protokollat: SOAP ja REST (JSON, XML) • Omat endpointit eri tietotyypeille • Keys/tokens • Resource of request URL • Sovellukset, apps • Pääsyrajoitukset ja autentikointi, de facto –standardi OAuth • Facebook: Graph API, hyvin rajallisesti tietoa, RFacebook -esimerkki • Twitter: REST, Streaming API kautta uusimmat Janetzko, 2017
  44. Datan elinkaari ”The challenge for acquiring, using and preserving social media data lies in capturing enough content to provide meaning but also finding practical solutions to managing such large, diverse, and interlinked material.” Dataa on kaikkialla – tämä ei kuitenkaan ole laadun, saatavuuden, käytettävyyden tai hyödyllisyyden synonyymi! Luvun inspiraationa toiminut Data Curation Model, Higgins, 2012. Kts. http://dcc.ac.uk ja http://DMPOnline.dcc.ac.uk
  45. Datan elinkaari • Sosiaalisen median data on haurasta. Jos dataa ei kuratoida, siitä tulee helposti ”dark data” – ei muun tiedeyhteisön saatavilla, vaikea hyödyntää, katoaa myöhemmin tutkijan henkilökohtaisten tiedostojen mukana • Datan hankinta 1. APIt, myös näiden versiot dokumentoitava ja arkistoitava muun datan mukana 2. Automaattinen tai manuaalinen scraping – jälkimmäinen on työlästä ja vain pienille aineistoille, esim. web-sivujen tallennus, kuvakaappaukset, copypaste 3. Ostettu data, esim. GNIP, DataSift, DialogFeed. Myyjien tulisi myös tarjota lisenssejä kuratoituun dataan. 4. Analytical platforms, esim. Sysomos MAP, Social Bakers – ei halpaa ja menetelmissä voi olla epäselvyyksiä
  46. Datan elinkaari • Kolmenlaista säilyttämistä • for data processing • for disaster recovery, back-up • for archiving, long-term preservation • Metadata uudelleenkäytön mahdollistamiseksi • Flat file, indeksoitu (Lucene, Solr), RDMS, NoSQL-ratkaisut. Arkistoitaessa mieluiten flat file ja metadata oheen myös tiedostona, ei esim. tiedoston nimessä! JSON ok, sosiaalisen median metadatan standardit puuttuvat. • Säilytyksen IPR ja eettiset kysymykset, vrt. aiempi luku tutkimusetiikasta Voss, Lvov & Thomson, 2017
  47. Qualitative E-Research Framework • Holistinen kokonaisuus laadullisen tutkimuksen suunnitteluun, lähteenä Salmons, 2015, 2016 • Alustojen yleiset ominaisuudet, ei tietyt some-brändit • Kvalin etuna ”more than data”: kysytään tarkentavia kysymyksiä, osallistutaan toimintaan, mahdollistetaan syvempi ymmärrys • Kolmentyyppistä dataa • Extant – muiden luomaa ilman tutkijan erillistä pyyntöä • Elicited – pyydetään vastauksia, näkemyksiä, tarinoita jne. • Enacted – tutkija on itse tuottamassa dataa, esimerkiksi osana peliympäristöä
  48. Tutkijan huoneentaulu yleisön informointiin • Esittele itsesi uskottavana tutkijana. Luo oma sivu, blogi tai esittelyvideo, jossa linkität virallisen instituution tai projektin sivuille. • Kerro, miksi tutkimus on tärkeä ja mitä siihen osallistuminen edellyttää. • Kuvaa yleisön saamaa hyötyä, ei omia tarpeitasi! Vältä tiedejargonia. • Kirjaa selkeästi näkyviin, miten osallistujien yksityisyys ja tiedot suojataan, miten ja kuka dataa käyttää, ja missä tulokset julkaistaan. • Muistuta osallistujia, että tutkimuksesta voi koska tahansa vetäytyä. • Pidä osallistujat ajan tasalla koko tutkimusprosessin ajan.
  49. Muokattu ja käännetty kuvasta Salmons, 2017, s. 180 Qualitative E-Research Framework Tavoite ja asetelma Tutkijan positio: sisällä vai ulkopuolella Metodit: 3 datatyyppiä ICT ja miten viestitään Otanta ja rekrytointi Eettiset kysymykset Datan keruun toteutus Analyysi ja raportointi Ketkä voivat tarjota tarvittavan tiedon? Osallistujat nimeävät uusia osallistujia vs. ennakkovalinnat. Moderaattorit tukena. Tutkijan oma läsnäolo yhteisössä, luottamus. Lähtökohta: luodaanko vai sovelletaanko teoriaa? Vrt. SAL: suostumus, anonymiteetti, luottamuksellisuus. Kts. edellinen slide tutkimuksesta tiedottamisesta.
  50. Kiinnostavia linkkejä ja vinkkejä osasta 2 • Social Data Analytics Tool: http://cssl.cbs.dk/software/sodato/ • Datan mallintaminen: http://www.sylvaDB.com • Datan siivoaminen: http://openrefine.org/ • Big datan laatuun liittyvää kritiikkiä kts. six provocations Boyd & Crawford, 2012, ethical challenges Zimmer, 2010, lack of replicability Bruns 2013, changing nature of platforms Tinati et al. 2014, changes in user behavior Lazer et al. 2014 • Hoeren et al. 2013. Legal aspects of digital preservation. Cheltenham: Edward Elgar Publishing. • Redwine, G. 2015. Personal digital archiving. DPC TechWatch Report 15-01. Digital Preservation Coalition. doi: 10.7207/twr15-01
  51. Osa 3: Kvalitatiivisia lähestymistapoja
  52. Datan sakeuttaminen • Huom! Oma vapaa käännös thickening –strategiasta • Kytkeytyy digitaalisiin jälkiin – kaikki mahdollinen tieto käyttäjästä • Tällä tavoin jo 20-30 käyttäjäprofiilia voi olla rikas aineisto, huomio kuitenkin työmäärään ja aikaan, ei absoluuttiseen määrään • Juuret etnografiassa: dense, detailed, less breadth, more depth • Artikkeli kritisoi ”positivistis-empirististä uskoa siihen, että big data = direct access to social reality”, sen sijaan ”carefully cooked data” • Oma tulkinta: sakea data vs. big data = valmis lautasellinen keitettyä spagettia vs. kuorma-autollinen kuivia herneitä Kirjallisuus: Geertz 1973, Stake, 1985, virtual etnography Hine 2000, 2015, netnography Kozinets, 2010
  53. Datan sakeuttaminen Artikkeli esittelee 3 sakeuttamisen strategiaa 1. Trace –haastattelut: metadiskurssi tietyn käyttäjän digitaalisesta jalanjäljestä, mitä, miksi ja miten sisältöä luotu, suora vuorovaikutus tukee eettisempää tutkimusta ja herättää luottamusta, co-analysis 2. Manuaalinen aineiston keruu: esim. kuvat ja kommentit, tarpeen erityisesti kun tutkitaan useita kanavia rinnakkain 3. Pitkäaikainen ketterä observointi: transplatform fashion, connective etnography, ketteryys tarpeen koska liikutaan sujuvasti palvelusta toiseen – twiitataan blogikirjoitukset, jaetaan instasisällöt Facebookissa jne.
  54. Datan sakeuttaminen • Esimerkki 1: co-analysis semistrukturoiduilla haastatteluilla, commented visit, casena opiskelijoiden lakon Fb-kommentit • Esimerkki 2: working out loud, miten ihmiset kertovat työstään Twitterissä, aineisto vain 200 twiittiä • Esimerkki 3: miten kanadanranskalainen kielivähemmistö käyttää somea poliittisessa vaikuttamisessa, 2,5 v havainnointijakso Latztko-Toth, Bonneau & Millette, 2017 Tiedon konteksti Kuvaus käytännöistä Käyttäjien kokemukset Metadata AINEISTOSIPULI
  55. Visuaalisuus sosiaalisessa mediassa • Visuaalisuusartikkeli ilman yhtäkään kuvaa • Miten kuvallinen sisältö luodaan, miten sitä käytetään ja miten se tulkitaan – sense- making, creating meaning • Visuaalisessa kulttuurissa kuva ei koskaan ole ”tyhjä taulu” irrallaan muusta todellisuudesta • Tutkimuskohteena alusta jossa jaetaan, kuva itsessään, yleisö eli tykkäykset, jaot ja kommentit • Esimerkkinä selfiet: Instagramissa kuvankorjaus rutiinia, Twitterissä jaetaan spontaaneita hetkiä, kulttuuri määrittää missä soveliasta ottaa
  56. Visuaalisuus sosiaalisessa mediassa • Presentism: sisällön nykyhetkisyys on kuvien analysoinnin haaste, eli sama ongelma, joka on sosiaalisen median arkistoijilla – konteksti ja yhteydet puuttuvat • Artikkeli ei pääse alkua pidemmälle eli esitä ratkaisuja ongelmiin; yleiskuvausta visuaalisuuden merkityksestä ja suurista tietomääristä, jotka ovat itsestäänselvyyksiä sosiaalisen median käyttäjille • Hyviä huomioita big data –aineiston ja kvalitatiivisen kuljettamisesta rinnakkain tutkimuksessa Hand, 2017
  57. Ei-tekstuaalisen datan koodaaminen • Kuvat, videot, musiikki, kaaviot, pelit, kartat, maalaukset • Merkittävä osa sosiaalista mediaa, jonka vuoksi menetelmäkehitystä tarvitaan lisää ja yhdistettävä tekstuaaliseen • Musiikki yksi vaikeimmin analysoitavista sisällöistä – esimerkkinä last.fm ja emootio-tagit • Sisällönanalyysi määrällisenä tai laadullisena, kaksi tai useampi koodaa • Laadullisessa induktiivisesti datasta nostaen, Exhaustive, Exclusive & Useful codes • Määrällisestä esimerkkinä eläinkuvat: 100 kuvan aineistossa koiria 42:ssa ja kissoja 37:ssa, ja neljäsosassa kaikista kuvista on mukana myös ihminen tai ihmisiä
  58. Metodi Lähteet Compositional interpretation Rose, 2012 Määrällinen sisällönanalyysi Bell, 2001, Banks, 2007, Rose, 2000, Rose, 2012 Laadullinen sisällönanalyysi Julien, 2008, Mayring, 2000 Dokumenttianalyysi Prior, 2008, Saumure & Given, 2008 Videografia Knoblauch & Tuma, 2011 Musiikinanalyysi Bauer, 2000 Kulttuurintutkimus Lister & Wells, 2001 Visuaalinen sosiologia tai antropologia Collier, 2001, Pauwels, 2012 Semioottinen analyysi Penn, 2000 Ikonografia Müller, 2011 Diskurssianalyysi Van Leeuwen, 2008 Visuaalinen sosiaalinen semiotiikka Jewitt & Oyama, 2001 Multimodaalinen tutkimus Iedema, 2003 Multimodaalinen etnografia Dicks et al., 2006 Rasmussen Pennington, 2017, s. 235
  59. Twitter metodina • Otsikko hämäävä: lähinnä kuvaus siitä, miten Twitter toimii osana etnografista tutkimusprosessia, kirjoittajan oman väitöksen esittely • Soveltuu hyvin situated knowledges –tutkimukseen, omat valtarakenteet, resurssit ja lokaatiot • Välinearvoa hakevat visitors vs. residents, White & LeCornu, 2011 • Tuottaa akateemisille ”visibility, care, vulnerability”, tutkimus institutionaalisen roolin ja avoimesti verkottuneen roolin suhteesta • Tutkija tavoitti Twitterin kautta nopeasti osallistujia, jatkuva vuorovaikutus tutkittavien kanssa, avoin koodaus, lopulta 14 osallistujaa • Metodeissa profiiliarviot kiinnostava yksityiskohta: ”Seuraisitko tätä käyttäjää? Miksi, miksi et?”
  60. ”Experiments in new genres of scholarship and dissemination are occurring in every field, but they are taking place within the context of relatively conservative value and reward systems that have the practice of peer review at their core.” ”Even when digital practices were considered within the academy, they were seldom taken up on their own terms but rather as shadows of conventional practices.” Harley et al., 2010, p. 13, Stewart, 2017, p. 253
  61. Small stories -tutkimus • Artikkelissa kuvataan vaihtoehto perinteiselle narratiivikäsitykselle, joka korostaa ”pitkiä” kertomuksia ja tekstuaalista muotoa • Sopii sosiaalisen median tutkimukseen hyvin, koska sen tarinat • fragmentoituneita • tietyn alustan tai palvelun rajat ylittäviä • epälineaarisia, ei selkeää alkua, keskikohtaa ja loppua • yhdessä tuotettuja • suoraan arkipäivästä, naturalistic stories • Kaksi avainkäsitellä narrative stancetaking ja rescripting, jälkimmäistä esim. kuva- ja videomanipulaatiot, meemit • Kolme toisiinsa kytkeytyvää analyysitasoa: kerronnan tavat, paikat ja kertojat Georgakopoulou, 2017
  62. Kiinnostavia linkkejä ja vinkkejä osasta 3 • Tools for social media data http://truthy.indiana.edu/tools/ • Context collapse erityisesti Twitterissä, kts. Marwick, A. & boyd, D. 2011. I tweet honestly, I tweet passionately: Twitter users, context collapse, and the imagined audience. New Media & Society, 13(1), 114-133. • Harley, D., Acord, S., Earl-Novell, S., Lawrence, S. & King, C. 2010. Assessing the future landscape of scholarly communication: An exploration of faculty values and needs in seven disciplines. Center for Studies in Higher Education, UC Berkeley. • Stewart, Bonnie, 2015. Scholarship in abundance: Influence, engagement, and attention in scholarly networks. PhD thesis. Myös lukuisia muita julkaisuja sosiaalisen median verkostoista tieteessä ja korkeakoulutuksessa, kts. http://bonstewart.com/sample-page/
  63. Osa 4: Kvantitatiivisia lähestymistapoja
  64. Geospatiaalinen analyysi • Somen myötä kansalaisista on tullut geodataa tuottavia ”sensoreita” • Ei kuitenkaan primääriä geodataa, ihmiset ja yhteisöt huomioitava aina • Analyysin taustalla maantiede ja geomaantiede, mutta myös informaatiotieteet, sosiaalitieteet ja visuaalinen analytiikka, esim. sosiaalisen verkoston topologia sijoitettuna kartalle • Datan hankinta, otanta, geokoodaus ja analyysi • Datan attribuutit natural ja cultural, esim. vuoret ja järvet vs. rakennukset • Some-dataa kahdessa muodossa • Footprints, geospatiaaliset koordinaatit • Tekstuaalinen, esim. ”Helsinki”, ”00100”, ”GMT +0200”
  65. Geospatiaalinen analyysi • Geoparsing, geocoding, disambiguation • Staattiset vs. interaktiiviset kartat ja mash-upit: Google Maps, OpenStreetMap – ei ainoastaan varastoida vaan rakennetaan tietoa • Lähtökohtana usein exploratory analysis, arvioidaan koko data suhteessa paikkaan ja aikaan, tunnistetaan ja vertaillaan osayhteisöjä • Aineiston luokittelusta esimerkkinä kvantiilimetodi • Voronoi –diagrammit, ”largest empty circle”, esim. analyysi kulkutaudin leviämisestä tai etsitään optimaalinen sijainti uudelle kivijalkakaupalle • Standard Deviational Ellipse, jakauman suunta esiin • Monet analyysityökalut vasta protoja • Kts. GeoTime.com, nspace2 Buchel & Rasmussen Pennington, 2017
  66. Verkoston keskeisyyden pragmatiikkaa • Keskeisyys = tietyn toimijan eli noodin tärkeys verkostolle • Analyysi auttaa ymmärtämään sosiaalisia rooleja, ennustamaan ihmisten käyttäytymistä ja viime kädessä luomaan parempia some-palveluja • Verkoston kaksi avainkriteeriä shape ja reach, noodien ominaisuudet vs. koko verkoston ominaisuudet: koko, tiheys, topologia • Eri määrittelytavat esillä: eroja topologia ja jäsenten vuorovaikutuksen tapa • Mitkä noodit ovat kriittisimpiä koheesiolle ja tiedonkululle? Esim. betweenness centrality • Mitkä noodit ovat lähimpänä verkoston muita noodeja? Esim. closeness centrality • Mitkä noodit ovat vahvimmin kytkeytyneet ympäristöön, kuten tiettyyn maantieteelliseen alueeseen? Esim. clustering coefficient • Mitkä noodit välittävät tehokkaimmin tietoa eri verkostojen välillä?
  67. Verkoston keskeisyyden pragmatiikkaa • Artikkelin fokus Fb, jossa verkostosuhde molemminpuolinen; undirected, unweighted • Perusongelmana 3. osapuolen data • Betweenness työläs etenkin isolla datalla, sosiaalisessa mediassa usein arvio • Noodin tärkeyden arvioinnissa (Borgatti, 2005) eri päämääriä: esim. closeness siihen kuinka nopeasti tieto liikkuu, betweenness pullonkaulojen ja portinvartijoiden tunnistamiseen Ghajar-Khosravi & Chignell, 2017
  68. Ennustava analytiikka • Ennustava vs. selittävä analytiikka: yhteydet selitettävien muuttujien välillä vs. kausaalisuhteet käsitteiden välillä • Teoria- vs. dataohjautuvat mallit, datan etukäteisprosessointi • Aikasarjat, cross-sectional, näiden yhdistelmät • Facebookin ja Twitterin dataa on käytetty muun muassa myyntituottojen ennustamiseen ja epidemioiden leviämisen ennakointiin • Datan frekvenssi olennaisen tärkeä: jos myyntiluvut kk-tasolla, somelle tyypilliset muutaman päivän piikit jäävät piiloon
  69. Ennustava analytiikka • Artikkeli taulukoi 38 esimerkkiä tutkimuksista, joissa on ennakoitu sosiaalisen median datalla – mukana on kaikkea tuotemyynnistä politiikkaan ja influenssaan, sydänkohtauksiin ja itsemurhiin • Datan riittävyys: analytiikka onnistuu tyypillisesti vain isoille kuluttajabrändeille, kuten Apple, Nike, H&M, Pepsi, Starbucks… ei esim. pankki- ja vakuutusalalla, logistiikassa tai arkisille kuluttajatuotteille • iPhone ja H&M –esimerkeissä lisähaaste kiinalaisten oma sosiaalinen media • Stock prizes: Twitter ja Google Trends • Ihmisten käyttäytyminen ja brändisuhteet: Facebook • YouTuben ja Instagramin analyysi kasvusuunnassa Buus Lassen, la Cour & Vatrapu, 2017
  70. Huijausten tunnistaminen • Artikkelin fokuksessa kaiken vale –alkuisen automaattinen tunnistaminen ja suodatus: valeuutiset, huhut, feikkiprofiilit, tietojen kalastelu jne., tutkijalle myös osa datan laatua • Valitettavasti tässäkin keskitytään yksinomaan tekstiin • Esittelee faktantarkistuksen ja tiedon verifioinnin menetelmiä ammentaen lingvistiikasta ja journalismista • Kokonainen A4 kriteerejä blogin luotettavuuden arviointiin  • Ihmisten tietoisuus sosiaalisen median subjektiivisuudesta on hyvä, mutta tiedon manipuloinnin systemaattisuus edelleen yllätys monille • ”Haluamme uskoa asioiden olevan totta”
  71. Huijausten tunnistaminen 4 totuudellisuuden maksiimia (Grice, 1975) – huoneentaulu sosiaaliseen mediaan? 1. Maxim of Quality: sano vain sellaista minkä uskot olevan totta 2. Maxim of Quantity: sano vain sen verran kuin on tarpeen 3. Maxim of Relevance: pysy aiheessa 4. Maxim of Manner: vältä epämääräisyyttä
  72. Huijausten tunnistaminen • Tulkittava aina myös viestien kontekstia, ei pelkkää sisältöä: miten sanoma esitetään, kuka esittää, ja missä tilanteessa • Ihmiset eivät koeasetelmissa erota valheita todesta silloinkaan kun he tietävät, että heille saatetaan valehdella! • Tunnistamme noin 50-65 % valesisällöstä valheeksi • Koneet pystyvät noin 70-75 % tarkkuuteen • Valesisällössä • Enemmän aistipohjaisia verbejä – nähdä, kuulla, tuntea (Hancock et al., 2007) • Pronominit other-oriented, ei minä (Hancock et al., 2007) • Yksinkertaisempi sanasto ja lauserakenne (Burgoon et al., 2003) • Epämääräinen, epätäsmällinen ilmaisu (Burgoon et al., 2003) • Paljon negatiivisia tunteita (Newman et al., 2003) tai puhuttuna yltiöpositiivinen ilmaisu (Larcker & Zakolyukina, 2012)
  73. Huijausten tunnistaminen • Viisi menetelmää tekstihuijausten tunnistamiseen (Zhou et al. 2004) • Criteria-Based Content Analysis (CBCA) • Reality Monitoring (RM) • Scientific Content Analysis (SCAN) • Verbal Immediacy (VI) • Interpersonal Deception Theory (IDT) • Useimpien sovellusten taustalla LIWC eli linguistic inquiry and word count, kirjoittajan oma mittari: Veracity Roadmap • Hybridiratkaisut suositeltavia: tekstianalyysi, verkostoanalyysi, world knowledge databases Rubin, 2017
  74. Huhua vai totta – Twitter-esimerkki Kategoria Ominaisuus Lähteen uskottavuus Luotettava uutislähde vs. parodiatili Uutisen url Profiilin domain Client application Lähteen identiteetti Profiilissa on oikein henkilön nimi Profiililla on sijainti Profiilissa on tietoa henkilön taustoista Lähteen diversiteetti Monipuolinen sisältö Saman aiheen twiiteissä eri sanamuotoja Lähteen sijainti ja todistusvoima Twiitti samassa paikassa kuin huhun kohteella Profiilin sijainti samassa paikassa kuin huhun kohteella Todentavat lauseet, ”näin”, ”kuulin” Viestin sävy Tukee, kieltää, kysyy tai on neutraali Tiedon leviäminen Tapahtuman aihe, uudelleentwiittaukset, maininnat, hashtagin h- index, graph4 size/depth Käännetty lähteestä Liu et al., 2015, viitattu Rubin, 2017, s. 352
  75. Kiinnostavia linkkejä ja vinkkejä osasta 4 • ESRI: GIS mapping software https://www.esri.com/en-us/home • Edellä ArcGIS, kts. myös open source Geographic Information System QGIS https://qgis.org/fi/site/ • One Million Tweet Map, twiitit kartalla http://onemilliontweetmap.com • Botometer, aiemmin BotOrNot https://botometer.iuni.iu.edu/#!/ • Rieh, S. 2010. Credibility and Cognitive Authority of Information. In Bates, M. (ed.), Encyclopedia of Library and Information Science. New York. Taylor & Francis.
  76. Osa 5: Erilaisia/sekalaisia lähestymistapoja sosiaalisen median dataan
  77. Sivustospesifi vai hyperlokaali? Paikan ilmentymät sosiaalisessa mediassa • Miten fyysinen paikka tuodaan somessa esille – tässä ihmisten omien kokemusten ja niiden moninaisuuden kautta, ei vain koordinaatteina • Artikkeli on risteytys digitaalista humanismia ja taiteen analyysia • Hyperlokaalissa informaatiossa automaattisesti mukana paikkatieto ja aikaleima • Casena katutaiteilija Banksyn projekti lokakuussa 2013 • taiteilija loi joka päivä uuden teoksen eri puolille New Yorkia • tieto sijainnista levisi viraalisti somessa • analyysin kohteena 28 400 Instagram-kuvaa tunnisteilla #banksy ja #banksyny • kuvasisältöjen klusterointi, konenäkö apuna • samantyyppinen sisältö ryhmiteltynä esim. temporal, visual ja spatial – ulottuvuuksien kautta Hochman, 2017
  78. Muut datalähteet sosiaalisen median rinnalla • Datan luonne, haasteet ja mahdollisuudet  mixed methods • Somessa yhdistyy data found vs. data made • ”Kilpajuoksu big datassa on jo hävitty Googlelle ja Facebookille”, sen sijaan laadullinen tutkimus small datalla onnistuu – ja voi kertoa paljon • Hyvin käytäntölähtöistä! Kontekstin löytäminen datalle. Esim. pöhinä Twitterissä ei kerro paljoa, myös sen laatu on selvitettävä • Tässä erityisesti some tutkimusinstrumenttina, ei -kohteena • Casena Greenpeacen avoin Facebook-ryhmä • analyysin kohteena sekä teksti että kuvat • pelkästään sanoja 2,7 milj., tilastollinen tekstianalyysi: frekvenssi, avainsanat • kuvien kommenttien laadullinen sisällönanalyysi Zeller, 2017
  79. Tutkimuskysymys Hypoteesit Tutkimusasetelma ja metodit Datan keruu Analyysi Tulokset Laajennettu empiirinen tutkimusprosessi Zeller 2017, alkuperäinen lähteestä Bryman et al. 2012 Data retrieval Parsing Data storing Queries
  80. Laajennettu empiirinen tutkimusprosessi • Data retrieval: APIt, valmiit työkalut ei-ohjelmointitaitoisille, myös web crawlers & scrapers tietyn teemaan tai sivustokokonaisuuteen liittyvän sisällön seulomiseen • Data processing/parsing: datan läpikäynti ja siivoaminen, vain relevantit osat, konvertointi käyttökelpoiseen muotoon • Esimerkiksi verkostoanalyysissa ei twiittien sisältöä • Esimerkiksi automaattisessa sisällönanalyysissa twiiteistä URLit pois, koska niissä esiintyvät sanat voivat vääristää tuloksia • Data storing ja Queries: vaiheet rinnakkain, koska säilytysmuoto vaikuttaa siihen, miten tietoa voidaan hakea • Esimerkiksi relaatiotietokannat • Myös hakujen testaus mahdollisimman varhaisessa vaiheessa Zeller, 2017
  81. Sonifikaatio • Sonifikaatio on datan konvertointia ääneksi • Temporaalisuus: aikaleimallinen data soveltuu erinomaisesti trendien ja vuorovaikutuskuvioiden tutkimiseen • Poikkeamat on helpompi havaita äänestä, myös maallikoiden • Eksploratiivinen analyysi, ei hypoteesien testausta; analyysi ryhmän, yksilön tai dyadin tasolla, tai näiden yhdistelmät
  82. Sonifikaatio • Työkaluja toistaiseksi vähän ja vain harva tutkija tuntee menetelmän • Max/MSP, SuperCollider ja muut syntetisoijat • Sonification Sandbox, E-Rhythms Data Sonifier • Laatukriteerit: objective, systematic, reproducible, sets of different data • Millaista on kuunnella sosiaalista mediaa? Saksassa #tweetscapes – projektissa muutettiin twiitit ääneksi, kts. esittelyvideo: https://www.youtube.com/watch?v=0lKSFlB_-Q0 • Esim. osakemarkkinadata, Ballora et al. 2012 • Artikkelissa casena txt-viestit ja vuorovaikutuskäytäntöjen tutkiminen • osallistujia 77, noin 11 000 viestiä, kaikkiaan 149 henkilön kesken • taustaoletusten vastaisesti tutkimus osoitti, että perheenjäsenten kesken viesteihin vastataan hitaammin kuin kollegoiden tai kavereiden, vrt. Walther & Tidwell, 1995 Jamieson & Boase, 2017
  83. Innovatiiviset paikkatietoiset mobiilipalvelut • Esittelee MUGGES-projektia – Mobile User Generated Geo Services • Living lab –lähestymistapa • Survey ja log data yhdistettynä palvelun todelliseen käyttöön • Fyysinen, symbolinen ja semanttinen paikkatieto • Avainsanojen liittäminen tiettyyn paikkaan ja näin syntyvän informaation jakaminen muille joko avoimena tai vain kavereille • Mugglets: muistiinpanot tietystä paikasta (notes), näistä muodostuvat mash-upit (journal, trail, race) • Koekäyttäjät pieni joukko it-ammattilaisia Bilbaosta ja Espoosta (VTT), jälkimmäisestä ei kuulemma löytynyt tutkimukseen yhtään naisosallistujaa  • Löydökset eivät välttämättä kovin hyödyllisiä muille kuin palvelun kehittäjille: perus- TAM eli koettu hyödyllisyys ja käytön helppous, kellonajan ja sään vaikutus, pieni ydinjoukko tekee eniten, käyttö alussa aktiivisinta, useita metodeja tarvitaan Klein & Reips, 2017
  84. Osa 6: Tutkimuksen ja analyysin työvälineet
  85. COSMOS – Collaborative on-line social media observatory • Artikkeli esittelee vuonna 2015 päättyneen projektin ja tieto on ollut jo kirjan julkaisuhetkellä osin vanhentunutta – cosmosproject.net sijaan kts. http://socialdatalab.net/COSMOS • Collect, mash & visualize social media data • Projektin perusteet eivät toki vanhene • Tarve helppokäyttöisille työkaluille, joita yhteiskuntatieteilijät voivat hyödyntää ilman ohjelmointiosaamista, monimutkaisuuden sijaan huomio siihen mitä data voi kertoa • ”Kaikkea ei pidä jättää computer scientistien varaan” • Big data –skaalautuvuus ongelma: Cosmoksen HCP-pilotissa Hadoop ja MongoDB • Myös analyysin algoritmit mahdollisimman läpinäkyviä, kriittinen tarkastelu • Vaivattomasti yhdistettävissä muihin datoihin, esimerkkinä UK Census • Eettisiä haasteita käsitelty peräti yhden palstan verran, käyttöopasta 20 sivua  • Esimerkiksi geodatan ”tihentymä” kartalla voi paljastaa kotiosoitteen
  86. • Kolme käyttöliittymän perusosaa: Data Set Library, Data View Library ja Workspace • Eri formaatit ja yhteensopivuus muiden analyysityökalujen kanssa • RSS-syötteet, CSV-tiedostot, twiitit • Twitterin stream-data (1 %), random tai filtered • Visualisointiin 10 perustyökalua ja näiden yhdistelmät, esim. sanapilvi twiiteistä, paikannus kartalle ja frekvenssidiagrammit • Shapefile –mash kiinnostava: väritetään karttapohja census –tiedoilla, esim. työllisyysaste maassa alueittain, ja sijoitetaan tietyn ajanjakson tai tapahtuman twiittien sentimenttianalyysi suoraan tämän kartan päälle COSMOS – Collaborative on-line social media observatory Morgan, 2017
  87. Social Lab – avoimen lähdekoodin ’Facebook’ • http://www.sociallab.es • Tutkimus kaupallisilla SNS-alustoilla hyvin rajoittunutta – siksi luotu klooni, laboratorioympäristö jossa Facebookin perusominaisuudet • Simulointia ja stimulointia • Sosiaalisten bottien luominen helposti • Koulutuskäyttö: yksityisyydenhallinnan opettelu bottien avulla • Eksperimentit: esim. jaetaan ihmiset satunnaisiin verkostoihin ja tutkitaan vuorovaikutuksen luonnetta, tällaista tutkimusta on vähän • Myös havainnointi, verkostoanalyysi, kyselyt, haastattelut, osin automatisoiden Reips & Garaizar, 2017
  88. R ja sosiaalisen median analyysi • Koko data scientistin työnkulku: getting, cleaning, testing, showing • Ei helpoin mahdollinen, mutta tunnetusti monia etuja • Ilmainen, joustava • Vahva kehittäjäyhteisö • Tools for text mining, data manipulation, visual analysis • Handbook-tyyppinen konkreettinen esimerkki Kalifornian alueen twiittien aiheista ja teemoista tietyllä ajanjaksolla kartalle sijoitettuna • Ei mielekästä kopioida tähän yhteenvetoon – jos tunnet R:n perusteet, kokeile itse esimerkkiä seuraten! (Note: allekirjoittaneelle jo datan indeksointivaihe aiheutti masennuskohtauksen) Hegelich, 2017
  89. GATE – open source NLP-työkalu Ennen luvun varsinaista sisältöä muistutuksena perussanastoa • Ontologia = käsitteet ja käsitteiden väliset suhteet • Korpus = kokoelma: järjestelmällinen ja laaja koonti näytteitä luonnollisesta kielestä, tekstejä tai puhutun kielen nauhoitteita • Annotaatio = merkintä: järjestelmälliset merkinnät tietyistä aineistokohdista, esimerkiksi lauseiden kieliopillinen jäsennys • NLP = Natural Language Processing, koneellista luonnolliseen kieleen pohjautuvan datan käsittelyä ja analysointia • NER = Named Entity Recognition, menetelmiä, joilla etsitään henkilöihin, paikkoihin ja tapahtumiin viittaavaa sisältöä aineistosta ja annotoidaan ne
  90. http://cloud.gate.ac.uk
  91. GATE – open source NLP-työkalu • Koko elinkaari: korpukset, lingvistiikan työkalut (eri kielet, POS eli part of speech - taggaus, NER, entity linking), semanttinen haku, visuaalinen analytiikka • GATE Developer, Teamware, M’imir, Cloud; fokus mikroblogeissa, Twitter • Kirjoittajan mukaan haastavin NLP: lyhyitä tekstejä, monia merkityksiä, kielen variaatiot ja leikittely, nimistä usein vain yksi maininta • Pelkkä tviittitekstien analyysi johtaa siksi huonoihin tuloksiin, konteksti huomioitava, JSON metadata • ANNIE  TwitIE • Tokenisation (tekstin jakaminen yksiköiksi, somessa esimerkiksi URLit, hashtagit, maininnat, vakiolyhenteet, hymiöt, emojit) tehtävä laadukkailla työkaluilla, ”kaksoispiste voikin olla hymiön osa” • Indeksointi: M´imir mahdollistaa semanttiset haut Bontcheva, 2017
  92. Netlytic datan kerun ja analysoinnin työvälineenä • Pilvipohjainen some-analyysiratkaisu erityisesti tutkijoille, kts. https://netlytic.org, Social Media Lab, Ryerson University • Artikkelissa casena Euromaidan 2014, Twitter-viestintä ja sen mahdolliset erot erikielisessä aineistossa: ukraina, venäjä, englanti. ENG enemmän yleistä tiedonjakoa ja vähemmän vastavuoroista, korostettiin idän ja lännen konfliktia. • Myös muita kuin Netlytic esitelty, Social Media Labin sivuilla tarkemmin • Foller.me, Twitterin käyttäjätileistä taustatietoa • NodeXL, vanha tuttu verkostoanalyysiratkaisu • Tweet Archivist, maksua vastaan, lataa tai arkistoi myöhemmin, Twitter ja Insta • NCapture add-on Nvivoon, tekstin analysointi ja visualisointi, mm. Twitter, Fb, YouTube • Webometrics Analyst, mm. Twitter, YouTube, Mendeley, yhteydet kommentoijien välillä • Textexture, verkoston tekstien visualisointi • STACK, SOCRATES, SocialTap, DMI-DCAT ja muut OS-työkalut
  93. Netlytic datan keruun ja analysoinnin työvälineenä • Jo vuodesta 2006, tuolloin keskustelufoorumien dataa • Twitter, Fb, Insta, YouTube, RSS-feed, cloud storage, csv-tiedosto • Rinnakkain tekstianalyysi, verkostoanalyysi, visualisoinnit • Sanapilvet • Stacked chart, termien esiintyvyys aikajanalla • Concept coding • Distributed Recursive Graph Layout (DrL), Fruchterman & Reingold (erityisesti alle 1000 noodin verkostoille), Large Graph Layout Gruzd, Mai & Kampen, 2017
  94. Teemojen tunnistaminen sosiaalisesta mediasta • Discursis, Leximancer  visuaalinen tekstianalyysi Twitter-datalla, esimerkissä 50k, rinnalla perinteiset Gephi ja Excel • Palveluja valtavasti eri tarkoituksiin ja erityyppiselle datalle • Taustalla information visualization, computational linguistics • ”Content analysis seeks to interpret documents or other artefacts of communicative processes”, Krippendorff 2012 • Perusongelma tässäkin, ettei tunnista sarkasmia tai suhtautumisen laatua • Kolme pääosaa • Miten aineisto koodataan automaattisesti, NLP • Kuinka tulos esitetään visuaalisesti • Sense-making, analyysi merkityksistä eli teemat
  95. Teemojen tunnistaminen sosiaalisesta mediasta • Leximancerilla visuaalinen käsitekartta, concept = word+weight • Workflow: CSV tms,  GUI  concept seeds  list  analysis  output • Discursis lisää mukaan visualisoinnin ajassa • Myös NLTK, Stanford NLP, D3.js • Casena Australian #QANDA, vrt. #astudio tai #ateema • Stop listille normaalit and, or, the, Twitterin tapauksessa myös RT • Stream graph = theme river visualization • 74 concepts, 8 themes: government, law etc. • Aktiivisimpien tviittaajien vertailu käsitteiden käytön osalta: voidaan esim. tunnistaa samaan tapaan viestivät, jotka eivät kuitenkaan seuraa toisiaan Angus, 2017
  96. Sentimenttianalyysi • Automaattinen tunteiden tunnistaminen tekstistä • Alun pelin kaupallisiin tarkoituksiin: tuotearviot, opinion mining • Sovellusalueet laajentuneet – somen käyttö, HCI, markkinointi, taloustiede, terveydenhuolto, politiikka, koulutus, esim. opiskelijoiden tyytyväisyys • Myös tunteiden eri tasoja kyetään jossain määrin erottamaan • Machine learning vs. lexical approach • http://sentistrength.wlv.ac.uk ilmainen ja nopea • Ongelmia vivahteet, piilomerkitykset, sarkasmi ja ironia, sanojen eri merkitys eri kontekstissa: heavy on huono matkapuhelimelle, neutraali elokuvissa tai musiikissa Thelwall, 2017
  97. Kiinnostavia linkkejä ja vinkkejä osiosta 6 • Big Data and Society –journal http://journals.sagepub.com/home/bds • Social Media Planner: sopivan palvelun valinta demografisten tietojen ja intressien pohjalta https://www.inpromo.de/wordpress/en/social- tools/social-media-planner/ • Bontcheva, K. & Rout, D. 2014. Making sense of social media through semantics: A survey. Semantic Web – Interoperability, Usability, Applicability, 5(5), 373-403.
  98. Lopuksi: omia kriittisiä huomioita • Artikkelit eivät käsitelleet lainkaan sosiaalisen median algoritmeja ja sitä, millä tavoin ne vaikuttavat tutkittavaan maisemaan – kaikki mitä saamme eteemme, on todellisuudessa jo kerran suodatettua. Tämä pitäisi huomioida etenkin laadullisten menetelmien ja datan sakeuttamisen kohdalla! • Kvalitutkijoiden tulisi kiinnittää enemmän huomiota tutkimuskysymystensä laatuun. Esim. kirjassa kuvattu small stories –tutkimus tunnisti, miten tarinat saavat Facebookissa alkunsa. Ovatko profiilikuvan vaihto, postaus, tapahtuma, paikka ja taggaus todella ”tutkimustuloksia” vai kaikille tuttuja Facebookin perustoimintoja? Mielummin huomio sisältöihin kuin toiminnallisuuteen: esim. millaiset postaukset käynnistävät somekohun.
  99. Lopuksi: omia kriittisiä huomioita • Odotetusti mukana oli itsestäänselvyyksiä sosiaalisen median luonteesta ja datan analysoinnin vaikeudesta, ei vastauksia kyseisiin ongelmiin. • Algoritmivajetta lukuunottamatta erittäin kattava esitys koko tutkimusprosessiin. Osa luvuista on tekno-optimistisia, osa huomioi myös eettiset kysymykset ja kokonaisuuden. Tuo paljon uutta tietoa, koska kukaan ei voi olla oman elämänsä IDR ja hallita kaikkia tarvittavia osa-alueita. • Tämän näytteen perusteella Twitter ylikorostuu tutkimusdatan lähteenä. Facebook on merkittävä mutta tunnetusti myös vaikea, ja umpioituu koko ajan. Kuva- ja videosisältöjen tutkimukseen ollaan vasta havahtumassa ja akateemisista enemmistö hallitsee vain tekstin. • M.O.T.
Advertisement