Crawling the net publ

849 views

Published on

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
849
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
7
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Crawling the net publ

  1. 1. Crawling the net Digital forskningsinfrastruktur, netværksanalyse og websfæren ved Folketingsvalget 2011
  2. 2. Det her er, hvad jeg kommer til at snakke om... Jeg kommer altså ikke til at snakke om: A. Halavais, ” Searching ” . The search engine society . London: Polity Press pp. 32-56 Netværk fra Folketingsvalg2011 — lavet ved hjælp af IssueCrawler
  3. 3. Præsentation af mig
  4. 4. Præsentation af mig
  5. 5. Media History: Theories, Methods, Analysis (red. m. S. Kolstrup) , Aarhus Universitetsforlag, Aarhus, 2002 Web History (ed.), Peter Lang, New York, 2010 Histories of Public Service Broadcasters on the Web (red. m. M. Burns) , Peter Lang, New York, 2011 (forthcoming) — samt diverse artikler, bogkapitler mm. Præsentation af mig
  6. 6. <ul><li>1. Digital forskningsinfrastruktur </li></ul><ul><ul><li>kilder er nødvendige </li></ul></ul><ul><ul><li>hvad er en (digital) forskningsinfrastruktur? </li></ul></ul><ul><ul><li>Digitalt Humaniora Laboratorium </li></ul></ul><ul><li>2. Netværksanalyse og IssueCrawler </li></ul><ul><ul><li>kort introduktion til social network analysis (SNA) </li></ul></ul><ul><ul><li>netværksanalyse ved hjælp af analytisk software </li></ul></ul><ul><ul><li>min case: Danske Folketingsvalg 2011, 2007, 2001 </li></ul></ul><ul><ul><li>hvordan gør man så? </li></ul></ul><ul><li>3. Den danske websfære ved Folketingsvalg 2011 — foreløbige resultater </li></ul><ul><li>4. Nyt projekt: det danske EU-formandsskab foråret 2012 </li></ul>Forelæsningens hovedpunkter
  7. 7. 1. Digital forskningsinfrastruktur — kilder er nødvendige Medie Kontekst Referent Indhold Kode Kontakter Kontaktet
  8. 8. 1. Digital forskningsinfrastruktur — kilder er nødvendige Både elementer og relationer skal være udtrykt i kilder At vise det, der ikke umiddelbart kan ses (analysens emne) gennem det, der faktisk kan ses (kilder).
  9. 9. En af disse kilder kan være internettet eller web 1. Digital forskningsinfrastruktur — kilder er nødvendige Overordnede kildetyper
  10. 10. Samlinger Forskningsinfrastruktur Forskningsproces Hvad er en forskningsinfrastruktur? Fx bøger, aviser, museumsgenstande Ordnet tilgængeliggørelse af samlingerne, fx katalog, registrant, o.lign. 1. Digital forskningsinfrastruktur — hvad er en forskningsinfrastruktur?
  11. 11. Samlinger Forskningsinfrastruktur Forskningsproces Hvad er så det nye ved en digital forskningsinfra-struktur? Samlingerne bliver i stigende grad digitale — digitalisering samt født digitale kilder Den ordnede tilgænggørelse til samlingerne bliver også digital Åbner helt nyt felt, ud over tilgængeliggørelse: digitale analyseværktøjer , lige fra sofistikerede søgninger, søgning på billed/lyd til analyser af sociale netværk på web mmm. 1. Digital forskningsinfrastruktur — hvad er en forskningsinfrastruktur?
  12. 12. Digitalt Humaniora Laboratorium Skal starte i begyndelsen af 2012 Fælles national samling af digitale forskningsinfrastrukturer inden for humaniora og samfundsvidenskaberne Bygger på et nationalt konsortium (AU, KU, AAU, SDU), som etablerer DigiHumLab 2012-2017 Indlejres herefter på deltagende universiteter Finansieret direkte af Videnskabsministeriet / Forsknings- og Innovationsstyrelsen Forankret på ARTS, Aarhus Universitet 1. Digital forskningsinfrastruktur — Digitalt Humaniora Laboratorium
  13. 13. Tre ‘søjler’ 1. Digital forskningsinfrastruktur — Digitalt Humaniora Laboratorium Sprogteknologiske resourser og værktøjer Medieværktøjer Eksperimenterende labs Lyd- og billedmedier NetLab Udvikling af digitale analyseværktøjer til analyse af web, både i samlinger og live web på nettet et eksempel på analytisk værktøj: værktøj til analyse af sociale netværk på web
  14. 14. 2. Netværksanalyse og IssueCrawler — intro til social network analysis Lang sociologisk tradition Wasserman & Faust: Social Network Analysis , 1994, 824 p.
  15. 15. Sociologiske analyser af netværk kobles med analyser af hyperlinks 2. Netværksanalyse og IssueCrawler — intro til social network analysis Garton, Haythornthwaite & Wellman (1997). Studying Online Social Networks. Journal of Computer-Mediated Communication , 3(1), 13 p. <ul><li>hyperlinket manifesterer netværkets relationer konkret </li></ul><ul><li>indsamling og visualisering foregår også på web </li></ul>Park & Thelwall (2003). Hyperlink Analyses of the World Wide Web: A Review. Journal of Computer-Mediated Communication , 8(4) , 13 p.
  16. 16. Der er lavet utallige analyser — et par eksempler på brug PoliticoSphere.net, http://politicosphere.net/map Mapping online publics, http://www.mappingonlinepublics.net 2. Netværksanalyse og IssueCrawler — intro til social network analysis
  17. 17. 2. Netværksanalyse og IssueCrawler — analytisk software Mark Round: SNA Tools and Formats diagram – updated, juli 2009
  18. 18. Hvad er det, netværksanalyse ved hjælp af analytisk software analyserer? 2. Netværksanalyse og IssueCrawler — analytisk software <ul><li>Det tilgængelige web </li></ul><ul><li>Den fysisk performative del af det hyperlinkede netværk </li></ul><ul><li>Website, websfære, web som sådan </li></ul><ul><li>Og hvordan foregår det så? </li></ul>
  19. 19. Det tilgængelige web Producenter Web som tekst/ medie Brugere N. Brügger: ” Website history and the website as an object of study ” , New Media & Society , 11(1-2), Sage, London 2009, 115-132 N. Brügger: Website analysis. Elements of a conceptual architecture . Center for Internetforskning, Århus, 2010 http://cfi.au.dk/fileadmin/www.cfi.au.dk/publikationer/cfis_skriftserie/012_brugger.pdf 2. Netværksanalyse og IssueCrawler — analytisk software
  20. 20. Den fysisk performative del af det hyperlinkede netværk <ul><li>Hyperlink: </li></ul><ul><li>en semantisk størrelse </li></ul><ul><li>en formal størrelse </li></ul><ul><li>en fysisk performativ størrelse </li></ul>2. Netværksanalyse og IssueCrawler — analytisk software
  21. 21. <ul><li>Web strata: </li></ul><ul><li>webelement </li></ul><ul><li>webside </li></ul><ul><li>website </li></ul><ul><li>websfære </li></ul><ul><li>web </li></ul>Webelement 2. Netværksanalyse og IssueCrawler — analytisk software
  22. 22. Webside 2. Netværksanalyse og IssueCrawler — analytisk software
  23. 23. Website 2. Netværksanalyse og IssueCrawler — analytisk software Website Webside Webelement
  24. 24. Website Webside Webelement Websfære Websfære 2. Netværksanalyse og IssueCrawler — analytisk software
  25. 25. Web Web 2. Netværksanalyse og IssueCrawler — analytisk software
  26. 26. The web Website Web page Web element Web sphere 2. Netværksanalyse og IssueCrawler — analytisk software
  27. 27. Hvad er det, netværksanalyse ved hjælp af analytisk software analyserer? <ul><li>Det tilgængelige web </li></ul><ul><li>Den fysisk performative del af det hyperlinkede netværk </li></ul><ul><li>Website, websfære, web som sådan </li></ul><ul><li>Og hvordan foregår det så? </li></ul>2. Netværksanalyse og IssueCrawler — analytisk software
  28. 28. Hvad tilføjer det analytiske software? <ul><li>håndkodet </li></ul><ul><li>semi-automatisk kodning </li></ul><ul><li>fuldautomatisk kodning + analyse + visualisation </li></ul>Et eksempel på en link-ripper — del af IssueCrawler.net 2. Netværksanalyse og IssueCrawler — analytisk software
  29. 29. Co-link Analysis. Cawls the specified starting points, captures the starting points ’ outlinks, and performs co-link analysis to determine which outlinks at least two starting points have in common. Privilege Starting points: This setting keeps your starting points in the results after the first iteration. [...]. The software understands a social network as the starting points plus those organizations receiving at least two links from the starting points.
  30. 30. 2. Netværksanalyse og IssueCrawler — Folketingsvalg 2011 og før Websfæren i forbindelse med danske Folketingsvalg 2011, 2007 og 2001 &quot;Hvordan så det tilgængelige danske web ud for en vælger, som ønskede at bruge det til politisk interaktion i forbindelse med danske Folketingsvalg i 2011, 2007 og 2001?&quot;
  31. 31. 2. Netværksanalyse og IssueCrawler — Folketingsvalg 2011 og før April May April May Sep Dec Sep Dec Sep Dec Sep Dec April May
  32. 32. <ul><li>En forestillet vælgers mulige opførsel: </li></ul><ul><li>besøge politiske partiers websites </li></ul><ul><li>besøge individuelle kandidaters websites </li></ul><ul><li>besøge partier og kandidater på andre 'webtilstedeværelser', fx Facebook, Twitter, Youtube, osv. </li></ul><ul><li>søge på Google </li></ul><ul><li>Og senere i processen tilføjet: </li></ul><ul><li>medier og store organisationer </li></ul>2. Netværksanalyse og IssueCrawler — Folketingsvalg 2011 og før
  33. 33. <ul><li>Netværk baseret på følgende seedlists: </li></ul><ul><li>alle de politiske partiers websites (partier der allerede sidder i Folketinget) </li></ul><ul><li>alle de politiske partiers webtilstedeværelse på Facebook, Twitter, Youtube, osv. </li></ul><ul><li>de individuelle kandidaters websites (nuværende medlemmer af Folketinget, 179 personer) </li></ul><ul><li>de individuelle kandidaters webtilstedeværelse på Facebook, Twitter, Youtube, osv. </li></ul><ul><li>Google-søgning på ’ Folketingsvalg ’ og ’ 2011 ’ — de første 100 søgeresultater </li></ul><ul><li>store mediers og organisationers websites </li></ul><ul><li>Crawl-intervaller: </li></ul><ul><li>en gang om måneden inden valget udskrives </li></ul><ul><li>hver anden uge når valget er udskrevet </li></ul><ul><li>oftere de sidste to uger før valget </li></ul>En lille hjælper til at holde styr på periodens begivenheder... 2. Netværksanalyse og IssueCrawler — Folketingsvalg 2011 og før
  34. 34. <ul><li>Synkrone hypoteser </li></ul><ul><li>Partier og kandidater: </li></ul><ul><li>netværket: netstederne vil danne klynger enten omkring de største partier eller i de to politiske hovedblokke ('rød', 'blå') </li></ul><ul><li>specifikke noder: Facebook vil spille en afgørende central rolle, mens Twitter og Youtube vil spille mindre centrale roller </li></ul><ul><li>Google: </li></ul><ul><li>netværket: det vil være fragmenteret, ingen klyngedannelser </li></ul><ul><li>specifikke noder: Facebook vil kun være én blandt flere lige centrale noder </li></ul>2. Netværksanalyse og IssueCrawler — Folketingsvalg 2011 og før
  35. 35. <ul><li>Diakrone hypoteser </li></ul><ul><li>Partier og kandidater: </li></ul><ul><li>netværket: de forskellige partier og deres kandidater (eller klynger af begge) vil blive mere og mere relateret til hinanden, efterhånden som valget nærmer sig </li></ul><ul><li>specifikke noder: Facebook vil blive endnu mere central, efterhånden som valget nærmer sig, mens Twitter vil blive tilsvarende mindre central </li></ul><ul><li>Google: </li></ul><ul><li>netværket: den fragmenterede webaktivitet i forbindelse med Folketingsvalget vil koncentreres om et relativt lille antal kernewebsites, efterhånden som valget nærmer sig </li></ul><ul><li>specifikke noder: Facebook vil være ét af disse kernewebsites, men der vil være andre, som er lige så centrale </li></ul>2. Netværksanalyse og IssueCrawler — Folketingsvalg 2011 og før
  36. 36. 2. Netværksanalyse og IssueCrawler — hvordan gør man så? Spørgsmål — med min case som et eksempel på svar: Hvordan finder man sine start-URLer? Hvordan kan man indstille IssueCrawler? Hvor længe varer en crawl? Kan jeg se mine tidligere udførte crawls? Kan jeg gemme og eksportere visualiseringerne af netværket? Mmm.
  37. 37. <ul><li>Hvordan har jeg gjort? Og hvordan er det så gået? </li></ul><ul><li>Der er lavet 9 crawls fra 3. marts til 13. september, med ca. 1 måneds interval, oftere under valgkampen. </li></ul><ul><li>Søgeresultaterne fra Google vokser: </li></ul><ul><li>93.300 </li></ul><ul><li>736.000 (mærkeligt...) </li></ul><ul><li>175.000 </li></ul><ul><li>246.000 </li></ul><ul><li>269.000 </li></ul><ul><li>303.000 </li></ul><ul><li>497.000 </li></ul><ul><li>1.230.000 </li></ul><ul><li>6.180.000 </li></ul><ul><li>6.590.000 </li></ul>3. Den danske websfære ved Folketingsvalg 2011 — foreløbige resultater
  38. 38. <ul><li>Googlesøgningens netværk </li></ul><ul><li>Fra at have været et 'blandet' netværk op til valget, hvor både sociale medier, politiske partier, medier og valgets ’ logistikere ’ (borger.dk o.lign.) var tilstede, så udvikler googlesøgningens netværk sig i retning af et næsten rent netværk, der kan hjælpe vælgerne med praktiske valgrelevante oplysninger </li></ul><ul><li>Længe før valget udskrives, fylder Facebook meget i netværket, men det mister så vægt til Twitter , der næsten bliver lige så vægtigt, for så at blive meget lille — og Twitter forsvinder helt. </li></ul>3. Den danske websfære ved Folketingsvalg 2011 — foreløbige resultater
  39. 39. <ul><li>Partiernes netværk </li></ul><ul><li>I partiernes netværk fylder Facebook markant meget — det er ubetinget netværkets største node gennem hele perioden. Twitter kommer på et tidspunkt med, men med markant mindre vægt </li></ul><ul><li>Rød blok er markant tilstede i netværket gennem hele perioden, og linker i hele perioden meget til hinanden </li></ul><ul><li>Blå blok går fra lidt til noget mere vægt , men linker ikke særlig meget til hinanden, men derimod til Facebook </li></ul><ul><li>Opstillede enkeltpersoners websites brænder igennem i netværket tidligt, men har markant mindre gennemslagskraft , efterhånden som vi kommer længere frem — det tyder på en linkmæssig koncentrering omkring partiernes officielle websites </li></ul>3. Den danske websfære ved Folketingsvalg 2011 — foreløbige resultater
  40. 40. <ul><li>De siddende folketingsmedlemmers netværk </li></ul><ul><li>I hele perioden er Facebook stabilt netværkets ubestridt vægtigste node, Twitter er markant mindre, Flickr og Youtube er tilstede, men med meget lidt vægt — det er dog værd at bemærke, at Youtube er med, hvilket det ikke er i de andre netværk </li></ul><ul><li>I begyndelsen af perioden er de politiske partier mindre tilstede, mens de opstillede enkeltpersoner er mere tilstede, men det ændres, så partiernes websites fylder mere, delvist på bekostning af enkeltpersonernes, som dog stadig er fint med </li></ul><ul><li>Medierne indgår stort set ikke i netværket, omend de er mere med lige før valget udskrives </li></ul><ul><li>Rød blok fylder særdeles godt, interlinker meget, blå blok fylder markant mindre og har mindre interlinkning, men Venstre linker mest til de øvrige, der ikke linker tilbage </li></ul>3. Den danske websfære ved Folketingsvalg 2011 — foreløbige resultater
  41. 41. <ul><li>Foreløbige hovedkonklusioner </li></ul><ul><li>Rød blok er åbenbart bedst til at skabe sammenhængende linkuniverser (fx fairforandring, fairlosning, thorning-schmidt, dsu.net, socialdemokraterne, sammenomdanmark.dk...) — og det gælder både parti-websites samt enkeltopstilledes personlige websites, der linker fint til hele røds 'linkunivers ’ , og de fylder måske derfor godt i netværket </li></ul><ul><li>Blå blok interlinker mindre , men linker mere til Facebook — de har ikke linkuniverser mellem satellit-websites; internt i blå blok ser Venstre ud til at linke mest til de øvrige, der ikke linker tilbage </li></ul>3. Den danske websfære ved Folketingsvalg 2011 — foreløbige resultater
  42. 42. <ul><li>Foreløbige hovedkonklusioner (fortsat) </li></ul><ul><li>Google-søgningens netærk udvikler sig noget overraskende, i hvertfald for mig, nemlig fra at have været et 'blandet' netværk op til valget, hvor både sociale medier, politiske partier, medier og officielle 'valgforberedende' websites var tilstede, i retning af et næsten rent netværk, der kan hjælpe vælgerne med praktiske valgrelevante oplysninger </li></ul><ul><li>De opstillede medlemmers netværk er mere rettet mod Facebook og mod partiernes 'moder-sites' end mod mediernes websites </li></ul><ul><li>Youtube bruges mere af enkeltpolitikere end af partier </li></ul><ul><li>Og endelig så kan det lykkes for en enkelt kommentator at opnå en vis position i netværket, som holder sig over tid (jarlcordua) </li></ul>Uddrag af resultaterne kan ses her: http://www.internethistorie.dk/networks/fv11/fv11.html 3. Den danske websfære ved Folketingsvalg 2011 — foreløbige resultater
  43. 43. <ul><li>Foreløbig plan </li></ul><ul><li>Primært den danske websfære. </li></ul><ul><li>Google-søgning på EU, formand, Danmark </li></ul><ul><li>Seedliste med de forventeligt væsentligste aktørers websites samt deres offentligt tilgængelige tilstedeværelser på sociale medier: </li></ul><ul><li>politiske partier </li></ul><ul><li>folketingsmedlemmer </li></ul><ul><li>EU-politikere </li></ul><ul><li>ministerier </li></ul><ul><li>landsdækkende medier </li></ul><ul><li>interesseorganisationer (DA, LO...) </li></ul><ul><li>større virksomheder (Lego, Grundfos, B & O...) </li></ul><ul><li>græsrødder og NGO (Greenpeace, Dansk Naturfredning...) </li></ul><ul><li>enkeltpersoner </li></ul><ul><li>diskussionsfora </li></ul><ul><li>hvad har jeg glemt? </li></ul>Nyt projekt: det danske EU-formandsskab foråret 2012

×