SlideShare a Scribd company logo
MALTHE MUNKØE CHEFKONSULENT,
DANSK ERHVERV
Kursus for Kristeligt Dagblad, 30. august 2017
”There are lies, damn lies and statistics”
Disraeli (Mark Twain)
“Statistics is the grammar of science”
Karl Pearson
“I never believe in statistics if I didn’t make it
myself”
Sir Winston Churchill
Vær opmærksom på akserne 1/3
Vær opmærksom på akserne 2/3
NB: Excel er slem til at pumpe små forskelle i
grafer op, hvis man ikke selv indstiller akserne
Vær opmærksom på akserne 3/3
• ”Hvem vil du stemme på til præsidentvalget i november”
• Måling i april 2020 hhv. september 2020
• Zuckerberg er gået 7% procentpoint tilbage (svarer umiddelbart til en
stigning på 7/55=13 procent, selvom det sjældent er intuitivt at
betragte ”procent af en procent”)
• (og så er der i øvrigt en ændring i ”ved ikke” man ikke skal glemme)
30%
55%
15%
0%
10%
20%
30%
40%
50%
60%
Ivanka Trump Mark Zuckerberg Don't know
April 2020
45%
48%
7%
0%
10%
20%
30%
40%
50%
60%
Ivanka Trump Mark Zuckerberg Don't know
September 2020
Udviklinger 1/3
Antal butikker på hovedgaden i Nørre Gudinge, 2010-2016
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
2010 2011 2012 2013 2014 2015 2016
Udviklinger 2/3
Udviklinger 3/3
• Din chef reducerer din løn med 50 %
• Men så kommer han på andre tanker og give dig en
lønstigning på 50%
• Så er alt vel godt igen?
• Brancher
• 9-gruppering
• 19
• 36
• 127
• Detaljeret (742)
• Har man ikke styr på
niveauerne, går det
galt!!:
Kend din statistik 1/4
Nomenklaturer: Nogle statistikker er opbygget med flere
niveauer (”Kinesisk æske” system)
Kend din statistik 2/4
4,000
5,000
6,000
7,000
8,000
9,000
10,000
Jan-07
Apr-07
Jul-07
Oct-07
Jan-08
Apr-08
Jul-08
Oct-08
Jan-09
Apr-09
Jul-09
Oct-09
Jan-10
Apr-10
Jul-10
Oct-10
Jan-11
Apr-11
Jul-11
Oct-11
Jan-12
Apr-12
Jul-12
Oct-12
Jan-13
Apr-13
Jul-13
Oct-13
Jan-14
Apr-14
Jul-14
Oct-14
Jan-15
Apr-15
Jul-15
Oct-15
Jan-16
Apr-16
Jul-16
Oct-16
Jan-17
Antal administrative fuldtidsansatte i regionerne
Kilde: KRL og egne beregninger
Note: Afgrænsningen af administrative ansatte sker på baggrund af stillingskategorier og følger Økonomi- og Indenrigsministeriets
fra 2017: ”Regionernes administrative ressourceforbrug 2007-2016”.
Kend din statistik 3/4
undtagelser og udeladelser mv.
Kilde: Cevea, Uligheden i Danmark stiger, 2014,
https://cevea.dk/debat/31-ulighed/728-uligheden-danmark-er-stigende
Kilde: Cevea, ”Uligheden stiger mest i Danmark, 2014,
http://img.borsen.dk/img/cms/tuksi4/uploads/img_server_adm.files/1926_filename_8808.pdf
Kend din statistik 4/4
• Måske det vigtigste journalistiske problem: fx næsten alle
overskrifter!
Årsagssammenhænge 1/6
• Et klassisk eksempel:
• På baggrund af et studie af 1.000 unge kan vi
konstatere en sammenhæng imellem højde og
intelligens – jo højere, jo bedre scorer man på
intelligenstesten, der ser på matematiske evner,
sproglige evner og på kreativ tænkning og
mønstergenkendelse
• Er der noget galt med den konklusion?
Årsagssammenhænge 2/6
Kilde: Dansk Metal, 2017, ”Industrien arbejder fem
uger mere end servicesektoren”,
https://www.danskmetal.dk/Nyheder/analyser/Do
cuments/Industrien_arbejder_fem_uger_mere_end
_servicesektoren.pdf
Årsagssammenhænge 3/6
Årsagssammenhænge 4/6
”Spuriøse
sammenhænge”
• Hvad kan vi sige om relationen mellem to ting, A og B?
• A  B A forårsager eller påvirker B (fx rygning->lungekræft)
• B  A B forårsager A (hvilken vej går kausaliteten?)
• A og B forårsager/påvirker gensidigt hinanden (rige lande bruger flere penge på uddannelse,
bedre uddannelse giver højere økonomisk vækst)
• C  A og C  B (C forårsager både A og B) (I rige lande spiser man mere is end i fattige, og i rige
lande har man højere uddannelsesniveau)
• C  A B (C forårsager A, som forårsager/påvirker B dvs. C påvirker relationen mellem A og B)
(Folk der er mere veluddannede ser mere Netflix – men det gælder stærkere jo større by man er
bosat i)
• Der er ingen korrelation (sammenhæng) mellem A og B
Årsagssammenhænge 5/6
• ”Correlation is not causation” – vi kan
aldrig vide noget med sikkerhed
omkring kausalitet. Hverken principielt
(som et filosofisk princip) eller i praksis
(den sorte svane).
Årsagssammenhænge 6/6
Eksempel: lønforskel mellem mænd og kvinder i virksomheden Stråsøborg A/S
Mænd: 600.000 kr. (årsløn)
Kvinder: 350.000 kr. (årsløn)
Kategorisering af data 1/1
• 1) Outliers
• Mænd, bortset fra den administrerende direktør: 500.000 kr. (årsløn)
• Kvinder: 350.000 kr. (årsløn)
• 2) Sammenligner vi reelt sammenlignelige størrelser?
• Mænd, bortset fra den administrerende direktør –relevant videregående uddannelse og 2+ års relevant
arbejdserfaring: 550.000 kr.
• Kvinder – med relevant videregående uddannelse og 2+ års relevant arbejdserfaring : 550.000 kr.
• Mænd, bortset fra den administrerende direktør – ikke relevant uddannelse/ikke relevant erfaring: 400.000 kr.
• Kvinder, – ikke relevant uddannelse/ikke relevant erfaring: 200.000 kr. (mange deltidsansatte)
• Eksempel: lønforskel mellem mænd og kvinder i virksomheden Stråsøborg A/S
• Mænd: 600.000 kr. (årsløn)
• Kvinder: 350.000 kr. (årsløn)
• Ofte åbenlyse når man hører det, men som bliver glemt langt oftere end man skulle tro - - -
• Kategorier der mangler?
• Kategorier der er underlige?
• Kategorier der ikke reelt er komplette og gensidigt udelukkende
• Uklarheder?
• Ledende?
• Normative
• Primingeffekter
• Rækkefølge-effekter
• Skala eller ikke i besvarelse?
Surveydesign 1/5
http://www.business.dk/industri/kun-3-ud-af-100-tror-danmark-kan-klare-sig-uden-industri
Kilde:Berlingske Business ”Kun 3 ud af
100 tror, at Danmark kan klare sig uden
industri, 2017,
http://www.business.dk/industri/kun-
3-ud-af-100-tror-danmark-kan-klare-
sig-uden-industri
Surveydesign 2/5
• Survey er typisk godt til at afdække faktuelle (ikke-tabu belagte) forhold og holdninger.
• Men problemer med emner der er:
• For abstrakte
• For spekulative
• For komplekse
• Har en indbygget bias (social acquiescence)
• Tapper ind i non-attitudes (Off the top of the head besvarelser)
Kilde: The Guardian ”Poll: 30% of GOP voters support bombing Agrabah, the city from Aladdin, 2015,
https://www.theguardian.com/us-news/2015/dec/18/republican-voters-bomb-agrabah-disney-aladdin-donald-
trump
Surveydesign 3/5
Kilde: Politiken, ”Rettelse: Meningsmåling løb af sporet, to kategorier faldt ud”, 2017, http://politiken.dk/indland/art6042772/Meningsmåling-
løb-af-sporet-to-kategorier-faldt-ud
Kilde: Politiken, ”Er det medierne, der bestemmer mest i Danmark?”, 2017, http://politiken.dk/indland/art6042577/Er-det-medierne-der-
bestemmer-mest-i-Danmark
Kilde: Tv2 ”Medierne
har for stor magt,
mener danskerne –
men passer det nu
også?”, 2017,
http://nyheder.tv2.dk/s
amfund/2017-07-23-
medierne-har-for-stor-
magt-mener-
danskerne-men-
passer-det-nu-ogsaa
Surveydesign 4/5
”Andre” er faldet fra 12% til 1%
NB: Høj ”anden/andre” score indikerer at der er et problem – men kan ikke
direkte omregnes til noget meningsfyldt (12% sagde andet, hele 43% siger
erhvervslivets top, når det er en svarmulighed)
Kilde: Politiken, ”Ny megafon: Medierne og erhvervslivet har for meget magt”,2017
http://politiken.dk/indland/art6043761/Medierne-og-erhvervslivet-har-for-meget-magt
Surveydesign 5/5
• Men så skal procentsatserne jo ikke forstås som andel af alle
danskere, men andel af de danskere, som mener nogle eliter har for
meget magt!
• Dvs. 58% - ud af de 60% som mener nogen eliter har for meget
magt – mener, at medierne har for meget magt!
• 0,58*0,6=35% af alle danskere mener, at medierne har for meget
magt
• – en tredjedel, ikke over halvdelen!!!
• Der var – formentlig – to store fejl i Politikens forsideartikel. Kun
den ene fik stor opmærksomhed…
Sampling og stikprøvestørrelse 1/4
• The Literary Digest vs. Gallup
• I 1936 forudsagde Literary Digest 41% Roosevelt (D) vs Landon
55% (R).
• LD havde korrekt forudsagt præsidentvalgene i USA siden 1912
baseret på spørgeskemaer udsendt til alle 10 mio. læsere, og fik i
1936 2,4 mio. besvarelser!!
• Gallup lavede for første gang en telefonbaseret poll med ca. 50.000
besvarelser, og nåede frem til at Roosevelt ville få over halvdelen af
stemmerne
• Det blev Roosevelt 61% vs Landon 37%
Sampling og stikprøvestørrelse 2/4
• Stikprøve vs. Totaltælling
• Internet vs web
• Tilfældig udvælgelse vs repræsentativt
• Internetafstemning, vox pop
• Bias
• De manglende negative
Sampling og stikprøvestørrelse (3/4)
• Stikprøve vs. Totaltælling
• Hvor mange svar skal jeg have -> hvor sikker vil jeg være? Hvor store forskelle er der
tale om?
• Det centrale grænseværditeorem
• Outliers
Sampling og stikprøvestørrelse (4/4)
102,6 mio. euro (2013-priser)
Lidt om økonomiske data 1/3
Lidt om økonomiske data 2/3
• BNP - værdiskabelse
• Netto/bruttoledighed
• Beskæftigede/jobs/årsværk
• Sæsonkorrigering
• Inflation
Lidt om økonomiske data 3/3
Lidt om mere avancerede metoder 1/3
• Sammenhæng imellem to variable
• 0: ingen, 1: fuldkommen perfekt
• Fx: Dyrker indbyggerne mere motion i et land, jo højere gennemsnitstemperaturen
i landet er?
• NB: ikke-lineære sammenhænge
• Take-away point: man kan måle sammenhæng matematisk
ingen sammenhæng Stærk sammenhængSvag til moderat sammenhæng
Lidt om mere avancerede metoder 2/3
• Hvis der er flere variable på spil bliver det mere vanskeligt, og ikke noget vi kan gennemgå her.
• Men: man kan matematisk beregne sammenhænge også med flere variable
• En samfundsvidenskabeligt skolet person tænker på verden i termer af variable, der relaterer sig til hinanden
Lidt om mere avancerede metoder 3/3
• Data scraping
• Machine Learning
Kilde: Jobdata, DAMVAD Analytics
Top 15 mest efterspurgte IKT-kompetencer, 2014-2016
14.3%
14.0%
11.7%
10.0%
9.3%
8.6%
8.4%
8.3%
8.2%
8.1%
8.0%
7.3%
6.5%
6.1%
5.9%
Java
SQL
Framework
HTML
.NET
ERP-system
JavaScript
Linux
Frontend
C#
Cloud
Robotics
Scrum
SAS
CSS
Big data og nye teknikker 1/2
Twitter-data
Big data og nye teknikker 2/2
Facebook-data
Mulige anvendelser
Søgning på bestemte ord, fx hashtags –
• Hvilke politikere interesserer sig for emne X
• Hvilke meningsdannere i øvrigt skriver om hashtag X
• Hvad interesserer politiker X sig for?
• Hvilke emner animerer især folkedybet?
Se hvad folk, der liker noget bestemt, i øvrigt liker
• Liker folk, der liker noget med dyrevelfærd, typisk
også indvandrerkritiske ting, eller er det to separate
segmenter
• I stedet for fx at sende et budskab baseret på køn,
race mv. kan budskaber sendes baseret på like-profil
Twitter-data

More Related Content

Similar to Kursus om praktisk tal- data- og statistikanvendelse for journalister

Bagsiden af Social Media, Rikke Østergaard
Bagsiden af Social Media, Rikke ØstergaardBagsiden af Social Media, Rikke Østergaard
Bagsiden af Social Media, Rikke Østergaard
Advice A/S
 
Netdating eksamensopgave
Netdating eksamensopgaveNetdating eksamensopgave
Netdating eksamensopgavealundov
 
Netdating endelig
Netdating   endeligNetdating   endelig
Netdating endelig
jkru123
 
Netdating opgave den endelige!
Netdating opgave den endelige!Netdating opgave den endelige!
Netdating opgave den endelige!Anne Lundov
 
Netdating opgave den endelige!
Netdating opgave den endelige!Netdating opgave den endelige!
Netdating opgave den endelige!Anne Lundov
 
Netdating opgave
Netdating opgave Netdating opgave
Netdating opgave Anne Lundov
 
CompanYoungs oplæg ved Daniel Birkholm
CompanYoungs oplæg ved Daniel Birkholm CompanYoungs oplæg ved Daniel Birkholm
CompanYoungs oplæg ved Daniel Birkholm
Gro Ammendrup Ladiges
 
Præsentation DK panel e-mærket 041013
Præsentation DK panel e-mærket 041013Præsentation DK panel e-mærket 041013
Præsentation DK panel e-mærket 041013
Lasse Bunk
 
Sociale platforme i det offentlige
Sociale platforme i det offentligeSociale platforme i det offentlige
Sociale platforme i det offentlige
Daniel Ord Rasmussen
 
Søg vurder brug dias
Søg vurder brug   diasSøg vurder brug   dias
Søg vurder brug dias
Ulla Lambek
 
Tbp big dataogbi_tbp
Tbp big dataogbi_tbpTbp big dataogbi_tbp
Bank R.O.I social media
Bank R.O.I social mediaBank R.O.I social media
Bank R.O.I social mediaDOT747
 
Kommunikationsstrategi på en dag
Kommunikationsstrategi på en dagKommunikationsstrategi på en dag
Kommunikationsstrategi på en dag
Peter Svarre
 
Datagraf frokostmøde 20 nov 2014
Datagraf frokostmøde 20 nov 2014Datagraf frokostmøde 20 nov 2014
Datagraf frokostmøde 20 nov 2014
Anders Frey Birkmose
 
Datajournalistik – en introduktion
Datajournalistik – en introduktionDatajournalistik – en introduktion
Datajournalistik – en introduktion
Niels Erik Kaaber Rasmussen
 
5 grundpræmisser for digital deltagelse
5 grundpræmisser for digital deltagelse5 grundpræmisser for digital deltagelse
5 grundpræmisser for digital deltagelse
Peter Vittrup
 

Similar to Kursus om praktisk tal- data- og statistikanvendelse for journalister (16)

Bagsiden af Social Media, Rikke Østergaard
Bagsiden af Social Media, Rikke ØstergaardBagsiden af Social Media, Rikke Østergaard
Bagsiden af Social Media, Rikke Østergaard
 
Netdating eksamensopgave
Netdating eksamensopgaveNetdating eksamensopgave
Netdating eksamensopgave
 
Netdating endelig
Netdating   endeligNetdating   endelig
Netdating endelig
 
Netdating opgave den endelige!
Netdating opgave den endelige!Netdating opgave den endelige!
Netdating opgave den endelige!
 
Netdating opgave den endelige!
Netdating opgave den endelige!Netdating opgave den endelige!
Netdating opgave den endelige!
 
Netdating opgave
Netdating opgave Netdating opgave
Netdating opgave
 
CompanYoungs oplæg ved Daniel Birkholm
CompanYoungs oplæg ved Daniel Birkholm CompanYoungs oplæg ved Daniel Birkholm
CompanYoungs oplæg ved Daniel Birkholm
 
Præsentation DK panel e-mærket 041013
Præsentation DK panel e-mærket 041013Præsentation DK panel e-mærket 041013
Præsentation DK panel e-mærket 041013
 
Sociale platforme i det offentlige
Sociale platforme i det offentligeSociale platforme i det offentlige
Sociale platforme i det offentlige
 
Søg vurder brug dias
Søg vurder brug   diasSøg vurder brug   dias
Søg vurder brug dias
 
Tbp big dataogbi_tbp
Tbp big dataogbi_tbpTbp big dataogbi_tbp
Tbp big dataogbi_tbp
 
Bank R.O.I social media
Bank R.O.I social mediaBank R.O.I social media
Bank R.O.I social media
 
Kommunikationsstrategi på en dag
Kommunikationsstrategi på en dagKommunikationsstrategi på en dag
Kommunikationsstrategi på en dag
 
Datagraf frokostmøde 20 nov 2014
Datagraf frokostmøde 20 nov 2014Datagraf frokostmøde 20 nov 2014
Datagraf frokostmøde 20 nov 2014
 
Datajournalistik – en introduktion
Datajournalistik – en introduktionDatajournalistik – en introduktion
Datajournalistik – en introduktion
 
5 grundpræmisser for digital deltagelse
5 grundpræmisser for digital deltagelse5 grundpræmisser for digital deltagelse
5 grundpræmisser for digital deltagelse
 

Kursus om praktisk tal- data- og statistikanvendelse for journalister

  • 1. MALTHE MUNKØE CHEFKONSULENT, DANSK ERHVERV Kursus for Kristeligt Dagblad, 30. august 2017 ”There are lies, damn lies and statistics” Disraeli (Mark Twain) “Statistics is the grammar of science” Karl Pearson “I never believe in statistics if I didn’t make it myself” Sir Winston Churchill
  • 2. Vær opmærksom på akserne 1/3
  • 3. Vær opmærksom på akserne 2/3 NB: Excel er slem til at pumpe små forskelle i grafer op, hvis man ikke selv indstiller akserne
  • 4. Vær opmærksom på akserne 3/3
  • 5. • ”Hvem vil du stemme på til præsidentvalget i november” • Måling i april 2020 hhv. september 2020 • Zuckerberg er gået 7% procentpoint tilbage (svarer umiddelbart til en stigning på 7/55=13 procent, selvom det sjældent er intuitivt at betragte ”procent af en procent”) • (og så er der i øvrigt en ændring i ”ved ikke” man ikke skal glemme) 30% 55% 15% 0% 10% 20% 30% 40% 50% 60% Ivanka Trump Mark Zuckerberg Don't know April 2020 45% 48% 7% 0% 10% 20% 30% 40% 50% 60% Ivanka Trump Mark Zuckerberg Don't know September 2020 Udviklinger 1/3
  • 6. Antal butikker på hovedgaden i Nørre Gudinge, 2010-2016 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 2010 2011 2012 2013 2014 2015 2016 Udviklinger 2/3
  • 7. Udviklinger 3/3 • Din chef reducerer din løn med 50 % • Men så kommer han på andre tanker og give dig en lønstigning på 50% • Så er alt vel godt igen?
  • 8. • Brancher • 9-gruppering • 19 • 36 • 127 • Detaljeret (742) • Har man ikke styr på niveauerne, går det galt!!: Kend din statistik 1/4 Nomenklaturer: Nogle statistikker er opbygget med flere niveauer (”Kinesisk æske” system)
  • 9. Kend din statistik 2/4 4,000 5,000 6,000 7,000 8,000 9,000 10,000 Jan-07 Apr-07 Jul-07 Oct-07 Jan-08 Apr-08 Jul-08 Oct-08 Jan-09 Apr-09 Jul-09 Oct-09 Jan-10 Apr-10 Jul-10 Oct-10 Jan-11 Apr-11 Jul-11 Oct-11 Jan-12 Apr-12 Jul-12 Oct-12 Jan-13 Apr-13 Jul-13 Oct-13 Jan-14 Apr-14 Jul-14 Oct-14 Jan-15 Apr-15 Jul-15 Oct-15 Jan-16 Apr-16 Jul-16 Oct-16 Jan-17 Antal administrative fuldtidsansatte i regionerne Kilde: KRL og egne beregninger Note: Afgrænsningen af administrative ansatte sker på baggrund af stillingskategorier og følger Økonomi- og Indenrigsministeriets fra 2017: ”Regionernes administrative ressourceforbrug 2007-2016”.
  • 10. Kend din statistik 3/4 undtagelser og udeladelser mv.
  • 11. Kilde: Cevea, Uligheden i Danmark stiger, 2014, https://cevea.dk/debat/31-ulighed/728-uligheden-danmark-er-stigende Kilde: Cevea, ”Uligheden stiger mest i Danmark, 2014, http://img.borsen.dk/img/cms/tuksi4/uploads/img_server_adm.files/1926_filename_8808.pdf Kend din statistik 4/4
  • 12. • Måske det vigtigste journalistiske problem: fx næsten alle overskrifter! Årsagssammenhænge 1/6
  • 13. • Et klassisk eksempel: • På baggrund af et studie af 1.000 unge kan vi konstatere en sammenhæng imellem højde og intelligens – jo højere, jo bedre scorer man på intelligenstesten, der ser på matematiske evner, sproglige evner og på kreativ tænkning og mønstergenkendelse • Er der noget galt med den konklusion? Årsagssammenhænge 2/6
  • 14. Kilde: Dansk Metal, 2017, ”Industrien arbejder fem uger mere end servicesektoren”, https://www.danskmetal.dk/Nyheder/analyser/Do cuments/Industrien_arbejder_fem_uger_mere_end _servicesektoren.pdf Årsagssammenhænge 3/6
  • 16. • Hvad kan vi sige om relationen mellem to ting, A og B? • A  B A forårsager eller påvirker B (fx rygning->lungekræft) • B  A B forårsager A (hvilken vej går kausaliteten?) • A og B forårsager/påvirker gensidigt hinanden (rige lande bruger flere penge på uddannelse, bedre uddannelse giver højere økonomisk vækst) • C  A og C  B (C forårsager både A og B) (I rige lande spiser man mere is end i fattige, og i rige lande har man højere uddannelsesniveau) • C  A B (C forårsager A, som forårsager/påvirker B dvs. C påvirker relationen mellem A og B) (Folk der er mere veluddannede ser mere Netflix – men det gælder stærkere jo større by man er bosat i) • Der er ingen korrelation (sammenhæng) mellem A og B Årsagssammenhænge 5/6
  • 17.
  • 18. • ”Correlation is not causation” – vi kan aldrig vide noget med sikkerhed omkring kausalitet. Hverken principielt (som et filosofisk princip) eller i praksis (den sorte svane). Årsagssammenhænge 6/6
  • 19. Eksempel: lønforskel mellem mænd og kvinder i virksomheden Stråsøborg A/S Mænd: 600.000 kr. (årsløn) Kvinder: 350.000 kr. (årsløn) Kategorisering af data 1/1 • 1) Outliers • Mænd, bortset fra den administrerende direktør: 500.000 kr. (årsløn) • Kvinder: 350.000 kr. (årsløn) • 2) Sammenligner vi reelt sammenlignelige størrelser? • Mænd, bortset fra den administrerende direktør –relevant videregående uddannelse og 2+ års relevant arbejdserfaring: 550.000 kr. • Kvinder – med relevant videregående uddannelse og 2+ års relevant arbejdserfaring : 550.000 kr. • Mænd, bortset fra den administrerende direktør – ikke relevant uddannelse/ikke relevant erfaring: 400.000 kr. • Kvinder, – ikke relevant uddannelse/ikke relevant erfaring: 200.000 kr. (mange deltidsansatte) • Eksempel: lønforskel mellem mænd og kvinder i virksomheden Stråsøborg A/S • Mænd: 600.000 kr. (årsløn) • Kvinder: 350.000 kr. (årsløn)
  • 20. • Ofte åbenlyse når man hører det, men som bliver glemt langt oftere end man skulle tro - - - • Kategorier der mangler? • Kategorier der er underlige? • Kategorier der ikke reelt er komplette og gensidigt udelukkende • Uklarheder? • Ledende? • Normative • Primingeffekter • Rækkefølge-effekter • Skala eller ikke i besvarelse? Surveydesign 1/5
  • 21. http://www.business.dk/industri/kun-3-ud-af-100-tror-danmark-kan-klare-sig-uden-industri Kilde:Berlingske Business ”Kun 3 ud af 100 tror, at Danmark kan klare sig uden industri, 2017, http://www.business.dk/industri/kun- 3-ud-af-100-tror-danmark-kan-klare- sig-uden-industri Surveydesign 2/5
  • 22. • Survey er typisk godt til at afdække faktuelle (ikke-tabu belagte) forhold og holdninger. • Men problemer med emner der er: • For abstrakte • For spekulative • For komplekse • Har en indbygget bias (social acquiescence) • Tapper ind i non-attitudes (Off the top of the head besvarelser) Kilde: The Guardian ”Poll: 30% of GOP voters support bombing Agrabah, the city from Aladdin, 2015, https://www.theguardian.com/us-news/2015/dec/18/republican-voters-bomb-agrabah-disney-aladdin-donald- trump Surveydesign 3/5
  • 23. Kilde: Politiken, ”Rettelse: Meningsmåling løb af sporet, to kategorier faldt ud”, 2017, http://politiken.dk/indland/art6042772/Meningsmåling- løb-af-sporet-to-kategorier-faldt-ud Kilde: Politiken, ”Er det medierne, der bestemmer mest i Danmark?”, 2017, http://politiken.dk/indland/art6042577/Er-det-medierne-der- bestemmer-mest-i-Danmark Kilde: Tv2 ”Medierne har for stor magt, mener danskerne – men passer det nu også?”, 2017, http://nyheder.tv2.dk/s amfund/2017-07-23- medierne-har-for-stor- magt-mener- danskerne-men- passer-det-nu-ogsaa Surveydesign 4/5
  • 24. ”Andre” er faldet fra 12% til 1% NB: Høj ”anden/andre” score indikerer at der er et problem – men kan ikke direkte omregnes til noget meningsfyldt (12% sagde andet, hele 43% siger erhvervslivets top, når det er en svarmulighed) Kilde: Politiken, ”Ny megafon: Medierne og erhvervslivet har for meget magt”,2017 http://politiken.dk/indland/art6043761/Medierne-og-erhvervslivet-har-for-meget-magt Surveydesign 5/5
  • 25. • Men så skal procentsatserne jo ikke forstås som andel af alle danskere, men andel af de danskere, som mener nogle eliter har for meget magt! • Dvs. 58% - ud af de 60% som mener nogen eliter har for meget magt – mener, at medierne har for meget magt! • 0,58*0,6=35% af alle danskere mener, at medierne har for meget magt • – en tredjedel, ikke over halvdelen!!! • Der var – formentlig – to store fejl i Politikens forsideartikel. Kun den ene fik stor opmærksomhed… Sampling og stikprøvestørrelse 1/4
  • 26. • The Literary Digest vs. Gallup • I 1936 forudsagde Literary Digest 41% Roosevelt (D) vs Landon 55% (R). • LD havde korrekt forudsagt præsidentvalgene i USA siden 1912 baseret på spørgeskemaer udsendt til alle 10 mio. læsere, og fik i 1936 2,4 mio. besvarelser!! • Gallup lavede for første gang en telefonbaseret poll med ca. 50.000 besvarelser, og nåede frem til at Roosevelt ville få over halvdelen af stemmerne • Det blev Roosevelt 61% vs Landon 37% Sampling og stikprøvestørrelse 2/4
  • 27. • Stikprøve vs. Totaltælling • Internet vs web • Tilfældig udvælgelse vs repræsentativt • Internetafstemning, vox pop • Bias • De manglende negative Sampling og stikprøvestørrelse (3/4)
  • 28. • Stikprøve vs. Totaltælling • Hvor mange svar skal jeg have -> hvor sikker vil jeg være? Hvor store forskelle er der tale om? • Det centrale grænseværditeorem • Outliers Sampling og stikprøvestørrelse (4/4)
  • 29. 102,6 mio. euro (2013-priser) Lidt om økonomiske data 1/3
  • 31. • BNP - værdiskabelse • Netto/bruttoledighed • Beskæftigede/jobs/årsværk • Sæsonkorrigering • Inflation Lidt om økonomiske data 3/3
  • 32. Lidt om mere avancerede metoder 1/3
  • 33. • Sammenhæng imellem to variable • 0: ingen, 1: fuldkommen perfekt • Fx: Dyrker indbyggerne mere motion i et land, jo højere gennemsnitstemperaturen i landet er? • NB: ikke-lineære sammenhænge • Take-away point: man kan måle sammenhæng matematisk ingen sammenhæng Stærk sammenhængSvag til moderat sammenhæng Lidt om mere avancerede metoder 2/3
  • 34. • Hvis der er flere variable på spil bliver det mere vanskeligt, og ikke noget vi kan gennemgå her. • Men: man kan matematisk beregne sammenhænge også med flere variable • En samfundsvidenskabeligt skolet person tænker på verden i termer af variable, der relaterer sig til hinanden Lidt om mere avancerede metoder 3/3
  • 35. • Data scraping • Machine Learning Kilde: Jobdata, DAMVAD Analytics Top 15 mest efterspurgte IKT-kompetencer, 2014-2016 14.3% 14.0% 11.7% 10.0% 9.3% 8.6% 8.4% 8.3% 8.2% 8.1% 8.0% 7.3% 6.5% 6.1% 5.9% Java SQL Framework HTML .NET ERP-system JavaScript Linux Frontend C# Cloud Robotics Scrum SAS CSS Big data og nye teknikker 1/2
  • 36. Twitter-data Big data og nye teknikker 2/2 Facebook-data Mulige anvendelser Søgning på bestemte ord, fx hashtags – • Hvilke politikere interesserer sig for emne X • Hvilke meningsdannere i øvrigt skriver om hashtag X • Hvad interesserer politiker X sig for? • Hvilke emner animerer især folkedybet? Se hvad folk, der liker noget bestemt, i øvrigt liker • Liker folk, der liker noget med dyrevelfærd, typisk også indvandrerkritiske ting, eller er det to separate segmenter • I stedet for fx at sende et budskab baseret på køn, race mv. kan budskaber sendes baseret på like-profil Twitter-data

Editor's Notes

  1. Ved et lavt udgangspunkt bliver procentsatser næsten meningsløse: Antallet af butikker i byen er fordoblet fra 2010 til 2016 Der var en stigning på 50% fra 2011 til 2011, derefter et fald på 33,3% fra 2012 til 2013, og så en fordobling fra 2013 til 2016 Er det en rimelig historie? Inde i København er antallet af butikker vokset fra 20.000 til 21.000, altså en stigning på 5% Så økonomien boomer i N. Gudinge med en vækst på 100% mod blot 5% i København Er det en rimelig historie?
  2. Andre eksempler: Kommunale regnskaber Andel af hjemmepleje-timerne der varetages privat
  3. Regioner - > siger de reelt noget?
  4. Do you support the attempt by the USA to bring freedom and democracy to other places in the world? Do you support the unprovoked military action by the USA?
  5. 2013 euro 102,6003 2013 1,42% 109,1492 2012 2,44% 107,621 2011 3,2% 105,0576 2010 1,8% 101,8 2009 na 100