Hierarchický bayesovský model     ekologické inference         Kamil Gregor
Otázka: Kolik procentpodnikatelů volí TOP09?
To je snadné!                       30TOP09 v PSP 2010 (%)                       25                       20              ...
Otázka: Kolik procent Romů volí             DSSS?
Taky asi hodně…    WTF?
Ekologický klamčernoši   běloši    celkem600       400        1000                          voliči  ?         ?      400  ...
Ekologický klamčernoši   běloši    celkem          černoši   běloši    celkem600       400        1000           600      ...
Ekologický klamčernoši   běloši                    černoši   běloši                    celkem                             ...
Základní statistická neurčitelnostčernoši     běloši             Celkem  Pi       1 – Pi                 1  Ai       Di – ...
Jak řešit neřešitelný problém?1. Dotazníková šetření
Jak řešit neřešitelný problém?1. Dotazníková šetření2. Statistické modelování
Předpoklady modelů• Populace obou pozorovaných proměnných  je totožná• Neexistuje prostorová autokorelace  nepozorovaných ...
Dvourozměrné normální rozdělení
Bayesovské modelování
Bayesovské modelování• Na začátku velmi obecné apriorní  rozdělení hodnot nepozorovaných  proměnných• Podmíněné rozdělení ...
K čemu je to dobré?• Pokaždé, když máme agregovaná data, ale ne  individuální data• Tedy když známe hodnoty dvou proměnnýc...
Například• Sociální složení elektorátu (například podíl  katolíků versus podíl voličů strany)• Voličské přesuny (podíl vol...
Nebo• V řadě vědních oborů, jako je  – Sociologie  – Historie  – Ekonomie  – Marketing  – Geografie  – Epidemiologie  – Ek...
Jak přesné jsou tyto výsledky?• Pořád čekáme na ekvivalent testu statistické  signifikance• Řešením je (zdá se) vyšetření ...
Jak přesné jsou tyto výsledky?• Přesnost lze zatím měřit srovnáním s  výsledky exit pollu• Příklad: Voličské přesuny v rak...
Jak přesné jsou tyto výsledky?modelminus exit   SPÖ_08     FPÖ_08     ÖVP_08     G_08     BZÖ_08    ost._08   nev._08pollS...
Jak přesné jsou tyto výsledky?• P – přesnost, mi – výsledek model, ei –  výsledek exit pollu• Udává podíl voličů, které mo...
Jak přesné jsou tyto výsledky?• Voličské přesuny při volbách do  rakouského parlamentu:  – 1999 → 2002: P = 82,84%  – 2002...
Jak přesné jsou tyto výsledky?• Voličské přesuny při volbách do  Poslanecké sněmovny Parlamentu ČR:  – 2006 → 2010: P = 87...
Děkuji za pozornost
NMI13 Kamil Gregor - Hierarchický bayesovský model ekologické inference
NMI13 Kamil Gregor - Hierarchický bayesovský model ekologické inference
Upcoming SlideShare
Loading in …5
×

NMI13 Kamil Gregor - Hierarchický bayesovský model ekologické inference

6,546 views
6,525 views

Published on

Prezentace z druhého ročníku konference New Media Inspiration (http://nminspiration.cz), který se konal 19. 1. 2013 v hlavní budově FF UK pod vedením @petrkou, @simindr a @josefslerka.

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
6,546
On SlideShare
0
From Embeds
0
Number of Embeds
5,995
Actions
Shares
0
Downloads
0
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

NMI13 Kamil Gregor - Hierarchický bayesovský model ekologické inference

  1. 1. Hierarchický bayesovský model ekologické inference Kamil Gregor
  2. 2. Otázka: Kolik procentpodnikatelů volí TOP09?
  3. 3. To je snadné! 30TOP09 v PSP 2010 (%) 25 20 15 10 5 10 15 20 25 30 OSVČ v ORP (%) Odpověď: (Asi) hodně.
  4. 4. Otázka: Kolik procent Romů volí DSSS?
  5. 5. Taky asi hodně… WTF?
  6. 6. Ekologický klamčernoši běloši celkem600 400 1000 voliči ? ? 400 nevoliči ? ? 600
  7. 7. Ekologický klamčernoši běloši celkem černoši běloši celkem600 400 1000 600 400 1000 voliči voliči ? ? 400 0 400 400 nevoliči nevoliči ? ? 600 0 0 600
  8. 8. Ekologický klamčernoši běloši černoši běloši celkem celkem600 400 1000 600 400 1000 voliči voliči ? ? 400 0 400 400 nevoliči nevoliči ? ? 600 0 0 600černoši běloši černoši běloši celkem celkem600 400 1000 600 400 1000 voliči voliči400 0 400 200 200 400 nevoliči nevoliči200 400 600 400 200 600
  9. 9. Základní statistická neurčitelnostčernoši běloši Celkem Pi 1 – Pi 1 Ai Di – Ai Di voliči Bi (1 – Di) – Bi 1 – Di nevoliči Pi = AiDi + Bi(1 – Di)
  10. 10. Jak řešit neřešitelný problém?1. Dotazníková šetření
  11. 11. Jak řešit neřešitelný problém?1. Dotazníková šetření2. Statistické modelování
  12. 12. Předpoklady modelů• Populace obou pozorovaných proměnných je totožná• Neexistuje prostorová autokorelace nepozorovaných proměnných• Rozdělení nepozorovaných proměnných odpovídá námi zvolenému rozdělení
  13. 13. Dvourozměrné normální rozdělení
  14. 14. Bayesovské modelování
  15. 15. Bayesovské modelování• Na začátku velmi obecné apriorní rozdělení hodnot nepozorovaných proměnných• Podmíněné rozdělení je rozdělení hodnot pozorovaných proměnných• Aposteriorní rozdělení se použije
  16. 16. K čemu je to dobré?• Pokaždé, když máme agregovaná data, ale ne individuální data• Tedy když známe hodnoty dvou proměnných v populaci, ale ne hodnoty v jejich kontingenční tabulce A B C ? ? ? α ? ? ? β ? ? ? γ
  17. 17. Například• Sociální složení elektorátu (například podíl katolíků versus podíl voličů strany)• Voličské přesuny (podíl voličů strany ve dvou volbách)• Ticket-splitting• Sociální složení populace (například národnost versus náboženské vyznání, nezaměstnanost versus vzdělání)
  18. 18. Nebo• V řadě vědních oborů, jako je – Sociologie – Historie – Ekonomie – Marketing – Geografie – Epidemiologie – Ekologie
  19. 19. Jak přesné jsou tyto výsledky?• Pořád čekáme na ekvivalent testu statistické signifikance• Řešením je (zdá se) vyšetření robustnosti použitých rozdělení a výpočetních algoritmů• Ještě si nikdo nedal tu práci s modelováním milionů simulovaných datových setů• Ale existují rozsáhlé empirické studie (např. 113 švýcarských referend)
  20. 20. Jak přesné jsou tyto výsledky?• Přesnost lze zatím měřit srovnáním s výsledky exit pollu• Příklad: Voličské přesuny v rakouských parlamentních volbách mezi lety 2006 a 2008 (exit poll SORA)
  21. 21. Jak přesné jsou tyto výsledky?modelminus exit SPÖ_08 FPÖ_08 ÖVP_08 G_08 BZÖ_08 ost._08 nev._08pollSPÖ_06 2,31% 0,18% -0,47% -0,38% -0,54% -0,58% -0,54%ÖVP_06 -0,80% 1,23% 1,29% -0,57% -1,89% 0,88% 2,26%G_06 -0,29% -0,09% -0,28% 1,21% -0,08% -0,24% -0,46%FPÖ_06 -0,35% 0,11% -0,09% 0,08% -0,14% -0,07% 0,06%BZÖ_06 -0,14% -0,38% -0,09% -0,05% 1,44% -0,03% -0,11%ost._06 -0,31% -0,61% -0,04% 0,13% -0,32% 0,42% 0,71%nev._06 -0,42% -0,44% -0,29% -0,44% 1,53% -0,38% -1,92%Zelená – model „přeceňuje“ voličské přesunyČervená – model „podceňuje“ voličské přesunyZávěr: Model je „konzervativnější“ než exit poll, vytváření falešný dojem stability
  22. 22. Jak přesné jsou tyto výsledky?• P – přesnost, mi – výsledek model, ei – výsledek exit pollu• Udává podíl voličů, které model „správně zařadil“ P  1  m ei i 2
  23. 23. Jak přesné jsou tyto výsledky?• Voličské přesuny při volbách do rakouského parlamentu: – 1999 → 2002: P = 82,84% – 2002 → 2006: P = 83,33% – 2006 → 2008: P = 86,15%
  24. 24. Jak přesné jsou tyto výsledky?• Voličské přesuny při volbách do Poslanecké sněmovny Parlamentu ČR: – 2006 → 2010: P = 87,89%• Je to hodně nebo málo?• Neví někdo, jaká je statistická odchylka hodnot v buňkách kontingenční tabulky voličských přesunů při exit pollu?
  25. 25. Děkuji za pozornost

×