SlideShare a Scribd company logo
Małe dane, duży wpływ
dr Dominik Batorski
Co ja robię tu?
• Doktorat z socjologii (2004)
• Diagnoza społeczna 2003-2015
– największe polskie ankietowe badania społeczne
• BI w Gadu-Gadu (2008-2010)
• Interdyscyplinarne Centrum Modelowania
Matematycznego i Komputerowego UW
• SmartNet Resear&Solutions
i Sotrender
Plan prezentacji
• Celem mojej prezentacji jest pokazanie, że
czasem niewielkie dane i proste analizy wystarczą
do tego, żeby osiągnąć duży efekt.
• Nie zawsze duże dane są potrzebne.
• Małe jest piękne
i też może mieć duuuże znaczenie.
• Kilka przykładów (ze sfery publicznej):
– Matury
– Dostęp do internetu
– ACTA
Czym się różni data scientist?
Nowe matury w rekrutacji
• W 2006 roku zostałem wybrany na ochotnika
do pracy w komisji rekrutacyjnej do IS UW.
• Od 2005 roku nowe matury zamiast
egzaminów wstępnych na studia.
– Ciekawy moment ze względu na obawy o
porównywalność i współmierność poszczególnych
egzaminów oraz zwiększenie współkandydowania
na różne kierunki.
Kandydowanie na wiele kierunków
• Większość osób zdających na studia na Uniwersytecie
Warszawskim zdawało na więcej niż jeden kierunek.
– Rekordzista kandydował na 25 kierunków studiów. Średnia
liczba kierunków, na które zapisywała się jedna osoba to
2,21
• Dzięki prześledzeniu wzorców współkandydowania na
różne kierunki studiów możliwe było odtworzenie relacji
pomiędzy nimi.
– Jak się okazało istnieją bardzo wyraźne grupy kierunków.
Liczba wybieranych kierunków
7080
4124
2216
1236
651 411 251 144 104 57 47 31 21 6 4 3 4 1 3 1 1
15396
0
2000
4000
6000
8000
10000
12000
14000
16000
18000
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 23 25
Liczba kierunków
liczebność
0
10
20
30
40
50
60
70
80
90
100
procent
Częstość
Procent
20 grudnia 2006 8
Współkandydowanie na kierunki
studiów stacjonarnych
Pokazane zostały
wyłącznie relacje
mające min. 20%
20 grudnia 2006 9
Współkandydowanie na kierunki
studiów stacjonarnych
Pokazane zostały
wyłącznie relacje
mające min. 10%
Wniosek
• Struktura współkandydowania na różne kierunki
studiów pokazuje, że zasadne byłoby
przemyślenie możliwości reformy studiów i
zmiany zasad rekrutacji poprzez wprowadzenia
pierwszego roku studiów o charakterze ogólnym
dla grup kierunków.
– Byłoby to wygodne (i łatwe do zaakceptowania) dla
kandydatów
– Upraszczałoby postępowanie rekrutacyjne
– Pozwalałoby nowym studentom bardziej świadomie
wybrać konkretny kierunek studiów po pierwszym
roku
Czasem okazja pojawia się sama
Zmiana zasad matury
• We wrześniu 2006 MEN
zmieniło zasady matury.
• Zmiana została
wprowadzona już po
ustaleniu zasad rekrutacji
na kolejny rok.
• Maturzyści mieli zdawać
tylko jeden poziom –
podstawowy lub
rozszerzony.
• Jak przeliczyć wyniki?
Matura j.polski: poziom podstawowy a poziom
rozszerzony
Matura j.angielski: poziom podstawowy a
poziom rozszerzony
Matura matematyka: poziom podstawowy a
poziom rozszerzony
Matura historia: poziom podstawowy a poziom
rozszerzony
Matura WOS: poziom podstawowy a poziom
rozszerzony
Matura biologia: poziom podstawowy a poziom
rozszerzony
Matura geografia: poziom podstawowy a
poziom rozszerzony
Wnioski
• Maturzyści będą zniechęcani do wyboru
poziomu rozszerzonego, jeśli nie będzie on
potrzebny do rekrutacji.
• Wyniki z poszczególnych przedmiotów
maturalnych są nieporównywalne
– Kierunki studiów, które wymagają przedmiotów
„do wyboru” powinny uwzględnić to w sposobie
przeliczania punktów.
• Wyniki matur 2007 będą nieporównywalne z
maturami 2005 i 2006.
Data scientist to zawód
podwyższonego ryzyka
Co było dalej?
• Media, prawnicy, komisje, … Trybunał
Konstytucyjny.
• Efekt?
• Znaczący spadek liczby osób zdających maturę
na poziomie rozszerzonym
– z matematyki 78 do 53% wśród zdających ten
przedmiot,
– z języka polskiego z 27% do 11%
Czasami dane są nie tam,
gdzie są potrzebne
Nie każde dane dają pełen obraz
Dyfuzja informacji
• Wpływ na agendę.
• Rozprzestrzenianie
informacji bez udziału
mediów tradycyjnych.
• Weekly viral reach
około 3 000 000
użytkowników.
0
100000
200000
300000
400000
500000
600000
700000
no to ACTA no to ACTA in
Poland
comment
deleted by ACTA
Daily talking about
Kto protestował?
34%
44%
17%
3%
1% 1%
45%
38%
13%
2%
1% 1%
33%
40%
19%
4%
1% 2%
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
50%
13-17 18-24 25-34 35-44 45-54 55+
age of fans
No to ACTA in Poland
Comment deleted by ACTA
No to ACTA
Analiza struktury fanów 3 głównych stron przeciwko ACTA na Facebooku
Oddolny ruch społeczny bez
formalnych liderów?
• Znaczenie
zaangażowania
tradycyjnych organizacji
• Krótkotrwałość
zaangażowania
Clicktivism (1). Zaangażowanie
użytkowników jest zróżnicowane…
215 120 users active
on 3 most popular Facebook
pages against ACTA within
first days of protests.
Clicktivism (2). Pojawia się szybko
… i szybko maleje w czasie
The government declared
withdrawal from the ACTA
when protests in social
media already declined.
What would happen if
they waited a couple of
days longer?
W internecie nic nie ginie
Kasowanie informacji?
• 25 stycznia Kancelaria Premiera skasowała prawie 8000
komentarzy przeciw ACTA, które użytkownicy umieścili
na profilu Kancelarii Premiera na Facebooku.
• Było to uzasadniane wulgarnością komentarzy.
• Jednak dane zostały zarchiwizowane i przeanalizowane
przez
– Tylko 3% treści zawierało groźby lub wulgaryzmy.
– 45% to proste protesty: STOP ACTA, Nie dla ACTA, itp.
– Maski Guy Fawkes’a w ASCI (34%).
– Poważne i merytoryczne komentarze (11%)
Reakcja użytkowników
I tak zostałem memem
Dziękuję
czas na pytania
@DominikBatorski
db@uw.edu.pl

More Related Content

Similar to Małe dane, duży wpływ - Dominik Batorski ICM

Badania Ewaluacyjne 2
Badania Ewaluacyjne 2Badania Ewaluacyjne 2
Badania Ewaluacyjne 2
Radek Oryszczyszyn
 
METODY I TECHNIKI POMIARU EFEKTÓW DZIAŁAŃ PUBLIC RELATIONS WYKORZYSTYWANE W B...
METODY I TECHNIKI POMIARU EFEKTÓW DZIAŁAŃ PUBLIC RELATIONS WYKORZYSTYWANE W B...METODY I TECHNIKI POMIARU EFEKTÓW DZIAŁAŃ PUBLIC RELATIONS WYKORZYSTYWANE W B...
METODY I TECHNIKI POMIARU EFEKTÓW DZIAŁAŃ PUBLIC RELATIONS WYKORZYSTYWANE W B...
Dariusz Tworzydło
 
Social Media - kiedy trudno uwierzyć własnym oczom, Janusz Bujko, Pentor Rese...
Social Media - kiedy trudno uwierzyć własnym oczom, Janusz Bujko, Pentor Rese...Social Media - kiedy trudno uwierzyć własnym oczom, Janusz Bujko, Pentor Rese...
Social Media - kiedy trudno uwierzyć własnym oczom, Janusz Bujko, Pentor Rese...Biznes 2.0
 
Stypendium z wyboru Przemysław Gawłowski
Stypendium z wyboru Przemysław GawłowskiStypendium z wyboru Przemysław Gawłowski
Stypendium z wyboru Przemysław Gawłowskilesji
 
Reaktor Opinii - Panel Badawczy Instytutu Badań Pollster
Reaktor Opinii - Panel Badawczy Instytutu Badań PollsterReaktor Opinii - Panel Badawczy Instytutu Badań Pollster
Reaktor Opinii - Panel Badawczy Instytutu Badań Pollster
Instytut Badań Pollster
 
Reaktor Opinii - panel badawczy Instytutu Badań Pollster
Reaktor Opinii - panel badawczy Instytutu Badań PollsterReaktor Opinii - panel badawczy Instytutu Badań Pollster
Reaktor Opinii - panel badawczy Instytutu Badań Pollster
Instytut Badań Pollster
 
Co oferuje Tela?
Co oferuje Tela?Co oferuje Tela?
Co oferuje Tela?
Tela
 
Opinie polskich specjalistów
Opinie polskich specjalistów Opinie polskich specjalistów
Opinie polskich specjalistów Anna Miotk
 
Środowisko do konsultacji społecznych on-line
Środowisko do konsultacji społecznych on-lineŚrodowisko do konsultacji społecznych on-line
Środowisko do konsultacji społecznych on-line
IRCenter
 
Prezentacja drogowskazy kariery
Prezentacja drogowskazy karieryPrezentacja drogowskazy kariery
Prezentacja drogowskazy karieryBartosz Majewski
 
Wszystko, co trzeba wiedzieć o badaniach panelowych, Marcin Piwowarczyk, IMAS...
Wszystko, co trzeba wiedzieć o badaniach panelowych, Marcin Piwowarczyk, IMAS...Wszystko, co trzeba wiedzieć o badaniach panelowych, Marcin Piwowarczyk, IMAS...
Wszystko, co trzeba wiedzieć o badaniach panelowych, Marcin Piwowarczyk, IMAS...Biznes 2.0
 
2009.03 Diagnoza Internetu 2008 - Raport
2009.03 Diagnoza Internetu 2008 - Raport2009.03 Diagnoza Internetu 2008 - Raport
2009.03 Diagnoza Internetu 2008 - Raport
ARBOinteractive Polska
 
Koncepcja cyfrowej transformacji sieci organizacji publicznych
Koncepcja cyfrowej transformacji sieci organizacji publicznychKoncepcja cyfrowej transformacji sieci organizacji publicznych
Koncepcja cyfrowej transformacji sieci organizacji publicznych
Andrzej Sobczak
 
Konflikt a dizajn
Konflikt a dizajnKonflikt a dizajn
Konflikt a dizajn
School of Form
 
Ewaluacja jako narzędzie monitorowania procesu zmiany
Ewaluacja jako narzędzie monitorowania procesu zmianyEwaluacja jako narzędzie monitorowania procesu zmiany
Ewaluacja jako narzędzie monitorowania procesu zmiany
Grupa Trop
 
Jak przeprowadzić diagnozę społeczną?
Jak przeprowadzić diagnozę społeczną?Jak przeprowadzić diagnozę społeczną?
Jak przeprowadzić diagnozę społeczną?Masz Głos, Masz Wybór
 
Raport edukacja zdalna w gdansku 2020 2021
Raport edukacja zdalna w gdansku 2020 2021Raport edukacja zdalna w gdansku 2020 2021
Raport edukacja zdalna w gdansku 2020 2021
gdanskpl
 
Stypendium z wyboru Przemysław Gawłowski
Stypendium z wyboru Przemysław GawłowskiStypendium z wyboru Przemysław Gawłowski
Stypendium z wyboru Przemysław Gawłowski
lesji
 
Jak badać korzystanie ze zbiorów cyfrowych: kilka propozycji
Jak badać korzystanie ze zbiorów cyfrowych: kilka propozycjiJak badać korzystanie ze zbiorów cyfrowych: kilka propozycji
Jak badać korzystanie ze zbiorów cyfrowych: kilka propozycji
Marcin Wilkowski
 
Współpraca Sotrendera i Virgin Mobile
Współpraca Sotrendera i Virgin MobileWspółpraca Sotrendera i Virgin Mobile
Współpraca Sotrendera i Virgin Mobile
Sotrender
 

Similar to Małe dane, duży wpływ - Dominik Batorski ICM (20)

Badania Ewaluacyjne 2
Badania Ewaluacyjne 2Badania Ewaluacyjne 2
Badania Ewaluacyjne 2
 
METODY I TECHNIKI POMIARU EFEKTÓW DZIAŁAŃ PUBLIC RELATIONS WYKORZYSTYWANE W B...
METODY I TECHNIKI POMIARU EFEKTÓW DZIAŁAŃ PUBLIC RELATIONS WYKORZYSTYWANE W B...METODY I TECHNIKI POMIARU EFEKTÓW DZIAŁAŃ PUBLIC RELATIONS WYKORZYSTYWANE W B...
METODY I TECHNIKI POMIARU EFEKTÓW DZIAŁAŃ PUBLIC RELATIONS WYKORZYSTYWANE W B...
 
Social Media - kiedy trudno uwierzyć własnym oczom, Janusz Bujko, Pentor Rese...
Social Media - kiedy trudno uwierzyć własnym oczom, Janusz Bujko, Pentor Rese...Social Media - kiedy trudno uwierzyć własnym oczom, Janusz Bujko, Pentor Rese...
Social Media - kiedy trudno uwierzyć własnym oczom, Janusz Bujko, Pentor Rese...
 
Stypendium z wyboru Przemysław Gawłowski
Stypendium z wyboru Przemysław GawłowskiStypendium z wyboru Przemysław Gawłowski
Stypendium z wyboru Przemysław Gawłowski
 
Reaktor Opinii - Panel Badawczy Instytutu Badań Pollster
Reaktor Opinii - Panel Badawczy Instytutu Badań PollsterReaktor Opinii - Panel Badawczy Instytutu Badań Pollster
Reaktor Opinii - Panel Badawczy Instytutu Badań Pollster
 
Reaktor Opinii - panel badawczy Instytutu Badań Pollster
Reaktor Opinii - panel badawczy Instytutu Badań PollsterReaktor Opinii - panel badawczy Instytutu Badań Pollster
Reaktor Opinii - panel badawczy Instytutu Badań Pollster
 
Co oferuje Tela?
Co oferuje Tela?Co oferuje Tela?
Co oferuje Tela?
 
Opinie polskich specjalistów
Opinie polskich specjalistów Opinie polskich specjalistów
Opinie polskich specjalistów
 
Środowisko do konsultacji społecznych on-line
Środowisko do konsultacji społecznych on-lineŚrodowisko do konsultacji społecznych on-line
Środowisko do konsultacji społecznych on-line
 
Prezentacja drogowskazy kariery
Prezentacja drogowskazy karieryPrezentacja drogowskazy kariery
Prezentacja drogowskazy kariery
 
Wszystko, co trzeba wiedzieć o badaniach panelowych, Marcin Piwowarczyk, IMAS...
Wszystko, co trzeba wiedzieć o badaniach panelowych, Marcin Piwowarczyk, IMAS...Wszystko, co trzeba wiedzieć o badaniach panelowych, Marcin Piwowarczyk, IMAS...
Wszystko, co trzeba wiedzieć o badaniach panelowych, Marcin Piwowarczyk, IMAS...
 
2009.03 Diagnoza Internetu 2008 - Raport
2009.03 Diagnoza Internetu 2008 - Raport2009.03 Diagnoza Internetu 2008 - Raport
2009.03 Diagnoza Internetu 2008 - Raport
 
Koncepcja cyfrowej transformacji sieci organizacji publicznych
Koncepcja cyfrowej transformacji sieci organizacji publicznychKoncepcja cyfrowej transformacji sieci organizacji publicznych
Koncepcja cyfrowej transformacji sieci organizacji publicznych
 
Konflikt a dizajn
Konflikt a dizajnKonflikt a dizajn
Konflikt a dizajn
 
Ewaluacja jako narzędzie monitorowania procesu zmiany
Ewaluacja jako narzędzie monitorowania procesu zmianyEwaluacja jako narzędzie monitorowania procesu zmiany
Ewaluacja jako narzędzie monitorowania procesu zmiany
 
Jak przeprowadzić diagnozę społeczną?
Jak przeprowadzić diagnozę społeczną?Jak przeprowadzić diagnozę społeczną?
Jak przeprowadzić diagnozę społeczną?
 
Raport edukacja zdalna w gdansku 2020 2021
Raport edukacja zdalna w gdansku 2020 2021Raport edukacja zdalna w gdansku 2020 2021
Raport edukacja zdalna w gdansku 2020 2021
 
Stypendium z wyboru Przemysław Gawłowski
Stypendium z wyboru Przemysław GawłowskiStypendium z wyboru Przemysław Gawłowski
Stypendium z wyboru Przemysław Gawłowski
 
Jak badać korzystanie ze zbiorów cyfrowych: kilka propozycji
Jak badać korzystanie ze zbiorów cyfrowych: kilka propozycjiJak badać korzystanie ze zbiorów cyfrowych: kilka propozycji
Jak badać korzystanie ze zbiorów cyfrowych: kilka propozycji
 
Współpraca Sotrendera i Virgin Mobile
Współpraca Sotrendera i Virgin MobileWspółpraca Sotrendera i Virgin Mobile
Współpraca Sotrendera i Virgin Mobile
 

More from Data Science Warsaw

Wizualne budowanie aplikacji na Sparku przy pomocy narzędzia Seahorse
Wizualne budowanie aplikacji na Sparku przy pomocy narzędzia SeahorseWizualne budowanie aplikacji na Sparku przy pomocy narzędzia Seahorse
Wizualne budowanie aplikacji na Sparku przy pomocy narzędzia Seahorse
Data Science Warsaw
 
Neptune - narzędzie do monitorowania i zarządzania eksperymentami Machine Lea...
Neptune - narzędzie do monitorowania i zarządzania eksperymentami Machine Lea...Neptune - narzędzie do monitorowania i zarządzania eksperymentami Machine Lea...
Neptune - narzędzie do monitorowania i zarządzania eksperymentami Machine Lea...
Data Science Warsaw
 
CRISP-DM Agile Approach to Data Mining Projects
CRISP-DM Agile Approach to Data Mining ProjectsCRISP-DM Agile Approach to Data Mining Projects
CRISP-DM Agile Approach to Data Mining Projects
Data Science Warsaw
 
Online content popularity prediction
Online content popularity predictionOnline content popularity prediction
Online content popularity prediction
Data Science Warsaw
 
Rozwiązywanie problemów optymalizacyjnych
Rozwiązywanie problemów optymalizacyjnychRozwiązywanie problemów optymalizacyjnych
Rozwiązywanie problemów optymalizacyjnych
Data Science Warsaw
 
Ile informacji jest w danych?
Ile informacji jest w danych?Ile informacji jest w danych?
Ile informacji jest w danych?
Data Science Warsaw
 
Analiza języka naturalnego
Analiza języka naturalnegoAnaliza języka naturalnego
Analiza języka naturalnego
Data Science Warsaw
 
Otwarte Miasta
Otwarte MiastaOtwarte Miasta
Otwarte Miasta
Data Science Warsaw
 
How to build your own google
How to build your own googleHow to build your own google
How to build your own google
Data Science Warsaw
 
To się w ram ie nie zmieści
To się w ram ie nie zmieściTo się w ram ie nie zmieści
To się w ram ie nie zmieści
Data Science Warsaw
 
Azure - Duże zbiory w chmurze
Azure - Duże zbiory w chmurzeAzure - Duże zbiory w chmurze
Azure - Duże zbiory w chmurze
Data Science Warsaw
 
Data Science Warsaw
Data Science WarsawData Science Warsaw
Data Science Warsaw
Data Science Warsaw
 
Data science w ubezpieczeniach
Data science w ubezpieczeniachData science w ubezpieczeniach
Data science w ubezpieczeniach
Data Science Warsaw
 
As simple as Apache Spark
As simple as Apache SparkAs simple as Apache Spark
As simple as Apache Spark
Data Science Warsaw
 
Big Data, Wearable, sztuczna inteligencja i ekonomia współpracy
Big  Data, Wearable, sztuczna inteligencja i ekonomia współpracyBig  Data, Wearable, sztuczna inteligencja i ekonomia współpracy
Big Data, Wearable, sztuczna inteligencja i ekonomia współpracy
Data Science Warsaw
 
Ask Data Anything
Ask Data AnythingAsk Data Anything
Ask Data Anything
Data Science Warsaw
 
Geolokalizacja i analizy przestrzenne: trzy wymiary a ile pracy dla analityka!
Geolokalizacja i analizy przestrzenne: trzy wymiary a ile pracy dla analityka!Geolokalizacja i analizy przestrzenne: trzy wymiary a ile pracy dla analityka!
Geolokalizacja i analizy przestrzenne: trzy wymiary a ile pracy dla analityka!
Data Science Warsaw
 
Data Exchange - the missing link in the big data value chain
Data Exchange - the missing link in the big data value chainData Exchange - the missing link in the big data value chain
Data Exchange - the missing link in the big data value chain
Data Science Warsaw
 
Metody logiczne w analizie danych
Metody logiczne w analizie danych Metody logiczne w analizie danych
Metody logiczne w analizie danych
Data Science Warsaw
 
Haven 2 0
Haven 2 0 Haven 2 0

More from Data Science Warsaw (20)

Wizualne budowanie aplikacji na Sparku przy pomocy narzędzia Seahorse
Wizualne budowanie aplikacji na Sparku przy pomocy narzędzia SeahorseWizualne budowanie aplikacji na Sparku przy pomocy narzędzia Seahorse
Wizualne budowanie aplikacji na Sparku przy pomocy narzędzia Seahorse
 
Neptune - narzędzie do monitorowania i zarządzania eksperymentami Machine Lea...
Neptune - narzędzie do monitorowania i zarządzania eksperymentami Machine Lea...Neptune - narzędzie do monitorowania i zarządzania eksperymentami Machine Lea...
Neptune - narzędzie do monitorowania i zarządzania eksperymentami Machine Lea...
 
CRISP-DM Agile Approach to Data Mining Projects
CRISP-DM Agile Approach to Data Mining ProjectsCRISP-DM Agile Approach to Data Mining Projects
CRISP-DM Agile Approach to Data Mining Projects
 
Online content popularity prediction
Online content popularity predictionOnline content popularity prediction
Online content popularity prediction
 
Rozwiązywanie problemów optymalizacyjnych
Rozwiązywanie problemów optymalizacyjnychRozwiązywanie problemów optymalizacyjnych
Rozwiązywanie problemów optymalizacyjnych
 
Ile informacji jest w danych?
Ile informacji jest w danych?Ile informacji jest w danych?
Ile informacji jest w danych?
 
Analiza języka naturalnego
Analiza języka naturalnegoAnaliza języka naturalnego
Analiza języka naturalnego
 
Otwarte Miasta
Otwarte MiastaOtwarte Miasta
Otwarte Miasta
 
How to build your own google
How to build your own googleHow to build your own google
How to build your own google
 
To się w ram ie nie zmieści
To się w ram ie nie zmieściTo się w ram ie nie zmieści
To się w ram ie nie zmieści
 
Azure - Duże zbiory w chmurze
Azure - Duże zbiory w chmurzeAzure - Duże zbiory w chmurze
Azure - Duże zbiory w chmurze
 
Data Science Warsaw
Data Science WarsawData Science Warsaw
Data Science Warsaw
 
Data science w ubezpieczeniach
Data science w ubezpieczeniachData science w ubezpieczeniach
Data science w ubezpieczeniach
 
As simple as Apache Spark
As simple as Apache SparkAs simple as Apache Spark
As simple as Apache Spark
 
Big Data, Wearable, sztuczna inteligencja i ekonomia współpracy
Big  Data, Wearable, sztuczna inteligencja i ekonomia współpracyBig  Data, Wearable, sztuczna inteligencja i ekonomia współpracy
Big Data, Wearable, sztuczna inteligencja i ekonomia współpracy
 
Ask Data Anything
Ask Data AnythingAsk Data Anything
Ask Data Anything
 
Geolokalizacja i analizy przestrzenne: trzy wymiary a ile pracy dla analityka!
Geolokalizacja i analizy przestrzenne: trzy wymiary a ile pracy dla analityka!Geolokalizacja i analizy przestrzenne: trzy wymiary a ile pracy dla analityka!
Geolokalizacja i analizy przestrzenne: trzy wymiary a ile pracy dla analityka!
 
Data Exchange - the missing link in the big data value chain
Data Exchange - the missing link in the big data value chainData Exchange - the missing link in the big data value chain
Data Exchange - the missing link in the big data value chain
 
Metody logiczne w analizie danych
Metody logiczne w analizie danych Metody logiczne w analizie danych
Metody logiczne w analizie danych
 
Haven 2 0
Haven 2 0 Haven 2 0
Haven 2 0
 

Małe dane, duży wpływ - Dominik Batorski ICM

  • 1. Małe dane, duży wpływ dr Dominik Batorski
  • 2. Co ja robię tu? • Doktorat z socjologii (2004) • Diagnoza społeczna 2003-2015 – największe polskie ankietowe badania społeczne • BI w Gadu-Gadu (2008-2010) • Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego UW • SmartNet Resear&Solutions i Sotrender
  • 3. Plan prezentacji • Celem mojej prezentacji jest pokazanie, że czasem niewielkie dane i proste analizy wystarczą do tego, żeby osiągnąć duży efekt. • Nie zawsze duże dane są potrzebne. • Małe jest piękne i też może mieć duuuże znaczenie. • Kilka przykładów (ze sfery publicznej): – Matury – Dostęp do internetu – ACTA
  • 4. Czym się różni data scientist?
  • 5. Nowe matury w rekrutacji • W 2006 roku zostałem wybrany na ochotnika do pracy w komisji rekrutacyjnej do IS UW. • Od 2005 roku nowe matury zamiast egzaminów wstępnych na studia. – Ciekawy moment ze względu na obawy o porównywalność i współmierność poszczególnych egzaminów oraz zwiększenie współkandydowania na różne kierunki.
  • 6. Kandydowanie na wiele kierunków • Większość osób zdających na studia na Uniwersytecie Warszawskim zdawało na więcej niż jeden kierunek. – Rekordzista kandydował na 25 kierunków studiów. Średnia liczba kierunków, na które zapisywała się jedna osoba to 2,21 • Dzięki prześledzeniu wzorców współkandydowania na różne kierunki studiów możliwe było odtworzenie relacji pomiędzy nimi. – Jak się okazało istnieją bardzo wyraźne grupy kierunków.
  • 7. Liczba wybieranych kierunków 7080 4124 2216 1236 651 411 251 144 104 57 47 31 21 6 4 3 4 1 3 1 1 15396 0 2000 4000 6000 8000 10000 12000 14000 16000 18000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 23 25 Liczba kierunków liczebność 0 10 20 30 40 50 60 70 80 90 100 procent Częstość Procent
  • 8. 20 grudnia 2006 8 Współkandydowanie na kierunki studiów stacjonarnych Pokazane zostały wyłącznie relacje mające min. 20%
  • 9. 20 grudnia 2006 9 Współkandydowanie na kierunki studiów stacjonarnych Pokazane zostały wyłącznie relacje mające min. 10%
  • 10. Wniosek • Struktura współkandydowania na różne kierunki studiów pokazuje, że zasadne byłoby przemyślenie możliwości reformy studiów i zmiany zasad rekrutacji poprzez wprowadzenia pierwszego roku studiów o charakterze ogólnym dla grup kierunków. – Byłoby to wygodne (i łatwe do zaakceptowania) dla kandydatów – Upraszczałoby postępowanie rekrutacyjne – Pozwalałoby nowym studentom bardziej świadomie wybrać konkretny kierunek studiów po pierwszym roku
  • 12. Zmiana zasad matury • We wrześniu 2006 MEN zmieniło zasady matury. • Zmiana została wprowadzona już po ustaleniu zasad rekrutacji na kolejny rok. • Maturzyści mieli zdawać tylko jeden poziom – podstawowy lub rozszerzony. • Jak przeliczyć wyniki?
  • 13. Matura j.polski: poziom podstawowy a poziom rozszerzony
  • 14. Matura j.angielski: poziom podstawowy a poziom rozszerzony
  • 15. Matura matematyka: poziom podstawowy a poziom rozszerzony
  • 16. Matura historia: poziom podstawowy a poziom rozszerzony
  • 17. Matura WOS: poziom podstawowy a poziom rozszerzony
  • 18. Matura biologia: poziom podstawowy a poziom rozszerzony
  • 19. Matura geografia: poziom podstawowy a poziom rozszerzony
  • 20. Wnioski • Maturzyści będą zniechęcani do wyboru poziomu rozszerzonego, jeśli nie będzie on potrzebny do rekrutacji. • Wyniki z poszczególnych przedmiotów maturalnych są nieporównywalne – Kierunki studiów, które wymagają przedmiotów „do wyboru” powinny uwzględnić to w sposobie przeliczania punktów. • Wyniki matur 2007 będą nieporównywalne z maturami 2005 i 2006.
  • 21. Data scientist to zawód podwyższonego ryzyka
  • 22. Co było dalej? • Media, prawnicy, komisje, … Trybunał Konstytucyjny. • Efekt? • Znaczący spadek liczby osób zdających maturę na poziomie rozszerzonym – z matematyki 78 do 53% wśród zdających ten przedmiot, – z języka polskiego z 27% do 11%
  • 23. Czasami dane są nie tam, gdzie są potrzebne
  • 24.
  • 25.
  • 26.
  • 27.
  • 28.
  • 29.
  • 30.
  • 31. Nie każde dane dają pełen obraz
  • 32.
  • 33. Dyfuzja informacji • Wpływ na agendę. • Rozprzestrzenianie informacji bez udziału mediów tradycyjnych. • Weekly viral reach około 3 000 000 użytkowników. 0 100000 200000 300000 400000 500000 600000 700000 no to ACTA no to ACTA in Poland comment deleted by ACTA Daily talking about
  • 34. Kto protestował? 34% 44% 17% 3% 1% 1% 45% 38% 13% 2% 1% 1% 33% 40% 19% 4% 1% 2% 0% 5% 10% 15% 20% 25% 30% 35% 40% 45% 50% 13-17 18-24 25-34 35-44 45-54 55+ age of fans No to ACTA in Poland Comment deleted by ACTA No to ACTA Analiza struktury fanów 3 głównych stron przeciwko ACTA na Facebooku
  • 35. Oddolny ruch społeczny bez formalnych liderów? • Znaczenie zaangażowania tradycyjnych organizacji • Krótkotrwałość zaangażowania
  • 36. Clicktivism (1). Zaangażowanie użytkowników jest zróżnicowane… 215 120 users active on 3 most popular Facebook pages against ACTA within first days of protests.
  • 37. Clicktivism (2). Pojawia się szybko … i szybko maleje w czasie The government declared withdrawal from the ACTA when protests in social media already declined. What would happen if they waited a couple of days longer?
  • 38. W internecie nic nie ginie
  • 39. Kasowanie informacji? • 25 stycznia Kancelaria Premiera skasowała prawie 8000 komentarzy przeciw ACTA, które użytkownicy umieścili na profilu Kancelarii Premiera na Facebooku. • Było to uzasadniane wulgarnością komentarzy. • Jednak dane zostały zarchiwizowane i przeanalizowane przez – Tylko 3% treści zawierało groźby lub wulgaryzmy. – 45% to proste protesty: STOP ACTA, Nie dla ACTA, itp. – Maski Guy Fawkes’a w ASCI (34%). – Poważne i merytoryczne komentarze (11%)