Barnaby Rich szindróma a 21.
században
Hámori Balázs
Ünnepi konferencia Szabó Katalin 70. születésnapja alkalmából, 2014. november 5.
----------------------------------------------------------------------------------------------------------
Amiről ma szó lesz…
o Robbanásszerű adatfeldúsulás
o Barnaby Rich szindróma
o Az elmélet lemaradása
o Big Data
o Az információs szennyeződés mint externália
o Az adatok természetének a változása
o A közgazdasági kutatások új perspektívái
o Big Data elemzések a gyakorlatban
o A Big Data Magyarországon
Adatförgeteg
o 2012- re 20 (!) tipikus – széles sávú internettel ellátott –
háztartás több információ-forgalmat generál, mint amennyi
2008-ban az egész interneten átfolyt.
o 2010 végére egy fél zettabyte-nyi adat ment át az interneten,
ami körülbelül akkora információ-mennyiségnek felel meg, mint
amennyit egy 36 milliárd mérföld hosszú (ez a Föld és a Pluto
távolságának a tízszerese) könyvespolc tartalmaz.
o Minden öt percben (!) akkora digitális adatförgeteget
generálunk, amely egyenértékű az amerikai Kongresszusi
Könyvtárban tárolt információmennyiséggel
1 zettabyte a számítógépes adattárolás egysége 1 sextillion bytes
(10007 vagy 1021)
Forrás: Https://www.cisco.com/web/about/ac79/docs/pov/Data_Explosion_IBSG.pdf
Barnaby Rich szindróma
o A 17. században élt ír
katonaorvosról Barnaby Rich-
szindrómának nevezték el a
szüntelen panaszkodást az irodalom
túlcsordulása, exponenciális
szaporodása, mértéktelen
burjánzása miatt. Mit szólna
Barnaby Rich a mai állapotokhoz?
o A publikációk csak a jéghegy csúcsát
jelentik, és eltörpülnek az
elképzelhetetlen méretű
adattermelés mellett
o Az University of San Diego egy
tanulmánya szerint az átlag amerikai
napi 11,8 (!) órát tölt információ-
fogyasztással, ez alatt napi 34
gigabyte információt fogyaszt.
2000-ben becslések szerint a világ teljes
információ mennyiségének a negyedét
tárolták digitálisan, ma ez az arány 98 %
2005-től kezdve a jelenség Big Data
néven vonult be a köztudatba
Az USA 17
ágazatából 15-ben a
Vállalatok
egyenként több
adatot tárolnak
átlagosan, mint a
Kongresszusi
Könyvtár
Információs szennyeződés mint
externália
o Az információtermelő folyamatok káros
mellékhatása a kéretlen
reklámanyagoktól a spameken
keresztül a gépeket megtámadó
férgekig és vírusokig.
o A felesleges információk eltömítik az
információs csatornákat, megnehezítik
a keresést, ezáltal kárt okoznak mind az
információtermelőknek, mind az
információfogyasztóknak
o A szennyeződésnek ez a formája
láthatatlan, additív, destruktív, hosszú
távú hatású, a jog által is védelmezett,
rejtett költségei vannak és
visszafordíthatatlan, a szennyezők
nehezen megfoghatók
o Ezek negatív externális hatást fejtenek
ki.
Az elmélet lemaradása
oAz információ közgazdaságtana
sokáig szinte egyáltalán nem
foglalkozott az információs
túlterheléssel. Sokkal inkább a
hiányos információk kötötték
le a közgazdászok figyelmét
(aszimmetrikus információk,
bizonytalanság, stb.)
oNem az információ, hanem az
észleléséhez, feldolgozásához,
megemésztéséhez szükséges
figyelem szűkös.
oEbből viszont következik,
hogy e szűkös jószágot, a
figyelmet hatékonyan kell
allokálni a különféle
felhasználási lehetőségek
között.
oAz allokációs problémát
azonban csak akkor lehet
jól megoldani, ha
megtaláljuk a szűkös
erőforrás mérésére
szolgáló eszközöket (Simon,
1982, p. 151.)
oEz az idő
Big Data
oMcKinsey Global Institute
(2011) a Big Datára olyan
adategyüttesként hivatkozik,
„amelynek a mérete
túlnyúlik a tipikus adatbázis-
kezelő szoftverek rögzítési,
raktározási, menedzselési és
analizálási képességén”.
o„Az adattömeg túl nagy, túl
gyorsan mozog, vagy nem
illeszkedik az adatbázis
architektúrájához.”
(Edd Dumbill, 2012)
Az adatok természetének változása
a Big Data korszakban
o Ezek ráadásul valós időben és
torzításmentesen állnak
rendelkezésre, amelyek a
korábbi -- felmérésekkel
beszerzett -- adatokról
egyáltalán nem volt
elmondható
o Lehetővé teszi a kutatók
számára hogy nyomon
kövessék a különböző
gazdaságpolitikai intézkedések
és intézményi változások
következményeit
o Negatív konnotáció helyett inkább
pozitív jelenségként tekinthetünk
rá, mert ami kezelhetetlen vagy
strukturálatlan egy adott
időpontban valamivel később a
számítás-technikának
köszönhetően már kezelhető lehet
o Korábban elérhetetlen vagy
nehezen megfigyelhető, ám
gazdasági szempontból fontos
adatok néhány klikkeléssel
beszerezhetők (emberek
helyváltoztatása, kapcsolathálójuk,
stb.)
o Néhány évvel ezelőtt az üzletek csak a napi forgalomról összesítve gyűjthettek
adatokat, jó esetben termékek , illetve termékkategóriák szerint. Ma a
pénztárgépek lehetővé teszik, hogy egyénenként rögzíthessék a vásárlásokat,
nyomon kövessék a vevőtörténetet, vagyis hosszú távon megfigyelhessék az
individuális vevő megatartását és annak a trendjeit, ajánlataikat, illetve
promóciós tevékenységüket feltételezett vevőcsoportok helyett az egyes
egyénekhez igazítsák.
o A kutatók számára ezek adatok valóságos aranybányát jelentenek, különösen
ha összekötik őket a demográfiai adatokkal, a közösségi médián keresztül
nyomon követhető aktivitással vagy a hiteltörténettel. (V.ö. Einav&Levin,
NBER, 2014)
o Nincs szükség feltételezésekre a reprezentatív fogyasztóról, szélsőséges
leegyszerűsítésekre a modellépítéskor, közvetlenül és teljeskörűen
megfigyelhető a valóság. Ez egészen új megvilágításba helyezi a közgazdasági
kutatások és a valóság viszonyát, amely eddig talán a legkritikusabb pontja
volt tudományágunknak
Új perspektívák a közgazdasági kutatások
előtt: teljes körű megfigyelés
Big Data Big Thinking
o A kutatók predikcióra is alkalmas
összefüggést találtak a Wikipedia
pénzügyi témájú keresései és
a Wall Street nagy zuhanásai között.
o Mivel az emberek kockázatkerülők,
főként az eladások előtt keresgéltek
a Wikipédián, ezért a keresések
megugró száma előre vetítette a
krachot.
o A nagy tömegű adat pénzügyi célú
feldolgozására egy egészen új
tudományterület, az ökonofizika
épült.
Gingras, Y. - Schinckus, C. (2012):
The Institutionalization of
Econophysics in the Shadow of Physics,
Journal of the History of Economic
Thought, Volume 34, Number 1,
March 2012
A Big Data előnyei a közgazdasági
kutatások szempontjából
o Meglévő adatok használhatók, amelyek olcsóbak
az originális adatok létrehozásánál (például
felmérésekkel)
o Amennyiben automatikusan keletkeznek (például
klikkeléssel, vagy egy vásárlás tételeinek a
beütésével) többnyire torzításmentesek, szemben
a lekérdezéssel nyert adatokkal
o Megragadhatók olyan események és jelenségek
is, amelyek relatíve ritkák, a nagy adattömegben
azonban következtetések levonására is alkalmas
számban fordulnak elő
o Kombinálhatók egymással és a tradicionális
módon nyert adatokkal
o A nagy adattömeg megbízhatóbb, mint a
korlátozott körben gyűjtött adathalom
Kihívások a Big Data kutatási célú
felhasználásakor
oAdatbázisokhoz való hozzáférés, a
megismételhetőség nehézségei
oSpeciális szaktudásra van szükség a
nagy adatbázisok elemzéshez (A
Gartner szerint 2015-ig világszerte 4,4
millió munkahelyet kell majd betölteni
a "big data", elemzésében jártas
szakemberekkel.)
oZajos adatok, a zajok
kiszűrése nem egyszerű
(Cho & Judge, 2013)
oHamis kapcsolatok kimutatása
Mire használják a Big Data elemzéseket a
gyakorlatban?
• A Google 2009-ben hatékonyan
jelezte előre a sertésinfluenza
vírus terjedését, anélkül, hogy
egyetlen orvosi vizsgálatot is
végeztek volna. A keresőmotor,
amely naponta mintegy 3 milliárd
keresési kérést dolgoz fel, 450
millió modellt értékelt, amelyek a
sertésinfluenzával kapcsolatos 50
millió legnépszerűbb keresőszó
kombinációján alapultak, és
felépített egy 45 keresőszóból álló
modellt, amely tényleg jól
teljesített a sertésinfluenza
előrejelzésében.
• Rolls Royce a jet-motorok néhány
tucat szenzora által továbbított
adatokat gyűjtött. Ezek a
kereskedelmi járatok minden
egyes útján detektálták az
alkatrészeket, hogy ennek
alapján előre jelezze azt, mikor
megy valószínűen tönkre egy
alkatrész, és kicserélje azt,
mielőtt az valóban felmondta
volna a szolgálatot. Az utasoknak
ez nagyobb biztonságot, a
légitársaságoknak kevesebb
meghibásodást jelentett, és
ennek alapján a Rolls Royce
sokkal előnyösebb karbantartási
szerződéseket tudott ajánlani.
További példák
o Az energiaszektorban új
lehetőségeket nyit meg az okos
mérők elterjedése és a adataik
részletes elemzése
o Bérszámfejtésre kb. 500.000
vállalat használ az USA-ban
ADP (Automatic Data
Processing) szoftvert
o Az ADP kutatóintézete
együttműködve Moody’s
Analitics-szel havi jelentést ad
a foglalkoztatásról. Az adatok
ennek az 500.000 vállalatnak
az automatikus bérszámfejtő
szoftver-adataiból származnak
oAz állam is felismerte az
adatelemzésben rejlő
lehetőségeket, jó példa erre
az online pénztárgépek
bevezetése és a belőlük
nyert adatok kockázatalapú
elemzése.
A Big Data Magyarországon
o Az MTA Wigner Fizikai Kutatóközpont a
magyarországi Big Data kutatásokban
érdekelt tudományos közösségeknek
szervezett konferenciát 2013
szeptemberében
o A konferencián a Microsoft munkatársa
elmondta: ők a közösségi hálón
történteket elemzik. Hangulatokra,
trendekre, véleményvezérekre
kíváncsiak, az eredményeket aztán a
marketingkampányokban szeretnék
felhasználni.
o Az üzleti élet és a munkaerőpiac várható
változásaira készülve indít közös
mesterképzést a CEU és az IBM. A „Big
Data szakra" közgazdászokat,
szociológusokat várnak és olyan
diplomásokat, akik az adathasznosítás
legújabb módszereivel szeretnének
mélyebben megismerkedni.
o Radoop egy három évvel ezelőtt
alakult magyar startup. A hazai
kutatókból és fejlesztőkből álló
csapat olyan megoldást hozott
létre, amely programozói
háttértudás nélkül alkalmas
nagymennyiségű adat elemzésére.
o A „felhasználóbarát alkalmazás a
nemzetközi érdeklődést váltott ki,
ennek tudható be, hogy
RapidMiner felvásárolta
o Radoop-ból a RapidMiner Big
Data feldolgozásával foglalkozó
részlegét alakítják majd ki.
RapidMiner Magyarországra hozza
teljes Big Data fejlesztési üzletágát
Néhány konklúzió
o Új adatforrások - új lehetőségek a tudományos kutatásban
o A Big Data
 már ma is stratégiai kérdés és egyre inkább azzá válik mind a
 vállalkozások, mind a
 gazdaságpolitikusok számára;
 informatikai beruházásokat követel;
 a képzés módosítását, kiegészítését igényli egy sor szakmában
(például informatika, statisztika, döntéselmélet, vezetés és
szervezés, marketing, közgazdaságtan, pénz- bank- és tőzsde
ügyek, meteorológia, fizika, földrengések kutatása, stb.)
o Adatbiztonsági kérdések sorát veti fel

Barnaby Rich

  • 1.
    Barnaby Rich szindrómaa 21. században Hámori Balázs Ünnepi konferencia Szabó Katalin 70. születésnapja alkalmából, 2014. november 5. ----------------------------------------------------------------------------------------------------------
  • 2.
    Amiről ma szólesz… o Robbanásszerű adatfeldúsulás o Barnaby Rich szindróma o Az elmélet lemaradása o Big Data o Az információs szennyeződés mint externália o Az adatok természetének a változása o A közgazdasági kutatások új perspektívái o Big Data elemzések a gyakorlatban o A Big Data Magyarországon
  • 3.
    Adatförgeteg o 2012- re20 (!) tipikus – széles sávú internettel ellátott – háztartás több információ-forgalmat generál, mint amennyi 2008-ban az egész interneten átfolyt. o 2010 végére egy fél zettabyte-nyi adat ment át az interneten, ami körülbelül akkora információ-mennyiségnek felel meg, mint amennyit egy 36 milliárd mérföld hosszú (ez a Föld és a Pluto távolságának a tízszerese) könyvespolc tartalmaz. o Minden öt percben (!) akkora digitális adatförgeteget generálunk, amely egyenértékű az amerikai Kongresszusi Könyvtárban tárolt információmennyiséggel 1 zettabyte a számítógépes adattárolás egysége 1 sextillion bytes (10007 vagy 1021) Forrás: Https://www.cisco.com/web/about/ac79/docs/pov/Data_Explosion_IBSG.pdf
  • 4.
    Barnaby Rich szindróma oA 17. században élt ír katonaorvosról Barnaby Rich- szindrómának nevezték el a szüntelen panaszkodást az irodalom túlcsordulása, exponenciális szaporodása, mértéktelen burjánzása miatt. Mit szólna Barnaby Rich a mai állapotokhoz? o A publikációk csak a jéghegy csúcsát jelentik, és eltörpülnek az elképzelhetetlen méretű adattermelés mellett o Az University of San Diego egy tanulmánya szerint az átlag amerikai napi 11,8 (!) órát tölt információ- fogyasztással, ez alatt napi 34 gigabyte információt fogyaszt. 2000-ben becslések szerint a világ teljes információ mennyiségének a negyedét tárolták digitálisan, ma ez az arány 98 % 2005-től kezdve a jelenség Big Data néven vonult be a köztudatba Az USA 17 ágazatából 15-ben a Vállalatok egyenként több adatot tárolnak átlagosan, mint a Kongresszusi Könyvtár
  • 5.
    Információs szennyeződés mint externália oAz információtermelő folyamatok káros mellékhatása a kéretlen reklámanyagoktól a spameken keresztül a gépeket megtámadó férgekig és vírusokig. o A felesleges információk eltömítik az információs csatornákat, megnehezítik a keresést, ezáltal kárt okoznak mind az információtermelőknek, mind az információfogyasztóknak o A szennyeződésnek ez a formája láthatatlan, additív, destruktív, hosszú távú hatású, a jog által is védelmezett, rejtett költségei vannak és visszafordíthatatlan, a szennyezők nehezen megfoghatók o Ezek negatív externális hatást fejtenek ki.
  • 6.
    Az elmélet lemaradása oAzinformáció közgazdaságtana sokáig szinte egyáltalán nem foglalkozott az információs túlterheléssel. Sokkal inkább a hiányos információk kötötték le a közgazdászok figyelmét (aszimmetrikus információk, bizonytalanság, stb.) oNem az információ, hanem az észleléséhez, feldolgozásához, megemésztéséhez szükséges figyelem szűkös. oEbből viszont következik, hogy e szűkös jószágot, a figyelmet hatékonyan kell allokálni a különféle felhasználási lehetőségek között. oAz allokációs problémát azonban csak akkor lehet jól megoldani, ha megtaláljuk a szűkös erőforrás mérésére szolgáló eszközöket (Simon, 1982, p. 151.) oEz az idő
  • 7.
    Big Data oMcKinsey GlobalInstitute (2011) a Big Datára olyan adategyüttesként hivatkozik, „amelynek a mérete túlnyúlik a tipikus adatbázis- kezelő szoftverek rögzítési, raktározási, menedzselési és analizálási képességén”. o„Az adattömeg túl nagy, túl gyorsan mozog, vagy nem illeszkedik az adatbázis architektúrájához.” (Edd Dumbill, 2012)
  • 8.
    Az adatok természeténekváltozása a Big Data korszakban o Ezek ráadásul valós időben és torzításmentesen állnak rendelkezésre, amelyek a korábbi -- felmérésekkel beszerzett -- adatokról egyáltalán nem volt elmondható o Lehetővé teszi a kutatók számára hogy nyomon kövessék a különböző gazdaságpolitikai intézkedések és intézményi változások következményeit o Negatív konnotáció helyett inkább pozitív jelenségként tekinthetünk rá, mert ami kezelhetetlen vagy strukturálatlan egy adott időpontban valamivel később a számítás-technikának köszönhetően már kezelhető lehet o Korábban elérhetetlen vagy nehezen megfigyelhető, ám gazdasági szempontból fontos adatok néhány klikkeléssel beszerezhetők (emberek helyváltoztatása, kapcsolathálójuk, stb.)
  • 9.
    o Néhány évvelezelőtt az üzletek csak a napi forgalomról összesítve gyűjthettek adatokat, jó esetben termékek , illetve termékkategóriák szerint. Ma a pénztárgépek lehetővé teszik, hogy egyénenként rögzíthessék a vásárlásokat, nyomon kövessék a vevőtörténetet, vagyis hosszú távon megfigyelhessék az individuális vevő megatartását és annak a trendjeit, ajánlataikat, illetve promóciós tevékenységüket feltételezett vevőcsoportok helyett az egyes egyénekhez igazítsák. o A kutatók számára ezek adatok valóságos aranybányát jelentenek, különösen ha összekötik őket a demográfiai adatokkal, a közösségi médián keresztül nyomon követhető aktivitással vagy a hiteltörténettel. (V.ö. Einav&Levin, NBER, 2014) o Nincs szükség feltételezésekre a reprezentatív fogyasztóról, szélsőséges leegyszerűsítésekre a modellépítéskor, közvetlenül és teljeskörűen megfigyelhető a valóság. Ez egészen új megvilágításba helyezi a közgazdasági kutatások és a valóság viszonyát, amely eddig talán a legkritikusabb pontja volt tudományágunknak Új perspektívák a közgazdasági kutatások előtt: teljes körű megfigyelés
  • 10.
    Big Data BigThinking o A kutatók predikcióra is alkalmas összefüggést találtak a Wikipedia pénzügyi témájú keresései és a Wall Street nagy zuhanásai között. o Mivel az emberek kockázatkerülők, főként az eladások előtt keresgéltek a Wikipédián, ezért a keresések megugró száma előre vetítette a krachot. o A nagy tömegű adat pénzügyi célú feldolgozására egy egészen új tudományterület, az ökonofizika épült. Gingras, Y. - Schinckus, C. (2012): The Institutionalization of Econophysics in the Shadow of Physics, Journal of the History of Economic Thought, Volume 34, Number 1, March 2012
  • 11.
    A Big Dataelőnyei a közgazdasági kutatások szempontjából o Meglévő adatok használhatók, amelyek olcsóbak az originális adatok létrehozásánál (például felmérésekkel) o Amennyiben automatikusan keletkeznek (például klikkeléssel, vagy egy vásárlás tételeinek a beütésével) többnyire torzításmentesek, szemben a lekérdezéssel nyert adatokkal o Megragadhatók olyan események és jelenségek is, amelyek relatíve ritkák, a nagy adattömegben azonban következtetések levonására is alkalmas számban fordulnak elő o Kombinálhatók egymással és a tradicionális módon nyert adatokkal o A nagy adattömeg megbízhatóbb, mint a korlátozott körben gyűjtött adathalom
  • 12.
    Kihívások a BigData kutatási célú felhasználásakor oAdatbázisokhoz való hozzáférés, a megismételhetőség nehézségei oSpeciális szaktudásra van szükség a nagy adatbázisok elemzéshez (A Gartner szerint 2015-ig világszerte 4,4 millió munkahelyet kell majd betölteni a "big data", elemzésében jártas szakemberekkel.) oZajos adatok, a zajok kiszűrése nem egyszerű (Cho & Judge, 2013) oHamis kapcsolatok kimutatása
  • 13.
    Mire használják aBig Data elemzéseket a gyakorlatban? • A Google 2009-ben hatékonyan jelezte előre a sertésinfluenza vírus terjedését, anélkül, hogy egyetlen orvosi vizsgálatot is végeztek volna. A keresőmotor, amely naponta mintegy 3 milliárd keresési kérést dolgoz fel, 450 millió modellt értékelt, amelyek a sertésinfluenzával kapcsolatos 50 millió legnépszerűbb keresőszó kombinációján alapultak, és felépített egy 45 keresőszóból álló modellt, amely tényleg jól teljesített a sertésinfluenza előrejelzésében. • Rolls Royce a jet-motorok néhány tucat szenzora által továbbított adatokat gyűjtött. Ezek a kereskedelmi járatok minden egyes útján detektálták az alkatrészeket, hogy ennek alapján előre jelezze azt, mikor megy valószínűen tönkre egy alkatrész, és kicserélje azt, mielőtt az valóban felmondta volna a szolgálatot. Az utasoknak ez nagyobb biztonságot, a légitársaságoknak kevesebb meghibásodást jelentett, és ennek alapján a Rolls Royce sokkal előnyösebb karbantartási szerződéseket tudott ajánlani.
  • 14.
    További példák o Azenergiaszektorban új lehetőségeket nyit meg az okos mérők elterjedése és a adataik részletes elemzése o Bérszámfejtésre kb. 500.000 vállalat használ az USA-ban ADP (Automatic Data Processing) szoftvert o Az ADP kutatóintézete együttműködve Moody’s Analitics-szel havi jelentést ad a foglalkoztatásról. Az adatok ennek az 500.000 vállalatnak az automatikus bérszámfejtő szoftver-adataiból származnak oAz állam is felismerte az adatelemzésben rejlő lehetőségeket, jó példa erre az online pénztárgépek bevezetése és a belőlük nyert adatok kockázatalapú elemzése.
  • 15.
    A Big DataMagyarországon o Az MTA Wigner Fizikai Kutatóközpont a magyarországi Big Data kutatásokban érdekelt tudományos közösségeknek szervezett konferenciát 2013 szeptemberében o A konferencián a Microsoft munkatársa elmondta: ők a közösségi hálón történteket elemzik. Hangulatokra, trendekre, véleményvezérekre kíváncsiak, az eredményeket aztán a marketingkampányokban szeretnék felhasználni. o Az üzleti élet és a munkaerőpiac várható változásaira készülve indít közös mesterképzést a CEU és az IBM. A „Big Data szakra" közgazdászokat, szociológusokat várnak és olyan diplomásokat, akik az adathasznosítás legújabb módszereivel szeretnének mélyebben megismerkedni. o Radoop egy három évvel ezelőtt alakult magyar startup. A hazai kutatókból és fejlesztőkből álló csapat olyan megoldást hozott létre, amely programozói háttértudás nélkül alkalmas nagymennyiségű adat elemzésére. o A „felhasználóbarát alkalmazás a nemzetközi érdeklődést váltott ki, ennek tudható be, hogy RapidMiner felvásárolta o Radoop-ból a RapidMiner Big Data feldolgozásával foglalkozó részlegét alakítják majd ki. RapidMiner Magyarországra hozza teljes Big Data fejlesztési üzletágát
  • 16.
    Néhány konklúzió o Újadatforrások - új lehetőségek a tudományos kutatásban o A Big Data  már ma is stratégiai kérdés és egyre inkább azzá válik mind a  vállalkozások, mind a  gazdaságpolitikusok számára;  informatikai beruházásokat követel;  a képzés módosítását, kiegészítését igényli egy sor szakmában (például informatika, statisztika, döntéselmélet, vezetés és szervezés, marketing, közgazdaságtan, pénz- bank- és tőzsde ügyek, meteorológia, fizika, földrengések kutatása, stb.) o Adatbiztonsági kérdések sorát veti fel