Pranešimas XVI kompiuterininkų konferencijos sekcijoje „Tikimybinių ir statistinių metodų taikymai“,
„Kompiuterininkų dienos – 2013“, Šiauliai 2013-09-21
4. SRAUTO DUOMENŲ TYRYBA (1)
• Srauto tyryba – tai tendencijų, šablonų, ryšių ir
kategorijų aptikimo procesas iš laiko eilučių;
• Tradiciniai duomenų tyrybos metodai taikomi
tuomet, kai turima visa duomenų aibė ir ji yra
fiksuota. Jeigu duomenys gaunami srautu ir taip
greitai, kad jų nenaudinga išsaugoti duomenų
saugykloje, o reikia juos tirti realiu laiku – galime
taikyti srauto duomenų tyrybos atvejį.
2013-‐09-‐21
XVII
mokslinė
kompiuterininkų
konferencija
4
5. KODĖL SRAUTO TYRYBA?
• Duomenų apdorojimas atliekamas tiesiogiai;
• Duomenis galima tyrinėti/apdoroti mobiliai t.y.
keičiantis geografiniai padėčiai;
• Sutaupoma duomenų saugyklų vieta, tinklo apkrova;
• Duomenų surinkimo ir išankstinio apdorojimo
atlikimas mobiliajame įrenginyje palengvina ir
paspartina duomenų perdavimą į duomenų saugyklas.
• Spartesnis duomenų apdorojimas tolygus spatesniam
rezultatų gavimui.
2013-‐09-‐21
XVII
mokslinė
kompiuterininkų
konferencija
5
6. SRAUTO DUOMENŲ
CHARAKTERISTIKOS
Ypatumai:
1. duomenys gaunami/imami nenutrūkstamai iš srauto;
2. nežinomas gaunamų duomenų tvarka/išsidėstymas;
3. gaunamas srauto duomenų kiekis yra nenumatomas ir
nesuskaičiuojamas;
4. srautas yra negrįžtamas procesas, todėl daugiau nei du
kartus duomenų srauto apdoroti neįmanoma;
5. negalima taikyti tradicinių (įparastiniai) duomenų
tyrybos algoritmų;
6. duomenų srauto apdorojimo sutrikimai dėl ryšio
patikimumo bei komunikavimo protokolų;
2013-‐09-‐21
XVII
mokslinė
kompiuterininkų
konferencija
6
7. PAGRINDINAI SKIRTUMAI TARP
SRAUTO IR TRADICINĖS DUOMENŲ
TYRYBOS
Srauto duomenų tyryba
Duomenų apdorojimas realiu laiku
Duomenų tyryba
Tradicinis (įprastas) duomenų apdorojimas bet
kuriuo metu
Greita duomenų tyryba, kuri santykinai Lėta duomenų tyryba. Santykinai priklausanti
priklauso nuo skaičiavimo išteklių
nuo turimų skaičiavimo šaltinių
Negalimas/dalinis duomenų saugojimas
Galimas duomenų saugojimas
Priimami apytikslūs rezultatai
Gaunami tikslūs rezultatai
Saugyklose
saugomi
tik
išfiltruoti Saugyklose saugomi neapdoroti duomenys
duomenys
Erdvės ir laiko kontekstas yra ypatingai Erdvės ir laiko kontekstas yra taikomas tam
svarbus
tikrai taikomųjų programų klasei
pvz.: Geographical Information Systems (GIS)
Naudojami prisitaikantys ir modifikuoti Naudojami algoritmai, reikalaujantys didelių
algoritmai,
kurie nereikauja didelių įrangos resursų bei ilgo laiko tarpo
įrenginio resursų
2013-‐09-‐21
XVII
mokslinė
kompiuterininkų
konferencija
7
8. SRAUTO DUOMENŲ TYRYBOS
ATRANKOS PROBLEMA
Duomenų atrankos etapo metu galima atrinkti, kokią
imties dalį tyrinėsime, to pasekoje galima sumažinti
duomenų kiekį, pagreitinti duomenų tyrybos procesą bei
rezultatų gavybą.
Tiriamo srauto duomenų atrankos problema gali būti
sprendžiama dviem būdais:
1. duomenų srauto atskirų rinkinių nagrinėjimas
siekiant sumažinti duomenų dydį;
2. efektyvus algoritmų panaudojimas laiko ir vietos
atžvilgiu.
2013-‐09-‐21
XVII
mokslinė
kompiuterininkų
konferencija
8
9. SRAUTO DUOMENŲ TYRYBOS
SPRENDIMAS
• Pirmas būdas. Visi duomenys turi būtų sumažinami
iš viso kiekio duomenų arba rankiniu būdu
parenkama tam tikra rinkinio dalis (poaibis).
• Tam realizuoti naudojami algoritmai:
1. atranka (angl. sampling),
2. apkrova (angl. shedding),
3. eskizas (angl. sketching),
4. konspektavimas (angl. synopsis),
5. agregavimas (angls. aggregation).
2013-‐09-‐21
XVII
mokslinė
kompiuterininkų
konferencija
9
10. SRAUTO DUOMENŲ TYRYBA,
ATRANKA
• Atranka (angl. sampling) – tikimybiniu būdu
atrenkami duomenys tolimesnei duomenų tyrybai.
• Apskaičiuotas barjerų paklaidų įvertinimas yra
traktuojamas kaip atrankos rodiklio funkcija.
• Very Fast Maschine Learing (VFML) metodas
naudoja Hoeffding ribą įvertinti atrankos dydį.
• Sunkumai:
– Nežinomas duomenų rinkinio dydis;
– Atrankos metodas gali veikti neteisingai, jei
tikrinamos anomalijos analizės metu;
2013-‐09-‐21
XVII
mokslinė
kompiuterininkų
konferencija
10
11. SRAUTO DUOMENŲ TYRYBOS,
APKROVA
• Apkrova (angl. shedding) – t.y. procesas kurio metu
atisakoma dalies duomenų srauto, kai yra fiksuojama
gaunamo srauto perkrova. Apkrovos dydis yra
naudojamas duomenų srauto užklausoms optimizuoti.
Pageidautina naudoti apkrovos algoritmą, kad
minimizuotume siekiamo rezultato paklaidą.
2013-‐09-‐21
XVII
mokslinė
kompiuterininkų
konferencija
11
12. SRAUTO DUOMENŲ TYRYBOS,
ESKIZAS
• Eskizas (angl. sketching) – apima srauto duomenų
santraukos kūrimą naudojant mažą atminties kiekį.
Tai yra įeinamo srauto vertikalus atrankos procesas.
Eskizavimas yra taikomas palyginti skirtingus
srautus duomenų.
• Pagrindinis trūkumas yra tikslumas.
• Sunku pritaikyti šį metodą srautui duomenų.
2013-‐09-‐21
XVII
mokslinė
kompiuterininkų
konferencija
12
13. SRAUTO DUOMENŲ TYRYBOS,
KONSPEKTAVIMAS
• Konspektavimas (angl. synopsis) – šio proceso metu
išlaikoma trumpa informacija viso duomenų srauto
metu. Duomenų konspekto sukūrimas tai yra santraukos
metodų pritaikymas, kurie gali apibendrinti įeinamą
srautą tolimesnei analizei.
• Negalima taikyti, kai yra O(N), kur N gali būti vietos/
laiko vienetų skaičius.
• Kai kurie sprendiniai yra reikalingi, kurių rezultatai
gaunami arti O(poly(logN)).
• Duomenų struktūros konspektavimas gali būti taikomas
kai neviršyjama tokio sudėtingumo O(logkN).
2013-‐09-‐21
XVII
mokslinė
kompiuterininkų
konferencija
13
14. SRAUTO DUOMENŲ TYRYBOS,
AGREGAVIMAS
• Agregavimas (angls. aggregation) – įeinamo srautų
konspektas yra sugeneruotas naudojant vidurkį ir
dispersiją.
• Jeigu įėjimo srautai turi didelių svyravimų tuomet
šis algoritmas netinka.
• Šis algoritmas gali būti naudojamas apjungiant
netiesioginius (angl. offline) ir tiesioginius (angl.
online) duomenis.
2013-‐09-‐21
XVII
mokslinė
kompiuterininkų
konferencija
14
15. SRAUTO DUOMENŲ TYRYBOS
ATRANKOS PROBLEMA
Duomenų atrankos etapo metu galima atrinkti, kokią
imties dalį tyrinėsime, to pasekoje galima sumažinti
duomenų kiekį, pagreitinti duomenų tyrybos procesą bei
rezultatų gavybą.
Tiriamo srauto duomenų atrankos problema gali būti
sprendžiama dviem būdais:
1. duomenų srauto atskirų rinkinių nagrinėjimas
siekiant sumažinti duomenų dydį;
2. efektyvus algoritmų panaudojimas laiko ir vietos
atžvilgiu.
2013-‐09-‐21
XVII
mokslinė
kompiuterininkų
konferencija
15
16. SRAUTO DUOMENŲ TYRYBOS
SPRENDIMAS
• Antras būdas. Siekiama efektyviai išnaudoti esamus
duomenų tyrybos algoritmus, juos modifikuojant ir
pritaikant esamo srauto duomenų charakteristikas;
Realizuoti tokie algoritmai:
1. aproksivavimo algoritmas (angl. approximation
algorithm),
2. slenkančio lango algoritmas (angl. sliding
windows algorithm).
2013-‐09-‐21
XVII
mokslinė
kompiuterininkų
konferencija
16
17. SRAUTO DUOMENŲ TYRYBOS
SPRENDIMAS, APROKSIMAVIMO
ALGORITMAS
• Aproksimavimo algoritmas (angl. approximation
algorithm) – aproksimavimo metodai yra naudojami
algoritmų kūrimui. Sprendimai gauti su šiuo
algoritmu yra aproksimuojami taip gaunamos ribų
paklaidos. Šis algoritmas naudojamas
pasikartojančių elementų dažnio dinamikai sekti.
2013-‐09-‐21
XVII
mokslinė
kompiuterininkų
konferencija
17
18. SRAUTO DUOMENŲ TYRYBOS
SPRENDIMAS, SLENKANTIS LANGAS
• Slenkantis langas (angl. sliding windows algorithm)
Analizė naujai gautiems duomenims yra gauta iš prieš tai
duomenų sukonspektuotos versijos. Naudojant slenkantį
langą ankstesni srauto elementai pakeičiami naujai gauto
duomenų srauto elementais.
• Naudojami du slenkantys langai:
1. Skaičiaus (angl. count-based)
2. Laiko (angl. time-based).
• Naudojant skaičaus pagrindo langą paskutiniai N elementai
yra saugomi, o naudojant laiko pagrindu langą galima
saugoti tik tuos elementus, kurie buvo sugeneruoti arba
gauti paskutinėsiuose T laiko vienetuose.
2013-‐09-‐21
XVII
mokslinė
kompiuterininkų
konferencija
18
20. MOBILIOJI DUOMENŲ TYRYBA
• Mobilioji duomenų tyryba tai technologija suteikianti
galimybę realiu laiku analizuoti srauto duomenis,
sugeneruotus pačiame telefone arba iš dėvimų
įrenginių, kurie yra netoli šio įrenginio.
• Yra atvejų, kai mobilusis įrenginys gali atstoti
tarpininką tarp serverio ir jutiklio.
• Mobilioje srauto duomenų tyryboje paprastai
naudojami prisitaikatys algoritmai, kurie veiktų
veiksmingai ir efektyviai mobiliuose įrenginiuose
esant skirtingom sąlygom.
2013-‐09-‐21
XVII
mokslinė
kompiuterininkų
konferencija
20
21. SRAUTO DUOMENŲ TYRYBOS
PROBLEMA
• Srauto duomenų tyryba turi būti atliekama, taip kad ji
neviršytų mobilių įrenginių ribotų išteklių:
1. ekrano dydžio;
2. energijos suvartojimo;
3. proceso apkrovos;
4. operatyviosios atminties;
5. saugojimo vietos.
2013-‐09-‐21
XVII
mokslinė
kompiuterininkų
konferencija
21
22. SRAUTO DUOMENŲ TYRYBOS
SPRENDIMAS
• Naudojamos atitinkamos duomenų tyrybos
strategijos leidžiančios dinamiškai keisti algoritmų
parametrus priklausomai nuo esamų išteklių būklės,
situacijos ir kitų apribojimų.
• Modifikuojami įprastiniai duomenų tyrybos
algoritmai arba kuriami supaprastintos formos
(angl. light-weight) algoritmai.
2013-‐09-‐21
XVII
mokslinė
kompiuterininkų
konferencija
22
23. SRAUTO DUOMENŲ TYRYBOS
STRATEGIJOS
• Situacijos prisitaikymo strategija: taikoma kritinei ir
nekritinei situacijai.
• Resursų prisitaikymo strategija:
1. AOG (Algorithm Output Granularity) – saugojimo
vietos resursai;
2. AIG (Algorithm Input Granularity) – baterijos resursai;
3. APG (Algorithm Processing Granularity) – procesoriaus
resursai.
• Hibridinė prisitaikymo strategija – situacijos ir resursų
strategijos taikomos vienu metu.
2013-‐09-‐21
XVII
mokslinė
kompiuterininkų
konferencija
23
24. MOBILIOS DUOMENŲ TYRYBOS
PROGRAMOS
• Open Mobile Miner
– Klasifikavimas;
– Klasterizavimas;
– Laiko eilučių analizė;
– Pasikeitimo aptikimui.
• Mobile Weka
– Klasifikavimas;
– Klasterizavimas;
– Ryšių analizė.
2013-‐09-‐21
XVII
mokslinė
kompiuterininkų
konferencija
24
25. MOBILIOS DUOMENŲ TYRYBOS
ALGORITMAI
Open Mobile Miner programoje veikiantys algoritmai
Klasterizavimo algoritmai:
• Light-Weight Clustering;
• RA-Cluster ir DRA-Cluster;
Pasikeitimo aptikimo algoritmas:
• CHANGE-DETECT;
Klasifikavimo algoritmas:
• Light-Weight Class.
2013-‐09-‐21
XVII
mokslinė
kompiuterininkų
konferencija
25
26. IŠVADOS (1)
• Duomenų tyryba mobiliuose įreginiuose vystoma
pakankamai seniai, tačiau sukurtų ar modifikuotų
algoritmų skirtų mobiliai duomenų tyrybai yra
nedaug;
• Modifikuojant standartinius algoritmus mobiliems
įrenginiams prarandamas gautų rezultatų tikslumas.
Norint gauti tikslesnius skaičiavimų rezultatus
padidėja laiko sąnaudos arba kyla problemų dėl
nepakankamų mobilių įrenginių techninių išteklių;
2013-‐09-‐21
XVII
mokslinė
kompiuterininkų
konferencija
26
27. IŠVADOS (2)
• Duomenų tyrybą mobiliuose įrenginiuose riboja
skaičiavimo resursai (atminties kiekis, procesoriaus
greitis, tinklo pralaidumas, baterijos talpa) bei
skirtingų mobilių įrenginių gausa ir techninių
charakteristikų skirtumai, todėl dažnai neįmanoma
duomenų tyrybos rezultatų turėti realiu laiku;
• Esami duomenų tyrybos algoritmai gali apdoroti
nedidelius kiekius duomenų;
• Srauto duomenų tyrybai lengviausiai pritaikomi ir
tiksliausius galutinius rezultatus teikia klasterizavimo
algoritmai.
2013-‐09-‐21
XVII
mokslinė
kompiuterininkų
konferencija
27