SlideShare a Scribd company logo
1 of 28
Download to read offline
Mobilios duomenų tyrybos
analizės apžvalga
Vilniaus universitetas
Matematikos ir informatikos institutas
doktorantas Gediminas Bazilevičius
DUOMENŲ TYRYBA PASKIRSTYTOSE
SISTEMOSE

2013-­‐09-­‐21	
  

XVII	
  mokslinė	
  kompiuterininkų	
  konferencija	
  

2	
  
SRAUTO DUOMENŲ TYRYBA
MOBILIUOSE ĮRENGINIUOSE

2013-­‐09-­‐21	
  

XVII	
  mokslinė	
  kompiuterininkų	
  konferencija	
  

3	
  
SRAUTO DUOMENŲ TYRYBA (1)
•  Srauto tyryba – tai tendencijų, šablonų, ryšių ir
kategorijų aptikimo procesas iš laiko eilučių;
•  Tradiciniai duomenų tyrybos metodai taikomi
tuomet, kai turima visa duomenų aibė ir ji yra
fiksuota. Jeigu duomenys gaunami srautu ir taip
greitai, kad jų nenaudinga išsaugoti duomenų
saugykloje, o reikia juos tirti realiu laiku – galime
taikyti srauto duomenų tyrybos atvejį.

2013-­‐09-­‐21	
  

XVII	
  mokslinė	
  kompiuterininkų	
  konferencija	
  

4	
  
KODĖL SRAUTO TYRYBA?
•  Duomenų apdorojimas atliekamas tiesiogiai;
•  Duomenis galima tyrinėti/apdoroti mobiliai t.y.
keičiantis geografiniai padėčiai;
•  Sutaupoma duomenų saugyklų vieta, tinklo apkrova;
•  Duomenų surinkimo ir išankstinio apdorojimo
atlikimas mobiliajame įrenginyje palengvina ir
paspartina duomenų perdavimą į duomenų saugyklas.
•  Spartesnis duomenų apdorojimas tolygus spatesniam
rezultatų gavimui.
2013-­‐09-­‐21	
  

XVII	
  mokslinė	
  kompiuterininkų	
  konferencija	
  

5	
  
SRAUTO DUOMENŲ
CHARAKTERISTIKOS
Ypatumai:
1.  duomenys gaunami/imami nenutrūkstamai iš srauto;
2.  nežinomas gaunamų duomenų tvarka/išsidėstymas;
3.  gaunamas srauto duomenų kiekis yra nenumatomas ir
nesuskaičiuojamas;
4.  srautas yra negrįžtamas procesas, todėl daugiau nei du
kartus duomenų srauto apdoroti neįmanoma;
5.  negalima taikyti tradicinių (įparastiniai) duomenų
tyrybos algoritmų;
6.  duomenų srauto apdorojimo sutrikimai dėl ryšio
patikimumo bei komunikavimo protokolų;
2013-­‐09-­‐21	
  

XVII	
  mokslinė	
  kompiuterininkų	
  konferencija	
  

6	
  
PAGRINDINAI SKIRTUMAI TARP
SRAUTO IR TRADICINĖS DUOMENŲ
TYRYBOS
Srauto duomenų tyryba
Duomenų apdorojimas realiu laiku

Duomenų tyryba
Tradicinis (įprastas) duomenų apdorojimas bet
kuriuo metu
Greita duomenų tyryba, kuri santykinai Lėta duomenų tyryba. Santykinai priklausanti
priklauso nuo skaičiavimo išteklių
nuo turimų skaičiavimo šaltinių
Negalimas/dalinis duomenų saugojimas
Galimas duomenų saugojimas
Priimami apytikslūs rezultatai
Gaunami tikslūs rezultatai
Saugyklose
saugomi
tik
išfiltruoti Saugyklose saugomi neapdoroti duomenys
duomenys
Erdvės ir laiko kontekstas yra ypatingai Erdvės ir laiko kontekstas yra taikomas tam
svarbus
tikrai taikomųjų programų klasei
pvz.: Geographical Information Systems (GIS)
Naudojami prisitaikantys ir modifikuoti Naudojami algoritmai, reikalaujantys didelių
algoritmai,
kurie nereikauja didelių įrangos resursų bei ilgo laiko tarpo
įrenginio resursų
2013-­‐09-­‐21	
  

XVII	
  mokslinė	
  kompiuterininkų	
  konferencija	
  

7	
  
SRAUTO DUOMENŲ TYRYBOS
ATRANKOS PROBLEMA
Duomenų atrankos etapo metu galima atrinkti, kokią
imties dalį tyrinėsime, to pasekoje galima sumažinti
duomenų kiekį, pagreitinti duomenų tyrybos procesą bei
rezultatų gavybą.
Tiriamo srauto duomenų atrankos problema gali būti
sprendžiama dviem būdais:
1.  duomenų srauto atskirų rinkinių nagrinėjimas
siekiant sumažinti duomenų dydį;
2.  efektyvus algoritmų panaudojimas laiko ir vietos
atžvilgiu.
2013-­‐09-­‐21	
  

XVII	
  mokslinė	
  kompiuterininkų	
  konferencija	
  

8	
  
SRAUTO DUOMENŲ TYRYBOS
SPRENDIMAS
•  Pirmas būdas. Visi duomenys turi būtų sumažinami
iš viso kiekio duomenų arba rankiniu būdu
parenkama tam tikra rinkinio dalis (poaibis).
•  Tam realizuoti naudojami algoritmai:
1.  atranka (angl. sampling),
2.  apkrova (angl. shedding),
3.  eskizas (angl. sketching),
4.  konspektavimas (angl. synopsis),
5.  agregavimas (angls. aggregation).
2013-­‐09-­‐21	
  

XVII	
  mokslinė	
  kompiuterininkų	
  konferencija	
  

9	
  
SRAUTO DUOMENŲ TYRYBA,
ATRANKA
•  Atranka (angl. sampling) – tikimybiniu būdu
atrenkami duomenys tolimesnei duomenų tyrybai.
•  Apskaičiuotas barjerų paklaidų įvertinimas yra
traktuojamas kaip atrankos rodiklio funkcija.
•  Very Fast Maschine Learing (VFML) metodas
naudoja Hoeffding ribą įvertinti atrankos dydį.
•  Sunkumai:
–  Nežinomas duomenų rinkinio dydis;
–  Atrankos metodas gali veikti neteisingai, jei
tikrinamos anomalijos analizės metu;
2013-­‐09-­‐21	
  

XVII	
  mokslinė	
  kompiuterininkų	
  konferencija	
  

10	
  
SRAUTO DUOMENŲ TYRYBOS,
APKROVA
•  Apkrova (angl. shedding) – t.y. procesas kurio metu
atisakoma dalies duomenų srauto, kai yra fiksuojama
gaunamo srauto perkrova. Apkrovos dydis yra
naudojamas duomenų srauto užklausoms optimizuoti.
Pageidautina naudoti apkrovos algoritmą, kad
minimizuotume siekiamo rezultato paklaidą.

2013-­‐09-­‐21	
  

XVII	
  mokslinė	
  kompiuterininkų	
  konferencija	
  

11	
  
SRAUTO DUOMENŲ TYRYBOS,
ESKIZAS
•  Eskizas (angl. sketching) – apima srauto duomenų
santraukos kūrimą naudojant mažą atminties kiekį.
Tai yra įeinamo srauto vertikalus atrankos procesas.
Eskizavimas yra taikomas palyginti skirtingus
srautus duomenų.
•  Pagrindinis trūkumas yra tikslumas.
•  Sunku pritaikyti šį metodą srautui duomenų.

2013-­‐09-­‐21	
  

XVII	
  mokslinė	
  kompiuterininkų	
  konferencija	
  

12	
  
SRAUTO DUOMENŲ TYRYBOS,
KONSPEKTAVIMAS
•  Konspektavimas (angl. synopsis) – šio proceso metu
išlaikoma trumpa informacija viso duomenų srauto
metu. Duomenų konspekto sukūrimas tai yra santraukos
metodų pritaikymas, kurie gali apibendrinti įeinamą
srautą tolimesnei analizei.
•  Negalima taikyti, kai yra O(N), kur N gali būti vietos/
laiko vienetų skaičius.
•  Kai kurie sprendiniai yra reikalingi, kurių rezultatai
gaunami arti O(poly(logN)).
•  Duomenų struktūros konspektavimas gali būti taikomas
kai neviršyjama tokio sudėtingumo O(logkN).
2013-­‐09-­‐21	
  

XVII	
  mokslinė	
  kompiuterininkų	
  konferencija	
  

13	
  
SRAUTO DUOMENŲ TYRYBOS,
AGREGAVIMAS
•  Agregavimas (angls. aggregation) – įeinamo srautų
konspektas yra sugeneruotas naudojant vidurkį ir
dispersiją.
•  Jeigu įėjimo srautai turi didelių svyravimų tuomet
šis algoritmas netinka.
•  Šis algoritmas gali būti naudojamas apjungiant
netiesioginius (angl. offline) ir tiesioginius (angl.
online) duomenis.

2013-­‐09-­‐21	
  

XVII	
  mokslinė	
  kompiuterininkų	
  konferencija	
  

14	
  
SRAUTO DUOMENŲ TYRYBOS
ATRANKOS PROBLEMA
Duomenų atrankos etapo metu galima atrinkti, kokią
imties dalį tyrinėsime, to pasekoje galima sumažinti
duomenų kiekį, pagreitinti duomenų tyrybos procesą bei
rezultatų gavybą.
Tiriamo srauto duomenų atrankos problema gali būti
sprendžiama dviem būdais:
1.  duomenų srauto atskirų rinkinių nagrinėjimas
siekiant sumažinti duomenų dydį;
2.  efektyvus algoritmų panaudojimas laiko ir vietos
atžvilgiu.
2013-­‐09-­‐21	
  

XVII	
  mokslinė	
  kompiuterininkų	
  konferencija	
  

15	
  
SRAUTO DUOMENŲ TYRYBOS
SPRENDIMAS
•  Antras būdas. Siekiama efektyviai išnaudoti esamus
duomenų tyrybos algoritmus, juos modifikuojant ir
pritaikant esamo srauto duomenų charakteristikas;
Realizuoti tokie algoritmai:
1.  aproksivavimo algoritmas (angl. approximation
algorithm),
2.  slenkančio lango algoritmas (angl. sliding
windows algorithm).

2013-­‐09-­‐21	
  

XVII	
  mokslinė	
  kompiuterininkų	
  konferencija	
  

16	
  
SRAUTO DUOMENŲ TYRYBOS
SPRENDIMAS, APROKSIMAVIMO
ALGORITMAS
•  Aproksimavimo algoritmas (angl. approximation
algorithm) – aproksimavimo metodai yra naudojami
algoritmų kūrimui. Sprendimai gauti su šiuo
algoritmu yra aproksimuojami taip gaunamos ribų
paklaidos. Šis algoritmas naudojamas
pasikartojančių elementų dažnio dinamikai sekti.

2013-­‐09-­‐21	
  

XVII	
  mokslinė	
  kompiuterininkų	
  konferencija	
  

17	
  
SRAUTO DUOMENŲ TYRYBOS
SPRENDIMAS, SLENKANTIS LANGAS
•  Slenkantis langas (angl. sliding windows algorithm)
Analizė naujai gautiems duomenims yra gauta iš prieš tai
duomenų sukonspektuotos versijos. Naudojant slenkantį
langą ankstesni srauto elementai pakeičiami naujai gauto
duomenų srauto elementais.
•  Naudojami du slenkantys langai:
1.  Skaičiaus (angl. count-based)
2.  Laiko (angl. time-based).
•  Naudojant skaičaus pagrindo langą paskutiniai N elementai
yra saugomi, o naudojant laiko pagrindu langą galima
saugoti tik tuos elementus, kurie buvo sugeneruoti arba
gauti paskutinėsiuose T laiko vienetuose.
2013-­‐09-­‐21	
  

XVII	
  mokslinė	
  kompiuterininkų	
  konferencija	
  

18	
  
KLASIKINĖ MOBILIOS SRAUTO
DUOMENŲ TYRYBOS SCHEMA

2013-­‐09-­‐21	
  

XVII	
  mokslinė	
  kompiuterininkų	
  konferencija	
  

19	
  
MOBILIOJI DUOMENŲ TYRYBA
•  Mobilioji duomenų tyryba tai technologija suteikianti
galimybę realiu laiku analizuoti srauto duomenis,
sugeneruotus pačiame telefone arba iš dėvimų
įrenginių, kurie yra netoli šio įrenginio.
•  Yra atvejų, kai mobilusis įrenginys gali atstoti
tarpininką tarp serverio ir jutiklio.
•  Mobilioje srauto duomenų tyryboje paprastai
naudojami prisitaikatys algoritmai, kurie veiktų
veiksmingai ir efektyviai mobiliuose įrenginiuose
esant skirtingom sąlygom.
2013-­‐09-­‐21	
  

XVII	
  mokslinė	
  kompiuterininkų	
  konferencija	
  

20	
  
SRAUTO DUOMENŲ TYRYBOS
PROBLEMA
•  Srauto duomenų tyryba turi būti atliekama, taip kad ji
neviršytų mobilių įrenginių ribotų išteklių:
1.  ekrano dydžio;
2.  energijos suvartojimo;
3.  proceso apkrovos;
4.  operatyviosios atminties;
5.  saugojimo vietos.

2013-­‐09-­‐21	
  

XVII	
  mokslinė	
  kompiuterininkų	
  konferencija	
  

21	
  
SRAUTO DUOMENŲ TYRYBOS
SPRENDIMAS
•  Naudojamos atitinkamos duomenų tyrybos
strategijos leidžiančios dinamiškai keisti algoritmų
parametrus priklausomai nuo esamų išteklių būklės,
situacijos ir kitų apribojimų.
•  Modifikuojami įprastiniai duomenų tyrybos
algoritmai arba kuriami supaprastintos formos
(angl. light-weight) algoritmai.

2013-­‐09-­‐21	
  

XVII	
  mokslinė	
  kompiuterininkų	
  konferencija	
  

22	
  
SRAUTO DUOMENŲ TYRYBOS
STRATEGIJOS
•  Situacijos prisitaikymo strategija: taikoma kritinei ir
nekritinei situacijai.
•  Resursų prisitaikymo strategija:
1.  AOG (Algorithm Output Granularity) – saugojimo
vietos resursai;
2.  AIG (Algorithm Input Granularity) – baterijos resursai;
3.  APG (Algorithm Processing Granularity) – procesoriaus
resursai.
•  Hibridinė prisitaikymo strategija – situacijos ir resursų
strategijos taikomos vienu metu.
2013-­‐09-­‐21	
  

XVII	
  mokslinė	
  kompiuterininkų	
  konferencija	
  

23	
  
MOBILIOS DUOMENŲ TYRYBOS
PROGRAMOS
•  Open Mobile Miner
–  Klasifikavimas;
–  Klasterizavimas;
–  Laiko eilučių analizė;
–  Pasikeitimo aptikimui.

•  Mobile Weka
–  Klasifikavimas;
–  Klasterizavimas;
–  Ryšių analizė.
2013-­‐09-­‐21	
  

XVII	
  mokslinė	
  kompiuterininkų	
  konferencija	
  

24	
  
MOBILIOS DUOMENŲ TYRYBOS
ALGORITMAI
Open Mobile Miner programoje veikiantys algoritmai
Klasterizavimo algoritmai:
•  Light-Weight Clustering;
•  RA-Cluster ir DRA-Cluster;
Pasikeitimo aptikimo algoritmas:
•  CHANGE-DETECT;
Klasifikavimo algoritmas:
•  Light-Weight Class.
2013-­‐09-­‐21	
  

XVII	
  mokslinė	
  kompiuterininkų	
  konferencija	
  

25	
  
IŠVADOS (1)
•  Duomenų tyryba mobiliuose įreginiuose vystoma
pakankamai seniai, tačiau sukurtų ar modifikuotų
algoritmų skirtų mobiliai duomenų tyrybai yra
nedaug;
•  Modifikuojant standartinius algoritmus mobiliems
įrenginiams prarandamas gautų rezultatų tikslumas.
Norint gauti tikslesnius skaičiavimų rezultatus
padidėja laiko sąnaudos arba kyla problemų dėl
nepakankamų mobilių įrenginių techninių išteklių;

2013-­‐09-­‐21	
  

XVII	
  mokslinė	
  kompiuterininkų	
  konferencija	
  

26	
  
IŠVADOS (2)
•  Duomenų tyrybą mobiliuose įrenginiuose riboja
skaičiavimo resursai (atminties kiekis, procesoriaus
greitis, tinklo pralaidumas, baterijos talpa) bei
skirtingų mobilių įrenginių gausa ir techninių
charakteristikų skirtumai, todėl dažnai neįmanoma
duomenų tyrybos rezultatų turėti realiu laiku;
•  Esami duomenų tyrybos algoritmai gali apdoroti
nedidelius kiekius duomenų;
•  Srauto duomenų tyrybai lengviausiai pritaikomi ir
tiksliausius galutinius rezultatus teikia klasterizavimo
algoritmai.
2013-­‐09-­‐21	
  

XVII	
  mokslinė	
  kompiuterininkų	
  konferencija	
  

27	
  
AČIŪ UŽ DĖMESĮ

2013-­‐09-­‐21	
  

XVII	
  mokslinė	
  kompiuterininkų	
  konferencija	
  

28	
  

More Related Content

More from Lietuvos kompiuterininkų sąjunga

V. Marcinkevičius. ARIS dirbtinio intelekto kurso mokymosi medžiaga, www.aris...
V. Marcinkevičius. ARIS dirbtinio intelekto kurso mokymosi medžiaga, www.aris...V. Marcinkevičius. ARIS dirbtinio intelekto kurso mokymosi medžiaga, www.aris...
V. Marcinkevičius. ARIS dirbtinio intelekto kurso mokymosi medžiaga, www.aris...Lietuvos kompiuterininkų sąjunga
 
Jolanta Navickaitė. Skaitmeninė kompetencija ir informatikos naujovės bendraj...
Jolanta Navickaitė. Skaitmeninė kompetencija ir informatikos naujovės bendraj...Jolanta Navickaitė. Skaitmeninė kompetencija ir informatikos naujovės bendraj...
Jolanta Navickaitė. Skaitmeninė kompetencija ir informatikos naujovės bendraj...Lietuvos kompiuterininkų sąjunga
 
Romas Baronas. Tarpdisciplininiai moksliniai tyrimai – galimybė atsiverti ir ...
Romas Baronas. Tarpdisciplininiai moksliniai tyrimai – galimybė atsiverti ir ...Romas Baronas. Tarpdisciplininiai moksliniai tyrimai – galimybė atsiverti ir ...
Romas Baronas. Tarpdisciplininiai moksliniai tyrimai – galimybė atsiverti ir ...Lietuvos kompiuterininkų sąjunga
 
Monika Danilovaitė. Informatikos metodų taikymas balso klosčių būklei įvertin...
Monika Danilovaitė. Informatikos metodų taikymas balso klosčių būklei įvertin...Monika Danilovaitė. Informatikos metodų taikymas balso klosčių būklei įvertin...
Monika Danilovaitė. Informatikos metodų taikymas balso klosčių būklei įvertin...Lietuvos kompiuterininkų sąjunga
 
Gražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizė
Gražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizėGražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizė
Gražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizėLietuvos kompiuterininkų sąjunga
 
Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?
Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?
Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?Lietuvos kompiuterininkų sąjunga
 
Tomas Kasperavičius. Robotikos realizacija edukacinėje erdvėje
Tomas Kasperavičius. Robotikos realizacija edukacinėje erdvėjeTomas Kasperavičius. Robotikos realizacija edukacinėje erdvėje
Tomas Kasperavičius. Robotikos realizacija edukacinėje erdvėjeLietuvos kompiuterininkų sąjunga
 
Paulius Šakalys. Robotika: sąvoka, rūšys, pritaikymas edukacinėje erdvėje
Paulius Šakalys. Robotika: sąvoka, rūšys, pritaikymas edukacinėje erdvėjePaulius Šakalys. Robotika: sąvoka, rūšys, pritaikymas edukacinėje erdvėje
Paulius Šakalys. Robotika: sąvoka, rūšys, pritaikymas edukacinėje erdvėjeLietuvos kompiuterininkų sąjunga
 
Remigijus Paulavičius. Blokų grandinės – tai gerokai daugiau nei tik skaitmen...
Remigijus Paulavičius. Blokų grandinės – tai gerokai daugiau nei tik skaitmen...Remigijus Paulavičius. Blokų grandinės – tai gerokai daugiau nei tik skaitmen...
Remigijus Paulavičius. Blokų grandinės – tai gerokai daugiau nei tik skaitmen...Lietuvos kompiuterininkų sąjunga
 
Romualdas Krukauskas. Nesistemiško ir decentralizuoto valstybės informacinių ...
Romualdas Krukauskas. Nesistemiško ir decentralizuoto valstybės informacinių ...Romualdas Krukauskas. Nesistemiško ir decentralizuoto valstybės informacinių ...
Romualdas Krukauskas. Nesistemiško ir decentralizuoto valstybės informacinių ...Lietuvos kompiuterininkų sąjunga
 
Eimutis Karciauskas. Programavimo pamokų motyvacijos ir efektyvumo gerinimo m...
Eimutis Karciauskas. Programavimo pamokų motyvacijos ir efektyvumo gerinimo m...Eimutis Karciauskas. Programavimo pamokų motyvacijos ir efektyvumo gerinimo m...
Eimutis Karciauskas. Programavimo pamokų motyvacijos ir efektyvumo gerinimo m...Lietuvos kompiuterininkų sąjunga
 
Andrius Plečkaitis. IT specialistų deficitas ir Lietuvos ateitis
Andrius Plečkaitis. IT specialistų deficitas ir Lietuvos ateitisAndrius Plečkaitis. IT specialistų deficitas ir Lietuvos ateitis
Andrius Plečkaitis. IT specialistų deficitas ir Lietuvos ateitisLietuvos kompiuterininkų sąjunga
 
S. Maskeliūnas Mokslo duomenų archyvas Midas: „imkit mane ir skaitykit“
S. Maskeliūnas Mokslo duomenų archyvas Midas: „imkit mane ir skaitykit“ S. Maskeliūnas Mokslo duomenų archyvas Midas: „imkit mane ir skaitykit“
S. Maskeliūnas Mokslo duomenų archyvas Midas: „imkit mane ir skaitykit“ Lietuvos kompiuterininkų sąjunga
 

More from Lietuvos kompiuterininkų sąjunga (20)

V. Jakuška. Ką reikėtu žinoti apie .lt domeną?
V. Jakuška. Ką reikėtu žinoti apie .lt domeną?V. Jakuška. Ką reikėtu žinoti apie .lt domeną?
V. Jakuška. Ką reikėtu žinoti apie .lt domeną?
 
V. Marcinkevičius. ARIS dirbtinio intelekto kurso mokymosi medžiaga, www.aris...
V. Marcinkevičius. ARIS dirbtinio intelekto kurso mokymosi medžiaga, www.aris...V. Marcinkevičius. ARIS dirbtinio intelekto kurso mokymosi medžiaga, www.aris...
V. Marcinkevičius. ARIS dirbtinio intelekto kurso mokymosi medžiaga, www.aris...
 
Jolanta Navickaitė. Skaitmeninė kompetencija ir informatikos naujovės bendraj...
Jolanta Navickaitė. Skaitmeninė kompetencija ir informatikos naujovės bendraj...Jolanta Navickaitė. Skaitmeninė kompetencija ir informatikos naujovės bendraj...
Jolanta Navickaitė. Skaitmeninė kompetencija ir informatikos naujovės bendraj...
 
Raimundas Matylevičius. Asmens duomenų valdymas
Raimundas Matylevičius. Asmens duomenų valdymasRaimundas Matylevičius. Asmens duomenų valdymas
Raimundas Matylevičius. Asmens duomenų valdymas
 
Romas Baronas. Tarpdisciplininiai moksliniai tyrimai – galimybė atsiverti ir ...
Romas Baronas. Tarpdisciplininiai moksliniai tyrimai – galimybė atsiverti ir ...Romas Baronas. Tarpdisciplininiai moksliniai tyrimai – galimybė atsiverti ir ...
Romas Baronas. Tarpdisciplininiai moksliniai tyrimai – galimybė atsiverti ir ...
 
Monika Danilovaitė. Informatikos metodų taikymas balso klosčių būklei įvertin...
Monika Danilovaitė. Informatikos metodų taikymas balso klosčių būklei įvertin...Monika Danilovaitė. Informatikos metodų taikymas balso klosčių būklei įvertin...
Monika Danilovaitė. Informatikos metodų taikymas balso klosčių būklei įvertin...
 
Rima Šiaulienė. IT VBE 2021 teksto maketavimo užduotis
Rima Šiaulienė. IT VBE 2021 teksto maketavimo užduotisRima Šiaulienė. IT VBE 2021 teksto maketavimo užduotis
Rima Šiaulienė. IT VBE 2021 teksto maketavimo užduotis
 
Gražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizė
Gražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizėGražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizė
Gražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizė
 
Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?
Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?
Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?
 
Eugenijus Valavičius. Hiperteksto kelias
Eugenijus Valavičius. Hiperteksto keliasEugenijus Valavičius. Hiperteksto kelias
Eugenijus Valavičius. Hiperteksto kelias
 
Tomas Kasperavičius. Robotikos realizacija edukacinėje erdvėje
Tomas Kasperavičius. Robotikos realizacija edukacinėje erdvėjeTomas Kasperavičius. Robotikos realizacija edukacinėje erdvėje
Tomas Kasperavičius. Robotikos realizacija edukacinėje erdvėje
 
Paulius Šakalys. Robotika: sąvoka, rūšys, pritaikymas edukacinėje erdvėje
Paulius Šakalys. Robotika: sąvoka, rūšys, pritaikymas edukacinėje erdvėjePaulius Šakalys. Robotika: sąvoka, rūšys, pritaikymas edukacinėje erdvėje
Paulius Šakalys. Robotika: sąvoka, rūšys, pritaikymas edukacinėje erdvėje
 
Olga Kurasova. Dirbtinis intelektas ir neuroniniai tinklai
Olga Kurasova. Dirbtinis intelektas ir neuroniniai tinklaiOlga Kurasova. Dirbtinis intelektas ir neuroniniai tinklai
Olga Kurasova. Dirbtinis intelektas ir neuroniniai tinklai
 
Remigijus Paulavičius. Blokų grandinės – tai gerokai daugiau nei tik skaitmen...
Remigijus Paulavičius. Blokų grandinės – tai gerokai daugiau nei tik skaitmen...Remigijus Paulavičius. Blokų grandinės – tai gerokai daugiau nei tik skaitmen...
Remigijus Paulavičius. Blokų grandinės – tai gerokai daugiau nei tik skaitmen...
 
Romualdas Krukauskas. Nesistemiško ir decentralizuoto valstybės informacinių ...
Romualdas Krukauskas. Nesistemiško ir decentralizuoto valstybės informacinių ...Romualdas Krukauskas. Nesistemiško ir decentralizuoto valstybės informacinių ...
Romualdas Krukauskas. Nesistemiško ir decentralizuoto valstybės informacinių ...
 
Eimutis Karciauskas. Programavimo pamokų motyvacijos ir efektyvumo gerinimo m...
Eimutis Karciauskas. Programavimo pamokų motyvacijos ir efektyvumo gerinimo m...Eimutis Karciauskas. Programavimo pamokų motyvacijos ir efektyvumo gerinimo m...
Eimutis Karciauskas. Programavimo pamokų motyvacijos ir efektyvumo gerinimo m...
 
Andrius Plečkaitis. IT specialistų deficitas ir Lietuvos ateitis
Andrius Plečkaitis. IT specialistų deficitas ir Lietuvos ateitisAndrius Plečkaitis. IT specialistų deficitas ir Lietuvos ateitis
Andrius Plečkaitis. IT specialistų deficitas ir Lietuvos ateitis
 
Alina Dėmenienė. Pagrindiniai skirtumai tarp C++ ir Python
Alina Dėmenienė. Pagrindiniai skirtumai tarp C++ ir PythonAlina Dėmenienė. Pagrindiniai skirtumai tarp C++ ir Python
Alina Dėmenienė. Pagrindiniai skirtumai tarp C++ ir Python
 
LIKS ataskaita 2019-2021 m.
LIKS ataskaita 2019-2021 m.LIKS ataskaita 2019-2021 m.
LIKS ataskaita 2019-2021 m.
 
S. Maskeliūnas Mokslo duomenų archyvas Midas: „imkit mane ir skaitykit“
S. Maskeliūnas Mokslo duomenų archyvas Midas: „imkit mane ir skaitykit“ S. Maskeliūnas Mokslo duomenų archyvas Midas: „imkit mane ir skaitykit“
S. Maskeliūnas Mokslo duomenų archyvas Midas: „imkit mane ir skaitykit“
 

Bazilevičius, Gediminas „Mobiliosios duomenų tyrybos paslaugų analizė“ (VU MII)

  • 1. Mobilios duomenų tyrybos analizės apžvalga Vilniaus universitetas Matematikos ir informatikos institutas doktorantas Gediminas Bazilevičius
  • 2. DUOMENŲ TYRYBA PASKIRSTYTOSE SISTEMOSE 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   2  
  • 3. SRAUTO DUOMENŲ TYRYBA MOBILIUOSE ĮRENGINIUOSE 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   3  
  • 4. SRAUTO DUOMENŲ TYRYBA (1) •  Srauto tyryba – tai tendencijų, šablonų, ryšių ir kategorijų aptikimo procesas iš laiko eilučių; •  Tradiciniai duomenų tyrybos metodai taikomi tuomet, kai turima visa duomenų aibė ir ji yra fiksuota. Jeigu duomenys gaunami srautu ir taip greitai, kad jų nenaudinga išsaugoti duomenų saugykloje, o reikia juos tirti realiu laiku – galime taikyti srauto duomenų tyrybos atvejį. 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   4  
  • 5. KODĖL SRAUTO TYRYBA? •  Duomenų apdorojimas atliekamas tiesiogiai; •  Duomenis galima tyrinėti/apdoroti mobiliai t.y. keičiantis geografiniai padėčiai; •  Sutaupoma duomenų saugyklų vieta, tinklo apkrova; •  Duomenų surinkimo ir išankstinio apdorojimo atlikimas mobiliajame įrenginyje palengvina ir paspartina duomenų perdavimą į duomenų saugyklas. •  Spartesnis duomenų apdorojimas tolygus spatesniam rezultatų gavimui. 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   5  
  • 6. SRAUTO DUOMENŲ CHARAKTERISTIKOS Ypatumai: 1.  duomenys gaunami/imami nenutrūkstamai iš srauto; 2.  nežinomas gaunamų duomenų tvarka/išsidėstymas; 3.  gaunamas srauto duomenų kiekis yra nenumatomas ir nesuskaičiuojamas; 4.  srautas yra negrįžtamas procesas, todėl daugiau nei du kartus duomenų srauto apdoroti neįmanoma; 5.  negalima taikyti tradicinių (įparastiniai) duomenų tyrybos algoritmų; 6.  duomenų srauto apdorojimo sutrikimai dėl ryšio patikimumo bei komunikavimo protokolų; 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   6  
  • 7. PAGRINDINAI SKIRTUMAI TARP SRAUTO IR TRADICINĖS DUOMENŲ TYRYBOS Srauto duomenų tyryba Duomenų apdorojimas realiu laiku Duomenų tyryba Tradicinis (įprastas) duomenų apdorojimas bet kuriuo metu Greita duomenų tyryba, kuri santykinai Lėta duomenų tyryba. Santykinai priklausanti priklauso nuo skaičiavimo išteklių nuo turimų skaičiavimo šaltinių Negalimas/dalinis duomenų saugojimas Galimas duomenų saugojimas Priimami apytikslūs rezultatai Gaunami tikslūs rezultatai Saugyklose saugomi tik išfiltruoti Saugyklose saugomi neapdoroti duomenys duomenys Erdvės ir laiko kontekstas yra ypatingai Erdvės ir laiko kontekstas yra taikomas tam svarbus tikrai taikomųjų programų klasei pvz.: Geographical Information Systems (GIS) Naudojami prisitaikantys ir modifikuoti Naudojami algoritmai, reikalaujantys didelių algoritmai, kurie nereikauja didelių įrangos resursų bei ilgo laiko tarpo įrenginio resursų 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   7  
  • 8. SRAUTO DUOMENŲ TYRYBOS ATRANKOS PROBLEMA Duomenų atrankos etapo metu galima atrinkti, kokią imties dalį tyrinėsime, to pasekoje galima sumažinti duomenų kiekį, pagreitinti duomenų tyrybos procesą bei rezultatų gavybą. Tiriamo srauto duomenų atrankos problema gali būti sprendžiama dviem būdais: 1.  duomenų srauto atskirų rinkinių nagrinėjimas siekiant sumažinti duomenų dydį; 2.  efektyvus algoritmų panaudojimas laiko ir vietos atžvilgiu. 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   8  
  • 9. SRAUTO DUOMENŲ TYRYBOS SPRENDIMAS •  Pirmas būdas. Visi duomenys turi būtų sumažinami iš viso kiekio duomenų arba rankiniu būdu parenkama tam tikra rinkinio dalis (poaibis). •  Tam realizuoti naudojami algoritmai: 1.  atranka (angl. sampling), 2.  apkrova (angl. shedding), 3.  eskizas (angl. sketching), 4.  konspektavimas (angl. synopsis), 5.  agregavimas (angls. aggregation). 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   9  
  • 10. SRAUTO DUOMENŲ TYRYBA, ATRANKA •  Atranka (angl. sampling) – tikimybiniu būdu atrenkami duomenys tolimesnei duomenų tyrybai. •  Apskaičiuotas barjerų paklaidų įvertinimas yra traktuojamas kaip atrankos rodiklio funkcija. •  Very Fast Maschine Learing (VFML) metodas naudoja Hoeffding ribą įvertinti atrankos dydį. •  Sunkumai: –  Nežinomas duomenų rinkinio dydis; –  Atrankos metodas gali veikti neteisingai, jei tikrinamos anomalijos analizės metu; 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   10  
  • 11. SRAUTO DUOMENŲ TYRYBOS, APKROVA •  Apkrova (angl. shedding) – t.y. procesas kurio metu atisakoma dalies duomenų srauto, kai yra fiksuojama gaunamo srauto perkrova. Apkrovos dydis yra naudojamas duomenų srauto užklausoms optimizuoti. Pageidautina naudoti apkrovos algoritmą, kad minimizuotume siekiamo rezultato paklaidą. 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   11  
  • 12. SRAUTO DUOMENŲ TYRYBOS, ESKIZAS •  Eskizas (angl. sketching) – apima srauto duomenų santraukos kūrimą naudojant mažą atminties kiekį. Tai yra įeinamo srauto vertikalus atrankos procesas. Eskizavimas yra taikomas palyginti skirtingus srautus duomenų. •  Pagrindinis trūkumas yra tikslumas. •  Sunku pritaikyti šį metodą srautui duomenų. 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   12  
  • 13. SRAUTO DUOMENŲ TYRYBOS, KONSPEKTAVIMAS •  Konspektavimas (angl. synopsis) – šio proceso metu išlaikoma trumpa informacija viso duomenų srauto metu. Duomenų konspekto sukūrimas tai yra santraukos metodų pritaikymas, kurie gali apibendrinti įeinamą srautą tolimesnei analizei. •  Negalima taikyti, kai yra O(N), kur N gali būti vietos/ laiko vienetų skaičius. •  Kai kurie sprendiniai yra reikalingi, kurių rezultatai gaunami arti O(poly(logN)). •  Duomenų struktūros konspektavimas gali būti taikomas kai neviršyjama tokio sudėtingumo O(logkN). 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   13  
  • 14. SRAUTO DUOMENŲ TYRYBOS, AGREGAVIMAS •  Agregavimas (angls. aggregation) – įeinamo srautų konspektas yra sugeneruotas naudojant vidurkį ir dispersiją. •  Jeigu įėjimo srautai turi didelių svyravimų tuomet šis algoritmas netinka. •  Šis algoritmas gali būti naudojamas apjungiant netiesioginius (angl. offline) ir tiesioginius (angl. online) duomenis. 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   14  
  • 15. SRAUTO DUOMENŲ TYRYBOS ATRANKOS PROBLEMA Duomenų atrankos etapo metu galima atrinkti, kokią imties dalį tyrinėsime, to pasekoje galima sumažinti duomenų kiekį, pagreitinti duomenų tyrybos procesą bei rezultatų gavybą. Tiriamo srauto duomenų atrankos problema gali būti sprendžiama dviem būdais: 1.  duomenų srauto atskirų rinkinių nagrinėjimas siekiant sumažinti duomenų dydį; 2.  efektyvus algoritmų panaudojimas laiko ir vietos atžvilgiu. 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   15  
  • 16. SRAUTO DUOMENŲ TYRYBOS SPRENDIMAS •  Antras būdas. Siekiama efektyviai išnaudoti esamus duomenų tyrybos algoritmus, juos modifikuojant ir pritaikant esamo srauto duomenų charakteristikas; Realizuoti tokie algoritmai: 1.  aproksivavimo algoritmas (angl. approximation algorithm), 2.  slenkančio lango algoritmas (angl. sliding windows algorithm). 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   16  
  • 17. SRAUTO DUOMENŲ TYRYBOS SPRENDIMAS, APROKSIMAVIMO ALGORITMAS •  Aproksimavimo algoritmas (angl. approximation algorithm) – aproksimavimo metodai yra naudojami algoritmų kūrimui. Sprendimai gauti su šiuo algoritmu yra aproksimuojami taip gaunamos ribų paklaidos. Šis algoritmas naudojamas pasikartojančių elementų dažnio dinamikai sekti. 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   17  
  • 18. SRAUTO DUOMENŲ TYRYBOS SPRENDIMAS, SLENKANTIS LANGAS •  Slenkantis langas (angl. sliding windows algorithm) Analizė naujai gautiems duomenims yra gauta iš prieš tai duomenų sukonspektuotos versijos. Naudojant slenkantį langą ankstesni srauto elementai pakeičiami naujai gauto duomenų srauto elementais. •  Naudojami du slenkantys langai: 1.  Skaičiaus (angl. count-based) 2.  Laiko (angl. time-based). •  Naudojant skaičaus pagrindo langą paskutiniai N elementai yra saugomi, o naudojant laiko pagrindu langą galima saugoti tik tuos elementus, kurie buvo sugeneruoti arba gauti paskutinėsiuose T laiko vienetuose. 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   18  
  • 19. KLASIKINĖ MOBILIOS SRAUTO DUOMENŲ TYRYBOS SCHEMA 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   19  
  • 20. MOBILIOJI DUOMENŲ TYRYBA •  Mobilioji duomenų tyryba tai technologija suteikianti galimybę realiu laiku analizuoti srauto duomenis, sugeneruotus pačiame telefone arba iš dėvimų įrenginių, kurie yra netoli šio įrenginio. •  Yra atvejų, kai mobilusis įrenginys gali atstoti tarpininką tarp serverio ir jutiklio. •  Mobilioje srauto duomenų tyryboje paprastai naudojami prisitaikatys algoritmai, kurie veiktų veiksmingai ir efektyviai mobiliuose įrenginiuose esant skirtingom sąlygom. 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   20  
  • 21. SRAUTO DUOMENŲ TYRYBOS PROBLEMA •  Srauto duomenų tyryba turi būti atliekama, taip kad ji neviršytų mobilių įrenginių ribotų išteklių: 1.  ekrano dydžio; 2.  energijos suvartojimo; 3.  proceso apkrovos; 4.  operatyviosios atminties; 5.  saugojimo vietos. 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   21  
  • 22. SRAUTO DUOMENŲ TYRYBOS SPRENDIMAS •  Naudojamos atitinkamos duomenų tyrybos strategijos leidžiančios dinamiškai keisti algoritmų parametrus priklausomai nuo esamų išteklių būklės, situacijos ir kitų apribojimų. •  Modifikuojami įprastiniai duomenų tyrybos algoritmai arba kuriami supaprastintos formos (angl. light-weight) algoritmai. 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   22  
  • 23. SRAUTO DUOMENŲ TYRYBOS STRATEGIJOS •  Situacijos prisitaikymo strategija: taikoma kritinei ir nekritinei situacijai. •  Resursų prisitaikymo strategija: 1.  AOG (Algorithm Output Granularity) – saugojimo vietos resursai; 2.  AIG (Algorithm Input Granularity) – baterijos resursai; 3.  APG (Algorithm Processing Granularity) – procesoriaus resursai. •  Hibridinė prisitaikymo strategija – situacijos ir resursų strategijos taikomos vienu metu. 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   23  
  • 24. MOBILIOS DUOMENŲ TYRYBOS PROGRAMOS •  Open Mobile Miner –  Klasifikavimas; –  Klasterizavimas; –  Laiko eilučių analizė; –  Pasikeitimo aptikimui. •  Mobile Weka –  Klasifikavimas; –  Klasterizavimas; –  Ryšių analizė. 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   24  
  • 25. MOBILIOS DUOMENŲ TYRYBOS ALGORITMAI Open Mobile Miner programoje veikiantys algoritmai Klasterizavimo algoritmai: •  Light-Weight Clustering; •  RA-Cluster ir DRA-Cluster; Pasikeitimo aptikimo algoritmas: •  CHANGE-DETECT; Klasifikavimo algoritmas: •  Light-Weight Class. 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   25  
  • 26. IŠVADOS (1) •  Duomenų tyryba mobiliuose įreginiuose vystoma pakankamai seniai, tačiau sukurtų ar modifikuotų algoritmų skirtų mobiliai duomenų tyrybai yra nedaug; •  Modifikuojant standartinius algoritmus mobiliems įrenginiams prarandamas gautų rezultatų tikslumas. Norint gauti tikslesnius skaičiavimų rezultatus padidėja laiko sąnaudos arba kyla problemų dėl nepakankamų mobilių įrenginių techninių išteklių; 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   26  
  • 27. IŠVADOS (2) •  Duomenų tyrybą mobiliuose įrenginiuose riboja skaičiavimo resursai (atminties kiekis, procesoriaus greitis, tinklo pralaidumas, baterijos talpa) bei skirtingų mobilių įrenginių gausa ir techninių charakteristikų skirtumai, todėl dažnai neįmanoma duomenų tyrybos rezultatų turėti realiu laiku; •  Esami duomenų tyrybos algoritmai gali apdoroti nedidelius kiekius duomenų; •  Srauto duomenų tyrybai lengviausiai pritaikomi ir tiksliausius galutinius rezultatus teikia klasterizavimo algoritmai. 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   27  
  • 28. AČIŪ UŽ DĖMESĮ 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   28