Pranešimas XVI kompiuterininkų konferencijos sekcijoje „Tikimybinių ir statistinių metodų taikymai“,
„Kompiuterininkų dienos – 2013“, Šiauliai 2013-09-21
Paulauskienė, Kotryna ; Kurasova, Olga „Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti“ (VU MII)
1. Duomenų tyrybos sistemų
galimybių tyrimas įvairių apimčių
duomenims analizuoti
Kotryna Paulauskienė
Vilniaus universiteto Matematikos ir informatikos
instituto doktorantė
Kompiuterininkų dienos – 2013
2. Tyrimo objektas ir tikslas
• Tyrimo objektas – įvairių apimčių duomenys ir
duomenų tyrybos sistemos.
• Tyrimo tikslas – nustatyti, kokių apimčių duomenis
per priimtiną laiką geba ištirti populiarios duomenų
tyrybos sistemos, sprendžiant klasifikavimo ir
klasterizavimo uždavinius.
• Nagrinėjamos ir lyginamos šios atvirojo kodo
duomenų tyrybos sistemos:
o WEKA (Waikato Environment for Knowledge
Analysis)
o KNIME (Konstanz Information Miner),
o ORANGE.
3. WEKA
• WEKA – atvirojo kodo programa, realizuota Java
programavimo kalba.
• Sistema
paprasta
naudoti
pradedančiajam
vartotojui. WEKA sistemoje realizuoti įrankiai:
duomenų pradinis apdorojimas, klasterizavimas,
klasifikavimas,
loginės
taisyklės,
regresija,
vizualizavimas.
• Sistemos pagrindinė vartotojo sąsaja yra Explorer,
be jos dar įgyvendinta darbo eigos moduliu
paremta sąsaja Knoweldge Flow ir komandų eilutė.
4. KNIME
• KNIME – vartotojui draugiška atvirojo kodo duomenų
apdorojimo, analizės ir vizualizavimo sistema, kurios
veikimas paremtas darbo eigos moduliu.
• Sistemą sudaro virš 1000 mazgų, kuriuos jungiant
sukuriamos darbo eigos schemos.
• Sistemoje yra integruoti visi WEKA sistemos moduliai.
5. ORANGE
• ORANGE – atvirojo kodo duomenų analizės sistema,
skirta ir pradedantiesiems, ir ekspertams.
• Sistemoje duomenų tyryba vykdoma naudojant
darbų eigos sudarymo įrankį Orange Canvas arba
programuojant Phyton kalba.
• ORANGE sistemoje realizuotas duomenų pradinis
apdorojimas
bei
populiarūs
klasifikavimo,
klasterizavimo,
vizualizavimo,
loginių
taisyklių,
mokymo be mokytojo, regresijos metodai.
9. Tyrimo duomenys
• Dirbtinai sugeneruotos įvairių apimčių duomenų
aibės, kurių požymių reikšmės tolygiai pasiskirsčiusios
intervaluose (0; 1) ir (0,8; 2,2).
• Požymių skaičius fiksuotas – 100.
• Objektų skaičius įvairus – 5000, 15000, 30000, 50000,
150000, 200000, 400000, 600000.
• Objektai iš pirmojo intervalo priskiriami I-ajai klasei, iš
antro – II-ajai.
10. Tyrime naudoto kompiuterio parametrai
Eksperimentams atlikti naudotas kompiuteris, kurio
pagrindinės charakteristikos yra šios:
• operacinė sistema – Windows 8,
• operatyvioji atmintis (RAM) – 4 GB,
• procesorius – Intel i5-3317U, kurio taktinis dažnis –
1,7 GHz (Max Turbo dažnis 2,6 GHz).
Atlikus eksperimentus, naudojant kitų charakteristikų
kompiuterį, rezultatų skaitinių išraiškų absoliutūs dydžiai
pasikeistų, tačiau išliktų toks pat santykis tarp
skirtingomis sistemomis gautų rezultatų.
16. Klasifikavimo kokybės rezultatai
(bendras klasifikavimo tikslumas)
Klasė
ORANGE
WEKA
KNIME
Naive Bajeso
klasifikatorius
I klasė
97,34–97,62
96,48–97,60
92,22–97,50
k – artimiausių
kaimynų
klasifikatorius
Neuroninis tinklas
I klasė
100
100
100
-
100
99,66–99,87
99,06–99,89
99,40-99,97
99,02–99,97
100
100
100
Metodas
II klasė
II klasė
I klasė
II klasė
Sprendimų medis
I klasė
II klasė
Atraminių vektorių
klasifikatorius
I klasė
18. Klasterizavimo kokybė (neteisingai
suklasterizuotų stebėjimų dalis (%))
Objektų skaičius
Sistema
WEKA
KNIME
ORANGE
5000
1,9
1,9
4,0
15000
1,7
1,7
2,0
30000
1,6
1,6
1,9
50000
2,5
2,4
4,3
150000
1,7
1,7
2,0
200000
*
2,3
*
* – trūksta kompiuterio operatyviosios atminties
19. Išvados
• ORANGE sistemą galima naudoti kaip duomenų
tyrybos įrankį analizuojant duomenų aibes iki 50 000
objektų, kai kiekvieną objektą charakterizuoja 100
požymių.
• Galima teigti, kad turint tik ORANGE sistemą, didelės
apimties duomenys yra tie, kurie sudaryti iš daugiau
nei 50 000 objektų.
• Naudojant didesnės aibės duomenis, vertėtų rinktis
WEKA arba KNIME sistemą.
• Analizuojant duomenų aibes iki 50 000 objektų,
nustatytas panašus WEKA ir KNIME sistemų
skaičiavimo laikas vykdant visus nagrinėtus
algoritmus.
20. Išvados
• Analizuojant duomenis WEKA ar KNIME sistemomis,
didesnės nei 200 000 objektų duomenų aibės jau yra
didelės
apimties,
nors
naudojant
nesudėtingus
klasifikavimo metodus pastarosios dvi sistemos pajėgios
apdoroti ir didesnės apimties duomenis – 400000 objektų,
o KNIME dar ir 600 000 objektų.
• Jei duomenų apimtys yra didesnės, būtinos didelėms
duomenų aibėms pritaikytos duomenų tyrybos sistemos,
pajėgios pasitelkti lygiagrečiuosius ir paskirstytuosius
skaičiavimus.
• Tyrimo rezultatai parodė, kad taikyti klasifikavimo
metodai
duoda
tikslius
klasifikavimo
rezultatus,
sprendžiant testinį uždavinį, kai klasės tik šiek tiek
persidengia.
21. Išvados
• Prieš pasirenkant duomenų tyrybos sistemą derėtų
atsižvelgti ne tik į turimų duomenų aibės dydį, bet ir
įvertinti pasirinktų algoritmų sudėtingumą, kuris daro įtaką
skaičiavimo laikui.
• Ateityje būtina atlikti:
o eksperimentinius
tyrimus
naudojant
įvairesnius
duomenis, esančius iš daugiau nei dvi klasės,
sudarytus iš įvairių požymių skaičių;
o nagrinėti kitas populiarias duomenų tyrybos sistemas.
Tas leistų daryti tikslesnes išvadas apie sistemų
galimybes analizuojant įvairių apimčių duomenis.