SlideShare a Scribd company logo
1 of 22
Duomenų tyrybos sistemų
galimybių tyrimas įvairių apimčių
duomenims analizuoti

Kotryna Paulauskienė
Vilniaus universiteto Matematikos ir informatikos
instituto doktorantė
Kompiuterininkų dienos – 2013
Tyrimo objektas ir tikslas
• Tyrimo objektas – įvairių apimčių duomenys ir
duomenų tyrybos sistemos.
• Tyrimo tikslas – nustatyti, kokių apimčių duomenis
per priimtiną laiką geba ištirti populiarios duomenų
tyrybos sistemos, sprendžiant klasifikavimo ir
klasterizavimo uždavinius.

• Nagrinėjamos ir lyginamos šios atvirojo kodo
duomenų tyrybos sistemos:
o WEKA (Waikato Environment for Knowledge
Analysis)
o KNIME (Konstanz Information Miner),
o ORANGE.
WEKA
• WEKA – atvirojo kodo programa, realizuota Java
programavimo kalba.
• Sistema
paprasta
naudoti
pradedančiajam
vartotojui. WEKA sistemoje realizuoti įrankiai:
duomenų pradinis apdorojimas, klasterizavimas,
klasifikavimas,
loginės
taisyklės,
regresija,
vizualizavimas.
• Sistemos pagrindinė vartotojo sąsaja yra Explorer,
be jos dar įgyvendinta darbo eigos moduliu
paremta sąsaja Knoweldge Flow ir komandų eilutė.
KNIME
• KNIME – vartotojui draugiška atvirojo kodo duomenų
apdorojimo, analizės ir vizualizavimo sistema, kurios
veikimas paremtas darbo eigos moduliu.
• Sistemą sudaro virš 1000 mazgų, kuriuos jungiant
sukuriamos darbo eigos schemos.
• Sistemoje yra integruoti visi WEKA sistemos moduliai.
ORANGE
• ORANGE – atvirojo kodo duomenų analizės sistema,
skirta ir pradedantiesiems, ir ekspertams.
• Sistemoje duomenų tyryba vykdoma naudojant
darbų eigos sudarymo įrankį Orange Canvas arba
programuojant Phyton kalba.
• ORANGE sistemoje realizuotas duomenų pradinis
apdorojimas
bei
populiarūs
klasifikavimo,
klasterizavimo,
vizualizavimo,
loginių
taisyklių,
mokymo be mokytojo, regresijos metodai.
Tyrime nagrinėjami klasifikavimo ir
klasterizavimo algoritmai
Klasifikavimo metodai:
• Bajeso klasifikatorius,
• k artimiausių kaimynų,
• sprendimų medis,
• daugiasluoksnis neuroninis tinklas,
• atraminių vektorių klasifikatorius.
Klasterizavimo metodai:
• k vidurkių,
• hierarchinis klasterizavimas.
Nagrinėjami matai
Nagrinėjami matai
• Klasterizavimo
kokybei
įvertinti
parinktas
klasterizavimo rezultatų su stebimomis klasėmis
patikrinimo metodas (rezultatuose nagrinėjama
neteisingai
suklasterizuotų
stebėjimų
dalis
procentais).
Tyrimo duomenys
• Dirbtinai sugeneruotos įvairių apimčių duomenų
aibės, kurių požymių reikšmės tolygiai pasiskirsčiusios
intervaluose (0; 1) ir (0,8; 2,2).
• Požymių skaičius fiksuotas – 100.
• Objektų skaičius įvairus – 5000, 15000, 30000, 50000,
150000, 200000, 400000, 600000.
• Objektai iš pirmojo intervalo priskiriami I-ajai klasei, iš
antro – II-ajai.
Tyrime naudoto kompiuterio parametrai
Eksperimentams atlikti naudotas kompiuteris, kurio
pagrindinės charakteristikos yra šios:
• operacinė sistema – Windows 8,
• operatyvioji atmintis (RAM) – 4 GB,
• procesorius – Intel i5-3317U, kurio taktinis dažnis –
1,7 GHz (Max Turbo dažnis 2,6 GHz).
Atlikus eksperimentus, naudojant kitų charakteristikų
kompiuterį, rezultatų skaitinių išraiškų absoliutūs dydžiai
pasikeistų, tačiau išliktų toks pat santykis tarp
skirtingomis sistemomis gautų rezultatų.
Klasifikavimo rezultatai
Klasifikavimo rezultatai
Klasifikavimo rezultatai
Klasifikavimo rezultatai
Klasifikavimo rezultatai
Klasifikavimo kokybės rezultatai
(bendras klasifikavimo tikslumas)
Klasė

ORANGE

WEKA

KNIME

Naive Bajeso
klasifikatorius

I klasė

97,34–97,62

96,48–97,60

92,22–97,50

k – artimiausių
kaimynų
klasifikatorius
Neuroninis tinklas

I klasė

100

100

100

-

100

99,66–99,87

99,06–99,89

99,40-99,97

99,02–99,97

100

100

100

Metodas

II klasė

II klasė
I klasė
II klasė

Sprendimų medis

I klasė
II klasė

Atraminių vektorių
klasifikatorius

I klasė
Klasterizavimo rezultatai
Klasterizavimo kokybė (neteisingai
suklasterizuotų stebėjimų dalis (%))
Objektų skaičius

Sistema
WEKA

KNIME

ORANGE

5000

1,9

1,9

4,0

15000

1,7

1,7

2,0

30000

1,6

1,6

1,9

50000

2,5

2,4

4,3

150000

1,7

1,7

2,0

200000

*

2,3

*

* – trūksta kompiuterio operatyviosios atminties
Išvados
• ORANGE sistemą galima naudoti kaip duomenų
tyrybos įrankį analizuojant duomenų aibes iki 50 000
objektų, kai kiekvieną objektą charakterizuoja 100
požymių.
• Galima teigti, kad turint tik ORANGE sistemą, didelės
apimties duomenys yra tie, kurie sudaryti iš daugiau
nei 50 000 objektų.
• Naudojant didesnės aibės duomenis, vertėtų rinktis
WEKA arba KNIME sistemą.
• Analizuojant duomenų aibes iki 50 000 objektų,
nustatytas panašus WEKA ir KNIME sistemų
skaičiavimo laikas vykdant visus nagrinėtus
algoritmus.
Išvados
• Analizuojant duomenis WEKA ar KNIME sistemomis,
didesnės nei 200 000 objektų duomenų aibės jau yra
didelės
apimties,
nors
naudojant
nesudėtingus
klasifikavimo metodus pastarosios dvi sistemos pajėgios
apdoroti ir didesnės apimties duomenis – 400000 objektų,
o KNIME dar ir 600 000 objektų.
• Jei duomenų apimtys yra didesnės, būtinos didelėms
duomenų aibėms pritaikytos duomenų tyrybos sistemos,
pajėgios pasitelkti lygiagrečiuosius ir paskirstytuosius
skaičiavimus.
• Tyrimo rezultatai parodė, kad taikyti klasifikavimo
metodai
duoda
tikslius
klasifikavimo
rezultatus,
sprendžiant testinį uždavinį, kai klasės tik šiek tiek
persidengia.
Išvados
• Prieš pasirenkant duomenų tyrybos sistemą derėtų
atsižvelgti ne tik į turimų duomenų aibės dydį, bet ir
įvertinti pasirinktų algoritmų sudėtingumą, kuris daro įtaką
skaičiavimo laikui.
• Ateityje būtina atlikti:
o eksperimentinius
tyrimus
naudojant
įvairesnius
duomenis, esančius iš daugiau nei dvi klasės,
sudarytus iš įvairių požymių skaičių;
o nagrinėti kitas populiarias duomenų tyrybos sistemas.
Tas leistų daryti tikslesnes išvadas apie sistemų
galimybes analizuojant įvairių apimčių duomenis.
Ačiū už dėmesį.

More Related Content

More from Lietuvos kompiuterininkų sąjunga

V. Marcinkevičius. ARIS dirbtinio intelekto kurso mokymosi medžiaga, www.aris...
V. Marcinkevičius. ARIS dirbtinio intelekto kurso mokymosi medžiaga, www.aris...V. Marcinkevičius. ARIS dirbtinio intelekto kurso mokymosi medžiaga, www.aris...
V. Marcinkevičius. ARIS dirbtinio intelekto kurso mokymosi medžiaga, www.aris...Lietuvos kompiuterininkų sąjunga
 
Jolanta Navickaitė. Skaitmeninė kompetencija ir informatikos naujovės bendraj...
Jolanta Navickaitė. Skaitmeninė kompetencija ir informatikos naujovės bendraj...Jolanta Navickaitė. Skaitmeninė kompetencija ir informatikos naujovės bendraj...
Jolanta Navickaitė. Skaitmeninė kompetencija ir informatikos naujovės bendraj...Lietuvos kompiuterininkų sąjunga
 
Romas Baronas. Tarpdisciplininiai moksliniai tyrimai – galimybė atsiverti ir ...
Romas Baronas. Tarpdisciplininiai moksliniai tyrimai – galimybė atsiverti ir ...Romas Baronas. Tarpdisciplininiai moksliniai tyrimai – galimybė atsiverti ir ...
Romas Baronas. Tarpdisciplininiai moksliniai tyrimai – galimybė atsiverti ir ...Lietuvos kompiuterininkų sąjunga
 
Monika Danilovaitė. Informatikos metodų taikymas balso klosčių būklei įvertin...
Monika Danilovaitė. Informatikos metodų taikymas balso klosčių būklei įvertin...Monika Danilovaitė. Informatikos metodų taikymas balso klosčių būklei įvertin...
Monika Danilovaitė. Informatikos metodų taikymas balso klosčių būklei įvertin...Lietuvos kompiuterininkų sąjunga
 
Gražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizė
Gražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizėGražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizė
Gražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizėLietuvos kompiuterininkų sąjunga
 
Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?
Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?
Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?Lietuvos kompiuterininkų sąjunga
 
Tomas Kasperavičius. Robotikos realizacija edukacinėje erdvėje
Tomas Kasperavičius. Robotikos realizacija edukacinėje erdvėjeTomas Kasperavičius. Robotikos realizacija edukacinėje erdvėje
Tomas Kasperavičius. Robotikos realizacija edukacinėje erdvėjeLietuvos kompiuterininkų sąjunga
 
Paulius Šakalys. Robotika: sąvoka, rūšys, pritaikymas edukacinėje erdvėje
Paulius Šakalys. Robotika: sąvoka, rūšys, pritaikymas edukacinėje erdvėjePaulius Šakalys. Robotika: sąvoka, rūšys, pritaikymas edukacinėje erdvėje
Paulius Šakalys. Robotika: sąvoka, rūšys, pritaikymas edukacinėje erdvėjeLietuvos kompiuterininkų sąjunga
 
Remigijus Paulavičius. Blokų grandinės – tai gerokai daugiau nei tik skaitmen...
Remigijus Paulavičius. Blokų grandinės – tai gerokai daugiau nei tik skaitmen...Remigijus Paulavičius. Blokų grandinės – tai gerokai daugiau nei tik skaitmen...
Remigijus Paulavičius. Blokų grandinės – tai gerokai daugiau nei tik skaitmen...Lietuvos kompiuterininkų sąjunga
 
Romualdas Krukauskas. Nesistemiško ir decentralizuoto valstybės informacinių ...
Romualdas Krukauskas. Nesistemiško ir decentralizuoto valstybės informacinių ...Romualdas Krukauskas. Nesistemiško ir decentralizuoto valstybės informacinių ...
Romualdas Krukauskas. Nesistemiško ir decentralizuoto valstybės informacinių ...Lietuvos kompiuterininkų sąjunga
 
Eimutis Karciauskas. Programavimo pamokų motyvacijos ir efektyvumo gerinimo m...
Eimutis Karciauskas. Programavimo pamokų motyvacijos ir efektyvumo gerinimo m...Eimutis Karciauskas. Programavimo pamokų motyvacijos ir efektyvumo gerinimo m...
Eimutis Karciauskas. Programavimo pamokų motyvacijos ir efektyvumo gerinimo m...Lietuvos kompiuterininkų sąjunga
 
Andrius Plečkaitis. IT specialistų deficitas ir Lietuvos ateitis
Andrius Plečkaitis. IT specialistų deficitas ir Lietuvos ateitisAndrius Plečkaitis. IT specialistų deficitas ir Lietuvos ateitis
Andrius Plečkaitis. IT specialistų deficitas ir Lietuvos ateitisLietuvos kompiuterininkų sąjunga
 
S. Maskeliūnas Mokslo duomenų archyvas Midas: „imkit mane ir skaitykit“
S. Maskeliūnas Mokslo duomenų archyvas Midas: „imkit mane ir skaitykit“ S. Maskeliūnas Mokslo duomenų archyvas Midas: „imkit mane ir skaitykit“
S. Maskeliūnas Mokslo duomenų archyvas Midas: „imkit mane ir skaitykit“ Lietuvos kompiuterininkų sąjunga
 

More from Lietuvos kompiuterininkų sąjunga (20)

V. Marcinkevičius. ARIS dirbtinio intelekto kurso mokymosi medžiaga, www.aris...
V. Marcinkevičius. ARIS dirbtinio intelekto kurso mokymosi medžiaga, www.aris...V. Marcinkevičius. ARIS dirbtinio intelekto kurso mokymosi medžiaga, www.aris...
V. Marcinkevičius. ARIS dirbtinio intelekto kurso mokymosi medžiaga, www.aris...
 
Jolanta Navickaitė. Skaitmeninė kompetencija ir informatikos naujovės bendraj...
Jolanta Navickaitė. Skaitmeninė kompetencija ir informatikos naujovės bendraj...Jolanta Navickaitė. Skaitmeninė kompetencija ir informatikos naujovės bendraj...
Jolanta Navickaitė. Skaitmeninė kompetencija ir informatikos naujovės bendraj...
 
Raimundas Matylevičius. Asmens duomenų valdymas
Raimundas Matylevičius. Asmens duomenų valdymasRaimundas Matylevičius. Asmens duomenų valdymas
Raimundas Matylevičius. Asmens duomenų valdymas
 
Romas Baronas. Tarpdisciplininiai moksliniai tyrimai – galimybė atsiverti ir ...
Romas Baronas. Tarpdisciplininiai moksliniai tyrimai – galimybė atsiverti ir ...Romas Baronas. Tarpdisciplininiai moksliniai tyrimai – galimybė atsiverti ir ...
Romas Baronas. Tarpdisciplininiai moksliniai tyrimai – galimybė atsiverti ir ...
 
Monika Danilovaitė. Informatikos metodų taikymas balso klosčių būklei įvertin...
Monika Danilovaitė. Informatikos metodų taikymas balso klosčių būklei įvertin...Monika Danilovaitė. Informatikos metodų taikymas balso klosčių būklei įvertin...
Monika Danilovaitė. Informatikos metodų taikymas balso klosčių būklei įvertin...
 
Rima Šiaulienė. IT VBE 2021 teksto maketavimo užduotis
Rima Šiaulienė. IT VBE 2021 teksto maketavimo užduotisRima Šiaulienė. IT VBE 2021 teksto maketavimo užduotis
Rima Šiaulienė. IT VBE 2021 teksto maketavimo užduotis
 
Gražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizė
Gražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizėGražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizė
Gražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizė
 
Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?
Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?
Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?
 
Eugenijus Valavičius. Hiperteksto kelias
Eugenijus Valavičius. Hiperteksto keliasEugenijus Valavičius. Hiperteksto kelias
Eugenijus Valavičius. Hiperteksto kelias
 
Tomas Kasperavičius. Robotikos realizacija edukacinėje erdvėje
Tomas Kasperavičius. Robotikos realizacija edukacinėje erdvėjeTomas Kasperavičius. Robotikos realizacija edukacinėje erdvėje
Tomas Kasperavičius. Robotikos realizacija edukacinėje erdvėje
 
Paulius Šakalys. Robotika: sąvoka, rūšys, pritaikymas edukacinėje erdvėje
Paulius Šakalys. Robotika: sąvoka, rūšys, pritaikymas edukacinėje erdvėjePaulius Šakalys. Robotika: sąvoka, rūšys, pritaikymas edukacinėje erdvėje
Paulius Šakalys. Robotika: sąvoka, rūšys, pritaikymas edukacinėje erdvėje
 
Olga Kurasova. Dirbtinis intelektas ir neuroniniai tinklai
Olga Kurasova. Dirbtinis intelektas ir neuroniniai tinklaiOlga Kurasova. Dirbtinis intelektas ir neuroniniai tinklai
Olga Kurasova. Dirbtinis intelektas ir neuroniniai tinklai
 
Remigijus Paulavičius. Blokų grandinės – tai gerokai daugiau nei tik skaitmen...
Remigijus Paulavičius. Blokų grandinės – tai gerokai daugiau nei tik skaitmen...Remigijus Paulavičius. Blokų grandinės – tai gerokai daugiau nei tik skaitmen...
Remigijus Paulavičius. Blokų grandinės – tai gerokai daugiau nei tik skaitmen...
 
Romualdas Krukauskas. Nesistemiško ir decentralizuoto valstybės informacinių ...
Romualdas Krukauskas. Nesistemiško ir decentralizuoto valstybės informacinių ...Romualdas Krukauskas. Nesistemiško ir decentralizuoto valstybės informacinių ...
Romualdas Krukauskas. Nesistemiško ir decentralizuoto valstybės informacinių ...
 
Eimutis Karciauskas. Programavimo pamokų motyvacijos ir efektyvumo gerinimo m...
Eimutis Karciauskas. Programavimo pamokų motyvacijos ir efektyvumo gerinimo m...Eimutis Karciauskas. Programavimo pamokų motyvacijos ir efektyvumo gerinimo m...
Eimutis Karciauskas. Programavimo pamokų motyvacijos ir efektyvumo gerinimo m...
 
Andrius Plečkaitis. IT specialistų deficitas ir Lietuvos ateitis
Andrius Plečkaitis. IT specialistų deficitas ir Lietuvos ateitisAndrius Plečkaitis. IT specialistų deficitas ir Lietuvos ateitis
Andrius Plečkaitis. IT specialistų deficitas ir Lietuvos ateitis
 
Alina Dėmenienė. Pagrindiniai skirtumai tarp C++ ir Python
Alina Dėmenienė. Pagrindiniai skirtumai tarp C++ ir PythonAlina Dėmenienė. Pagrindiniai skirtumai tarp C++ ir Python
Alina Dėmenienė. Pagrindiniai skirtumai tarp C++ ir Python
 
LIKS ataskaita 2019-2021 m.
LIKS ataskaita 2019-2021 m.LIKS ataskaita 2019-2021 m.
LIKS ataskaita 2019-2021 m.
 
S. Maskeliūnas Mokslo duomenų archyvas Midas: „imkit mane ir skaitykit“
S. Maskeliūnas Mokslo duomenų archyvas Midas: „imkit mane ir skaitykit“ S. Maskeliūnas Mokslo duomenų archyvas Midas: „imkit mane ir skaitykit“
S. Maskeliūnas Mokslo duomenų archyvas Midas: „imkit mane ir skaitykit“
 
Enciklopedija Lietuvai ir pasauliui
Enciklopedija Lietuvai ir pasauliuiEnciklopedija Lietuvai ir pasauliui
Enciklopedija Lietuvai ir pasauliui
 

Paulauskienė, Kotryna ; Kurasova, Olga „Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti“ (VU MII)

  • 1. Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti Kotryna Paulauskienė Vilniaus universiteto Matematikos ir informatikos instituto doktorantė Kompiuterininkų dienos – 2013
  • 2. Tyrimo objektas ir tikslas • Tyrimo objektas – įvairių apimčių duomenys ir duomenų tyrybos sistemos. • Tyrimo tikslas – nustatyti, kokių apimčių duomenis per priimtiną laiką geba ištirti populiarios duomenų tyrybos sistemos, sprendžiant klasifikavimo ir klasterizavimo uždavinius. • Nagrinėjamos ir lyginamos šios atvirojo kodo duomenų tyrybos sistemos: o WEKA (Waikato Environment for Knowledge Analysis) o KNIME (Konstanz Information Miner), o ORANGE.
  • 3. WEKA • WEKA – atvirojo kodo programa, realizuota Java programavimo kalba. • Sistema paprasta naudoti pradedančiajam vartotojui. WEKA sistemoje realizuoti įrankiai: duomenų pradinis apdorojimas, klasterizavimas, klasifikavimas, loginės taisyklės, regresija, vizualizavimas. • Sistemos pagrindinė vartotojo sąsaja yra Explorer, be jos dar įgyvendinta darbo eigos moduliu paremta sąsaja Knoweldge Flow ir komandų eilutė.
  • 4. KNIME • KNIME – vartotojui draugiška atvirojo kodo duomenų apdorojimo, analizės ir vizualizavimo sistema, kurios veikimas paremtas darbo eigos moduliu. • Sistemą sudaro virš 1000 mazgų, kuriuos jungiant sukuriamos darbo eigos schemos. • Sistemoje yra integruoti visi WEKA sistemos moduliai.
  • 5. ORANGE • ORANGE – atvirojo kodo duomenų analizės sistema, skirta ir pradedantiesiems, ir ekspertams. • Sistemoje duomenų tyryba vykdoma naudojant darbų eigos sudarymo įrankį Orange Canvas arba programuojant Phyton kalba. • ORANGE sistemoje realizuotas duomenų pradinis apdorojimas bei populiarūs klasifikavimo, klasterizavimo, vizualizavimo, loginių taisyklių, mokymo be mokytojo, regresijos metodai.
  • 6. Tyrime nagrinėjami klasifikavimo ir klasterizavimo algoritmai Klasifikavimo metodai: • Bajeso klasifikatorius, • k artimiausių kaimynų, • sprendimų medis, • daugiasluoksnis neuroninis tinklas, • atraminių vektorių klasifikatorius. Klasterizavimo metodai: • k vidurkių, • hierarchinis klasterizavimas.
  • 8. Nagrinėjami matai • Klasterizavimo kokybei įvertinti parinktas klasterizavimo rezultatų su stebimomis klasėmis patikrinimo metodas (rezultatuose nagrinėjama neteisingai suklasterizuotų stebėjimų dalis procentais).
  • 9. Tyrimo duomenys • Dirbtinai sugeneruotos įvairių apimčių duomenų aibės, kurių požymių reikšmės tolygiai pasiskirsčiusios intervaluose (0; 1) ir (0,8; 2,2). • Požymių skaičius fiksuotas – 100. • Objektų skaičius įvairus – 5000, 15000, 30000, 50000, 150000, 200000, 400000, 600000. • Objektai iš pirmojo intervalo priskiriami I-ajai klasei, iš antro – II-ajai.
  • 10. Tyrime naudoto kompiuterio parametrai Eksperimentams atlikti naudotas kompiuteris, kurio pagrindinės charakteristikos yra šios: • operacinė sistema – Windows 8, • operatyvioji atmintis (RAM) – 4 GB, • procesorius – Intel i5-3317U, kurio taktinis dažnis – 1,7 GHz (Max Turbo dažnis 2,6 GHz). Atlikus eksperimentus, naudojant kitų charakteristikų kompiuterį, rezultatų skaitinių išraiškų absoliutūs dydžiai pasikeistų, tačiau išliktų toks pat santykis tarp skirtingomis sistemomis gautų rezultatų.
  • 16. Klasifikavimo kokybės rezultatai (bendras klasifikavimo tikslumas) Klasė ORANGE WEKA KNIME Naive Bajeso klasifikatorius I klasė 97,34–97,62 96,48–97,60 92,22–97,50 k – artimiausių kaimynų klasifikatorius Neuroninis tinklas I klasė 100 100 100 - 100 99,66–99,87 99,06–99,89 99,40-99,97 99,02–99,97 100 100 100 Metodas II klasė II klasė I klasė II klasė Sprendimų medis I klasė II klasė Atraminių vektorių klasifikatorius I klasė
  • 18. Klasterizavimo kokybė (neteisingai suklasterizuotų stebėjimų dalis (%)) Objektų skaičius Sistema WEKA KNIME ORANGE 5000 1,9 1,9 4,0 15000 1,7 1,7 2,0 30000 1,6 1,6 1,9 50000 2,5 2,4 4,3 150000 1,7 1,7 2,0 200000 * 2,3 * * – trūksta kompiuterio operatyviosios atminties
  • 19. Išvados • ORANGE sistemą galima naudoti kaip duomenų tyrybos įrankį analizuojant duomenų aibes iki 50 000 objektų, kai kiekvieną objektą charakterizuoja 100 požymių. • Galima teigti, kad turint tik ORANGE sistemą, didelės apimties duomenys yra tie, kurie sudaryti iš daugiau nei 50 000 objektų. • Naudojant didesnės aibės duomenis, vertėtų rinktis WEKA arba KNIME sistemą. • Analizuojant duomenų aibes iki 50 000 objektų, nustatytas panašus WEKA ir KNIME sistemų skaičiavimo laikas vykdant visus nagrinėtus algoritmus.
  • 20. Išvados • Analizuojant duomenis WEKA ar KNIME sistemomis, didesnės nei 200 000 objektų duomenų aibės jau yra didelės apimties, nors naudojant nesudėtingus klasifikavimo metodus pastarosios dvi sistemos pajėgios apdoroti ir didesnės apimties duomenis – 400000 objektų, o KNIME dar ir 600 000 objektų. • Jei duomenų apimtys yra didesnės, būtinos didelėms duomenų aibėms pritaikytos duomenų tyrybos sistemos, pajėgios pasitelkti lygiagrečiuosius ir paskirstytuosius skaičiavimus. • Tyrimo rezultatai parodė, kad taikyti klasifikavimo metodai duoda tikslius klasifikavimo rezultatus, sprendžiant testinį uždavinį, kai klasės tik šiek tiek persidengia.
  • 21. Išvados • Prieš pasirenkant duomenų tyrybos sistemą derėtų atsižvelgti ne tik į turimų duomenų aibės dydį, bet ir įvertinti pasirinktų algoritmų sudėtingumą, kuris daro įtaką skaičiavimo laikui. • Ateityje būtina atlikti: o eksperimentinius tyrimus naudojant įvairesnius duomenis, esančius iš daugiau nei dvi klasės, sudarytus iš įvairių požymių skaičių; o nagrinėti kitas populiarias duomenų tyrybos sistemas. Tas leistų daryti tikslesnes išvadas apie sistemų galimybes analizuojant įvairių apimčių duomenis.