SlideShare a Scribd company logo
1 of 50
Download to read offline
Duomenų analizės įrankio
DAMIS panaudojimas
2015 rugsėjo 17 d., Panevėžys
doc. dr. Olga Kurasova
Duomenų analizė – duomenų tyryba
 Duomenų tyryba (data mining) – tai procesas, kurio
metu, naudojant įvairius duomenų analizės įrankius,
bandoma nustatyti ir atrasti „užslėptas“ duomenų
struktūras ir ryšius.
Duomenų analizė – duomenų tyryba
 Duomenų tyryba (data mining) – tai procesas, kurio
metu, naudojant įvairius duomenų analizės įrankius,
bandoma nustatyti ir atrasti „užslėptas“ duomenų
struktūras ir ryšius.
 Duomenų tyryba siekia iš įprastai didelių duomenų
aibių išgauti svarbią informaciją, nustatyti
nereikšmingą.
Duomenų analizė – duomenų tyryba
 Duomenų tyryba (data mining) – tai procesas, kurio
metu, naudojant įvairius duomenų analizės įrankius,
bandoma nustatyti ir atrasti „užslėptas“ duomenų
struktūras ir ryšius.
 Duomenų tyryba siekia iš įprastai didelių duomenų
aibių išgauti svarbią informaciją, nustatyti
nereikšmingą.
 Duomenų tyrybos metodai padeda „nepasiklysti“
duomenų ir informacijos gausoje.
Duomenų analizė – duomenų tyryba
 Duomenų tyryba (data mining) – tai procesas, kurio
metu, naudojant įvairius duomenų analizės įrankius,
bandoma nustatyti ir atrasti „užslėptas“ duomenų
struktūras ir ryšius.
 Duomenų tyryba siekia iš įprastai didelių duomenų
aibių išgauti svarbią informaciją, nustatyti
nereikšmingą.
 Duomenų tyrybos metodai padeda „nepasiklysti“
duomenų ir informacijos gausoje.
 Žinių radimas duomenų aibėse – tai procesas, kurio
metu ieškoma naujos informacijos didelėse duomenų
aibėse, kurios padės įgyti žinias apie analizuojamus
duomenis.
Žinių radimo duomenų aibėse procesas
Duomenų analizės įrankiai (1)
 Matematinės statistikos paketai:
 IBM SPSS Modeler (Clementine)
(http://www-01.ibm.com/software/analytics/spss/),
 SAS/STAT
(http://www.sas.com/en_us/software/analytics/stat.html),
 Statistica (http://www.statsoft.com/Products/STATISTICA/),
 MS Excel įrankis „Data analysis“ (http://products.office.com/en-
us/excel );
Duomenų analizės įrankiai (1)
 Matematinės statistikos paketai:
 IBM SPSS Modeler (Clementine)
(http://www-01.ibm.com/software/analytics/spss/),
 SAS/STAT
(http://www.sas.com/en_us/software/analytics/stat.html),
 Statistica (http://www.statsoft.com/Products/STATISTICA/),
 MS Excel įrankis „Data analysis“ (http://products.office.com/en-
us/excel );
 Programavimo funkcijas turintys paketai:
 Matlab (http://www.mathworks.com),
 Octave (https://www.gnu.org/software/octave),
 R (http://www.r-project.org);
Duomenų analizės įrankiai (2)
 Mokslinių darbų sekų principais pagrįstos duomenų
tyrybos sistemos:
 WEKA (http://www.cs.waikato.ac.nz/ml/weka/),
 Orange (http://orange.biolab.si),
 KNIME (https://www.knime.org),
 RapidMiner (https://rapidminer.com),
 ClowdFlows (http://www.clowdflows.org),
 DAMIS (http://www.damis.lt).
DAMIS – nacionalinio mokslo informacijos archyvo
MIDAS (https://midas.lt) duomenų analizės įrankis
DAMIS – DAta MIning System
 DAMIS gali veikti ir nepriklausomai nuo MIDAS
(http://www.damis.lt) (būtina registracija)
DAMIS funkcionalumas
 DAMIS – internetinė sistema (web application):
nereikia jokio papildomo diegimo, užtenka interneto
naršyklės.
DAMIS funkcionalumas
 DAMIS – internetinė sistema (web application):
nereikia jokio papildomo diegimo, užtenka interneto
naršyklės.
 Galima rinktis lygiagrečiųjų ir paskirstytųjų
skaičiavimų resursus (VU MII klasteris – VU MIF
superkompiuteris), todėl gali būti analizuojami įvairios
apimties duomenis.
DAMIS funkcionalumas
 DAMIS – internetinė sistema (web application):
nereikia jokio papildomo diegimo, užtenka interneto
naršyklės.
 Galima rinktis lygiagrečiųjų ir paskirstytųjų
skaičiavimų resursus (VU MII klasteris – VU MIF
superkompiuteris), todėl gali būti analizuojami įvairios
apimties duomenis.
 Įgyvendintas mokslinių užduočių sekų principas.
DAMIS funkcionalumas
 DAMIS – internetinė sistema (web application):
nereikia jokio papildomo diegimo, užtenka interneto
naršyklės.
 Galima rinktis lygiagrečiųjų ir paskirstytųjų
skaičiavimų resursus (VU MII klasteris – VU MIF
superkompiuteris), todėl gali būti analizuojami įvairios
apimties duomenis.
 Įgyvendintas mokslinių užduočių sekų principas.
 Gautus rezultatus galima išsaugoti naudotojo
kompiuteryje arba MIDAS saugykloje.
DAMIS funkcionalumas
 DAMIS – internetinė sistema (web application):
nereikia jokio papildomo diegimo, užtenka interneto
naršyklės.
 Galima rinktis lygiagrečiųjų ir paskirstytųjų
skaičiavimų resursus (VU MII klasteris – VU MIF
superkompiuteris), todėl gali būti analizuojami įvairios
apimties duomenis.
 Įgyvendintas mokslinių užduočių sekų principas.
 Gautus rezultatus galima išsaugoti naudotojo
kompiuteryje arba MIDAS saugykloje.
 Įgyvendinti įvairūs duomenų analizės algoritmai, gali
būti analizuojami skaitiniai daugiamačiai duomenys,
kurie pateikti lentelės pavidalu.
Daugiamačių duomenų pavyzdys
(krūties vėžio duomenys)
𝑥1 𝑥2 𝑥3 𝑥4 𝑥5 𝑥6 𝑥7 𝑥8 𝑥9 C
5 1 1 1 2 1 3 1 1 b
5 4 4 5 7 10 3 2 1 b
3 1 1 1 2 2 3 1 1 b
6 8 8 1 3 4 3 7 1 b
4 1 1 3 2 1 3 1 1 b
1 1 1 1 2 10 3 1 1 b
2 1 2 1 2 1 3 1 1 b
2 1 1 1 2 1 1 1 5 b
4 2 1 1 2 1 2 1 1 b
... ... ... ... ... ... ... ... ... ...
8 10 10 8 7 10 9 7 1 m
5 3 3 3 2 3 4 4 1 m
8 7 5 10 7 9 5 5 4 m
7 4 6 4 6 1 4 3 1 m
10 7 7 6 4 10 4 1 2 m
7 3 2 10 5 10 5 4 4 m
10 5 5 3 6 7 7 10 1 m
... ... ... ... ... ... ... ... ... ...
4 8 8 5 4 5 10 4 1 m
Duomenų požymiai:
𝑥1 – clump thickness,
𝑥2 – uniformity of cell size,
𝑥3 – uniformity of cell shape,
𝑥4 – marginal adhesion,
𝑥5 – single epithelial cell size,
𝑥6 – bare nuclei,
𝑥7 – bland chromatin,
𝑥8 – normal nucleoli,
𝑥9 – mitoses.
Klasės:
C – class (benign, malignant)
dimensija (matmenų skaičius)
𝑛 = 9
viena eilutė – vienos pacientės
duomenys
Duomenų analizė naudojant DAMIS
duomenys
duomenųanalizė
pradinis
apdorojimas
klasifikavimas
grupavimas
dimensijos
mažinimas
rezultatų
peržiūra, jų
interpretavimas
naujos
žinios
duomenų
archyvas
DAMIS grafinė naudotojo sąsaja
DAMIS grafinė naudotojo sąsaja
Darbalaukis, kuriame
bus formuojama
eksperimento
užduočių seka
(scientific workflow)
kompo-
nentės
eksperimentų vykdymo valdymas
DAMIS duomenų analizei
 Įgyvendinta:
 pradinio apdorojimo algoritmai (valymas,
filtravimas, skaidymas, transponavimas,
normavimas, požymių atrinkimas),
 pagrindinės statistinės charakteristikos
(minimumas, maksimumas, vidurkis, standartinis
nuokrypis, mediana),
 dimensijos mažinimo (vizualizavimo) algoritmai,
 klasifikavimo ir grupavimo (klasterizavimo)
algoritmai,
 gautų rezultatų peržiūra.
Skaičiavimų resursų parinkimas
Skaičiavimų resursų parinkimas
Skaičiavimų resursų parinkimas
Duomenų įkėlimas
Norima komponentė pelyte tempiama į darbalaukį;
Prieš tai duomenys turi būti tinkamai paruošti.
Duomenų įkėlimas iš MIDAS
Duomenų pirminis apdorojimas
Įkeltos komponentės sujungiamos į
vadinamąsias mokslinių užduočių sekas
(scientific workflows)
Komponenčių parametrų parinkimas
Du kartus spustelėjus
pelyte įkeltą
komponentę atsiranda
langas, kuriame
galima pasirinkti
komponenčių
parametrus
Rezultatų peržiūra
Rezultatų matricinis vaizdavimas
Rezultatų grafinis vaizdavimas
 Svarbu duomenis pateikti vizualia forma.
 Žmogui lengviau suvokti vizualizuotus duomenis, nei
jų skaitinius įverčius.
 Įrankyje įgyvendinta dvimatė taškinė diagrama
(scatter plot).
 Jei vizualizuojami duomenys, kuriuos apibūdina daugiau
nei du požymiai, galima peržiūrėti visų galimų porų
vaizdus.
Rezultatų grafinis vaizdavimas
Eksperimento vykdymas
Eksperimentų vykdymo istorija
Duomenų statistinės charakteristikos
Statistiniai primityvai – min, max, vidurkis,
standartinis nuokrypis, mediana
Duomenų dimensijos mažinimas
 Dažnai duomenis apibūdina daug požymių, todėl jie
yra daugiamačiai.
 Būtina sumažinti dimensiją, siekiant palengvinti
tolesnę duomenų analizę.
 DAMIS įgyvendinti šie duomenų dimensijos mažinimo
metodai:
 PCA – pagrindinių komponenčių analizė,
 SMACOF(MDS), DMA, Relative MDS – daugiamatės skalės ir
jų variantai,
 SAMANN – dirbtiniai neuroniniai tinklai daugiamatėms
skalėms,
 SOM-MDS – saviorganizuojančių neuroninių tinklų ir
daugiamačių skalių junginys.
Daugiamačių duomenų pavyzdys
(krūties vėžio duomenys)
𝑥1 𝑥2 𝑥3 𝑥4 𝑥5 𝑥6 𝑥7 𝑥8 𝑥9 C
5 1 1 1 2 1 3 1 1 b
5 4 4 5 7 10 3 2 1 b
3 1 1 1 2 2 3 1 1 b
6 8 8 1 3 4 3 7 1 b
4 1 1 3 2 1 3 1 1 b
1 1 1 1 2 10 3 1 1 b
2 1 2 1 2 1 3 1 1 b
2 1 1 1 2 1 1 1 5 b
4 2 1 1 2 1 2 1 1 b
... ... ... ... ... ... ... ... ... ...
8 10 10 8 7 10 9 7 1 m
5 3 3 3 2 3 4 4 1 m
8 7 5 10 7 9 5 5 4 m
7 4 6 4 6 1 4 3 1 m
10 7 7 6 4 10 4 1 2 m
7 3 2 10 5 10 5 4 4 m
10 5 5 3 6 7 7 10 1 m
... ... ... ... ... ... ... ... ... ...
4 8 8 5 4 5 10 4 1 m
Duomenų požymiai:
𝑥1 – clump thickness,
𝑥2 – uniformity of cell size,
𝑥3 – uniformity of cell shape,
𝑥4 – marginal adhesion,
𝑥5 – single epithelial cell size,
𝑥6 – bare nuclei,
𝑥7 – bland chromatin,
𝑥8 – normal nucleoli,
𝑥9 – mitoses.
Klasės:
C – class (benign, malignant)
dimensija (matmenų skaičius)
𝑛 = 9
viena eilutė – vienos pacientės
duomenys
Krūties vėžio duomenų dimensijos
mažinimas (vizualizavimas) MDS metodu
Daugiamačių duomenų transformavimas į mažesnės
dimensijos erdvę, pavyzdžiui, dvimatę
(𝑥𝑖1, 𝑥𝑖2, … , 𝑥𝑖9) → (𝑦𝑖1, 𝑦𝑖2)
• vienas taškas atitinka
vieną pacientę
• vienas taškas apjungia
visus devynis požymius
• vizualus pateikimas
padeda lengviau suvokti
informacijos visumą
2 – benign, 4 – malignant
𝑥1 𝑥2 𝑥3 𝑥4 𝑥5 𝑥6 𝑥7 𝑥8 𝑥9 C
5 1 1 1 2 1 3 1 1 b
5 4 4 5 7 10 3 2 1 b
3 1 1 1 2 2 3 1 1 b
6 8 8 1 3 4 3 7 1 b
4 1 1 3 2 1 3 1 1 b
1 1 1 1 2 10 3 1 1 b
2 1 2 1 2 1 3 1 1 b
2 1 1 1 2 1 1 1 5 b
4 2 1 1 2 1 2 1 1 b
... ... ... ... ... ... ... ... ... ...
8 10 10 8 7 10 9 7 1 m
5 3 3 3 2 3 4 4 1 m
8 7 5 10 7 9 5 5 4 m
7 4 6 4 6 1 4 3 1 m
10 7 7 6 4 10 4 1 2 m
7 3 2 10 5 10 5 4 4 m
10 5 5 3 6 7 7 10 1 m
... ... ... ... ... ... ... ... ... ...
4 8 8 5 4 5 10 4 1 m
Krūties vėžio duomenų dimensijos
mažinimas (vizualizavimas) MDS metodu
Class (C):
2 – benign
4 – malignant
Duomenų dimensijos mažinimas
Duomenų klasifikavimas
 Klasifikavimo tikslas – turint duomenis, kurių klasės
yra žinomas, rasti klases duomenims, kurių klasės nėra
žinomos.
 Klasifikavimo uždaviniai yra sprendžiami medicinoje
(preliminari diagnostika), ekonomikoje, finansuose ir kt.
 DAMIS įgyvendinti šie duomenų klasifikavimo
metodai:
 MLP – daugiasluoksnis neuroninis tinklas
(perceptronas),
 RDF – sprendimų medžiais pagrįstas klasifikatorius.
Krūties vėžio duomenys
𝑥1 𝑥2 𝑥3 𝑥4 𝑥5 𝑥6 𝑥7 𝑥8 𝑥9 C
5 1 1 1 2 1 3 1 1 b
5 4 4 5 7 10 3 2 1 b
3 1 1 1 2 2 3 1 1 b
6 8 8 1 3 4 3 7 1 b
4 1 1 3 2 1 3 1 1 b
1 1 1 1 2 10 3 1 1 b
2 1 2 1 2 1 3 1 1 b
2 1 1 1 2 1 1 1 5 b
4 2 1 1 2 1 2 1 1 b
... ... ... ... ... ... ... ... ... ...
8 10 10 8 7 10 9 7 1 m
5 3 3 3 2 3 4 4 1 m
8 7 5 10 7 9 5 5 4 m
7 4 6 4 6 1 4 3 1 m
10 7 7 6 4 10 4 1 2 m
7 3 2 10 5 10 5 4 4 m
10 5 5 3 6 7 7 10 1 m
... ... ... ... ... ... ... ... ... ...
4 8 8 5 4 5 10 4 1 m
Duomenų požymiai:
𝑥1 – clump thickness,
𝑥2 – uniformity of cell size,
𝑥3 – uniformity of cell shape,
𝑥4 – marginal adhesion,
𝑥5 – single epithelial cell size,
𝑥6 – bare nuclei,
𝑥7 – bland chromatin,
𝑥8 – normal nucleoli,
𝑥9 – mitoses.
Klasės:
C – class (benign, malignant)
dimensija (matmenų skaičius)
𝑛 = 9
viena eilutė – vienos pacientės
duomenys
Duomenų klasifikavimas
Krūties vėžio duomenų klasifikavimas
Class:
2 – benign
4 – malignant
Duomenų grupavimas (klasterizavimas)
 Klasterizavimo tikslas – suskirstyti duomenis į grupes
pagal jų panašumą, taip, kad toje pačioje grupėje
duomenys būtų panašūs, o duomenys iš skirtingų grupių
būtų nepanašūs.
 Dažniausiai klasterizavimo uždaviniai yra sprendžiami
tada, kai nežinomos duomenų klasės.
 Įgyvendinti šie duomenų grupavimo
(klasterizavimo) metodai:
 k-means – k-vidurkių klasterizavimo metodas,
 SOM – saviorganizuojantis neuroninis tinklas.
Duomenų grupavimas (klasterizavimas)
Krūties vėžio duomenų grupavimas ir
vizualizavimas
Krūties vėžio duomenų grupavimas, klasifikavimas
ir vizualizavimas
Grupavimo į tris grupes rezultatas Klasių vizualizavimas
Kodėl verta rinktis DAMIS?
 Praplečia MIDAS galimybes: tai duomenų archyvas,
turintis duomenų analizės galimybę visų sričių
mokslininkams.
 Nereikia jokios papildomos programinės įrangos.
 Galimybė rinktis lygiagrečiųjų ir paskirstytųjų
skaičiavimų resursus iš siūlomų alternatyvų.
 Tyrėjas norėdamas spręsti tam tikrą duomenų analizės
uždavinį, tačiau eksperimentą vykdyti su kitais
duomenimis ar kitais algoritmų valdymo parametrais,
gali panaudoti jau sukurtas mokslinių užduočių sekas.
 Numatytos DAMIS plėtros galimybės pagal
mokslininkų poreikį.
Ačiū už dėmesį
Pastabų, komentarų lauksime ir el. paštu
olga.kurasova@mii.vu.lt arba info@inscience.lt

More Related Content

Viewers also liked

Mobile Data Stream Mining (Foundations)
Mobile Data Stream Mining (Foundations)Mobile Data Stream Mining (Foundations)
Mobile Data Stream Mining (Foundations)Mohamed Medhat Gaber
 
Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aur...
Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aur...Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aur...
Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aur...Lietuvos kompiuterininkų sąjunga
 
Newmat Stretch Ceiling Product Line
Newmat Stretch Ceiling Product LineNewmat Stretch Ceiling Product Line
Newmat Stretch Ceiling Product LineDivya Devu
 
Judrus (Agile) projektu valdymas
Judrus (Agile) projektu valdymasJudrus (Agile) projektu valdymas
Judrus (Agile) projektu valdymasVaidas Adomauskas
 
Agile software development
Agile software developmentAgile software development
Agile software developmentRajesh Piryani
 
Kibernetinis saugumas: iššūkiai, atakų tipai bei telekomunikacijų operatoriau...
Kibernetinis saugumas: iššūkiai, atakų tipai bei telekomunikacijų operatoriau...Kibernetinis saugumas: iššūkiai, atakų tipai bei telekomunikacijų operatoriau...
Kibernetinis saugumas: iššūkiai, atakų tipai bei telekomunikacijų operatoriau...TEO LT, AB
 
Metodika, skirta įmonių į paslaugas orientuotos architektūros sistemų nefunk...
Metodika,  skirta įmonių į paslaugas orientuotos architektūros sistemų nefunk...Metodika,  skirta įmonių į paslaugas orientuotos architektūros sistemų nefunk...
Metodika, skirta įmonių į paslaugas orientuotos architektūros sistemų nefunk...Sandra Svanidzaitė, PhD, CBAP
 
Gintaras Čiurlionis. Kibernetinės erdvės iššūkiai Lietuvoje – teisiniai, inst...
Gintaras Čiurlionis. Kibernetinės erdvės iššūkiai Lietuvoje – teisiniai, inst...Gintaras Čiurlionis. Kibernetinės erdvės iššūkiai Lietuvoje – teisiniai, inst...
Gintaras Čiurlionis. Kibernetinės erdvės iššūkiai Lietuvoje – teisiniai, inst...TEO LT, AB
 
Chapter - 8.1 Data Mining Concepts and Techniques 2nd Ed slides Han & Kamber
Chapter - 8.1 Data Mining Concepts and Techniques 2nd Ed slides Han & KamberChapter - 8.1 Data Mining Concepts and Techniques 2nd Ed slides Han & Kamber
Chapter - 8.1 Data Mining Concepts and Techniques 2nd Ed slides Han & Kambererror007
 
Introduction to Master Data Services in SQL Server 2012
Introduction to Master Data Services in SQL Server 2012Introduction to Master Data Services in SQL Server 2012
Introduction to Master Data Services in SQL Server 2012Stéphane Fréchette
 
Distributed Database System
Distributed Database SystemDistributed Database System
Distributed Database SystemSulemang
 
Paskaita nr3 bevieliai_tinklai
Paskaita nr3 bevieliai_tinklaiPaskaita nr3 bevieliai_tinklai
Paskaita nr3 bevieliai_tinklaiDonatas Bukelis
 
Kompiuteriu tinklai ir_telekomunikacijos_teorijos_konspektas
Kompiuteriu tinklai ir_telekomunikacijos_teorijos_konspektasKompiuteriu tinklai ir_telekomunikacijos_teorijos_konspektas
Kompiuteriu tinklai ir_telekomunikacijos_teorijos_konspektasDonatas Bukelis
 
Business Process Design
Business Process DesignBusiness Process Design
Business Process DesignSandy Kemsley
 

Viewers also liked (15)

Mobile Data Stream Mining (Foundations)
Mobile Data Stream Mining (Foundations)Mobile Data Stream Mining (Foundations)
Mobile Data Stream Mining (Foundations)
 
Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aur...
Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aur...Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aur...
Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aur...
 
Newmat Stretch Ceiling Product Line
Newmat Stretch Ceiling Product LineNewmat Stretch Ceiling Product Line
Newmat Stretch Ceiling Product Line
 
Judrus (Agile) projektu valdymas
Judrus (Agile) projektu valdymasJudrus (Agile) projektu valdymas
Judrus (Agile) projektu valdymas
 
Agile software development
Agile software developmentAgile software development
Agile software development
 
Kibernetinis saugumas: iššūkiai, atakų tipai bei telekomunikacijų operatoriau...
Kibernetinis saugumas: iššūkiai, atakų tipai bei telekomunikacijų operatoriau...Kibernetinis saugumas: iššūkiai, atakų tipai bei telekomunikacijų operatoriau...
Kibernetinis saugumas: iššūkiai, atakų tipai bei telekomunikacijų operatoriau...
 
Metodika, skirta įmonių į paslaugas orientuotos architektūros sistemų nefunk...
Metodika,  skirta įmonių į paslaugas orientuotos architektūros sistemų nefunk...Metodika,  skirta įmonių į paslaugas orientuotos architektūros sistemų nefunk...
Metodika, skirta įmonių į paslaugas orientuotos architektūros sistemų nefunk...
 
Gintaras Čiurlionis. Kibernetinės erdvės iššūkiai Lietuvoje – teisiniai, inst...
Gintaras Čiurlionis. Kibernetinės erdvės iššūkiai Lietuvoje – teisiniai, inst...Gintaras Čiurlionis. Kibernetinės erdvės iššūkiai Lietuvoje – teisiniai, inst...
Gintaras Čiurlionis. Kibernetinės erdvės iššūkiai Lietuvoje – teisiniai, inst...
 
Chapter - 8.1 Data Mining Concepts and Techniques 2nd Ed slides Han & Kamber
Chapter - 8.1 Data Mining Concepts and Techniques 2nd Ed slides Han & KamberChapter - 8.1 Data Mining Concepts and Techniques 2nd Ed slides Han & Kamber
Chapter - 8.1 Data Mining Concepts and Techniques 2nd Ed slides Han & Kamber
 
Java Web Services
Java Web ServicesJava Web Services
Java Web Services
 
Introduction to Master Data Services in SQL Server 2012
Introduction to Master Data Services in SQL Server 2012Introduction to Master Data Services in SQL Server 2012
Introduction to Master Data Services in SQL Server 2012
 
Distributed Database System
Distributed Database SystemDistributed Database System
Distributed Database System
 
Paskaita nr3 bevieliai_tinklai
Paskaita nr3 bevieliai_tinklaiPaskaita nr3 bevieliai_tinklai
Paskaita nr3 bevieliai_tinklai
 
Kompiuteriu tinklai ir_telekomunikacijos_teorijos_konspektas
Kompiuteriu tinklai ir_telekomunikacijos_teorijos_konspektasKompiuteriu tinklai ir_telekomunikacijos_teorijos_konspektas
Kompiuteriu tinklai ir_telekomunikacijos_teorijos_konspektas
 
Business Process Design
Business Process DesignBusiness Process Design
Business Process Design
 

More from Lietuvos kompiuterininkų sąjunga

Eimutis KARČIAUSKAS. Informatikos mokymo pasiekimų vertinimų analizė
Eimutis KARČIAUSKAS. Informatikos mokymo pasiekimų vertinimų analizėEimutis KARČIAUSKAS. Informatikos mokymo pasiekimų vertinimų analizė
Eimutis KARČIAUSKAS. Informatikos mokymo pasiekimų vertinimų analizėLietuvos kompiuterininkų sąjunga
 
B. Čiapas. Prekių atpažinimo tyrimas naudojant giliuosius neuroninius tinklus...
B. Čiapas. Prekių atpažinimo tyrimas naudojant giliuosius neuroninius tinklus...B. Čiapas. Prekių atpažinimo tyrimas naudojant giliuosius neuroninius tinklus...
B. Čiapas. Prekių atpažinimo tyrimas naudojant giliuosius neuroninius tinklus...Lietuvos kompiuterininkų sąjunga
 
D. Dluznevskij. YOLOv5 efektyvumo tyrimas „iPhone“ palaikomose sistemose
D. Dluznevskij.  YOLOv5 efektyvumo tyrimas „iPhone“ palaikomose sistemoseD. Dluznevskij.  YOLOv5 efektyvumo tyrimas „iPhone“ palaikomose sistemose
D. Dluznevskij. YOLOv5 efektyvumo tyrimas „iPhone“ palaikomose sistemoseLietuvos kompiuterininkų sąjunga
 
I. Jakšaitytė. Nuotoliniai kursai informatikos mokytojų kvalifikacijai kelti:...
I. Jakšaitytė. Nuotoliniai kursai informatikos mokytojų kvalifikacijai kelti:...I. Jakšaitytė. Nuotoliniai kursai informatikos mokytojų kvalifikacijai kelti:...
I. Jakšaitytė. Nuotoliniai kursai informatikos mokytojų kvalifikacijai kelti:...Lietuvos kompiuterininkų sąjunga
 
E..Zikariene. Priziurima aplinkos duomenu klasifikacija, pagrista erdviniais ...
E..Zikariene. Priziurima aplinkos duomenu klasifikacija, pagrista erdviniais ...E..Zikariene. Priziurima aplinkos duomenu klasifikacija, pagrista erdviniais ...
E..Zikariene. Priziurima aplinkos duomenu klasifikacija, pagrista erdviniais ...Lietuvos kompiuterininkų sąjunga
 
V. Marcinkevičius. ARIS dirbtinio intelekto kurso mokymosi medžiaga, www.aris...
V. Marcinkevičius. ARIS dirbtinio intelekto kurso mokymosi medžiaga, www.aris...V. Marcinkevičius. ARIS dirbtinio intelekto kurso mokymosi medžiaga, www.aris...
V. Marcinkevičius. ARIS dirbtinio intelekto kurso mokymosi medžiaga, www.aris...Lietuvos kompiuterininkų sąjunga
 
Jolanta Navickaitė. Skaitmeninė kompetencija ir informatikos naujovės bendraj...
Jolanta Navickaitė. Skaitmeninė kompetencija ir informatikos naujovės bendraj...Jolanta Navickaitė. Skaitmeninė kompetencija ir informatikos naujovės bendraj...
Jolanta Navickaitė. Skaitmeninė kompetencija ir informatikos naujovės bendraj...Lietuvos kompiuterininkų sąjunga
 
Romas Baronas. Tarpdisciplininiai moksliniai tyrimai – galimybė atsiverti ir ...
Romas Baronas. Tarpdisciplininiai moksliniai tyrimai – galimybė atsiverti ir ...Romas Baronas. Tarpdisciplininiai moksliniai tyrimai – galimybė atsiverti ir ...
Romas Baronas. Tarpdisciplininiai moksliniai tyrimai – galimybė atsiverti ir ...Lietuvos kompiuterininkų sąjunga
 
Monika Danilovaitė. Informatikos metodų taikymas balso klosčių būklei įvertin...
Monika Danilovaitė. Informatikos metodų taikymas balso klosčių būklei įvertin...Monika Danilovaitė. Informatikos metodų taikymas balso klosčių būklei įvertin...
Monika Danilovaitė. Informatikos metodų taikymas balso klosčių būklei įvertin...Lietuvos kompiuterininkų sąjunga
 
Gražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizė
Gražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizėGražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizė
Gražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizėLietuvos kompiuterininkų sąjunga
 
Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?
Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?
Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?Lietuvos kompiuterininkų sąjunga
 
Tomas Kasperavičius. Robotikos realizacija edukacinėje erdvėje
Tomas Kasperavičius. Robotikos realizacija edukacinėje erdvėjeTomas Kasperavičius. Robotikos realizacija edukacinėje erdvėje
Tomas Kasperavičius. Robotikos realizacija edukacinėje erdvėjeLietuvos kompiuterininkų sąjunga
 
Paulius Šakalys. Robotika: sąvoka, rūšys, pritaikymas edukacinėje erdvėje
Paulius Šakalys. Robotika: sąvoka, rūšys, pritaikymas edukacinėje erdvėjePaulius Šakalys. Robotika: sąvoka, rūšys, pritaikymas edukacinėje erdvėje
Paulius Šakalys. Robotika: sąvoka, rūšys, pritaikymas edukacinėje erdvėjeLietuvos kompiuterininkų sąjunga
 

More from Lietuvos kompiuterininkų sąjunga (20)

LIKS ataskaita 2021-2023
LIKS ataskaita 2021-2023LIKS ataskaita 2021-2023
LIKS ataskaita 2021-2023
 
Eimutis KARČIAUSKAS. Informatikos mokymo pasiekimų vertinimų analizė
Eimutis KARČIAUSKAS. Informatikos mokymo pasiekimų vertinimų analizėEimutis KARČIAUSKAS. Informatikos mokymo pasiekimų vertinimų analizė
Eimutis KARČIAUSKAS. Informatikos mokymo pasiekimų vertinimų analizė
 
B. Čiapas. Prekių atpažinimo tyrimas naudojant giliuosius neuroninius tinklus...
B. Čiapas. Prekių atpažinimo tyrimas naudojant giliuosius neuroninius tinklus...B. Čiapas. Prekių atpažinimo tyrimas naudojant giliuosius neuroninius tinklus...
B. Čiapas. Prekių atpažinimo tyrimas naudojant giliuosius neuroninius tinklus...
 
D. Dluznevskij. YOLOv5 efektyvumo tyrimas „iPhone“ palaikomose sistemose
D. Dluznevskij.  YOLOv5 efektyvumo tyrimas „iPhone“ palaikomose sistemoseD. Dluznevskij.  YOLOv5 efektyvumo tyrimas „iPhone“ palaikomose sistemose
D. Dluznevskij. YOLOv5 efektyvumo tyrimas „iPhone“ palaikomose sistemose
 
I. Jakšaitytė. Nuotoliniai kursai informatikos mokytojų kvalifikacijai kelti:...
I. Jakšaitytė. Nuotoliniai kursai informatikos mokytojų kvalifikacijai kelti:...I. Jakšaitytė. Nuotoliniai kursai informatikos mokytojų kvalifikacijai kelti:...
I. Jakšaitytė. Nuotoliniai kursai informatikos mokytojų kvalifikacijai kelti:...
 
G. Mezetis. Skaimenines valstybes link
G. Mezetis. Skaimenines valstybes link G. Mezetis. Skaimenines valstybes link
G. Mezetis. Skaimenines valstybes link
 
E..Zikariene. Priziurima aplinkos duomenu klasifikacija, pagrista erdviniais ...
E..Zikariene. Priziurima aplinkos duomenu klasifikacija, pagrista erdviniais ...E..Zikariene. Priziurima aplinkos duomenu klasifikacija, pagrista erdviniais ...
E..Zikariene. Priziurima aplinkos duomenu klasifikacija, pagrista erdviniais ...
 
V. Jakuška. Ką reikėtu žinoti apie .lt domeną?
V. Jakuška. Ką reikėtu žinoti apie .lt domeną?V. Jakuška. Ką reikėtu žinoti apie .lt domeną?
V. Jakuška. Ką reikėtu žinoti apie .lt domeną?
 
V. Marcinkevičius. ARIS dirbtinio intelekto kurso mokymosi medžiaga, www.aris...
V. Marcinkevičius. ARIS dirbtinio intelekto kurso mokymosi medžiaga, www.aris...V. Marcinkevičius. ARIS dirbtinio intelekto kurso mokymosi medžiaga, www.aris...
V. Marcinkevičius. ARIS dirbtinio intelekto kurso mokymosi medžiaga, www.aris...
 
Jolanta Navickaitė. Skaitmeninė kompetencija ir informatikos naujovės bendraj...
Jolanta Navickaitė. Skaitmeninė kompetencija ir informatikos naujovės bendraj...Jolanta Navickaitė. Skaitmeninė kompetencija ir informatikos naujovės bendraj...
Jolanta Navickaitė. Skaitmeninė kompetencija ir informatikos naujovės bendraj...
 
Raimundas Matylevičius. Asmens duomenų valdymas
Raimundas Matylevičius. Asmens duomenų valdymasRaimundas Matylevičius. Asmens duomenų valdymas
Raimundas Matylevičius. Asmens duomenų valdymas
 
Romas Baronas. Tarpdisciplininiai moksliniai tyrimai – galimybė atsiverti ir ...
Romas Baronas. Tarpdisciplininiai moksliniai tyrimai – galimybė atsiverti ir ...Romas Baronas. Tarpdisciplininiai moksliniai tyrimai – galimybė atsiverti ir ...
Romas Baronas. Tarpdisciplininiai moksliniai tyrimai – galimybė atsiverti ir ...
 
Monika Danilovaitė. Informatikos metodų taikymas balso klosčių būklei įvertin...
Monika Danilovaitė. Informatikos metodų taikymas balso klosčių būklei įvertin...Monika Danilovaitė. Informatikos metodų taikymas balso klosčių būklei įvertin...
Monika Danilovaitė. Informatikos metodų taikymas balso klosčių būklei įvertin...
 
Rima Šiaulienė. IT VBE 2021 teksto maketavimo užduotis
Rima Šiaulienė. IT VBE 2021 teksto maketavimo užduotisRima Šiaulienė. IT VBE 2021 teksto maketavimo užduotis
Rima Šiaulienė. IT VBE 2021 teksto maketavimo užduotis
 
Gražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizė
Gražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizėGražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizė
Gražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizė
 
Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?
Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?
Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?
 
Eugenijus Valavičius. Hiperteksto kelias
Eugenijus Valavičius. Hiperteksto keliasEugenijus Valavičius. Hiperteksto kelias
Eugenijus Valavičius. Hiperteksto kelias
 
Tomas Kasperavičius. Robotikos realizacija edukacinėje erdvėje
Tomas Kasperavičius. Robotikos realizacija edukacinėje erdvėjeTomas Kasperavičius. Robotikos realizacija edukacinėje erdvėje
Tomas Kasperavičius. Robotikos realizacija edukacinėje erdvėje
 
Paulius Šakalys. Robotika: sąvoka, rūšys, pritaikymas edukacinėje erdvėje
Paulius Šakalys. Robotika: sąvoka, rūšys, pritaikymas edukacinėje erdvėjePaulius Šakalys. Robotika: sąvoka, rūšys, pritaikymas edukacinėje erdvėje
Paulius Šakalys. Robotika: sąvoka, rūšys, pritaikymas edukacinėje erdvėje
 
Olga Kurasova. Dirbtinis intelektas ir neuroniniai tinklai
Olga Kurasova. Dirbtinis intelektas ir neuroniniai tinklaiOlga Kurasova. Dirbtinis intelektas ir neuroniniai tinklai
Olga Kurasova. Dirbtinis intelektas ir neuroniniai tinklai
 

Olga KURASOVA „Duomenų analizės įrankio DAMIS panaudojimas“

  • 1. Duomenų analizės įrankio DAMIS panaudojimas 2015 rugsėjo 17 d., Panevėžys doc. dr. Olga Kurasova
  • 2. Duomenų analizė – duomenų tyryba  Duomenų tyryba (data mining) – tai procesas, kurio metu, naudojant įvairius duomenų analizės įrankius, bandoma nustatyti ir atrasti „užslėptas“ duomenų struktūras ir ryšius.
  • 3. Duomenų analizė – duomenų tyryba  Duomenų tyryba (data mining) – tai procesas, kurio metu, naudojant įvairius duomenų analizės įrankius, bandoma nustatyti ir atrasti „užslėptas“ duomenų struktūras ir ryšius.  Duomenų tyryba siekia iš įprastai didelių duomenų aibių išgauti svarbią informaciją, nustatyti nereikšmingą.
  • 4. Duomenų analizė – duomenų tyryba  Duomenų tyryba (data mining) – tai procesas, kurio metu, naudojant įvairius duomenų analizės įrankius, bandoma nustatyti ir atrasti „užslėptas“ duomenų struktūras ir ryšius.  Duomenų tyryba siekia iš įprastai didelių duomenų aibių išgauti svarbią informaciją, nustatyti nereikšmingą.  Duomenų tyrybos metodai padeda „nepasiklysti“ duomenų ir informacijos gausoje.
  • 5. Duomenų analizė – duomenų tyryba  Duomenų tyryba (data mining) – tai procesas, kurio metu, naudojant įvairius duomenų analizės įrankius, bandoma nustatyti ir atrasti „užslėptas“ duomenų struktūras ir ryšius.  Duomenų tyryba siekia iš įprastai didelių duomenų aibių išgauti svarbią informaciją, nustatyti nereikšmingą.  Duomenų tyrybos metodai padeda „nepasiklysti“ duomenų ir informacijos gausoje.  Žinių radimas duomenų aibėse – tai procesas, kurio metu ieškoma naujos informacijos didelėse duomenų aibėse, kurios padės įgyti žinias apie analizuojamus duomenis.
  • 6. Žinių radimo duomenų aibėse procesas
  • 7. Duomenų analizės įrankiai (1)  Matematinės statistikos paketai:  IBM SPSS Modeler (Clementine) (http://www-01.ibm.com/software/analytics/spss/),  SAS/STAT (http://www.sas.com/en_us/software/analytics/stat.html),  Statistica (http://www.statsoft.com/Products/STATISTICA/),  MS Excel įrankis „Data analysis“ (http://products.office.com/en- us/excel );
  • 8. Duomenų analizės įrankiai (1)  Matematinės statistikos paketai:  IBM SPSS Modeler (Clementine) (http://www-01.ibm.com/software/analytics/spss/),  SAS/STAT (http://www.sas.com/en_us/software/analytics/stat.html),  Statistica (http://www.statsoft.com/Products/STATISTICA/),  MS Excel įrankis „Data analysis“ (http://products.office.com/en- us/excel );  Programavimo funkcijas turintys paketai:  Matlab (http://www.mathworks.com),  Octave (https://www.gnu.org/software/octave),  R (http://www.r-project.org);
  • 9. Duomenų analizės įrankiai (2)  Mokslinių darbų sekų principais pagrįstos duomenų tyrybos sistemos:  WEKA (http://www.cs.waikato.ac.nz/ml/weka/),  Orange (http://orange.biolab.si),  KNIME (https://www.knime.org),  RapidMiner (https://rapidminer.com),  ClowdFlows (http://www.clowdflows.org),  DAMIS (http://www.damis.lt).
  • 10. DAMIS – nacionalinio mokslo informacijos archyvo MIDAS (https://midas.lt) duomenų analizės įrankis
  • 11. DAMIS – DAta MIning System  DAMIS gali veikti ir nepriklausomai nuo MIDAS (http://www.damis.lt) (būtina registracija)
  • 12. DAMIS funkcionalumas  DAMIS – internetinė sistema (web application): nereikia jokio papildomo diegimo, užtenka interneto naršyklės.
  • 13. DAMIS funkcionalumas  DAMIS – internetinė sistema (web application): nereikia jokio papildomo diegimo, užtenka interneto naršyklės.  Galima rinktis lygiagrečiųjų ir paskirstytųjų skaičiavimų resursus (VU MII klasteris – VU MIF superkompiuteris), todėl gali būti analizuojami įvairios apimties duomenis.
  • 14. DAMIS funkcionalumas  DAMIS – internetinė sistema (web application): nereikia jokio papildomo diegimo, užtenka interneto naršyklės.  Galima rinktis lygiagrečiųjų ir paskirstytųjų skaičiavimų resursus (VU MII klasteris – VU MIF superkompiuteris), todėl gali būti analizuojami įvairios apimties duomenis.  Įgyvendintas mokslinių užduočių sekų principas.
  • 15. DAMIS funkcionalumas  DAMIS – internetinė sistema (web application): nereikia jokio papildomo diegimo, užtenka interneto naršyklės.  Galima rinktis lygiagrečiųjų ir paskirstytųjų skaičiavimų resursus (VU MII klasteris – VU MIF superkompiuteris), todėl gali būti analizuojami įvairios apimties duomenis.  Įgyvendintas mokslinių užduočių sekų principas.  Gautus rezultatus galima išsaugoti naudotojo kompiuteryje arba MIDAS saugykloje.
  • 16. DAMIS funkcionalumas  DAMIS – internetinė sistema (web application): nereikia jokio papildomo diegimo, užtenka interneto naršyklės.  Galima rinktis lygiagrečiųjų ir paskirstytųjų skaičiavimų resursus (VU MII klasteris – VU MIF superkompiuteris), todėl gali būti analizuojami įvairios apimties duomenis.  Įgyvendintas mokslinių užduočių sekų principas.  Gautus rezultatus galima išsaugoti naudotojo kompiuteryje arba MIDAS saugykloje.  Įgyvendinti įvairūs duomenų analizės algoritmai, gali būti analizuojami skaitiniai daugiamačiai duomenys, kurie pateikti lentelės pavidalu.
  • 17. Daugiamačių duomenų pavyzdys (krūties vėžio duomenys) 𝑥1 𝑥2 𝑥3 𝑥4 𝑥5 𝑥6 𝑥7 𝑥8 𝑥9 C 5 1 1 1 2 1 3 1 1 b 5 4 4 5 7 10 3 2 1 b 3 1 1 1 2 2 3 1 1 b 6 8 8 1 3 4 3 7 1 b 4 1 1 3 2 1 3 1 1 b 1 1 1 1 2 10 3 1 1 b 2 1 2 1 2 1 3 1 1 b 2 1 1 1 2 1 1 1 5 b 4 2 1 1 2 1 2 1 1 b ... ... ... ... ... ... ... ... ... ... 8 10 10 8 7 10 9 7 1 m 5 3 3 3 2 3 4 4 1 m 8 7 5 10 7 9 5 5 4 m 7 4 6 4 6 1 4 3 1 m 10 7 7 6 4 10 4 1 2 m 7 3 2 10 5 10 5 4 4 m 10 5 5 3 6 7 7 10 1 m ... ... ... ... ... ... ... ... ... ... 4 8 8 5 4 5 10 4 1 m Duomenų požymiai: 𝑥1 – clump thickness, 𝑥2 – uniformity of cell size, 𝑥3 – uniformity of cell shape, 𝑥4 – marginal adhesion, 𝑥5 – single epithelial cell size, 𝑥6 – bare nuclei, 𝑥7 – bland chromatin, 𝑥8 – normal nucleoli, 𝑥9 – mitoses. Klasės: C – class (benign, malignant) dimensija (matmenų skaičius) 𝑛 = 9 viena eilutė – vienos pacientės duomenys
  • 18. Duomenų analizė naudojant DAMIS duomenys duomenųanalizė pradinis apdorojimas klasifikavimas grupavimas dimensijos mažinimas rezultatų peržiūra, jų interpretavimas naujos žinios duomenų archyvas
  • 20. DAMIS grafinė naudotojo sąsaja Darbalaukis, kuriame bus formuojama eksperimento užduočių seka (scientific workflow) kompo- nentės eksperimentų vykdymo valdymas
  • 21. DAMIS duomenų analizei  Įgyvendinta:  pradinio apdorojimo algoritmai (valymas, filtravimas, skaidymas, transponavimas, normavimas, požymių atrinkimas),  pagrindinės statistinės charakteristikos (minimumas, maksimumas, vidurkis, standartinis nuokrypis, mediana),  dimensijos mažinimo (vizualizavimo) algoritmai,  klasifikavimo ir grupavimo (klasterizavimo) algoritmai,  gautų rezultatų peržiūra.
  • 25. Duomenų įkėlimas Norima komponentė pelyte tempiama į darbalaukį; Prieš tai duomenys turi būti tinkamai paruošti.
  • 27. Duomenų pirminis apdorojimas Įkeltos komponentės sujungiamos į vadinamąsias mokslinių užduočių sekas (scientific workflows)
  • 28. Komponenčių parametrų parinkimas Du kartus spustelėjus pelyte įkeltą komponentę atsiranda langas, kuriame galima pasirinkti komponenčių parametrus
  • 31. Rezultatų grafinis vaizdavimas  Svarbu duomenis pateikti vizualia forma.  Žmogui lengviau suvokti vizualizuotus duomenis, nei jų skaitinius įverčius.  Įrankyje įgyvendinta dvimatė taškinė diagrama (scatter plot).  Jei vizualizuojami duomenys, kuriuos apibūdina daugiau nei du požymiai, galima peržiūrėti visų galimų porų vaizdus.
  • 35. Duomenų statistinės charakteristikos Statistiniai primityvai – min, max, vidurkis, standartinis nuokrypis, mediana
  • 36. Duomenų dimensijos mažinimas  Dažnai duomenis apibūdina daug požymių, todėl jie yra daugiamačiai.  Būtina sumažinti dimensiją, siekiant palengvinti tolesnę duomenų analizę.  DAMIS įgyvendinti šie duomenų dimensijos mažinimo metodai:  PCA – pagrindinių komponenčių analizė,  SMACOF(MDS), DMA, Relative MDS – daugiamatės skalės ir jų variantai,  SAMANN – dirbtiniai neuroniniai tinklai daugiamatėms skalėms,  SOM-MDS – saviorganizuojančių neuroninių tinklų ir daugiamačių skalių junginys.
  • 37. Daugiamačių duomenų pavyzdys (krūties vėžio duomenys) 𝑥1 𝑥2 𝑥3 𝑥4 𝑥5 𝑥6 𝑥7 𝑥8 𝑥9 C 5 1 1 1 2 1 3 1 1 b 5 4 4 5 7 10 3 2 1 b 3 1 1 1 2 2 3 1 1 b 6 8 8 1 3 4 3 7 1 b 4 1 1 3 2 1 3 1 1 b 1 1 1 1 2 10 3 1 1 b 2 1 2 1 2 1 3 1 1 b 2 1 1 1 2 1 1 1 5 b 4 2 1 1 2 1 2 1 1 b ... ... ... ... ... ... ... ... ... ... 8 10 10 8 7 10 9 7 1 m 5 3 3 3 2 3 4 4 1 m 8 7 5 10 7 9 5 5 4 m 7 4 6 4 6 1 4 3 1 m 10 7 7 6 4 10 4 1 2 m 7 3 2 10 5 10 5 4 4 m 10 5 5 3 6 7 7 10 1 m ... ... ... ... ... ... ... ... ... ... 4 8 8 5 4 5 10 4 1 m Duomenų požymiai: 𝑥1 – clump thickness, 𝑥2 – uniformity of cell size, 𝑥3 – uniformity of cell shape, 𝑥4 – marginal adhesion, 𝑥5 – single epithelial cell size, 𝑥6 – bare nuclei, 𝑥7 – bland chromatin, 𝑥8 – normal nucleoli, 𝑥9 – mitoses. Klasės: C – class (benign, malignant) dimensija (matmenų skaičius) 𝑛 = 9 viena eilutė – vienos pacientės duomenys
  • 38. Krūties vėžio duomenų dimensijos mažinimas (vizualizavimas) MDS metodu Daugiamačių duomenų transformavimas į mažesnės dimensijos erdvę, pavyzdžiui, dvimatę (𝑥𝑖1, 𝑥𝑖2, … , 𝑥𝑖9) → (𝑦𝑖1, 𝑦𝑖2) • vienas taškas atitinka vieną pacientę • vienas taškas apjungia visus devynis požymius • vizualus pateikimas padeda lengviau suvokti informacijos visumą 2 – benign, 4 – malignant
  • 39. 𝑥1 𝑥2 𝑥3 𝑥4 𝑥5 𝑥6 𝑥7 𝑥8 𝑥9 C 5 1 1 1 2 1 3 1 1 b 5 4 4 5 7 10 3 2 1 b 3 1 1 1 2 2 3 1 1 b 6 8 8 1 3 4 3 7 1 b 4 1 1 3 2 1 3 1 1 b 1 1 1 1 2 10 3 1 1 b 2 1 2 1 2 1 3 1 1 b 2 1 1 1 2 1 1 1 5 b 4 2 1 1 2 1 2 1 1 b ... ... ... ... ... ... ... ... ... ... 8 10 10 8 7 10 9 7 1 m 5 3 3 3 2 3 4 4 1 m 8 7 5 10 7 9 5 5 4 m 7 4 6 4 6 1 4 3 1 m 10 7 7 6 4 10 4 1 2 m 7 3 2 10 5 10 5 4 4 m 10 5 5 3 6 7 7 10 1 m ... ... ... ... ... ... ... ... ... ... 4 8 8 5 4 5 10 4 1 m Krūties vėžio duomenų dimensijos mažinimas (vizualizavimas) MDS metodu Class (C): 2 – benign 4 – malignant
  • 41. Duomenų klasifikavimas  Klasifikavimo tikslas – turint duomenis, kurių klasės yra žinomas, rasti klases duomenims, kurių klasės nėra žinomos.  Klasifikavimo uždaviniai yra sprendžiami medicinoje (preliminari diagnostika), ekonomikoje, finansuose ir kt.  DAMIS įgyvendinti šie duomenų klasifikavimo metodai:  MLP – daugiasluoksnis neuroninis tinklas (perceptronas),  RDF – sprendimų medžiais pagrįstas klasifikatorius.
  • 42. Krūties vėžio duomenys 𝑥1 𝑥2 𝑥3 𝑥4 𝑥5 𝑥6 𝑥7 𝑥8 𝑥9 C 5 1 1 1 2 1 3 1 1 b 5 4 4 5 7 10 3 2 1 b 3 1 1 1 2 2 3 1 1 b 6 8 8 1 3 4 3 7 1 b 4 1 1 3 2 1 3 1 1 b 1 1 1 1 2 10 3 1 1 b 2 1 2 1 2 1 3 1 1 b 2 1 1 1 2 1 1 1 5 b 4 2 1 1 2 1 2 1 1 b ... ... ... ... ... ... ... ... ... ... 8 10 10 8 7 10 9 7 1 m 5 3 3 3 2 3 4 4 1 m 8 7 5 10 7 9 5 5 4 m 7 4 6 4 6 1 4 3 1 m 10 7 7 6 4 10 4 1 2 m 7 3 2 10 5 10 5 4 4 m 10 5 5 3 6 7 7 10 1 m ... ... ... ... ... ... ... ... ... ... 4 8 8 5 4 5 10 4 1 m Duomenų požymiai: 𝑥1 – clump thickness, 𝑥2 – uniformity of cell size, 𝑥3 – uniformity of cell shape, 𝑥4 – marginal adhesion, 𝑥5 – single epithelial cell size, 𝑥6 – bare nuclei, 𝑥7 – bland chromatin, 𝑥8 – normal nucleoli, 𝑥9 – mitoses. Klasės: C – class (benign, malignant) dimensija (matmenų skaičius) 𝑛 = 9 viena eilutė – vienos pacientės duomenys
  • 44. Krūties vėžio duomenų klasifikavimas Class: 2 – benign 4 – malignant
  • 45. Duomenų grupavimas (klasterizavimas)  Klasterizavimo tikslas – suskirstyti duomenis į grupes pagal jų panašumą, taip, kad toje pačioje grupėje duomenys būtų panašūs, o duomenys iš skirtingų grupių būtų nepanašūs.  Dažniausiai klasterizavimo uždaviniai yra sprendžiami tada, kai nežinomos duomenų klasės.  Įgyvendinti šie duomenų grupavimo (klasterizavimo) metodai:  k-means – k-vidurkių klasterizavimo metodas,  SOM – saviorganizuojantis neuroninis tinklas.
  • 47. Krūties vėžio duomenų grupavimas ir vizualizavimas
  • 48. Krūties vėžio duomenų grupavimas, klasifikavimas ir vizualizavimas Grupavimo į tris grupes rezultatas Klasių vizualizavimas
  • 49. Kodėl verta rinktis DAMIS?  Praplečia MIDAS galimybes: tai duomenų archyvas, turintis duomenų analizės galimybę visų sričių mokslininkams.  Nereikia jokios papildomos programinės įrangos.  Galimybė rinktis lygiagrečiųjų ir paskirstytųjų skaičiavimų resursus iš siūlomų alternatyvų.  Tyrėjas norėdamas spręsti tam tikrą duomenų analizės uždavinį, tačiau eksperimentą vykdyti su kitais duomenimis ar kitais algoritmų valdymo parametrais, gali panaudoti jau sukurtas mokslinių užduočių sekas.  Numatytos DAMIS plėtros galimybės pagal mokslininkų poreikį.
  • 50. Ačiū už dėmesį Pastabų, komentarų lauksime ir el. paštu olga.kurasova@mii.vu.lt arba info@inscience.lt