SlideShare a Scribd company logo
1 of 16
“A cross-border region where rivers connect, not divide” –
Interreg V-A Hungary-Croatia Co-operation Programme 2014-2020
INTEREG projekta: Biomedicinska informatika
Ljiljana Majnarić Trtica
Sesija 2: Osnovni tečaj računalnih metoda
“A cross-border region where rivers connect, not divide” –
Interreg V-A Hungary-Croatia Co-operation Programme 2014-2020
II. Osnovni tečaj računalnih metoda
1. Data Mining (DM)
DM se definira kao proces u potrazi za zanimljive i vrijedne informacije (uzorke)
u velikim baza podataka. Na prvi pogled, ova definicija čini više kao novo ime za
statistiku. Međutim, DM upravo izveden na skupovima podataka koji su daleko
veći od statističke metode su u mogućnosti analizirati.
DM uključuje metode koje ostanu na raskrižju arteficial inteligencije (AI), stroj za
učenje (ML), statistike i baze podataka. Ponekad, ove metode se koriste za
smanjenje dimenzionalnost podaci. Ponekad, oni predstavljaju određene
matematičke modele. Često, kombinacija je metoda
Koristi za rješavanje problema.
Uzorci su definirani u odnosu na ukupne modela skupa podataka iz kojih su
izvedeni.
Postoji mnogo alata rudarenja podataka koji vam mogu pomoći pronaći obrasce.
Neki od najvažnijih alata uključuju: grupiranje, regresija, ekstrakcija pravilo i
vizualizaciju podataka.
Grupiranje je čin particioniranje skupove podataka mnogih slučajnih stvari, u
podskupove manji, koji pokazuju zajedništvo među njima. Gledajući klastere,
analitičari su u stanju izvuci statistički modeli iz polja podataka.
“A cross-border region where rivers connect, not divide” –
Interreg V-A Hungary-Croatia Co-operation Programme 2014-2020
Regresija je metoda dolikuje krivulja kroz niz točaka, pomoću neke dobrote-of-
fit kriterij. Istražujući predefinirane dobrote-of-fit parametre, analitičari mogu
pronaći i opisati uzoraka. Ekstrakcija pravilo je metoda korištenja odnose
između varijabli, kako bi se uspostavio neki
Vrsta vladavine.
Vizualizacija podataka je neka vrsta tehnike koje mogu pomoći objasniti
(razumjeti) trendove i složenosti u Podaci mnogo lakše.
Najčešće se koristi DM u zdravstvenoj znanosti uključuju (Tablica 1):
• Logistička regresija (LR)
• Podrška Vector Machine (SVM)
• Appriori i druge pravilo udruga rudarstvu (AR)
• Odluka Tree algoritmi (DT)
• Algoritmi Klasifikacija: K-sredstva, mjeriteljstvo (Samoorganizacija MAP)
Naivni Bayesov
• Arteficial Neuronske mreže (ANN)
Tablica 1. Metode DM i njihovo korištenje
Tehnike Iskorištenje
Appriori & FP
rasta
Udruga pravilo rudarstvo za učestale seta opcije
(primjerice bolesti) u medicinskim bazama podataka
ANN
& Genetski algoritam
Vađenje uzoraka
Otkrivanje trendove
Classifcation
“A cross-border region where rivers connect, not divide” –
Interreg V-A Hungary-Croatia Co-operation Programme 2014-2020
Rješenje Tree algoritmi (ID3, C4, C5, CART) Klasifikacija za
podršku odlučivanja
Kombinirana upotreba K-sredstva, som-naive
Bayes
Točno razvrstavanje
Kombinacija SVM, Ann i ID3 Klasifikacija
1.1. Logistička regresija (LR)
LR je popularan klasifikacija metoda koja daje vrijednosti na skup nezavisnih
varijabli. Pomaže odgovoriti na neka uobičajena pitanja koja se mogu susreće u
medicinskoj praksi, kao što su: Hoće li subjekt oboljeti od dijabetesa? Hoće li
subjekt reagira na tretman?
LR procjenjuje vjerojatnost da će pojedinac se stavlja u određenoj skupini.
Ova metoda ne čini nikakve pretpostavke o normalnosti, linearnosti i homogenosti
varijance za nezavisne varijable. Vrijednost proizvesti LR je vrijednost vjerojatnost
da se u rasponu od 0,0 do 1.0. Ako je vrijednost vjerojatnosti za članstvo u grupi,
u modelirani kategoriji, ide iznad neke cut-off točku (predpostavljena vrijednost je
0.50) - subjekt je predviđeno da se član modeliranog grupe. Ako vrijednost
vjerojatnost ispod cut-off point - subjekt je predviđeno da se član druge grupa (Sl.
1).
“A cross-border region where rivers connect, not divide” –
Interreg V-A Hungary-Croatia Co-operation Programme 2014-2020
Sl. 1. Logistička regresija krivulja
Postoji nekoliko načina za testiranje LR modela izvedbe (sposobnost da se stane na
niz podataka). Ove metode su podijeljeni u dvije podskupine: 1) ispitivanje LR
modeli, ovisno o vjerojatnosti p (metoda: ROC krivulja, statistika C, a koeficijent
Ginijev KS test) i 2) model za ispitivanje LR ovisno na cuf-off vrijednosti (metoda:
Osjetljivost (istina pozitivna stopa), specifičnost (istina negativna stopa), točnost,
pogreška tipa I (pogrešnog prepoznavanja za dijabetičke) i tip II pogreška
(pogrešnog prepoznavanja u zdravih osobe).
Ljudi obično ne razumiju razlike između linearnih i logističkim regresijskim
modelima. U Linearna regresija - ishod (ovisna varijabla) - je kontinuiranog tipa.
Njegova vrijednost može steći bilo koji od beskonačnog broja mogućih vrijednosti.
U logistička regresija - ishod (ovisna varijabla) može steći samo ograničen broj
mogućih vrijednosti. To se koristi kada je varijabla odgovora je kategorički u
prirodi (Sl. 2).
- 7.5 - 5 - 2.5 2.5 5 7.5
0.2
0.4
0.6
0 1,8
“A cross-border region where rivers connect, not divide” –
Interreg V-A Hungary-Croatia Co-operation Programme 2014-2020
Logistička model je neizbježna ako se uklapa podatke puno bolje od linearnog
modela. U mnogim situacije - je linearni model uklapa jednako dobro, ili gotovo
kao i logistički model. U stvari, u mnogim situacije, linearna i logistički model daje
rezultate koji su praktički ne razlikuju.
Linearni model pretpostavlja da je vjerojatnost p je linearna funkcija regresora.
Logistička
Model pretpostavlja da je Prijava za vjerojatnosti p / (1- p) je linearna funkcija
regresora (Sl. 2).
1.2. Podrška Vector Machine (SVM)
SVM je klasificiran kao nadziranog ML metodom (Tablica 1). To se koristi za
razvrstavanje i regresija izazovi (uglavnom za razvrstavanje). Princip algoritam
postavlja se na sljedećim pravilima: 1) svaka podataka predmet je grafički kao
točka u n-dimenzionalni prostor (n = broj mogućnosti koje posjeduju varible) sa
vrijednost svakog objekta se vrijednost određenog koordinata i 2), se zatim
Sl. 2. Linearni vs logistička regresija modelu
“A cross-border region where rivers connect, not divide” –
Interreg V-A Hungary-Croatia Co-operation Programme 2014-2020
klasifikacija provesti pronalaženju hiper-ravnina koja razlikuje dvije klase vrlo
dobro (Sl. 3).
Sl. 3. Načela metode za podršku Vector Machine
Tablica 2. Glavne razlike između nadzora i bez nadzora ML metode
Nadzirana ML bez nadzora ML
Najveći dio praktičnog ML koristi nadziranu
učenje
Kada su ulazne varijable (X) i izlazna varijabla
(Y) - algoritam se koristi za naučiti funkcije
mapiranja od ulaza do izlaza: Y = f (X)
Cilj je približiti funkciju mapiranje tako dobro
da kada imate nove ulazne podatke (x) možete
predvidjeti izlazne varijable (Y) za tim
podacima
To se zove nadzirano učenje, jer je proces
algoritma učenja iz trening skupa podataka se
može shvatiti kao nastavnik nadzor procesa
učenja.
Znamo točne odgovore, algoritam iterativno
čini predviđanja na podacima trening i korigira
strane nastavnika
Učenje se zaustavlja kada je algoritam postiže
prihvatljivu razinu performansi
Nadgledana problemi u učenju mogu se
grupirati u regresije i klasifikacijskih problema
Klasifikacija - kada je izlazna varijabla je
kategorija, kao što su „bolesti” i „bez
bolesti”
Regresija - kada je izlazna varijabla je
realna vrijednost, kao što je „težina”
Uobičajene metode su nadzirani ML:
Linearna regresija - za probleme
regresijskih
“A cross-border region where rivers connect, not divide” –
Interreg V-A Hungary-Croatia Co-operation Programme 2014-2020
Slučajna šuma - za klasifikaciju i regresijskih
problema Podrška vektorske strojevi - za
probleme klasifikacije
Kada postoje samo ulazne podatke (X) i bez
odgovarajuće izlazne varijable Cilj je da se
model temeljne strukture ili distribucije u
podacima - kako bi saznali više o podacima
To se zove bez nadzora učenja jer za razliku od
nadzirane učenja - ne postoji poznati odgovor i
nema nastavnik Algoritmi su prepušteni
vlastitim napravama za otkrivanjem i
predstavljanjem zanimljiv strukture u
podacima
Bez nadzora problemi u učenju mogu se
grupirati u klastera i udruga problema
Grupiranje - kada je problem otkriti
inherentne grupiranja u podacima, kao što su
grupiranje kupnjom ponašanje
Udruga - kada je problem otkriti pravila koja
opisuju velike dijelove podataka Uobičajene
metode bez nadzora ML su:
K-sredstva - za probleme klastera
Apriori algoritam - za pravila udruga
poteškoćama u učenju
1.3.Appriori algoritam (AA) / drugi Udruga Pravilo Rudarstvo (ARM)
ARM je zajednički naziv za tehnike koje se koriste kako bi otkrili kako predmeti
povezani jedni druge. AA je vrsta pravila rudarskih udruge koje su osnovane između
čestih skupova predmeta
U velikoj bazi podataka.
1.4. Stablo odlučivanja (DT) algoritmi
DT algoritama su dijelovi nadzire metoda učenja (tablica 2). Njihova uporaba
je za klasifikacija i regresija svrhe. DT algoritam pokušava riješiti problem
pomoću stabla prikaz podataka (Sl. 4). U toj strukturi, svaki čvor predstavlja
interni testu atributa.
“A cross-border region where rivers connect, not divide” –
Interreg V-A Hungary-Croatia Co-operation Programme 2014-2020
Svaka grana predstavlja ishod testa. Svaki list (terminalni čvor) ima oznaku
klase. Vrh čvor u drvo korijen čvor (Sl. 4).
1.5. Arteficial Neuronske mreže (ANN)
ANN je metoda AI koji je potaknuta i strukturiran na organizaciju čovjeka mozga
(Sl. 5). To je ML-DM metoda - metoda koja uči u primjerima. Ona koristi
retrospektivne podatke za analizu. Njegova uporaba je za predviđanja, klasifikacije
i raspoznavanje uzoraka svrhe (primjerice za Problemi Association).
Predviđanje - brojčana vrijednost je predviđena kao izlazni (npr krvni tlak, dob, itd) i
MSE ili RMSE pogreška se koristi kao mjera evaluacije izvedbe modela.
Klasifikacija - slučajevi su podijeljeni u dvije ili više kategorija izlaza (npr
prisutnost / odsutnost bolesti, ishod liječenja, itd) i stopa klasifikacije koristi se
kao mjera evaluacije Model performanse.
Sl. 4. DT algoritam simulirati brancing logiku stabla
“A cross-border region where rivers connect, not divide” –
Interreg V-A Hungary-Croatia Co-operation Programme 2014-2020
Anns su pokazali uspjeh u modeliranju stvarnom svijetu situacijama, tako da se može
koristiti za oboje, istraživačke svrhe i praktična primjena, kao potpora odlučivanju ili
simulacije alat.
Sličnosti između biološke i arteficial neuronske mreže su (Sl. 5):
Neuronska mreža Sastoji se od međusobno povezanih bioloških neurona. Biološki
neuronske je stanica koja prima informacije iz drugih neurona putem dendrita, to
obrađuje i šalje impuls putem aksona i sinapsi drugim neuronima u mreži. Učenje
se provodi od strane promjena težina sinaptičkih veza. Milijuni neurona može
paralelno obrađivati informacije
(Sl. 5).
Umjetna neuronska mreža. Umjetni neuron je jedinica za obradu (varijabilni)
koji prima ponderirane ulaz od drugih varijabli, pretvara ulaz prema formuli i šalje
drugi izlaz varijable. Učenje se obavlja promjenom vrijednosti težine varijabli
(težina wji su promišlja kojom ulazi se množe) (Sl. 5).
“A cross-border region where rivers connect, not divide” –
Interreg V-A Hungary-Croatia Co-operation Programme 2014-2020
Slika 5. -. Biološka vs arteficial NN (. Koristi od predstavljanja prof dr Mariana Zekić, Fakulteta
za ekonomiju, Sveučilište u
Osijeku)
Sl. 6. Obrada Višeslojno ANN
Kriteriji za razlikovanje Ann algoritama uključuju (Sl. 6): broj slojeva, tip učenja
(Pod nadzorom - pravi izlazne vrijednosti su poznati iz prošlosti i pod uvjetom da
u skup podataka ili bez nadzora - pravi izlazne vrijednosti nisu poznati, a koji nisu
“A cross-border region where rivers connect, not divide” –
Interreg V-A Hungary-Croatia Co-operation Programme 2014-2020
predviđeni u skup), vrsta veze među neuronima, veza između ulaznih i izlaznih
podataka, unos i prijenosnih funkcija,
Karakteristike vrijeme, vrijeme za učenje, itd
2. Suvremeni računala postupci na bazi
Moderni računalo-based metode uključuju:
1) Graf bazi DM, 2) Vizualizacija podataka i Visual Analytics 3) Topologijski DM.
To su sve slične tehnike koje se mogu koristiti za organiziranje vrlo složene i heterogenih
podataka.
2.1. Graf-based DM
Kako bi se primijeniti graf na bazi metode rudarenje podataka, kao što su klasifikacije i
klastera metodama, Potrebno je definirati mjere blizine između podataka prikazanih u
obliku grafa (Sl. 7.)
Postoji nekoliko mjera u-graf blizina, navodeći imena drugačiji graf na bazi
Metode DM. Ove metode uključuju: Hyperlink izazvane temu pretraživanja (hits), The
Neumann Kernel (NK) i zajedničke najbližeg susjeda (SNN).
“A cross-border region where rivers connect, not divide” –
Interreg V-A Hungary-Croatia Co-operation Programme 2014-2020
Slika 7. -. Definiranje blizine mjere čini struktura vidljiva
2.2. Vizualizacija podataka
Ljudski mozak obrađuje vizualne informacije bolje nego što obrađuje tekst; na taj način, pomoću
karte, grafikone i elemente dizajna - vizualizacija podataka može nam pomoći objasniti
(razumjeti) trendove i statistike puno lakše (Sl 8.).
Slika 8. -. Struktura stanovništva prema dobi - commoly koristi podatke postupak vizualizacije u
javnoj zdravstvenoj domeni
Točkasto pokazuju sličnost sa -1 do 1
“A cross-border region where rivers connect, not divide” –
Interreg V-A Hungary-Croatia Co-operation Programme 2014-2020
Primjena domena vizualizaciju podataka i likovnih tehnika Analytics uključuju:
1) Vizualizacija velika, multivarijatne biološke mreže (Sl. 9).
2) Vizualni tekst analitike i klasifikacije povezane relevantne radove na bioloških
entiteta u objavljivanje podataka (pubmed),
4) Za istraživanje vizualizacija heterogenih podataka i podataka iz više izvora podataka,
5) Vizualni analitika što je podrška za razumijevanje nesigurnosti i podatkovnih problema s
kvalitetom
Slika 9. -, prvi vizualizacija humanog strukture protein-protein interakcije
2.3. Topološki DM
Primjena topoloških tehnika za DM KDD je vruće i obećavajuće budućnosti područje istraživanja.
Topologija ima svoje korijene u teorijskim matematike, ali u posljednjih deset
godina, računalna topologija brzo stječe zanimanje među računalnih znanstvenika.
To je studija apstraktnih oblika i prostora i preslikavanja među njima. Nastao je iz
proučavanja geometrije i teorija skupova. Topološki
Metode se mogu primijeniti na podatke predstavljene točkastim oblaka, koja je,
konačnih podskupova ndimenzionalan euklidska prostora. Ulaz je prikazana na
“A cross-border region where rivers connect, not divide” –
Interreg V-A Hungary-Croatia Co-operation Programme 2014-2020
uzorku od nekog nepoznatog prostora koji Onaj tko želi rekonstruirati i razumjeti.
Razlikujući okolnog dimenzije n, a intrinzična dimenzija podataka je od primarnog
interesa za razumijevanje unutarnju strukturu podataka.
Geometrijski i topološki metode su alati koji omogućuju nam da analizu visoko složenih podataka.
Moderan
Znanost podatke koristi topoloških metode kako bi pronašli strukturne značajke skupova
podataka prije daljnje nadzirana ili bez nadzora analiza primijenjena.
Matematički formalizam, koji je razvijen da se uključi geometrijski i topološki
tehnike, bavi setovima točka oblak podataka, odnosno konačnim skupom bodova.
Točke oblaci su ograničeni uzorci s geometrijskog objekta. Alati iz raznih grana
geometrija i topologija zatim se koriste za proučavanje seta točka oblak podataka.
Topologija pruža formalni jezik za kvalitativni matematike, dok je geometrija
uglavnom kvantitativna. Topologija proučava odnose
Blizina ili blizina, jer geometrija može se smatrati proučavanje funkcija udaljenosti. To
Metode napraviti sažetak ili komprimirani zastupljenost svim značajkama
podataka, kako bi se brzo otkriti određene obrasce i odnose u podacima. Ideja o
izgradnji sažetke entire domene atributa uključuje razumijevanje odnosa između
topološki i geometrijski
Objekti izgrađeni iz podataka, koristeći različite značajke.
“A cross-border region where rivers connect, not divide” –
Interreg V-A Hungary-Croatia Co-operation Programme 2014-2020
Sl. 10. Formiranje računalne strukturu (niže) iz oblika koji se želi obnoviti i razumijevanje (gore)

More Related Content

More from improvemed2 (7)

Immunológia alapja
Immunológia alapjaImmunológia alapja
Immunológia alapja
 
Primjeri upotrebe
Primjeri upotrebePrimjeri upotrebe
Primjeri upotrebe
 
Medicina kao znanost podataka
Medicina kao znanost podatakaMedicina kao znanost podataka
Medicina kao znanost podataka
 
Ciljana dostava lijeka na jetru
Ciljana dostava lijeka na jetruCiljana dostava lijeka na jetru
Ciljana dostava lijeka na jetru
 
Primjeri korištenja
Primjeri korištenjaPrimjeri korištenja
Primjeri korištenja
 
Medicina kao znanost podataka
Medicina kao znanost podatakaMedicina kao znanost podataka
Medicina kao znanost podataka
 
Ciljana dostava lijeka na jetru
Ciljana dostava lijeka na jetruCiljana dostava lijeka na jetru
Ciljana dostava lijeka na jetru
 

Osnovni tečaj računalnih metoda

  • 1. “A cross-border region where rivers connect, not divide” – Interreg V-A Hungary-Croatia Co-operation Programme 2014-2020 INTEREG projekta: Biomedicinska informatika Ljiljana Majnarić Trtica Sesija 2: Osnovni tečaj računalnih metoda
  • 2. “A cross-border region where rivers connect, not divide” – Interreg V-A Hungary-Croatia Co-operation Programme 2014-2020 II. Osnovni tečaj računalnih metoda 1. Data Mining (DM) DM se definira kao proces u potrazi za zanimljive i vrijedne informacije (uzorke) u velikim baza podataka. Na prvi pogled, ova definicija čini više kao novo ime za statistiku. Međutim, DM upravo izveden na skupovima podataka koji su daleko veći od statističke metode su u mogućnosti analizirati. DM uključuje metode koje ostanu na raskrižju arteficial inteligencije (AI), stroj za učenje (ML), statistike i baze podataka. Ponekad, ove metode se koriste za smanjenje dimenzionalnost podaci. Ponekad, oni predstavljaju određene matematičke modele. Često, kombinacija je metoda Koristi za rješavanje problema. Uzorci su definirani u odnosu na ukupne modela skupa podataka iz kojih su izvedeni. Postoji mnogo alata rudarenja podataka koji vam mogu pomoći pronaći obrasce. Neki od najvažnijih alata uključuju: grupiranje, regresija, ekstrakcija pravilo i vizualizaciju podataka. Grupiranje je čin particioniranje skupove podataka mnogih slučajnih stvari, u podskupove manji, koji pokazuju zajedništvo među njima. Gledajući klastere, analitičari su u stanju izvuci statistički modeli iz polja podataka.
  • 3. “A cross-border region where rivers connect, not divide” – Interreg V-A Hungary-Croatia Co-operation Programme 2014-2020 Regresija je metoda dolikuje krivulja kroz niz točaka, pomoću neke dobrote-of- fit kriterij. Istražujući predefinirane dobrote-of-fit parametre, analitičari mogu pronaći i opisati uzoraka. Ekstrakcija pravilo je metoda korištenja odnose između varijabli, kako bi se uspostavio neki Vrsta vladavine. Vizualizacija podataka je neka vrsta tehnike koje mogu pomoći objasniti (razumjeti) trendove i složenosti u Podaci mnogo lakše. Najčešće se koristi DM u zdravstvenoj znanosti uključuju (Tablica 1): • Logistička regresija (LR) • Podrška Vector Machine (SVM) • Appriori i druge pravilo udruga rudarstvu (AR) • Odluka Tree algoritmi (DT) • Algoritmi Klasifikacija: K-sredstva, mjeriteljstvo (Samoorganizacija MAP) Naivni Bayesov • Arteficial Neuronske mreže (ANN) Tablica 1. Metode DM i njihovo korištenje Tehnike Iskorištenje Appriori & FP rasta Udruga pravilo rudarstvo za učestale seta opcije (primjerice bolesti) u medicinskim bazama podataka ANN & Genetski algoritam Vađenje uzoraka Otkrivanje trendove Classifcation
  • 4. “A cross-border region where rivers connect, not divide” – Interreg V-A Hungary-Croatia Co-operation Programme 2014-2020 Rješenje Tree algoritmi (ID3, C4, C5, CART) Klasifikacija za podršku odlučivanja Kombinirana upotreba K-sredstva, som-naive Bayes Točno razvrstavanje Kombinacija SVM, Ann i ID3 Klasifikacija 1.1. Logistička regresija (LR) LR je popularan klasifikacija metoda koja daje vrijednosti na skup nezavisnih varijabli. Pomaže odgovoriti na neka uobičajena pitanja koja se mogu susreće u medicinskoj praksi, kao što su: Hoće li subjekt oboljeti od dijabetesa? Hoće li subjekt reagira na tretman? LR procjenjuje vjerojatnost da će pojedinac se stavlja u određenoj skupini. Ova metoda ne čini nikakve pretpostavke o normalnosti, linearnosti i homogenosti varijance za nezavisne varijable. Vrijednost proizvesti LR je vrijednost vjerojatnost da se u rasponu od 0,0 do 1.0. Ako je vrijednost vjerojatnosti za članstvo u grupi, u modelirani kategoriji, ide iznad neke cut-off točku (predpostavljena vrijednost je 0.50) - subjekt je predviđeno da se član modeliranog grupe. Ako vrijednost vjerojatnost ispod cut-off point - subjekt je predviđeno da se član druge grupa (Sl. 1).
  • 5. “A cross-border region where rivers connect, not divide” – Interreg V-A Hungary-Croatia Co-operation Programme 2014-2020 Sl. 1. Logistička regresija krivulja Postoji nekoliko načina za testiranje LR modela izvedbe (sposobnost da se stane na niz podataka). Ove metode su podijeljeni u dvije podskupine: 1) ispitivanje LR modeli, ovisno o vjerojatnosti p (metoda: ROC krivulja, statistika C, a koeficijent Ginijev KS test) i 2) model za ispitivanje LR ovisno na cuf-off vrijednosti (metoda: Osjetljivost (istina pozitivna stopa), specifičnost (istina negativna stopa), točnost, pogreška tipa I (pogrešnog prepoznavanja za dijabetičke) i tip II pogreška (pogrešnog prepoznavanja u zdravih osobe). Ljudi obično ne razumiju razlike između linearnih i logističkim regresijskim modelima. U Linearna regresija - ishod (ovisna varijabla) - je kontinuiranog tipa. Njegova vrijednost može steći bilo koji od beskonačnog broja mogućih vrijednosti. U logistička regresija - ishod (ovisna varijabla) može steći samo ograničen broj mogućih vrijednosti. To se koristi kada je varijabla odgovora je kategorički u prirodi (Sl. 2). - 7.5 - 5 - 2.5 2.5 5 7.5 0.2 0.4 0.6 0 1,8
  • 6. “A cross-border region where rivers connect, not divide” – Interreg V-A Hungary-Croatia Co-operation Programme 2014-2020 Logistička model je neizbježna ako se uklapa podatke puno bolje od linearnog modela. U mnogim situacije - je linearni model uklapa jednako dobro, ili gotovo kao i logistički model. U stvari, u mnogim situacije, linearna i logistički model daje rezultate koji su praktički ne razlikuju. Linearni model pretpostavlja da je vjerojatnost p je linearna funkcija regresora. Logistička Model pretpostavlja da je Prijava za vjerojatnosti p / (1- p) je linearna funkcija regresora (Sl. 2). 1.2. Podrška Vector Machine (SVM) SVM je klasificiran kao nadziranog ML metodom (Tablica 1). To se koristi za razvrstavanje i regresija izazovi (uglavnom za razvrstavanje). Princip algoritam postavlja se na sljedećim pravilima: 1) svaka podataka predmet je grafički kao točka u n-dimenzionalni prostor (n = broj mogućnosti koje posjeduju varible) sa vrijednost svakog objekta se vrijednost određenog koordinata i 2), se zatim Sl. 2. Linearni vs logistička regresija modelu
  • 7. “A cross-border region where rivers connect, not divide” – Interreg V-A Hungary-Croatia Co-operation Programme 2014-2020 klasifikacija provesti pronalaženju hiper-ravnina koja razlikuje dvije klase vrlo dobro (Sl. 3). Sl. 3. Načela metode za podršku Vector Machine Tablica 2. Glavne razlike između nadzora i bez nadzora ML metode Nadzirana ML bez nadzora ML Najveći dio praktičnog ML koristi nadziranu učenje Kada su ulazne varijable (X) i izlazna varijabla (Y) - algoritam se koristi za naučiti funkcije mapiranja od ulaza do izlaza: Y = f (X) Cilj je približiti funkciju mapiranje tako dobro da kada imate nove ulazne podatke (x) možete predvidjeti izlazne varijable (Y) za tim podacima To se zove nadzirano učenje, jer je proces algoritma učenja iz trening skupa podataka se može shvatiti kao nastavnik nadzor procesa učenja. Znamo točne odgovore, algoritam iterativno čini predviđanja na podacima trening i korigira strane nastavnika Učenje se zaustavlja kada je algoritam postiže prihvatljivu razinu performansi Nadgledana problemi u učenju mogu se grupirati u regresije i klasifikacijskih problema Klasifikacija - kada je izlazna varijabla je kategorija, kao što su „bolesti” i „bez bolesti” Regresija - kada je izlazna varijabla je realna vrijednost, kao što je „težina” Uobičajene metode su nadzirani ML: Linearna regresija - za probleme regresijskih
  • 8. “A cross-border region where rivers connect, not divide” – Interreg V-A Hungary-Croatia Co-operation Programme 2014-2020 Slučajna šuma - za klasifikaciju i regresijskih problema Podrška vektorske strojevi - za probleme klasifikacije Kada postoje samo ulazne podatke (X) i bez odgovarajuće izlazne varijable Cilj je da se model temeljne strukture ili distribucije u podacima - kako bi saznali više o podacima To se zove bez nadzora učenja jer za razliku od nadzirane učenja - ne postoji poznati odgovor i nema nastavnik Algoritmi su prepušteni vlastitim napravama za otkrivanjem i predstavljanjem zanimljiv strukture u podacima Bez nadzora problemi u učenju mogu se grupirati u klastera i udruga problema Grupiranje - kada je problem otkriti inherentne grupiranja u podacima, kao što su grupiranje kupnjom ponašanje Udruga - kada je problem otkriti pravila koja opisuju velike dijelove podataka Uobičajene metode bez nadzora ML su: K-sredstva - za probleme klastera Apriori algoritam - za pravila udruga poteškoćama u učenju 1.3.Appriori algoritam (AA) / drugi Udruga Pravilo Rudarstvo (ARM) ARM je zajednički naziv za tehnike koje se koriste kako bi otkrili kako predmeti povezani jedni druge. AA je vrsta pravila rudarskih udruge koje su osnovane između čestih skupova predmeta U velikoj bazi podataka. 1.4. Stablo odlučivanja (DT) algoritmi DT algoritama su dijelovi nadzire metoda učenja (tablica 2). Njihova uporaba je za klasifikacija i regresija svrhe. DT algoritam pokušava riješiti problem pomoću stabla prikaz podataka (Sl. 4). U toj strukturi, svaki čvor predstavlja interni testu atributa.
  • 9. “A cross-border region where rivers connect, not divide” – Interreg V-A Hungary-Croatia Co-operation Programme 2014-2020 Svaka grana predstavlja ishod testa. Svaki list (terminalni čvor) ima oznaku klase. Vrh čvor u drvo korijen čvor (Sl. 4). 1.5. Arteficial Neuronske mreže (ANN) ANN je metoda AI koji je potaknuta i strukturiran na organizaciju čovjeka mozga (Sl. 5). To je ML-DM metoda - metoda koja uči u primjerima. Ona koristi retrospektivne podatke za analizu. Njegova uporaba je za predviđanja, klasifikacije i raspoznavanje uzoraka svrhe (primjerice za Problemi Association). Predviđanje - brojčana vrijednost je predviđena kao izlazni (npr krvni tlak, dob, itd) i MSE ili RMSE pogreška se koristi kao mjera evaluacije izvedbe modela. Klasifikacija - slučajevi su podijeljeni u dvije ili više kategorija izlaza (npr prisutnost / odsutnost bolesti, ishod liječenja, itd) i stopa klasifikacije koristi se kao mjera evaluacije Model performanse. Sl. 4. DT algoritam simulirati brancing logiku stabla
  • 10. “A cross-border region where rivers connect, not divide” – Interreg V-A Hungary-Croatia Co-operation Programme 2014-2020 Anns su pokazali uspjeh u modeliranju stvarnom svijetu situacijama, tako da se može koristiti za oboje, istraživačke svrhe i praktična primjena, kao potpora odlučivanju ili simulacije alat. Sličnosti između biološke i arteficial neuronske mreže su (Sl. 5): Neuronska mreža Sastoji se od međusobno povezanih bioloških neurona. Biološki neuronske je stanica koja prima informacije iz drugih neurona putem dendrita, to obrađuje i šalje impuls putem aksona i sinapsi drugim neuronima u mreži. Učenje se provodi od strane promjena težina sinaptičkih veza. Milijuni neurona može paralelno obrađivati informacije (Sl. 5). Umjetna neuronska mreža. Umjetni neuron je jedinica za obradu (varijabilni) koji prima ponderirane ulaz od drugih varijabli, pretvara ulaz prema formuli i šalje drugi izlaz varijable. Učenje se obavlja promjenom vrijednosti težine varijabli (težina wji su promišlja kojom ulazi se množe) (Sl. 5).
  • 11. “A cross-border region where rivers connect, not divide” – Interreg V-A Hungary-Croatia Co-operation Programme 2014-2020 Slika 5. -. Biološka vs arteficial NN (. Koristi od predstavljanja prof dr Mariana Zekić, Fakulteta za ekonomiju, Sveučilište u Osijeku) Sl. 6. Obrada Višeslojno ANN Kriteriji za razlikovanje Ann algoritama uključuju (Sl. 6): broj slojeva, tip učenja (Pod nadzorom - pravi izlazne vrijednosti su poznati iz prošlosti i pod uvjetom da u skup podataka ili bez nadzora - pravi izlazne vrijednosti nisu poznati, a koji nisu
  • 12. “A cross-border region where rivers connect, not divide” – Interreg V-A Hungary-Croatia Co-operation Programme 2014-2020 predviđeni u skup), vrsta veze među neuronima, veza između ulaznih i izlaznih podataka, unos i prijenosnih funkcija, Karakteristike vrijeme, vrijeme za učenje, itd 2. Suvremeni računala postupci na bazi Moderni računalo-based metode uključuju: 1) Graf bazi DM, 2) Vizualizacija podataka i Visual Analytics 3) Topologijski DM. To su sve slične tehnike koje se mogu koristiti za organiziranje vrlo složene i heterogenih podataka. 2.1. Graf-based DM Kako bi se primijeniti graf na bazi metode rudarenje podataka, kao što su klasifikacije i klastera metodama, Potrebno je definirati mjere blizine između podataka prikazanih u obliku grafa (Sl. 7.) Postoji nekoliko mjera u-graf blizina, navodeći imena drugačiji graf na bazi Metode DM. Ove metode uključuju: Hyperlink izazvane temu pretraživanja (hits), The Neumann Kernel (NK) i zajedničke najbližeg susjeda (SNN).
  • 13. “A cross-border region where rivers connect, not divide” – Interreg V-A Hungary-Croatia Co-operation Programme 2014-2020 Slika 7. -. Definiranje blizine mjere čini struktura vidljiva 2.2. Vizualizacija podataka Ljudski mozak obrađuje vizualne informacije bolje nego što obrađuje tekst; na taj način, pomoću karte, grafikone i elemente dizajna - vizualizacija podataka može nam pomoći objasniti (razumjeti) trendove i statistike puno lakše (Sl 8.). Slika 8. -. Struktura stanovništva prema dobi - commoly koristi podatke postupak vizualizacije u javnoj zdravstvenoj domeni Točkasto pokazuju sličnost sa -1 do 1
  • 14. “A cross-border region where rivers connect, not divide” – Interreg V-A Hungary-Croatia Co-operation Programme 2014-2020 Primjena domena vizualizaciju podataka i likovnih tehnika Analytics uključuju: 1) Vizualizacija velika, multivarijatne biološke mreže (Sl. 9). 2) Vizualni tekst analitike i klasifikacije povezane relevantne radove na bioloških entiteta u objavljivanje podataka (pubmed), 4) Za istraživanje vizualizacija heterogenih podataka i podataka iz više izvora podataka, 5) Vizualni analitika što je podrška za razumijevanje nesigurnosti i podatkovnih problema s kvalitetom Slika 9. -, prvi vizualizacija humanog strukture protein-protein interakcije 2.3. Topološki DM Primjena topoloških tehnika za DM KDD je vruće i obećavajuće budućnosti područje istraživanja. Topologija ima svoje korijene u teorijskim matematike, ali u posljednjih deset godina, računalna topologija brzo stječe zanimanje među računalnih znanstvenika. To je studija apstraktnih oblika i prostora i preslikavanja među njima. Nastao je iz proučavanja geometrije i teorija skupova. Topološki Metode se mogu primijeniti na podatke predstavljene točkastim oblaka, koja je, konačnih podskupova ndimenzionalan euklidska prostora. Ulaz je prikazana na
  • 15. “A cross-border region where rivers connect, not divide” – Interreg V-A Hungary-Croatia Co-operation Programme 2014-2020 uzorku od nekog nepoznatog prostora koji Onaj tko želi rekonstruirati i razumjeti. Razlikujući okolnog dimenzije n, a intrinzična dimenzija podataka je od primarnog interesa za razumijevanje unutarnju strukturu podataka. Geometrijski i topološki metode su alati koji omogućuju nam da analizu visoko složenih podataka. Moderan Znanost podatke koristi topoloških metode kako bi pronašli strukturne značajke skupova podataka prije daljnje nadzirana ili bez nadzora analiza primijenjena. Matematički formalizam, koji je razvijen da se uključi geometrijski i topološki tehnike, bavi setovima točka oblak podataka, odnosno konačnim skupom bodova. Točke oblaci su ograničeni uzorci s geometrijskog objekta. Alati iz raznih grana geometrija i topologija zatim se koriste za proučavanje seta točka oblak podataka. Topologija pruža formalni jezik za kvalitativni matematike, dok je geometrija uglavnom kvantitativna. Topologija proučava odnose Blizina ili blizina, jer geometrija može se smatrati proučavanje funkcija udaljenosti. To Metode napraviti sažetak ili komprimirani zastupljenost svim značajkama podataka, kako bi se brzo otkriti određene obrasce i odnose u podacima. Ideja o izgradnji sažetke entire domene atributa uključuje razumijevanje odnosa između topološki i geometrijski Objekti izgrađeni iz podataka, koristeći različite značajke.
  • 16. “A cross-border region where rivers connect, not divide” – Interreg V-A Hungary-Croatia Co-operation Programme 2014-2020 Sl. 10. Formiranje računalne strukturu (niže) iz oblika koji se želi obnoviti i razumijevanje (gore)