Osnovni tečaj računalnih metoda

INTEREG Projekt
Biomedicinska informatika
Ljiljana Majnarić Trtica
II. Osnovni tečaj računalnih metoda

I. Data Mining (DM)
 DM se definira kao „proces traženja zanimljiv ili vrijedne informacije
(uzoraka) unutar velike baze podataka”
 Na prvi pogled, ova definicija činia više kao novo ime za statistiku
 Međutim, DM je upravo izveden na skupovima podataka koji su daleko
veći od statističke metode mogu točno analizirati

Metode rudarenja podataka
 DM uključuje metode koje su na raskrižju arteficial inteligencije, strojnog
učenja, statistike i sustava baza podataka
 Ponekad, ove metode podržao smanjenje dimenzionalnosti, tako
mapiranje skup maksimalno informativnih dimenzija
 Ponekad, oni predstavljaju određene matematičke modele
 Često, kombinacija metoda se koristi za rješavanje problema

 U osnovi, obrasci često su definirani u odnosu na ukupnu modelu skupa podataka od
kojeg je dobiven
 Tovdje su mnogi alati koji su uključeni u analize podataka koje pomažu pronaći ove
strukture
 Neki od najvažnijih alata uključiti
 Clustering - čin particioniranje skupove podataka mnogih slučajnih stvari u podskupove
manje veličine koje pokazuju zajedništvo između njih - by gleda na klastere, analitičari su
u stanju izvući statističke modele iz polja podataka
 Rizlaz - the način od postavljanje krivulju kroz niz točaka pomoću neke dobrote-of-fit
kriterij - while ispitivanje predefiniranih dobrote-of-fit parametre - analitičari mogu
pronaći i opisati uzorke
 RUle izvlačenje - metoda korištenja odnose između varijabli uspostaviti neku vrstu rule
 DATA vizualizacija - vrsta tehnike koje mogu pomoći nas objasniti (Razumjeti) trendovi i
složenost u podacima mnogo lakše

Najčešće se koristi u zdravstvene znanosti
 Logistička regresija (LR)
 Podrška Vector Machine (SVM)
 Appriori i druge pravilo udruga rudarstvu (AR)
 Odluka Tree algoritmi (DT)
 algoritmi Klasifikacija: K-sredstva, mjeriteljstvo (Samoorganizacija MAP)
Naivni Bayesov
 Arteficial Neuronske mreže (ANN)

Ipak, kombinacija tehnika može elicite određenu rudarski funkciju
Tehnike Korisnost
Appriori
& Rast FP
Udruga pravilo rudarstvo za učestale seta opcije
(primjerice bolesti) u medicinskim bazama
podataka
ANN
& Genetski algoritam
Izvlačenje uzoraka
otkrivanje trendove
Classifcation
Rješenje Tree algoritmi (ID3, C4, C5, CART) podršku odlučivanja
Klasifikacija
Kombinirana upotreba K-sredstva, SOm-naive
Bayes
Točno razvrstavanje
Kombinacija SVM, Ann i ID3 Klasifikacija

Logistička regresija (LR)
 Popularna metoda za klasifikaciju pojedinaca, s obzirom na vrijednosti skupa
nezavisnih varijabli
 Hoće li predmet oboljeti od dijabetesa?
 Hoće li subjekt reagira na tretman?
 Ona procjenjuje vjerojatnost da individaul je u određenoj skupini
 LR ne čini nikakve pretpostavke o normalnosti, linearnosti i homogenosti
varijance za nezavisne varijable

Sl. 1. Logistička regresija krivulja
 Value proizvedena logističke regresije je Vrijednost vjerojatnosti između 0.0 i 1.0
 Ako je vjerojatnost za članstvo u grupi u modelirani kategoriji iznad nekog rez
točke (zadana je 0,50) - subjekt je predviđeno da se član skupine modeliranog
 Ako je vjerojatnost ispod točke rez - subjekt je predviđeno da se član druge
skupine
-7.5 -5 -2.5 2.5 5 7.5
0.2
0.4
0.6
0.8
1

Testiranje LR modela predstave (stane do niza podataka)
 Testiranje modela, ovisno o vjerojatnosti p
 ROC krivulje
 statistika C
 Ginijev koeficijent
 KS test
 Testiranje modela, ovisno o cuf-off vrijednosti
 Osjetljivost (istina pozitivna stopa)
 Specifičnost (istina negativna stopa)
 Točnost
 pogreška tipa I (dijabetes pogrešnog prepoznavanja u)
 greška tipa II (Pogrešnog prepoznavanja u zdravih)

Linearni vs logistička regresija modela
 U Linearna regresija - ishod (ovisna varijabla) je kontinuirano - to može imati bilo
koju od beskonačnog broja mogućih vrijednosti.
 U logistička regresija - ishod (zavisna varijabla) ima samo ograničen broj
mogućih vrijednosti - to je koristi kada varijabla odgovor je kategoričan u prirodi
 Logistička model je neizbježna ako se uklapa podaci puno bolje nego
linearnog modela
 jan mnoge situacije - je linearni model odgovara samo kao dobro, ili gotovo
kao i logistički model
 U stvari, u mnogim situacijama, linearna i logistički model daje rezultate koji su
praktički ne razlikuju

Sl. 2. Linearni vs logistička regresija modelu
Linearni model pretpostavlja da je vjerojatnost p je linearna funkcija regresora
Tli on logistički model pretpostavlja da je log izgledi p/ (1p) je linearna funkcija regresora

Podrška Vector Machine
 Nadzirani postupak ML
 Za klasifikaciju i regresijskih izazova (uglavnom za razvrstavanje)
 Princip algoritam polaganja:
 EACH dio podataka ucrtava se kao točka u n-dimenzionalni prostor (n= numbra
značajki su varible posjeduju) S vrijednosti svakog značajke se vrijednost
određenog koordinata
 Zatim, klasifikacija se izvodi - po pronalaženju hiper-ravnina koje diferencirajua
dvije klase vrlo dobro

Nadzirana ML Bez nadzora ML
Bojnik dio od praktične ML koristi nadziranog učenja
Kada postoji ulazne varijable (X) i izlazna varijabla (Y) - AIgorithm koristi se kako bi saznali
funkcije mapiranja od ulaza do izlaza: Y = f (X)
Cilj je približiti funkciju mapiranje tako dobro da kada imate nove ulazne podatke (x) -
možete predvidjeti izlazne varijable (Y) za tim podacima
To se zove nadzirano učenje, jer je proces algoritma učenja iz trening skupa podataka se
može shvatiti kao nastavnik nadzor procesa učenja.
Znamo točne odgovore, algoritam iterativno čini predviđanja na podacima trening i
korigira strane nastavnika
Učenje se zaustavlja kada je algoritam postiže prihvatljivu razinu performansi
Nadgledana problemi u učenju mogu se grupirati u regresije i klasifikacijskih problema
Klasifikacija - kada je izlazna varijabla je kategorija, kao što su „bolesti” i „bez bolesti”
Regresija - kada je izlazna varijabla je realna vrijednost, kao što je „težina”
uobičajene metode od Supervised ML su:
Linearna regresija - za probleme regresijskih
Slučajna šuma - za klasifikaciju i regresijskih problema
Podrška vektorske strojevi -za probleme klasifikacije
Kada su only ulaznih podataka (X) i bez odgovarajuće izlazne
varijable
Cilj je model temeljne strukture ili distribucije u podacima -
kako bi saznali više o podacima
to je zove bez nadzora učenja jer za razliku od nadzirane
učenja - nema znan odgovoriti i nema nastavnik
Algoritmi su prepušteni vlastitim napravama za otkrivanjem i
predstavljanjem zanimljiv strukture u podacima
Bez nadzora problemi u učenju mogu se grupirati u klastera i
udruga problema
grupiranje - kada je problem otkriti inherentne grupiranja u
podacima, kao što su grupiranje kupnjom ponašanje
asocijacija - kada je problem otkriti pravila koja opisuju velike
dijelove vaših podataka
uobičajene metode od Unsupervised ML su:
k-sredstva - za probleme klastera
Apriorno algoritam - za pravila udruga poteškoćama u učenju

Appriori algoritam (AA)
/ Druga udruga Pravilo Rudarstvo (ARM)
 ARM - tehnika otkriti kako stavke povezane su međusobno
 AA - mpreostala association rmodule, između česta jeETS artikala u lARGE databases (Sl.
3)

Stablo odlučivanja (DT) algoritmi
 U nadziranih algoritama učenja
 Za klasifikaciju i regresijskih problema
 DT algoritam pokušava riješiti problem pomoću prikaz stabla (Sl. 4)
 A dijagram toka strukturu nalik (Sl.)
 EACH unutarnji čvor predstavlja test za atribut
 EACH grana predstavlja ishod testa
 EACH list ( terminal čvor) ima oznaku klase
 Najviši u čvor drvo korijen čvor
 Postoje mnoge specifične odluka-algoritmi drvo

Sl. 4. DT algoritam simulirati brancing logiku stabla

Slika 5. DT-based rezultati klasifikacije (Osobna arhiva)

Arteficial Neuronske mreže (ANN)
 A metoda umjetne inteligencije inspirirana po i strukturiran ljudski mozak
 To je ML & DM metoda - metoda koja uče na primjerima
 Koristi retrospektivne podatke
 To se može koristiti za predviđanje, razvrstavanje i raspoznavanje uzoraka (npr
association problemi)
 Prediction - brojčana vrijednost je predviđena kao izlaz (npr krvni tlak, dob i sl) i MSE ili
RMSE pogreška se koristi kao mjera evaluacije izvedbe modela
 Classification - predmeti se dodjeljuju u dvije ili više kategorija izlaza (npr prisutnost /
odsutnost bolesti, rezultat liječenja, itd), a brzina klasifikacija se koristi kao mjera
ocjenjivanje izvedbe modela
 ANNS pokazala uspjeh u modeliranju situacija u stvarnom svijetu, tako da se mogu
koristiti iu istraživačke svrhe i za praktičnu uporabu kao podrška odlučivanju ili
simulacijski alat

Biološka vs Arteficial neuronske mreže
(Sl. 6)
 Neuronska mreža - consists međusobno povezanih bioloških neurona
 Biološki neuronske - A stanica koje primajua podaci iz drugih neurona putem dendrita,
postupakes to i poslatia impuls putem aksona i sinapsi drugim neuronima u mreži
 Lzarada - provodi se promjenom težinama sinaptičkih veza - millions neurona može paralelno
obrade informacija
 Umjetna neuronska mreža
 predstavlja artificial neuron - procesorska jedinica (varijabilni) koji prima ulazni podatak od drugih
varijabli, pretvara ulaz prema formuli i šalje izlaz drugih varijabli
 Učenje - provodi se promjenom vrijednosti težine varijabli (težina wji se promišlja kojim se množe
ulaza)

Slika 6. -, Biološki vs arteficial NN

Slika 7., - Generalizacija sposobnost ANN modela treba ispitati
 Ona does ne osloniti na rezultata dobiti na jednom uzorku - mnogo iteracija
učenja na treningu postaviti odvijati u sredini (skrivenog) sloj - boravak
između ulaznih i izlaznih slojeva

Kriteriji za razlikovanje Ann algoritme
 Brojčlanice koja slojeva
 Type učenja
• Nadzorom - rEAL izlazne vrijednosti su poznati iz prošlosti i pod uvjetom da se u setu podataka
• Bez nadzora - rEAL izlazne vrijednosti nisu poznati, a koji nisu predviđeni u skup podataka, te
mreže koriste se za klaster podataka u grupama po karakteristikama
 Type veza između neurona
 Connection među ulaznih i izlaznih podataka
 janput i funkcije za prijenos
 TIME karakteristike
 Lzarada vrijeme
 itd

II. Moderni računalo-based metode
 Graf-based DM
 Vizualizacija podataka i Visual Analytics
 Topološki DM
 Slične tehnike koje se mogu koristiti za organiziranje vrlo složene i
heterogenih podataka
 Podaci mogu biti vrlo moćanako zapravo možete shvatiti što to vam
govorim
 To nije lako dobiti jasne takeaways gledajući pobio brojeva i statistika -
potrebno je ton podaci predstavljeni u logičke, lako razumljiv način - that`s
situaciji kada za ulazak neke od tih tehnika

Graf-based DM
 Da bi se primijenila graf-based data mining tehnike, kao što su razvrstavanje i
grupiranje - potrebno je definirati mjere blizine između podataka predstavljenih u
grafu (Sl. 8. i 9.)
 Postoji nekoliko mjera u-graf blizina
 Hyperlink izazvana Tema pretrage (hitova)
 Neumannovim Kernel (NK)
 Zajednički najbližeg susjeda (SNN)

Slika 8. -. Definiranje blizine mjera omogućuje strukturu vidljiv
Točkasto pokazuju sličnost sa -1 do 1

Slika 9. -. Izvor dijagram pomoću mjera NK-blizine
- N1 ... N8 vrhova (članci)
- rubovi pokazuju citat
Navod Matrix C mogu formirati - Ako rub između dva vrha postoji
onda je matrica stanica = 1 ostali = 0

Slika 10. -. Kako generalizirati matematički
uzorak dalmatinskoga psa?

Vizualizacija podataka
 Čovjek mozak obrađuje vizualne informacije bolje nego što obrađuje tekst -
tako po uporabu dijagrama, grafikona i elemente dizajna - vizualizaciju
podataka može pomoći nas objasniti (Razumjeti) trendovi i statistika puno
lakše (Sl. 10.)
Slika 10. -. Struktura stanovništva po dobi - commoly koristi postupak
vizualizacije podataka u javnoj zdravstvenoj domeni

Vizualizacija podataka
 Uzorci podataka o miniranosti su toliko velika da je točkasto i histogrami će
često pada kratko predstavlja nikakvu informaciju o realnoj vrijednosti (Sl,
11.)
 Upravo iz tog razloga, analitičari bave data mining stalno traže bolje načine
za grafički predstavlja podatke
 Bez obzira alati analitičari će imati na dohvat ruke - obrasci i modeli koji se
minirana će biti samo dobre kvalitete kao podatke koji ga se izveden iz

Slika 11. -. Izrada graf jednostavniji i lakši za razumijevanje

Područja primjene tehnika vizualizacije podataka i vizualne
analize
 Vizualizacija velika, kompleks, multivarijatni biološke mreže
 Vizualni tekst analitike i klasificirati relevantne srodne poslove na bioloških
entiteta u publikaciji baze (npr PubMed)
 Vizualizacija za upoznavanje heterogenih podataka
i podaci iz više izvora podataka
 Visual analitika što je podrška za razumijevanje nesigurnost
i pitanje kvalitete podataka

Slika 12. -. Složeni podaci vizualni analitika računalo-based alat
(Osobna arhiva)

Slika 13., - Prvo vizualizacija the ljudski
Protein-Protein-janteraction struktura

Topološki DM
 Primjena topoloških tehnika na DM i KDD je vruće i obećavajuće područje
budućih istraživanja.
 Topologija ima svoje korijene u teorijskoj matematici, ali u posljednjem
desetljeću računalna topologija brzo dobiva zanimanje među računalnim
znanstvenicima.
 To je proučavanje apstraktnih oblika i prostora i mapiranja između njih. Nastao
je iz studija geometrije i teorije skupova.
 Topološke metode mogu se primijeniti na podatke prikazane oblacima točaka,
odnosno konačnim podskupinama n-dimenzionalnog euklidskog prostora.
 Ulaz je predstavljen s primjerom nekog nepoznatog prostora koji se želi
rekonstruirati i razumjeti.
 Razlikovanje ambijentalne dimenzije ugradnje i unutarnje dimenzije podataka
od primarnog je interesa za razumijevanje unutarnje strukture podataka.

Topološki DM
 Geometrijske i topološke metode su alati koji nam omogućuju analizu vrlo složenih podataka
 Moderna podatkovna znanost koristi topološke metode kako bi pronašla strukturne značajke
skupova podataka prije daljnje nadzirane ili nenadzirane analize
 Matematički formalizam, koji je razvijen za uključivanje geometrijskih i topoloških tehnika, bavi
se skupovima podataka u oblaku točaka, tj. Konačnim skupovima točaka
 Točkasti oblaci su konačni uzorci uzeti iz geometrijskog objekta
 Alati iz različitih grana geometrije i topologije zatim se koriste za proučavanje skupova
podataka oblaka točaka
 Topologija pruža formalni jezik za kvalitativnu matematiku, dok je geometrija uglavnom
kvantitativna.
 Topologija proučava odnose blizine ili blizine, jer se geometrija može smatrati proučavanjem
funkcija udaljenosti
 Ove metode stvaraju sažetak ili komprimirani prikaz svih podatkovnih značajki koje pomažu u
brzom otkrivanju određenih uzoraka i odnosa u podacima.
 Ideja konstruiranja sažetaka cijelih domena atributa uključuje razumijevanje odnosa između
topoloških i geometrijskih objekata konstruiranih iz podataka pomoću različitih značajki

Topološki DM
 Sl. 14.
 Oblikovanje računalne
strukturu (dolje) iz oblika koji
se želi rekonstruirati i
razumjeti (iznad)

Osnovni tečaj računalnih metoda

Recommended

Recommended

More Related Content

More from improvemed2

More from improvemed2 (11)

Osnovni tečaj računalnih metoda