SlideShare a Scribd company logo
1 of 36
Intereg Project
Biomedicinális informatika
Ljiljana Majnarić Trtica
II. Alapok a számítógépes módszertanhoz
I. Adatbányászat (DM – data mining)

A DM az „érdekes vagy értékes információk (minták) keresésének folyamata a nagy
adatbázisokban””
 Első pillantásra ez a meghatározás inkább a statisztikák új nevének tűnik
 A DM azonban valóban olyan adatkészleteken történik, amelyek sokkal nagyobbak,
mint a statisztikai módszerek esetében
HorvátHorvátHorvát
Adatbányászati módszerek
 A DM olyan módszereket tartalmaz, amelyek a mesterséges intelligencia, a gépi
tanulás, a statisztika és az adatbázis-rendszerek metszéspontjában találhatók
 Néha ezek a módszerek támogatják a dimenzitás csökkentést, a maximálisan
informatív dimenziók halmazának feltérképezésével
 Néha határozott matematikai modelleket képviselnek
 Gyakran a módszerek kombinációja a problémamegoldásra szolgál
Adatbányászati módszerek
 Lényegében a mintákat gyakrabban határozzák meg az adatsor teljes modelljéhez képest,
amelyből származik
 Számos eszköz van az adatbányászatban, amelyek segítenek megtalálni ezeket a struktúrákat
 A legfontosabb eszközök közé tartozik a
 klaszterezés - sok véletlenszerű elem adatkészletének kisebb méretű részhalmazokba való osztása,
amelyek között azonossság van - az ilyen klaszterekre nézve az elemzők statisztikai modelleket tudnak
extraktálni az adatmezőkből
 Regresszió - a görbe egy ponton belüli illeszkedésének módja bizonyos jósági-fokú kritériumok
alkalmazásával - az előre meghatározott jó illeszkedési paraméterek vizsgálata során - az elemzők
megtalálhatják és leírhatják a mintákat
 Szabálykivonás - a változók közötti kapcsolatok alkalmazásának módja valamilyen szabály létrehozásához
 Adatmegjelenítés - egyfajta technika, amely segíthet számunkra a trendek és az adatok összetettségének
megértésében
Az egészségügyi tudományban leggyakrabban használt
adatbányászati módszerek
 Logisztikai regresszió (LR)
 Támogatás vektor gép (SVM)
 Appriori és egyéb társulási szabálybányászat (AR)
 Döntési fa algoritmusok (DT)
 Osztályozási algoritmusok: K-eszközök, SOM (önszerveződő térkép), Naive Bayes
 Szerves neurális hálózatok (ANN)
A technikák kombinációja azonban új bányászati funkciót hozhat létre
technikák Hasznosság
Appriori
& FP növekedés
Összefüggés szabály bányászat a gyakori
elemkészletek (pl. Betegségek) megtalálásához az
orvosi adatbázisokban
ANN
& Genetikai algoritmus
Minta kivonása
A trendek felderítése
Osztályozás
Döntési fa algorithmusok (ID3, C4, C5, CART) Döntés támogatás
Osztályozás
K-közép kombinált használata, SOM & Naive Bayes Pontos osztályozás
SVM, ANN & ID3 kombinációja Osztályozás
Logisztikus regresszió(LR)
 népszerű módszer az egyének osztályozására, tekintettel egy magyarázó változó
értékére
 Vajon a beteg diabéteszben szenved?
 A beteg reagál-e a kezelésre?
 Becslések szerint valószínű, hogy egy személy egy adott csoportban van
 Az LR nem tesz feltételezést a független változók normális, linearitási és
homogenitási viszonyairól
1. ábra: Logisztikai regressziós görbe
 A logisztikus regresszió által produkált érték 0,0 és 1,0 közötti valószínűségi érték
 Ha a modellezett kategóriában a csoporttagság valószínűsége valamilyen vágási pont felett van (az
alapértelmezett érték 0,50), a téma várhatóan a modellezett csoport tagja lesz
 Ha a valószínűség a vágási pont alatt van, akkor a téma várhatóan a másik csoport tagja lesz
-7.5 -5 -2.5 2.5 5 7.5
0.2
0.4
0.6
0.8
1
Az LR modell alkalmasságának tesztelése (adatkészlethez illeszkedik)
 A modellek tesztelése a valószínűségtől függően p
 ROC görbe
 C statisztikák
 GINI együttható
 KS teszt
 A modellek tesztelése a cuf-off értékektől függően
 Érzékenység (igaz pozitív)
 Specifitás (igaz negatív arány)
 Pontosság
 I. típusú hiba (a cukorbetegség hibás osztályozása)
 II. Típusú hiba (egészséges hibás osztályozása)
Lineáris vs logisztikai regressziós modell
 A lineáris regresszióban - az eredmény (függő változó) folyamatos - lehet, hogy
végtelen számú lehetséges értéke van.
 A logisztikus regresszióban - az eredmény (függő változó) csak korlátozott számú
lehetséges értéket tartalmaz - ezt akkor használják, amikor a válasz változó jellegű
 A logisztikai modell elkerülhetetlen, ha jobban illeszkedik az adatokhoz, mint a lineáris
modell
 Sok esetben - a lineáris modell ugyanolyan jól illeszkedik, vagy csaknem a logisztikai
modellhez
 Valójában sok esetben a lineáris és logisztikai modell eredményeket ad, amelyek
gyakorlatilag megkülönböztethetetlenek
2. ábra: Lineáris vs logisztikai regressziós modell
A lineáris modell feltételezi, hogy a p valószínűsége a regresszorok lineáris függvénye
A logisztikai modell feltételezi, hogy a p / (1-p) esélyek naplója a regresszorok lineáris függvénye
Tartóvektor-gép módszer
 Felügyelt ML módszer
 Az osztályozás és a regresszió kihívásaira (főleg osztályozásra)
 Az alap algoritmus a következő:
 Minden adatelemet n-dimenziós térpontként ábrázolunk (n = jellemzők száma, amelyekben a
variánsok rendelkeznek), és az egyes jellemzők értéke egy adott koordináta értéke.
 Ezután elvégezzük a besorolást - a hiper sík megtalálásával, amely nagyon jól megkülönbözteti a
két osztályt
Felügyelt ML Nem felügyelt ML
A gyakorlati ML nagy része felügyelt tanulást használ
Ha bemeneti változók (x) és kimeneti változók (Y) vannak, akkor egy algoritmust
használnak a leképezési funkció tanulására a bemenetről a kimenetre: Y = f (X)
A cél az, hogy közelítsük a leképezést olyan jól, hogy ha új bemeneti adataink vannak
(x) - megjósolhatja az adott adat kimeneti változóit (Y)
Felügyelt tanulásnak hívják, mert az oktatási adatállományból tanuló algoritmus
folyamatát a tanulási folyamatot felügyelő tanárnak lehet tekinteni.
Ismerjük a helyes válaszokat, az algoritmus iteratívan előrejelzéseket készít a képzési
adatokról, és a tanár korrigálja
A tanulás megáll, ha az algoritmus elfogadható szintű teljesítményt ér el
A felügyelt tanulási problémák regressziós és osztályozási problémákba sorolhatók
Osztályozás - ha a kimeneti változó egy kategória, például „betegség” és „nem
betegség”
Regresszió - ha a kimeneti változó valódi érték, például „súly”
A felügyelt ML szokásos módszerei:
Lineáris regresszió - regressziós problémák esetén
Véletlen erdő - az osztályozás és a regresszió problémáira
Támogató vektorok - osztályozási problémákhoz
Ha csak bemeneti adatok vannak (X) és nincsenek megfelelő
kimeneti változók
A cél az, hogy modellezzük az adatok struktúráját vagy
eloszlását - annak érdekében, hogy többet tudjunk meg az
adatokról
Ezt felügyelet nélküli tanulásnak nevezik, mert a felügyelt
tanulástól eltérően nincs ismert válasz, és nincs tanár
Az algoritmusok saját terveik szerint maradnak, hogy
felfedezzék és bemutassák az érdekes struktúrát az
adatokban
A felügyelet nélküli tanulási problémák csoportosítási és
társulási problémákba sorolhatók
Klaszterezés - amikor a probléma az, hogy felfedezzük az
adatok sajátos csoportjait, például a vásárlási magatartás
szerinti csoportosítást
Összefüggés - amikor a probléma az adatok nagy részeit
leíró szabályok feltárása
A felügyelet nélküli ML szokásos módszerei:
k-eszközök - klaszterezési problémák esetén
Apriori algoritmus - az összeföggési szabályok tanulási
problémáira
Appriori algoritmus (AA) / egyéb társulási szabálybányászat (ARM)
 ARM - olyan technika, amely megmutatja, hogy az elemek hogyan kapcsolódnak egymáshoz
 AA-bányászati társulási szabályok a gyakori elemek között nagy adatbázisokban (3. ábra)
Döntési fa (DT) algoritmusok
 Felügyelt tanulási algoritmusokban
 Az osztályozási és regressziós problémákra
 A DT algoritmus megpróbálja megoldani a problémát a fa megjelenítésével (4. ábra).
 Áramlat-diagramszerű szerkezet (ábra.)
 Minden belső csomópont egy attribútum tesztelését jelenti
 Minden egyes ág képviseli a teszt eredményét
 Minden levél (terminál csomópont) rendelkezik egy osztálycímkével
 A fa legfelső csomópontja a gyökércsomópont
 Számos specifikus döntési fa algoritmus létezik
4. ábra: A DT algoritmus szimulálja a fa átengedő logikáját
5. ábra. DT-alapú osztályozási eredmények (a személyes
archívum)
Mesterséges neurális hálózatok (ANN)
 A mesterséges intelligencia az emberi agy által inspirált és strukturált módszere
 Ez egy ML & DM módszer - egy olyan módszer, amely a példákból tanul
 Retrospektív adatokat használ
 Használható előrejelzésre, osztályozásra és mintázatfelismerésre (például társítási problémák)
 Előrejelzés - egy számértéket előrejeleznek, mint a kimenet (pl. Vérnyomás, életkor stb.) És az
MSE vagy az RMSE hiba, mint a modell teljesítményének értékelése.
 A besorolás - eseteket a kimenet két vagy több kategóriájába sorolják (pl. Betegség jelenléte /
hiánya, kezelési eredmény stb.), És a besorolási arányt a modell teljesítményének értékelésére
használják.
 Az ANN-k sikeresnek bizonyultak a valós helyzetek modellezésében, így felhasználhatók mind
kutatási célokra, mind gyakorlati alkalmazásra, mint döntési támogatásra vagy szimulációs
eszközre.
Biológiai vs. mesterséges neurális hálózat (6.
ábra)
 Biológiai neurális hálózat - kölcsönösen kapcsolódó biológiai neuronokból áll
 Egy biológiai neuron - egy olyan sejt, amely a dendriteken keresztül más
neuronokból információt kap, feldolgozza és impulzusokat küld az axonon
keresztül és szinapszisokat a hálózat más neuronjaihoz
 A tanulás - a szinaptikus kapcsolatok súlyának változása révén történik - a
neuronok milliói képesek párhuzamosan feldolgozni az információt
 Mesterséges neurális hálózat
 Egy mesterséges neuron - egy feldolgozó egység (változó), amely más változók
súlyozott bemenetét kapja, átalakítja a bemenetet egy képlet szerint, és elküldi a
kimenetet más változóknak
 A tanulás - a változók súlyértékeinek változásán keresztül történik (a wji súlyok
olyan értékek, amelyekkel a bemenetek szorozódnak)
Biológiai vs. mesterséges neurális hálózat (6. ábra)
7. ábra - Az ANN modell általánosítási képességét tesztelni kell
 Nem támaszkodik az egyetlen mintán kapott eredményekre - sok a tanulási iteráció
a képzési készleten a középső (rejtett) rétegben - a bemeneti és kimeneti rétegek
között marad
Az ANN algoritmusok megkülönböztetésének kritériumai
 A rétegek tömege
 A tanulás típusa
 Felügyelt - a valós kimeneti értékek a múltból ismertek és az adatállományban találhatók
 A felügyelet nélküli - valós kimeneti értékek nem ismertek, és nem szerepelnek az adatkészletben, ezeket a
hálózatokat csoportok adatainak klaszterezésére használják jellemzők alapján
 A neuronok közötti kapcsolatok típusa
 A bemeneti és kimeneti adatok közötti kapcsolat
 Bemeneti és átviteli funkciók
 Idő jellemzői
 Tanulási idő
 stb.
II. Modern számítógépes módszerek
 Grafikon alapú DM
 Vizualizáció és Vizuális analitika
 Topológiai DM
 Hasonló technikák, amelyeket nagyon összetett és heterogén adatok
megszervezésére lehet használni
 Az adatok nagyon erősek lehetnek, ha valóban megértjük, mit is mondanak
 Nem könnyű megkeresni a számokat és statisztikákat - a logikailag, könnyen
érthető módon kell megadnunk az adatokat - ez az a helyzet, amikor ezeket a
technikákat beírhatjuk
Grafikon alapú DM
 A grafikon alapú adatbányászati technikák, mint például az osztályozás és a klaszterezés
alkalmazásához szükséges a közeli mérések meghatározása a grafikonon megjelenített
adatok között (8. és 9. ábra).
 Számos grafikonon belüli közelségi mérés létezik
 Hiperhivatkozással indított téma keresése (HITS)
 A Neumann kernel (NK)
 Megosztott legközelebbi szomszéd (SNN)
8. ábra - A közelségmérések meghatározása lehetővé teszi a szerkezet
láthatóvá tételét
Scatter plot-ok, amelyek a hasonlóságot -1-től 1-ig muta
9. ábra - Citációs gráf NK-közelségi mérésekkel
- n1… n8 csúcs (cikk)
- az élek idézetet jeleznek
A C idézet mátrix képződhet - ha két csúcs között van él, akkor a
mátrixcella = 1 másik = 0
10. ábra - Hogyan lehet matematikailag általánosítani a dalmata kutya
mintáját?
Adat megjelenítés
 Az emberi agy jobban feldolgozza a vizuális információkat, mint a szöveget - így a grafikonok,
grafikonok és tervezési elemek használatával - az adatmegjelenítés segíthet számunkra, hogy
sokkal könnyebben elmagyarázzuk a trendeket és statisztikákat (10. ábra),
10. ábra - A népesség életkor szerinti szerkezete - a közegészségügy
területén használt adatmegjelenítési eljárás segítségével
HorvátHorvátHorvát
Adat megjelenítés
 A bányászott adatok mintái annyira nagyok, hogy a szórt pontok és a hisztogramok
gyakran nem felelnek meg reális értékkel bíró információknak (11. ábra).
 Éppen ezért az adatbányászattal foglalkozó elemzők folyamatosan keresnek jobb
módokat az adatok grafikus ábrázolására
 Függetlenül attól, hogy milyen eszközökkel rendelkeznek az elemzők a kezükben - a
bányászott minták és modellek csak olyan jó minőségűek lesznek, mint azok az
adatok, amelyekből származik
11. ábra - A grafikon egyszerűbbé és könnyebbé tétele a megértés érdekében
Az adatmegjelenítés és a vizuális elemzések alkalmazásának
területei
 Nagy, komplex, többváltozós biológiai hálózatok megjelenítése
 Vizuális szövegelemzés és a releváns kapcsolódó munkák osztályozása a biológiai
entitásokhoz a közzététt adatbázisokban (pl. PubMed)
 Vizualizáció heterogén adatok feltárására és több adatforrásból származó adatok
 A vizuális elemzés a bizonytalanság megértésének támogatása és az adatok
minőségével kapcsolatos kérdések
HorvátHorvátHorvát
12. ábra - Komplex adat vizuális analitikai számítógépes eszköz (személyes
archívum)
13. ábra - A humán Protein-Protein-Interakció szerkezet első
megjelenítése
Topológiai DM
 A topológiai technikák alkalmazása a DM és a KDD számára népszerű és ígéretes
jövőbeli kutatási terület.
 A topológia gyökerei az elméleti matematikában vannak, de az elmúlt évtizedben a
számítási topológia iránti érdeklődés gyorsan növekszik a számítógép-tudósok körében.
 Az absztrakt formák és terek tanulmányozása, és ezek közötti leképezések tudománya.
A geometria és a halmazelmélet tanulmányozásából származik.
 Topológiai módszerek alkalmazhatók a pontfelhők által képviselt adatokra, azaz az n-
dimenziós euklideszi tér véges részhalmazaira.
 A bemenetet egy ismeretlen hely mintájával mutatjuk be, amelyet rekonstruálni és
megérteni kívánunk.
 Az adat belső struktúrájának megértése szempontjából elsődleges fontosságú, hogy
megkülönböztessük az n-es környezeti (beágyazó) dimenziót és az adatok belső
dimenzióját.
Topológiai DM
 A geometriai és topológiai módszerek olyan eszközök, amelyek lehetővé teszik számunkra a
rendkívül összetett adatok elemzését
 A modern adat-tudomány topológiai módszereket alkalmaz az adatkészletek szerkezeti
jellemzőinek megtalálására a további felügyelt vagy felügyelet nélküli elemzés előtt
 A geometriai és topológiai technikák beépítésére kifejlesztett matematikai formalizmus
foglalkozik a pontfelhőadat-készletekkel, azaz a véges pontkészletekkel.
 A pontfelhők egy geometriai tárgyból vett véges minták
 Ezután a geometria és a topológia különböző ágaiból származó eszközöket használnak a
pontfelhőadat-készletek tanulmányozására
 A topológia formális nyelvet biztosít a kvalitatív matematika számára, míg a geometria főként
mennyiségi.
 A topológia tanulmányozza a közelség vagy a közelség összefüggéseit, mivel a geometria a
távolságfüggvények vizsgálatának tekinthető
 Ezek a módszerek az összes adatelem összefoglalását vagy tömörített ábrázolását teszik
lehetővé, hogy segítsenek gyorsan felfedni az adatmintákat és kapcsolatokat.
 Az attribútumok teljes tartományainak összefoglalóinak összeállításának ötlete magában foglalja
a különböző jellemzőkből származó adatokból kialakított topológiai és geometriai objektumok
közötti kapcsolat megértését.
Topológiai DM
 14. ábra.
 A számítási struktúra
kialakítása (lentebb) attól az
alaktól, amelyiket fel kívánja
rekonstruálni és megérteni
(feljebb)

More Related Content

More from improvemed

More from improvemed (20)

Isolated blood vessels
Isolated blood vesselsIsolated blood vessels
Isolated blood vessels
 
Notes for Measuring blood flow and reactivity of the blood vessels in the ski...
Notes for Measuring blood flow and reactivity of the blood vessels in the ski...Notes for Measuring blood flow and reactivity of the blood vessels in the ski...
Notes for Measuring blood flow and reactivity of the blood vessels in the ski...
 
Notes for STAINING AND ANALYSIS of HISTOLOGICAL PREPARATIONS
Notes for STAINING AND ANALYSIS of HISTOLOGICAL PREPARATIONSNotes for STAINING AND ANALYSIS of HISTOLOGICAL PREPARATIONS
Notes for STAINING AND ANALYSIS of HISTOLOGICAL PREPARATIONS
 
Notes for Fixation of tissues and organs for educational and scientific purposes
Notes for Fixation of tissues and organs for educational and scientific purposesNotes for Fixation of tissues and organs for educational and scientific purposes
Notes for Fixation of tissues and organs for educational and scientific purposes
 
Notes for
Notes for Notes for
Notes for
 
Notes for The principle and performance of capillary electrophoresis
Notes for The principle and performance of capillary electrophoresisNotes for The principle and performance of capillary electrophoresis
Notes for The principle and performance of capillary electrophoresis
 
Notes for The principle and performance of liquid chromatography–mass spectro...
Notes for The principle and performance of liquid chromatography–mass spectro...Notes for The principle and performance of liquid chromatography–mass spectro...
Notes for The principle and performance of liquid chromatography–mass spectro...
 
Notes for Cell Culture Basic Techniques
Notes for Cell Culture Basic TechniquesNotes for Cell Culture Basic Techniques
Notes for Cell Culture Basic Techniques
 
Big datasets
Big datasetsBig datasets
Big datasets
 
Systems biology for Medicine' is 'Experimental methods and the big datasets
Systems biology for Medicine' is 'Experimental methods and the big datasetsSystems biology for Medicine' is 'Experimental methods and the big datasets
Systems biology for Medicine' is 'Experimental methods and the big datasets
 
Systems biology for medical students/Systems medicine
Systems biology for medical students/Systems medicineSystems biology for medical students/Systems medicine
Systems biology for medical students/Systems medicine
 
Use cases
Use casesUse cases
Use cases
 
Basic course for computer based methods
Basic course for computer based methodsBasic course for computer based methods
Basic course for computer based methods
 
Medicine as data science
Medicine as data scienceMedicine as data science
Medicine as data science
 
Basic Immunology 21 26
Basic Immunology 21 26Basic Immunology 21 26
Basic Immunology 21 26
 
Basic Immunology 11-20
Basic Immunology 11-20Basic Immunology 11-20
Basic Immunology 11-20
 
Basic immunology 1 10
Basic immunology 1 10Basic immunology 1 10
Basic immunology 1 10
 
Primjeri upotrebe
Primjeri upotrebePrimjeri upotrebe
Primjeri upotrebe
 
Osnovni tečaj računalnih metoda
Osnovni tečaj računalnih metoda  Osnovni tečaj računalnih metoda
Osnovni tečaj računalnih metoda
 
Medicina kao znanost podataka
Medicina kao znanost podatakaMedicina kao znanost podataka
Medicina kao znanost podataka
 

Alapok a számítógépes módszertanhoz

  • 1. Intereg Project Biomedicinális informatika Ljiljana Majnarić Trtica II. Alapok a számítógépes módszertanhoz
  • 2. I. Adatbányászat (DM – data mining)  A DM az „érdekes vagy értékes információk (minták) keresésének folyamata a nagy adatbázisokban””  Első pillantásra ez a meghatározás inkább a statisztikák új nevének tűnik  A DM azonban valóban olyan adatkészleteken történik, amelyek sokkal nagyobbak, mint a statisztikai módszerek esetében HorvátHorvátHorvát
  • 3. Adatbányászati módszerek  A DM olyan módszereket tartalmaz, amelyek a mesterséges intelligencia, a gépi tanulás, a statisztika és az adatbázis-rendszerek metszéspontjában találhatók  Néha ezek a módszerek támogatják a dimenzitás csökkentést, a maximálisan informatív dimenziók halmazának feltérképezésével  Néha határozott matematikai modelleket képviselnek  Gyakran a módszerek kombinációja a problémamegoldásra szolgál
  • 4. Adatbányászati módszerek  Lényegében a mintákat gyakrabban határozzák meg az adatsor teljes modelljéhez képest, amelyből származik  Számos eszköz van az adatbányászatban, amelyek segítenek megtalálni ezeket a struktúrákat  A legfontosabb eszközök közé tartozik a  klaszterezés - sok véletlenszerű elem adatkészletének kisebb méretű részhalmazokba való osztása, amelyek között azonossság van - az ilyen klaszterekre nézve az elemzők statisztikai modelleket tudnak extraktálni az adatmezőkből  Regresszió - a görbe egy ponton belüli illeszkedésének módja bizonyos jósági-fokú kritériumok alkalmazásával - az előre meghatározott jó illeszkedési paraméterek vizsgálata során - az elemzők megtalálhatják és leírhatják a mintákat  Szabálykivonás - a változók közötti kapcsolatok alkalmazásának módja valamilyen szabály létrehozásához  Adatmegjelenítés - egyfajta technika, amely segíthet számunkra a trendek és az adatok összetettségének megértésében
  • 5. Az egészségügyi tudományban leggyakrabban használt adatbányászati módszerek  Logisztikai regresszió (LR)  Támogatás vektor gép (SVM)  Appriori és egyéb társulási szabálybányászat (AR)  Döntési fa algoritmusok (DT)  Osztályozási algoritmusok: K-eszközök, SOM (önszerveződő térkép), Naive Bayes  Szerves neurális hálózatok (ANN)
  • 6. A technikák kombinációja azonban új bányászati funkciót hozhat létre technikák Hasznosság Appriori & FP növekedés Összefüggés szabály bányászat a gyakori elemkészletek (pl. Betegségek) megtalálásához az orvosi adatbázisokban ANN & Genetikai algoritmus Minta kivonása A trendek felderítése Osztályozás Döntési fa algorithmusok (ID3, C4, C5, CART) Döntés támogatás Osztályozás K-közép kombinált használata, SOM & Naive Bayes Pontos osztályozás SVM, ANN & ID3 kombinációja Osztályozás
  • 7. Logisztikus regresszió(LR)  népszerű módszer az egyének osztályozására, tekintettel egy magyarázó változó értékére  Vajon a beteg diabéteszben szenved?  A beteg reagál-e a kezelésre?  Becslések szerint valószínű, hogy egy személy egy adott csoportban van  Az LR nem tesz feltételezést a független változók normális, linearitási és homogenitási viszonyairól
  • 8. 1. ábra: Logisztikai regressziós görbe  A logisztikus regresszió által produkált érték 0,0 és 1,0 közötti valószínűségi érték  Ha a modellezett kategóriában a csoporttagság valószínűsége valamilyen vágási pont felett van (az alapértelmezett érték 0,50), a téma várhatóan a modellezett csoport tagja lesz  Ha a valószínűség a vágási pont alatt van, akkor a téma várhatóan a másik csoport tagja lesz -7.5 -5 -2.5 2.5 5 7.5 0.2 0.4 0.6 0.8 1
  • 9. Az LR modell alkalmasságának tesztelése (adatkészlethez illeszkedik)  A modellek tesztelése a valószínűségtől függően p  ROC görbe  C statisztikák  GINI együttható  KS teszt  A modellek tesztelése a cuf-off értékektől függően  Érzékenység (igaz pozitív)  Specifitás (igaz negatív arány)  Pontosság  I. típusú hiba (a cukorbetegség hibás osztályozása)  II. Típusú hiba (egészséges hibás osztályozása)
  • 10. Lineáris vs logisztikai regressziós modell  A lineáris regresszióban - az eredmény (függő változó) folyamatos - lehet, hogy végtelen számú lehetséges értéke van.  A logisztikus regresszióban - az eredmény (függő változó) csak korlátozott számú lehetséges értéket tartalmaz - ezt akkor használják, amikor a válasz változó jellegű  A logisztikai modell elkerülhetetlen, ha jobban illeszkedik az adatokhoz, mint a lineáris modell  Sok esetben - a lineáris modell ugyanolyan jól illeszkedik, vagy csaknem a logisztikai modellhez  Valójában sok esetben a lineáris és logisztikai modell eredményeket ad, amelyek gyakorlatilag megkülönböztethetetlenek
  • 11. 2. ábra: Lineáris vs logisztikai regressziós modell A lineáris modell feltételezi, hogy a p valószínűsége a regresszorok lineáris függvénye A logisztikai modell feltételezi, hogy a p / (1-p) esélyek naplója a regresszorok lineáris függvénye
  • 12. Tartóvektor-gép módszer  Felügyelt ML módszer  Az osztályozás és a regresszió kihívásaira (főleg osztályozásra)  Az alap algoritmus a következő:  Minden adatelemet n-dimenziós térpontként ábrázolunk (n = jellemzők száma, amelyekben a variánsok rendelkeznek), és az egyes jellemzők értéke egy adott koordináta értéke.  Ezután elvégezzük a besorolást - a hiper sík megtalálásával, amely nagyon jól megkülönbözteti a két osztályt
  • 13. Felügyelt ML Nem felügyelt ML A gyakorlati ML nagy része felügyelt tanulást használ Ha bemeneti változók (x) és kimeneti változók (Y) vannak, akkor egy algoritmust használnak a leképezési funkció tanulására a bemenetről a kimenetre: Y = f (X) A cél az, hogy közelítsük a leképezést olyan jól, hogy ha új bemeneti adataink vannak (x) - megjósolhatja az adott adat kimeneti változóit (Y) Felügyelt tanulásnak hívják, mert az oktatási adatállományból tanuló algoritmus folyamatát a tanulási folyamatot felügyelő tanárnak lehet tekinteni. Ismerjük a helyes válaszokat, az algoritmus iteratívan előrejelzéseket készít a képzési adatokról, és a tanár korrigálja A tanulás megáll, ha az algoritmus elfogadható szintű teljesítményt ér el A felügyelt tanulási problémák regressziós és osztályozási problémákba sorolhatók Osztályozás - ha a kimeneti változó egy kategória, például „betegség” és „nem betegség” Regresszió - ha a kimeneti változó valódi érték, például „súly” A felügyelt ML szokásos módszerei: Lineáris regresszió - regressziós problémák esetén Véletlen erdő - az osztályozás és a regresszió problémáira Támogató vektorok - osztályozási problémákhoz Ha csak bemeneti adatok vannak (X) és nincsenek megfelelő kimeneti változók A cél az, hogy modellezzük az adatok struktúráját vagy eloszlását - annak érdekében, hogy többet tudjunk meg az adatokról Ezt felügyelet nélküli tanulásnak nevezik, mert a felügyelt tanulástól eltérően nincs ismert válasz, és nincs tanár Az algoritmusok saját terveik szerint maradnak, hogy felfedezzék és bemutassák az érdekes struktúrát az adatokban A felügyelet nélküli tanulási problémák csoportosítási és társulási problémákba sorolhatók Klaszterezés - amikor a probléma az, hogy felfedezzük az adatok sajátos csoportjait, például a vásárlási magatartás szerinti csoportosítást Összefüggés - amikor a probléma az adatok nagy részeit leíró szabályok feltárása A felügyelet nélküli ML szokásos módszerei: k-eszközök - klaszterezési problémák esetén Apriori algoritmus - az összeföggési szabályok tanulási problémáira
  • 14. Appriori algoritmus (AA) / egyéb társulási szabálybányászat (ARM)  ARM - olyan technika, amely megmutatja, hogy az elemek hogyan kapcsolódnak egymáshoz  AA-bányászati társulási szabályok a gyakori elemek között nagy adatbázisokban (3. ábra)
  • 15. Döntési fa (DT) algoritmusok  Felügyelt tanulási algoritmusokban  Az osztályozási és regressziós problémákra  A DT algoritmus megpróbálja megoldani a problémát a fa megjelenítésével (4. ábra).  Áramlat-diagramszerű szerkezet (ábra.)  Minden belső csomópont egy attribútum tesztelését jelenti  Minden egyes ág képviseli a teszt eredményét  Minden levél (terminál csomópont) rendelkezik egy osztálycímkével  A fa legfelső csomópontja a gyökércsomópont  Számos specifikus döntési fa algoritmus létezik
  • 16. 4. ábra: A DT algoritmus szimulálja a fa átengedő logikáját
  • 17. 5. ábra. DT-alapú osztályozási eredmények (a személyes archívum)
  • 18. Mesterséges neurális hálózatok (ANN)  A mesterséges intelligencia az emberi agy által inspirált és strukturált módszere  Ez egy ML & DM módszer - egy olyan módszer, amely a példákból tanul  Retrospektív adatokat használ  Használható előrejelzésre, osztályozásra és mintázatfelismerésre (például társítási problémák)  Előrejelzés - egy számértéket előrejeleznek, mint a kimenet (pl. Vérnyomás, életkor stb.) És az MSE vagy az RMSE hiba, mint a modell teljesítményének értékelése.  A besorolás - eseteket a kimenet két vagy több kategóriájába sorolják (pl. Betegség jelenléte / hiánya, kezelési eredmény stb.), És a besorolási arányt a modell teljesítményének értékelésére használják.  Az ANN-k sikeresnek bizonyultak a valós helyzetek modellezésében, így felhasználhatók mind kutatási célokra, mind gyakorlati alkalmazásra, mint döntési támogatásra vagy szimulációs eszközre.
  • 19. Biológiai vs. mesterséges neurális hálózat (6. ábra)  Biológiai neurális hálózat - kölcsönösen kapcsolódó biológiai neuronokból áll  Egy biológiai neuron - egy olyan sejt, amely a dendriteken keresztül más neuronokból információt kap, feldolgozza és impulzusokat küld az axonon keresztül és szinapszisokat a hálózat más neuronjaihoz  A tanulás - a szinaptikus kapcsolatok súlyának változása révén történik - a neuronok milliói képesek párhuzamosan feldolgozni az információt  Mesterséges neurális hálózat  Egy mesterséges neuron - egy feldolgozó egység (változó), amely más változók súlyozott bemenetét kapja, átalakítja a bemenetet egy képlet szerint, és elküldi a kimenetet más változóknak  A tanulás - a változók súlyértékeinek változásán keresztül történik (a wji súlyok olyan értékek, amelyekkel a bemenetek szorozódnak)
  • 20. Biológiai vs. mesterséges neurális hálózat (6. ábra)
  • 21. 7. ábra - Az ANN modell általánosítási képességét tesztelni kell  Nem támaszkodik az egyetlen mintán kapott eredményekre - sok a tanulási iteráció a képzési készleten a középső (rejtett) rétegben - a bemeneti és kimeneti rétegek között marad
  • 22. Az ANN algoritmusok megkülönböztetésének kritériumai  A rétegek tömege  A tanulás típusa  Felügyelt - a valós kimeneti értékek a múltból ismertek és az adatállományban találhatók  A felügyelet nélküli - valós kimeneti értékek nem ismertek, és nem szerepelnek az adatkészletben, ezeket a hálózatokat csoportok adatainak klaszterezésére használják jellemzők alapján  A neuronok közötti kapcsolatok típusa  A bemeneti és kimeneti adatok közötti kapcsolat  Bemeneti és átviteli funkciók  Idő jellemzői  Tanulási idő  stb.
  • 23. II. Modern számítógépes módszerek  Grafikon alapú DM  Vizualizáció és Vizuális analitika  Topológiai DM  Hasonló technikák, amelyeket nagyon összetett és heterogén adatok megszervezésére lehet használni  Az adatok nagyon erősek lehetnek, ha valóban megértjük, mit is mondanak  Nem könnyű megkeresni a számokat és statisztikákat - a logikailag, könnyen érthető módon kell megadnunk az adatokat - ez az a helyzet, amikor ezeket a technikákat beírhatjuk
  • 24. Grafikon alapú DM  A grafikon alapú adatbányászati technikák, mint például az osztályozás és a klaszterezés alkalmazásához szükséges a közeli mérések meghatározása a grafikonon megjelenített adatok között (8. és 9. ábra).  Számos grafikonon belüli közelségi mérés létezik  Hiperhivatkozással indított téma keresése (HITS)  A Neumann kernel (NK)  Megosztott legközelebbi szomszéd (SNN)
  • 25. 8. ábra - A közelségmérések meghatározása lehetővé teszi a szerkezet láthatóvá tételét Scatter plot-ok, amelyek a hasonlóságot -1-től 1-ig muta
  • 26. 9. ábra - Citációs gráf NK-közelségi mérésekkel - n1… n8 csúcs (cikk) - az élek idézetet jeleznek A C idézet mátrix képződhet - ha két csúcs között van él, akkor a mátrixcella = 1 másik = 0
  • 27. 10. ábra - Hogyan lehet matematikailag általánosítani a dalmata kutya mintáját?
  • 28. Adat megjelenítés  Az emberi agy jobban feldolgozza a vizuális információkat, mint a szöveget - így a grafikonok, grafikonok és tervezési elemek használatával - az adatmegjelenítés segíthet számunkra, hogy sokkal könnyebben elmagyarázzuk a trendeket és statisztikákat (10. ábra), 10. ábra - A népesség életkor szerinti szerkezete - a közegészségügy területén használt adatmegjelenítési eljárás segítségével HorvátHorvátHorvát
  • 29. Adat megjelenítés  A bányászott adatok mintái annyira nagyok, hogy a szórt pontok és a hisztogramok gyakran nem felelnek meg reális értékkel bíró információknak (11. ábra).  Éppen ezért az adatbányászattal foglalkozó elemzők folyamatosan keresnek jobb módokat az adatok grafikus ábrázolására  Függetlenül attól, hogy milyen eszközökkel rendelkeznek az elemzők a kezükben - a bányászott minták és modellek csak olyan jó minőségűek lesznek, mint azok az adatok, amelyekből származik
  • 30. 11. ábra - A grafikon egyszerűbbé és könnyebbé tétele a megértés érdekében
  • 31. Az adatmegjelenítés és a vizuális elemzések alkalmazásának területei  Nagy, komplex, többváltozós biológiai hálózatok megjelenítése  Vizuális szövegelemzés és a releváns kapcsolódó munkák osztályozása a biológiai entitásokhoz a közzététt adatbázisokban (pl. PubMed)  Vizualizáció heterogén adatok feltárására és több adatforrásból származó adatok  A vizuális elemzés a bizonytalanság megértésének támogatása és az adatok minőségével kapcsolatos kérdések HorvátHorvátHorvát
  • 32. 12. ábra - Komplex adat vizuális analitikai számítógépes eszköz (személyes archívum)
  • 33. 13. ábra - A humán Protein-Protein-Interakció szerkezet első megjelenítése
  • 34. Topológiai DM  A topológiai technikák alkalmazása a DM és a KDD számára népszerű és ígéretes jövőbeli kutatási terület.  A topológia gyökerei az elméleti matematikában vannak, de az elmúlt évtizedben a számítási topológia iránti érdeklődés gyorsan növekszik a számítógép-tudósok körében.  Az absztrakt formák és terek tanulmányozása, és ezek közötti leképezések tudománya. A geometria és a halmazelmélet tanulmányozásából származik.  Topológiai módszerek alkalmazhatók a pontfelhők által képviselt adatokra, azaz az n- dimenziós euklideszi tér véges részhalmazaira.  A bemenetet egy ismeretlen hely mintájával mutatjuk be, amelyet rekonstruálni és megérteni kívánunk.  Az adat belső struktúrájának megértése szempontjából elsődleges fontosságú, hogy megkülönböztessük az n-es környezeti (beágyazó) dimenziót és az adatok belső dimenzióját.
  • 35. Topológiai DM  A geometriai és topológiai módszerek olyan eszközök, amelyek lehetővé teszik számunkra a rendkívül összetett adatok elemzését  A modern adat-tudomány topológiai módszereket alkalmaz az adatkészletek szerkezeti jellemzőinek megtalálására a további felügyelt vagy felügyelet nélküli elemzés előtt  A geometriai és topológiai technikák beépítésére kifejlesztett matematikai formalizmus foglalkozik a pontfelhőadat-készletekkel, azaz a véges pontkészletekkel.  A pontfelhők egy geometriai tárgyból vett véges minták  Ezután a geometria és a topológia különböző ágaiból származó eszközöket használnak a pontfelhőadat-készletek tanulmányozására  A topológia formális nyelvet biztosít a kvalitatív matematika számára, míg a geometria főként mennyiségi.  A topológia tanulmányozza a közelség vagy a közelség összefüggéseit, mivel a geometria a távolságfüggvények vizsgálatának tekinthető  Ezek a módszerek az összes adatelem összefoglalását vagy tömörített ábrázolását teszik lehetővé, hogy segítsenek gyorsan felfedni az adatmintákat és kapcsolatokat.  Az attribútumok teljes tartományainak összefoglalóinak összeállításának ötlete magában foglalja a különböző jellemzőkből származó adatokból kialakított topológiai és geometriai objektumok közötti kapcsolat megértését.
  • 36. Topológiai DM  14. ábra.  A számítási struktúra kialakítása (lentebb) attól az alaktól, amelyiket fel kívánja rekonstruálni és megérteni (feljebb)