Alapok a számítógépes módszertanhoz

Intereg Project
Biomedicinális informatika
Ljiljana Majnarić Trtica
II. Alapok a számítógépes módszertanhoz

I. Adatbányászat (DM – data mining)

A DM az „érdekes vagy értékes információk (minták) keresésének folyamata a nagy
adatbázisokban””
 Első pillantásra ez a meghatározás inkább a statisztikák új nevének tűnik
 A DM azonban valóban olyan adatkészleteken történik, amelyek sokkal nagyobbak,
mint a statisztikai módszerek esetében
HorvátHorvátHorvát

Adatbányászati módszerek
 A DM olyan módszereket tartalmaz, amelyek a mesterséges intelligencia, a gépi
tanulás, a statisztika és az adatbázis-rendszerek metszéspontjában találhatók
 Néha ezek a módszerek támogatják a dimenzitás csökkentést, a maximálisan
informatív dimenziók halmazának feltérképezésével
 Néha határozott matematikai modelleket képviselnek
 Gyakran a módszerek kombinációja a problémamegoldásra szolgál

Adatbányászati módszerek
 Lényegében a mintákat gyakrabban határozzák meg az adatsor teljes modelljéhez képest,
amelyből származik
 Számos eszköz van az adatbányászatban, amelyek segítenek megtalálni ezeket a struktúrákat
 A legfontosabb eszközök közé tartozik a
 klaszterezés - sok véletlenszerű elem adatkészletének kisebb méretű részhalmazokba való osztása,
amelyek között azonossság van - az ilyen klaszterekre nézve az elemzők statisztikai modelleket tudnak
extraktálni az adatmezőkből
 Regresszió - a görbe egy ponton belüli illeszkedésének módja bizonyos jósági-fokú kritériumok
alkalmazásával - az előre meghatározott jó illeszkedési paraméterek vizsgálata során - az elemzők
megtalálhatják és leírhatják a mintákat
 Szabálykivonás - a változók közötti kapcsolatok alkalmazásának módja valamilyen szabály létrehozásához
 Adatmegjelenítés - egyfajta technika, amely segíthet számunkra a trendek és az adatok összetettségének
megértésében

Az egészségügyi tudományban leggyakrabban használt
adatbányászati módszerek
 Logisztikai regresszió (LR)
 Támogatás vektor gép (SVM)
 Appriori és egyéb társulási szabálybányászat (AR)
 Döntési fa algoritmusok (DT)
 Osztályozási algoritmusok: K-eszközök, SOM (önszerveződő térkép), Naive Bayes
 Szerves neurális hálózatok (ANN)

A technikák kombinációja azonban új bányászati funkciót hozhat létre
technikák Hasznosság
Appriori
& FP növekedés
Összefüggés szabály bányászat a gyakori
elemkészletek (pl. Betegségek) megtalálásához az
orvosi adatbázisokban
ANN
& Genetikai algoritmus
Minta kivonása
A trendek felderítése
Osztályozás
Döntési fa algorithmusok (ID3, C4, C5, CART) Döntés támogatás
Osztályozás
K-közép kombinált használata, SOM & Naive Bayes Pontos osztályozás
SVM, ANN & ID3 kombinációja Osztályozás

Logisztikus regresszió(LR)
 népszerű módszer az egyének osztályozására, tekintettel egy magyarázó változó
értékére
 Vajon a beteg diabéteszben szenved?
 A beteg reagál-e a kezelésre?
 Becslések szerint valószínű, hogy egy személy egy adott csoportban van
 Az LR nem tesz feltételezést a független változók normális, linearitási és
homogenitási viszonyairól

1. ábra: Logisztikai regressziós görbe
 A logisztikus regresszió által produkált érték 0,0 és 1,0 közötti valószínűségi érték
 Ha a modellezett kategóriában a csoporttagság valószínűsége valamilyen vágási pont felett van (az
alapértelmezett érték 0,50), a téma várhatóan a modellezett csoport tagja lesz
 Ha a valószínűség a vágási pont alatt van, akkor a téma várhatóan a másik csoport tagja lesz
-7.5 -5 -2.5 2.5 5 7.5
0.2
0.4
0.6
0.8
1

Az LR modell alkalmasságának tesztelése (adatkészlethez illeszkedik)
 A modellek tesztelése a valószínűségtől függően p
 ROC görbe
 C statisztikák
 GINI együttható
 KS teszt
 A modellek tesztelése a cuf-off értékektől függően
 Érzékenység (igaz pozitív)
 Specifitás (igaz negatív arány)
 Pontosság
 I. típusú hiba (a cukorbetegség hibás osztályozása)
 II. Típusú hiba (egészséges hibás osztályozása)

Lineáris vs logisztikai regressziós modell
 A lineáris regresszióban - az eredmény (függő változó) folyamatos - lehet, hogy
végtelen számú lehetséges értéke van.
 A logisztikus regresszióban - az eredmény (függő változó) csak korlátozott számú
lehetséges értéket tartalmaz - ezt akkor használják, amikor a válasz változó jellegű
 A logisztikai modell elkerülhetetlen, ha jobban illeszkedik az adatokhoz, mint a lineáris
modell
 Sok esetben - a lineáris modell ugyanolyan jól illeszkedik, vagy csaknem a logisztikai
modellhez
 Valójában sok esetben a lineáris és logisztikai modell eredményeket ad, amelyek
gyakorlatilag megkülönböztethetetlenek

2. ábra: Lineáris vs logisztikai regressziós modell
A lineáris modell feltételezi, hogy a p valószínűsége a regresszorok lineáris függvénye
A logisztikai modell feltételezi, hogy a p / (1-p) esélyek naplója a regresszorok lineáris függvénye

Tartóvektor-gép módszer
 Felügyelt ML módszer
 Az osztályozás és a regresszió kihívásaira (főleg osztályozásra)
 Az alap algoritmus a következő:
 Minden adatelemet n-dimenziós térpontként ábrázolunk (n = jellemzők száma, amelyekben a
variánsok rendelkeznek), és az egyes jellemzők értéke egy adott koordináta értéke.
 Ezután elvégezzük a besorolást - a hiper sík megtalálásával, amely nagyon jól megkülönbözteti a
két osztályt

Felügyelt ML Nem felügyelt ML
A gyakorlati ML nagy része felügyelt tanulást használ
Ha bemeneti változók (x) és kimeneti változók (Y) vannak, akkor egy algoritmust
használnak a leképezési funkció tanulására a bemenetről a kimenetre: Y = f (X)
A cél az, hogy közelítsük a leképezést olyan jól, hogy ha új bemeneti adataink vannak
(x) - megjósolhatja az adott adat kimeneti változóit (Y)
Felügyelt tanulásnak hívják, mert az oktatási adatállományból tanuló algoritmus
folyamatát a tanulási folyamatot felügyelő tanárnak lehet tekinteni.
Ismerjük a helyes válaszokat, az algoritmus iteratívan előrejelzéseket készít a képzési
adatokról, és a tanár korrigálja
A tanulás megáll, ha az algoritmus elfogadható szintű teljesítményt ér el
A felügyelt tanulási problémák regressziós és osztályozási problémákba sorolhatók
Osztályozás - ha a kimeneti változó egy kategória, például „betegség” és „nem
betegség”
Regresszió - ha a kimeneti változó valódi érték, például „súly”
A felügyelt ML szokásos módszerei:
Lineáris regresszió - regressziós problémák esetén
Véletlen erdő - az osztályozás és a regresszió problémáira
Támogató vektorok - osztályozási problémákhoz
Ha csak bemeneti adatok vannak (X) és nincsenek megfelelő
kimeneti változók
A cél az, hogy modellezzük az adatok struktúráját vagy
eloszlását - annak érdekében, hogy többet tudjunk meg az
adatokról
Ezt felügyelet nélküli tanulásnak nevezik, mert a felügyelt
tanulástól eltérően nincs ismert válasz, és nincs tanár
Az algoritmusok saját terveik szerint maradnak, hogy
felfedezzék és bemutassák az érdekes struktúrát az
adatokban
A felügyelet nélküli tanulási problémák csoportosítási és
társulási problémákba sorolhatók
Klaszterezés - amikor a probléma az, hogy felfedezzük az
adatok sajátos csoportjait, például a vásárlási magatartás
szerinti csoportosítást
Összefüggés - amikor a probléma az adatok nagy részeit
leíró szabályok feltárása
A felügyelet nélküli ML szokásos módszerei:
k-eszközök - klaszterezési problémák esetén
Apriori algoritmus - az összeföggési szabályok tanulási
problémáira

Appriori algoritmus (AA) / egyéb társulási szabálybányászat (ARM)
 ARM - olyan technika, amely megmutatja, hogy az elemek hogyan kapcsolódnak egymáshoz
 AA-bányászati társulási szabályok a gyakori elemek között nagy adatbázisokban (3. ábra)

Döntési fa (DT) algoritmusok
 Felügyelt tanulási algoritmusokban
 Az osztályozási és regressziós problémákra
 A DT algoritmus megpróbálja megoldani a problémát a fa megjelenítésével (4. ábra).
 Áramlat-diagramszerű szerkezet (ábra.)
 Minden belső csomópont egy attribútum tesztelését jelenti
 Minden egyes ág képviseli a teszt eredményét
 Minden levél (terminál csomópont) rendelkezik egy osztálycímkével
 A fa legfelső csomópontja a gyökércsomópont
 Számos specifikus döntési fa algoritmus létezik

4. ábra: A DT algoritmus szimulálja a fa átengedő logikáját

5. ábra. DT-alapú osztályozási eredmények (a személyes
archívum)

Mesterséges neurális hálózatok (ANN)
 A mesterséges intelligencia az emberi agy által inspirált és strukturált módszere
 Ez egy ML & DM módszer - egy olyan módszer, amely a példákból tanul
 Retrospektív adatokat használ
 Használható előrejelzésre, osztályozásra és mintázatfelismerésre (például társítási problémák)
 Előrejelzés - egy számértéket előrejeleznek, mint a kimenet (pl. Vérnyomás, életkor stb.) És az
MSE vagy az RMSE hiba, mint a modell teljesítményének értékelése.
 A besorolás - eseteket a kimenet két vagy több kategóriájába sorolják (pl. Betegség jelenléte /
hiánya, kezelési eredmény stb.), És a besorolási arányt a modell teljesítményének értékelésére
használják.
 Az ANN-k sikeresnek bizonyultak a valós helyzetek modellezésében, így felhasználhatók mind
kutatási célokra, mind gyakorlati alkalmazásra, mint döntési támogatásra vagy szimulációs
eszközre.

Biológiai vs. mesterséges neurális hálózat (6.
ábra)
 Biológiai neurális hálózat - kölcsönösen kapcsolódó biológiai neuronokból áll
 Egy biológiai neuron - egy olyan sejt, amely a dendriteken keresztül más
neuronokból információt kap, feldolgozza és impulzusokat küld az axonon
keresztül és szinapszisokat a hálózat más neuronjaihoz
 A tanulás - a szinaptikus kapcsolatok súlyának változása révén történik - a
neuronok milliói képesek párhuzamosan feldolgozni az információt
 Mesterséges neurális hálózat
 Egy mesterséges neuron - egy feldolgozó egység (változó), amely más változók
súlyozott bemenetét kapja, átalakítja a bemenetet egy képlet szerint, és elküldi a
kimenetet más változóknak
 A tanulás - a változók súlyértékeinek változásán keresztül történik (a wji súlyok
olyan értékek, amelyekkel a bemenetek szorozódnak)

Biológiai vs. mesterséges neurális hálózat (6. ábra)

7. ábra - Az ANN modell általánosítási képességét tesztelni kell
 Nem támaszkodik az egyetlen mintán kapott eredményekre - sok a tanulási iteráció
a képzési készleten a középső (rejtett) rétegben - a bemeneti és kimeneti rétegek
között marad

Az ANN algoritmusok megkülönböztetésének kritériumai
 A rétegek tömege
 A tanulás típusa
 Felügyelt - a valós kimeneti értékek a múltból ismertek és az adatállományban találhatók
 A felügyelet nélküli - valós kimeneti értékek nem ismertek, és nem szerepelnek az adatkészletben, ezeket a
hálózatokat csoportok adatainak klaszterezésére használják jellemzők alapján
 A neuronok közötti kapcsolatok típusa
 A bemeneti és kimeneti adatok közötti kapcsolat
 Bemeneti és átviteli funkciók
 Idő jellemzői
 Tanulási idő
 stb.

II. Modern számítógépes módszerek
 Grafikon alapú DM
 Vizualizáció és Vizuális analitika
 Topológiai DM
 Hasonló technikák, amelyeket nagyon összetett és heterogén adatok
megszervezésére lehet használni
 Az adatok nagyon erősek lehetnek, ha valóban megértjük, mit is mondanak
 Nem könnyű megkeresni a számokat és statisztikákat - a logikailag, könnyen
érthető módon kell megadnunk az adatokat - ez az a helyzet, amikor ezeket a
technikákat beírhatjuk

Grafikon alapú DM
 A grafikon alapú adatbányászati technikák, mint például az osztályozás és a klaszterezés
alkalmazásához szükséges a közeli mérések meghatározása a grafikonon megjelenített
adatok között (8. és 9. ábra).
 Számos grafikonon belüli közelségi mérés létezik
 Hiperhivatkozással indított téma keresése (HITS)
 A Neumann kernel (NK)
 Megosztott legközelebbi szomszéd (SNN)

8. ábra - A közelségmérések meghatározása lehetővé teszi a szerkezet
láthatóvá tételét
Scatter plot-ok, amelyek a hasonlóságot -1-től 1-ig muta

9. ábra - Citációs gráf NK-közelségi mérésekkel
- n1… n8 csúcs (cikk)
- az élek idézetet jeleznek
A C idézet mátrix képződhet - ha két csúcs között van él, akkor a
mátrixcella = 1 másik = 0

10. ábra - Hogyan lehet matematikailag általánosítani a dalmata kutya
mintáját?

Adat megjelenítés
 Az emberi agy jobban feldolgozza a vizuális információkat, mint a szöveget - így a grafikonok,
grafikonok és tervezési elemek használatával - az adatmegjelenítés segíthet számunkra, hogy
sokkal könnyebben elmagyarázzuk a trendeket és statisztikákat (10. ábra),
10. ábra - A népesség életkor szerinti szerkezete - a közegészségügy
területén használt adatmegjelenítési eljárás segítségével

Adat megjelenítés
 A bányászott adatok mintái annyira nagyok, hogy a szórt pontok és a hisztogramok
gyakran nem felelnek meg reális értékkel bíró információknak (11. ábra).
 Éppen ezért az adatbányászattal foglalkozó elemzők folyamatosan keresnek jobb
módokat az adatok grafikus ábrázolására
 Függetlenül attól, hogy milyen eszközökkel rendelkeznek az elemzők a kezükben - a
bányászott minták és modellek csak olyan jó minőségűek lesznek, mint azok az
adatok, amelyekből származik

11. ábra - A grafikon egyszerűbbé és könnyebbé tétele a megértés érdekében

Az adatmegjelenítés és a vizuális elemzések alkalmazásának
területei
 Nagy, komplex, többváltozós biológiai hálózatok megjelenítése
 Vizuális szövegelemzés és a releváns kapcsolódó munkák osztályozása a biológiai
entitásokhoz a közzététt adatbázisokban (pl. PubMed)
 Vizualizáció heterogén adatok feltárására és több adatforrásból származó adatok
 A vizuális elemzés a bizonytalanság megértésének támogatása és az adatok
minőségével kapcsolatos kérdések

12. ábra - Komplex adat vizuális analitikai számítógépes eszköz (személyes
archívum)

13. ábra - A humán Protein-Protein-Interakció szerkezet első
megjelenítése

Topológiai DM
 A topológiai technikák alkalmazása a DM és a KDD számára népszerű és ígéretes
jövőbeli kutatási terület.
 A topológia gyökerei az elméleti matematikában vannak, de az elmúlt évtizedben a
számítási topológia iránti érdeklődés gyorsan növekszik a számítógép-tudósok körében.
 Az absztrakt formák és terek tanulmányozása, és ezek közötti leképezések tudománya.
A geometria és a halmazelmélet tanulmányozásából származik.
 Topológiai módszerek alkalmazhatók a pontfelhők által képviselt adatokra, azaz az n-
dimenziós euklideszi tér véges részhalmazaira.
 A bemenetet egy ismeretlen hely mintájával mutatjuk be, amelyet rekonstruálni és
megérteni kívánunk.
 Az adat belső struktúrájának megértése szempontjából elsődleges fontosságú, hogy
megkülönböztessük az n-es környezeti (beágyazó) dimenziót és az adatok belső
dimenzióját.

Topológiai DM
 A geometriai és topológiai módszerek olyan eszközök, amelyek lehetővé teszik számunkra a
rendkívül összetett adatok elemzését
 A modern adat-tudomány topológiai módszereket alkalmaz az adatkészletek szerkezeti
jellemzőinek megtalálására a további felügyelt vagy felügyelet nélküli elemzés előtt
 A geometriai és topológiai technikák beépítésére kifejlesztett matematikai formalizmus
foglalkozik a pontfelhőadat-készletekkel, azaz a véges pontkészletekkel.
 A pontfelhők egy geometriai tárgyból vett véges minták
 Ezután a geometria és a topológia különböző ágaiból származó eszközöket használnak a
pontfelhőadat-készletek tanulmányozására
 A topológia formális nyelvet biztosít a kvalitatív matematika számára, míg a geometria főként
mennyiségi.
 A topológia tanulmányozza a közelség vagy a közelség összefüggéseit, mivel a geometria a
távolságfüggvények vizsgálatának tekinthető
 Ezek a módszerek az összes adatelem összefoglalását vagy tömörített ábrázolását teszik
lehetővé, hogy segítsenek gyorsan felfedni az adatmintákat és kapcsolatokat.
 Az attribútumok teljes tartományainak összefoglalóinak összeállításának ötlete magában foglalja
a különböző jellemzőkből származó adatokból kialakított topológiai és geometriai objektumok
közötti kapcsolat megértését.

Topológiai DM
 14. ábra.
 A számítási struktúra
kialakítása (lentebb) attól az
alaktól, amelyiket fel kívánja
rekonstruálni és megérteni
(feljebb)

Alapok a számítógépes módszertanhoz

Recommended

Recommended

More Related Content

More from improvemed

More from improvemed (20)

Alapok a számítógépes módszertanhoz