2. I. Adatbányászat (DM – data mining)
A DM az „érdekes vagy értékes információk (minták) keresésének folyamata a nagy
adatbázisokban””
Első pillantásra ez a meghatározás inkább a statisztikák új nevének tűnik
A DM azonban valóban olyan adatkészleteken történik, amelyek sokkal nagyobbak,
mint a statisztikai módszerek esetében
HorvátHorvátHorvát
3. Adatbányászati módszerek
A DM olyan módszereket tartalmaz, amelyek a mesterséges intelligencia, a gépi
tanulás, a statisztika és az adatbázis-rendszerek metszéspontjában találhatók
Néha ezek a módszerek támogatják a dimenzitás csökkentést, a maximálisan
informatív dimenziók halmazának feltérképezésével
Néha határozott matematikai modelleket képviselnek
Gyakran a módszerek kombinációja a problémamegoldásra szolgál
4. Adatbányászati módszerek
Lényegében a mintákat gyakrabban határozzák meg az adatsor teljes modelljéhez képest,
amelyből származik
Számos eszköz van az adatbányászatban, amelyek segítenek megtalálni ezeket a struktúrákat
A legfontosabb eszközök közé tartozik a
klaszterezés - sok véletlenszerű elem adatkészletének kisebb méretű részhalmazokba való osztása,
amelyek között azonossság van - az ilyen klaszterekre nézve az elemzők statisztikai modelleket tudnak
extraktálni az adatmezőkből
Regresszió - a görbe egy ponton belüli illeszkedésének módja bizonyos jósági-fokú kritériumok
alkalmazásával - az előre meghatározott jó illeszkedési paraméterek vizsgálata során - az elemzők
megtalálhatják és leírhatják a mintákat
Szabálykivonás - a változók közötti kapcsolatok alkalmazásának módja valamilyen szabály létrehozásához
Adatmegjelenítés - egyfajta technika, amely segíthet számunkra a trendek és az adatok összetettségének
megértésében
5. Az egészségügyi tudományban leggyakrabban használt
adatbányászati módszerek
Logisztikai regresszió (LR)
Támogatás vektor gép (SVM)
Appriori és egyéb társulási szabálybányászat (AR)
Döntési fa algoritmusok (DT)
Osztályozási algoritmusok: K-eszközök, SOM (önszerveződő térkép), Naive Bayes
Szerves neurális hálózatok (ANN)
6. A technikák kombinációja azonban új bányászati funkciót hozhat létre
technikák Hasznosság
Appriori
& FP növekedés
Összefüggés szabály bányászat a gyakori
elemkészletek (pl. Betegségek) megtalálásához az
orvosi adatbázisokban
ANN
& Genetikai algoritmus
Minta kivonása
A trendek felderítése
Osztályozás
Döntési fa algorithmusok (ID3, C4, C5, CART) Döntés támogatás
Osztályozás
K-közép kombinált használata, SOM & Naive Bayes Pontos osztályozás
SVM, ANN & ID3 kombinációja Osztályozás
7. Logisztikus regresszió(LR)
népszerű módszer az egyének osztályozására, tekintettel egy magyarázó változó
értékére
Vajon a beteg diabéteszben szenved?
A beteg reagál-e a kezelésre?
Becslések szerint valószínű, hogy egy személy egy adott csoportban van
Az LR nem tesz feltételezést a független változók normális, linearitási és
homogenitási viszonyairól
8. 1. ábra: Logisztikai regressziós görbe
A logisztikus regresszió által produkált érték 0,0 és 1,0 közötti valószínűségi érték
Ha a modellezett kategóriában a csoporttagság valószínűsége valamilyen vágási pont felett van (az
alapértelmezett érték 0,50), a téma várhatóan a modellezett csoport tagja lesz
Ha a valószínűség a vágási pont alatt van, akkor a téma várhatóan a másik csoport tagja lesz
-7.5 -5 -2.5 2.5 5 7.5
0.2
0.4
0.6
0.8
1
9. Az LR modell alkalmasságának tesztelése (adatkészlethez illeszkedik)
A modellek tesztelése a valószínűségtől függően p
ROC görbe
C statisztikák
GINI együttható
KS teszt
A modellek tesztelése a cuf-off értékektől függően
Érzékenység (igaz pozitív)
Specifitás (igaz negatív arány)
Pontosság
I. típusú hiba (a cukorbetegség hibás osztályozása)
II. Típusú hiba (egészséges hibás osztályozása)
10. Lineáris vs logisztikai regressziós modell
A lineáris regresszióban - az eredmény (függő változó) folyamatos - lehet, hogy
végtelen számú lehetséges értéke van.
A logisztikus regresszióban - az eredmény (függő változó) csak korlátozott számú
lehetséges értéket tartalmaz - ezt akkor használják, amikor a válasz változó jellegű
A logisztikai modell elkerülhetetlen, ha jobban illeszkedik az adatokhoz, mint a lineáris
modell
Sok esetben - a lineáris modell ugyanolyan jól illeszkedik, vagy csaknem a logisztikai
modellhez
Valójában sok esetben a lineáris és logisztikai modell eredményeket ad, amelyek
gyakorlatilag megkülönböztethetetlenek
11. 2. ábra: Lineáris vs logisztikai regressziós modell
A lineáris modell feltételezi, hogy a p valószínűsége a regresszorok lineáris függvénye
A logisztikai modell feltételezi, hogy a p / (1-p) esélyek naplója a regresszorok lineáris függvénye
12. Tartóvektor-gép módszer
Felügyelt ML módszer
Az osztályozás és a regresszió kihívásaira (főleg osztályozásra)
Az alap algoritmus a következő:
Minden adatelemet n-dimenziós térpontként ábrázolunk (n = jellemzők száma, amelyekben a
variánsok rendelkeznek), és az egyes jellemzők értéke egy adott koordináta értéke.
Ezután elvégezzük a besorolást - a hiper sík megtalálásával, amely nagyon jól megkülönbözteti a
két osztályt
13. Felügyelt ML Nem felügyelt ML
A gyakorlati ML nagy része felügyelt tanulást használ
Ha bemeneti változók (x) és kimeneti változók (Y) vannak, akkor egy algoritmust
használnak a leképezési funkció tanulására a bemenetről a kimenetre: Y = f (X)
A cél az, hogy közelítsük a leképezést olyan jól, hogy ha új bemeneti adataink vannak
(x) - megjósolhatja az adott adat kimeneti változóit (Y)
Felügyelt tanulásnak hívják, mert az oktatási adatállományból tanuló algoritmus
folyamatát a tanulási folyamatot felügyelő tanárnak lehet tekinteni.
Ismerjük a helyes válaszokat, az algoritmus iteratívan előrejelzéseket készít a képzési
adatokról, és a tanár korrigálja
A tanulás megáll, ha az algoritmus elfogadható szintű teljesítményt ér el
A felügyelt tanulási problémák regressziós és osztályozási problémákba sorolhatók
Osztályozás - ha a kimeneti változó egy kategória, például „betegség” és „nem
betegség”
Regresszió - ha a kimeneti változó valódi érték, például „súly”
A felügyelt ML szokásos módszerei:
Lineáris regresszió - regressziós problémák esetén
Véletlen erdő - az osztályozás és a regresszió problémáira
Támogató vektorok - osztályozási problémákhoz
Ha csak bemeneti adatok vannak (X) és nincsenek megfelelő
kimeneti változók
A cél az, hogy modellezzük az adatok struktúráját vagy
eloszlását - annak érdekében, hogy többet tudjunk meg az
adatokról
Ezt felügyelet nélküli tanulásnak nevezik, mert a felügyelt
tanulástól eltérően nincs ismert válasz, és nincs tanár
Az algoritmusok saját terveik szerint maradnak, hogy
felfedezzék és bemutassák az érdekes struktúrát az
adatokban
A felügyelet nélküli tanulási problémák csoportosítási és
társulási problémákba sorolhatók
Klaszterezés - amikor a probléma az, hogy felfedezzük az
adatok sajátos csoportjait, például a vásárlási magatartás
szerinti csoportosítást
Összefüggés - amikor a probléma az adatok nagy részeit
leíró szabályok feltárása
A felügyelet nélküli ML szokásos módszerei:
k-eszközök - klaszterezési problémák esetén
Apriori algoritmus - az összeföggési szabályok tanulási
problémáira
14. Appriori algoritmus (AA) / egyéb társulási szabálybányászat (ARM)
ARM - olyan technika, amely megmutatja, hogy az elemek hogyan kapcsolódnak egymáshoz
AA-bányászati társulási szabályok a gyakori elemek között nagy adatbázisokban (3. ábra)
15. Döntési fa (DT) algoritmusok
Felügyelt tanulási algoritmusokban
Az osztályozási és regressziós problémákra
A DT algoritmus megpróbálja megoldani a problémát a fa megjelenítésével (4. ábra).
Áramlat-diagramszerű szerkezet (ábra.)
Minden belső csomópont egy attribútum tesztelését jelenti
Minden egyes ág képviseli a teszt eredményét
Minden levél (terminál csomópont) rendelkezik egy osztálycímkével
A fa legfelső csomópontja a gyökércsomópont
Számos specifikus döntési fa algoritmus létezik
16. 4. ábra: A DT algoritmus szimulálja a fa átengedő logikáját
18. Mesterséges neurális hálózatok (ANN)
A mesterséges intelligencia az emberi agy által inspirált és strukturált módszere
Ez egy ML & DM módszer - egy olyan módszer, amely a példákból tanul
Retrospektív adatokat használ
Használható előrejelzésre, osztályozásra és mintázatfelismerésre (például társítási problémák)
Előrejelzés - egy számértéket előrejeleznek, mint a kimenet (pl. Vérnyomás, életkor stb.) És az
MSE vagy az RMSE hiba, mint a modell teljesítményének értékelése.
A besorolás - eseteket a kimenet két vagy több kategóriájába sorolják (pl. Betegség jelenléte /
hiánya, kezelési eredmény stb.), És a besorolási arányt a modell teljesítményének értékelésére
használják.
Az ANN-k sikeresnek bizonyultak a valós helyzetek modellezésében, így felhasználhatók mind
kutatási célokra, mind gyakorlati alkalmazásra, mint döntési támogatásra vagy szimulációs
eszközre.
19. Biológiai vs. mesterséges neurális hálózat (6.
ábra)
Biológiai neurális hálózat - kölcsönösen kapcsolódó biológiai neuronokból áll
Egy biológiai neuron - egy olyan sejt, amely a dendriteken keresztül más
neuronokból információt kap, feldolgozza és impulzusokat küld az axonon
keresztül és szinapszisokat a hálózat más neuronjaihoz
A tanulás - a szinaptikus kapcsolatok súlyának változása révén történik - a
neuronok milliói képesek párhuzamosan feldolgozni az információt
Mesterséges neurális hálózat
Egy mesterséges neuron - egy feldolgozó egység (változó), amely más változók
súlyozott bemenetét kapja, átalakítja a bemenetet egy képlet szerint, és elküldi a
kimenetet más változóknak
A tanulás - a változók súlyértékeinek változásán keresztül történik (a wji súlyok
olyan értékek, amelyekkel a bemenetek szorozódnak)
21. 7. ábra - Az ANN modell általánosítási képességét tesztelni kell
Nem támaszkodik az egyetlen mintán kapott eredményekre - sok a tanulási iteráció
a képzési készleten a középső (rejtett) rétegben - a bemeneti és kimeneti rétegek
között marad
22. Az ANN algoritmusok megkülönböztetésének kritériumai
A rétegek tömege
A tanulás típusa
Felügyelt - a valós kimeneti értékek a múltból ismertek és az adatállományban találhatók
A felügyelet nélküli - valós kimeneti értékek nem ismertek, és nem szerepelnek az adatkészletben, ezeket a
hálózatokat csoportok adatainak klaszterezésére használják jellemzők alapján
A neuronok közötti kapcsolatok típusa
A bemeneti és kimeneti adatok közötti kapcsolat
Bemeneti és átviteli funkciók
Idő jellemzői
Tanulási idő
stb.
23. II. Modern számítógépes módszerek
Grafikon alapú DM
Vizualizáció és Vizuális analitika
Topológiai DM
Hasonló technikák, amelyeket nagyon összetett és heterogén adatok
megszervezésére lehet használni
Az adatok nagyon erősek lehetnek, ha valóban megértjük, mit is mondanak
Nem könnyű megkeresni a számokat és statisztikákat - a logikailag, könnyen
érthető módon kell megadnunk az adatokat - ez az a helyzet, amikor ezeket a
technikákat beírhatjuk
24. Grafikon alapú DM
A grafikon alapú adatbányászati technikák, mint például az osztályozás és a klaszterezés
alkalmazásához szükséges a közeli mérések meghatározása a grafikonon megjelenített
adatok között (8. és 9. ábra).
Számos grafikonon belüli közelségi mérés létezik
Hiperhivatkozással indított téma keresése (HITS)
A Neumann kernel (NK)
Megosztott legközelebbi szomszéd (SNN)
25. 8. ábra - A közelségmérések meghatározása lehetővé teszi a szerkezet
láthatóvá tételét
Scatter plot-ok, amelyek a hasonlóságot -1-től 1-ig muta
26. 9. ábra - Citációs gráf NK-közelségi mérésekkel
- n1… n8 csúcs (cikk)
- az élek idézetet jeleznek
A C idézet mátrix képződhet - ha két csúcs között van él, akkor a
mátrixcella = 1 másik = 0
27. 10. ábra - Hogyan lehet matematikailag általánosítani a dalmata kutya
mintáját?
28. Adat megjelenítés
Az emberi agy jobban feldolgozza a vizuális információkat, mint a szöveget - így a grafikonok,
grafikonok és tervezési elemek használatával - az adatmegjelenítés segíthet számunkra, hogy
sokkal könnyebben elmagyarázzuk a trendeket és statisztikákat (10. ábra),
10. ábra - A népesség életkor szerinti szerkezete - a közegészségügy
területén használt adatmegjelenítési eljárás segítségével
HorvátHorvátHorvát
29. Adat megjelenítés
A bányászott adatok mintái annyira nagyok, hogy a szórt pontok és a hisztogramok
gyakran nem felelnek meg reális értékkel bíró információknak (11. ábra).
Éppen ezért az adatbányászattal foglalkozó elemzők folyamatosan keresnek jobb
módokat az adatok grafikus ábrázolására
Függetlenül attól, hogy milyen eszközökkel rendelkeznek az elemzők a kezükben - a
bányászott minták és modellek csak olyan jó minőségűek lesznek, mint azok az
adatok, amelyekből származik
30. 11. ábra - A grafikon egyszerűbbé és könnyebbé tétele a megértés érdekében
31. Az adatmegjelenítés és a vizuális elemzések alkalmazásának
területei
Nagy, komplex, többváltozós biológiai hálózatok megjelenítése
Vizuális szövegelemzés és a releváns kapcsolódó munkák osztályozása a biológiai
entitásokhoz a közzététt adatbázisokban (pl. PubMed)
Vizualizáció heterogén adatok feltárására és több adatforrásból származó adatok
A vizuális elemzés a bizonytalanság megértésének támogatása és az adatok
minőségével kapcsolatos kérdések
HorvátHorvátHorvát
32. 12. ábra - Komplex adat vizuális analitikai számítógépes eszköz (személyes
archívum)
33. 13. ábra - A humán Protein-Protein-Interakció szerkezet első
megjelenítése
34. Topológiai DM
A topológiai technikák alkalmazása a DM és a KDD számára népszerű és ígéretes
jövőbeli kutatási terület.
A topológia gyökerei az elméleti matematikában vannak, de az elmúlt évtizedben a
számítási topológia iránti érdeklődés gyorsan növekszik a számítógép-tudósok körében.
Az absztrakt formák és terek tanulmányozása, és ezek közötti leképezések tudománya.
A geometria és a halmazelmélet tanulmányozásából származik.
Topológiai módszerek alkalmazhatók a pontfelhők által képviselt adatokra, azaz az n-
dimenziós euklideszi tér véges részhalmazaira.
A bemenetet egy ismeretlen hely mintájával mutatjuk be, amelyet rekonstruálni és
megérteni kívánunk.
Az adat belső struktúrájának megértése szempontjából elsődleges fontosságú, hogy
megkülönböztessük az n-es környezeti (beágyazó) dimenziót és az adatok belső
dimenzióját.
35. Topológiai DM
A geometriai és topológiai módszerek olyan eszközök, amelyek lehetővé teszik számunkra a
rendkívül összetett adatok elemzését
A modern adat-tudomány topológiai módszereket alkalmaz az adatkészletek szerkezeti
jellemzőinek megtalálására a további felügyelt vagy felügyelet nélküli elemzés előtt
A geometriai és topológiai technikák beépítésére kifejlesztett matematikai formalizmus
foglalkozik a pontfelhőadat-készletekkel, azaz a véges pontkészletekkel.
A pontfelhők egy geometriai tárgyból vett véges minták
Ezután a geometria és a topológia különböző ágaiból származó eszközöket használnak a
pontfelhőadat-készletek tanulmányozására
A topológia formális nyelvet biztosít a kvalitatív matematika számára, míg a geometria főként
mennyiségi.
A topológia tanulmányozza a közelség vagy a közelség összefüggéseit, mivel a geometria a
távolságfüggvények vizsgálatának tekinthető
Ezek a módszerek az összes adatelem összefoglalását vagy tömörített ábrázolását teszik
lehetővé, hogy segítsenek gyorsan felfedni az adatmintákat és kapcsolatokat.
Az attribútumok teljes tartományainak összefoglalóinak összeállításának ötlete magában foglalja
a különböző jellemzőkből származó adatokból kialakított topológiai és geometriai objektumok
közötti kapcsolat megértését.
36. Topológiai DM
14. ábra.
A számítási struktúra
kialakítása (lentebb) attól az
alaktól, amelyiket fel kívánja
rekonstruálni és megérteni
(feljebb)