Adatbanyaszati technologiak

1,275 views
1,210 views

Published on

Készítette Matolcsi Zoltán és Molnár Csaba

Published in: Education, Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,275
On SlideShare
0
From Embeds
0
Number of Embeds
24
Actions
Shares
0
Downloads
0
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Adatbanyaszati technologiak

  1. 1. Adatbányászat Készítette: Molnár Csaba Matolcsi Zoltán Megfulladunk az információban miközben tudásra éhezünk
  2. 2. Mi az adatbányászat? <ul><li>Matematikai, statisztikai módszerek együttese, melynek célja, hogy adatbázisokban, adattárakban információkat tárjon fel. </li></ul>Data Mining Új távlatokat nyit meg ott, ahol a hagyományos módszerek nem elég jók Egyesíti az adatbázis-kezelés, a statisztika és a mesterséges intelligencia kutatások eredményeit.
  3. 3. Miért fontos az adatbányászat? <ul><li>A vállalatok léte múlhat az információ gyors és pontos begyűjtésén, elemzésén. </li></ul>“ a menedzsment kiszolgálása a hatalmas, halott vállalati adattömegben rejlő másodlagos információkkal, s a világhálózaton elhelyezett kétségbeejtő mennyiségű szemét részben automatikus átvizsgálása.” Dobay Péter Adatbányászat Az elemzők speciális eszközök nélkül , - amelyek a nagytömegű adatok feldolgozását végzik el- nem képesek értelmes döntéseket hozni.
  4. 4. Az adatbányászat szükségessége <ul><ul><ul><li>Meg lehet-e jósolni a legbiztonságosabb eladást/vásárlást a következő időszakban? </li></ul></ul></ul><ul><ul><ul><li>Eleget tesz-e az ügyfél a kölcsönnek vagy határidőre visszafizeti-e azt? </li></ul></ul></ul><ul><ul><ul><li>Mi az orvosi diagnózisa a betegnek? </li></ul></ul></ul><ul><ul><ul><li>Milyen nagy telefon vagy energia csúcsok következnek be? </li></ul></ul></ul><ul><ul><ul><li>Mi az oka annak, hogy hirtelen rossz terméket gyártunk? </li></ul></ul></ul>A modern adatbányászati rendszerek a kutatott rendszer előző adatai alapján önmaguktól “tanulnak”. Amikor a tömör és értékelhető tudást feltártuk, beépíthetjük döntéstámogatási rendszerünkbe, és ennek alapján okosabb és informáltabb döntést hozhatunk.
  5. 5. Az adatbányászat rövid története Az utóbbi 10 évben igen jelentős változásokon ment keresztül az adatelemzési “iparág”. Az elmúlt évtized közepéig a piackutatás jelentette az egyetlen megbízható forrást. A technológia fejlődése azonban lehetővé tette az adatbázisok (adattárházak) létrejöttét, ahol rendkívül nagy mennyiségű információ kerül tárolásra. Hatalmas adattemetők jöttek létre. Egyre nagyobb mértékben nőtt az adatok professzionális kielemzésének igénye. Ennek pedig alapfeltétele volt egy meglévő nagy adatbázis. Így született meg az adatbányászat
  6. 6. Miről szól az adatbányászat? I. Adatok elektronikus tárolása Nagy mennyiségű adat halmozódik fel. Adatbázisok A tárolt adatoknak a nagy része önmagában nem hasznos Adatokból kinyert információra van szükség Szükséglet egy új eszközre; ez pedig az adatbányászat
  7. 7. Miről szól az adatbányászat? II. Az adatbázisból való tudásfeltárás során adatbányászati algoritmusokat alkalmaznak. Knowledge Discovery in Databases Az algoritmusok elvégzése során “ mintákat ” fedezünk fel az adatokban. Minél több minta kinyerése, minél több adatból kinyert, minél több lekérdezés eredményeként jön létre. Ha ezt emberek végzik, akkor a folyamat lassú, drága; vagyis gazdaságtalan . Számítógép segítségével gyors és pontos eredményt:“ kincset ” állítanak elő az adatbázis adataiból
  8. 8. A tudásfeltárás <ul><ul><ul><li>Alkalmazási terület feltárása </li></ul></ul></ul><ul><ul><ul><li>Adott szektor kiválasztása </li></ul></ul></ul><ul><ul><ul><li>Adattisztítás </li></ul></ul></ul><ul><ul><ul><li>Adatintegráció </li></ul></ul></ul><ul><ul><ul><li>Adattér csökkentés </li></ul></ul></ul><ul><ul><ul><li>Algoritmus típusának kiválasztása </li></ul></ul></ul><ul><ul><ul><li>Algoritmus meghatározása </li></ul></ul></ul><ul><ul><ul><li>Algoritmus alkalmazása </li></ul></ul></ul><ul><ul><ul><li>Kinyert információ értelmezése </li></ul></ul></ul><ul><ul><ul><li>A tudás megerősítése </li></ul></ul></ul>
  9. 10. Megszerzett tudással szembeni elvárások <ul><li>Legyen: </li></ul><ul><ul><ul><li>Könnyen érthető </li></ul></ul></ul><ul><ul><ul><li>Érvényes </li></ul></ul></ul><ul><ul><ul><li>Hasznos </li></ul></ul></ul><ul><ul><ul><li>Újszerű </li></ul></ul></ul>A megszerzett tudás megjelenítése legalább annyira fontos, mint az összefüggések meghatározása. Akiknek szolgáltatjuk a kinyert tudást, azokat sokkal jobban megragadja egy jól elkészített ábra, mint egy matematikai struktúra.
  10. 11. Az adatbányászatra vonatkozó szabványok Az adatbányászat elterjedésével, létrejött egy igény, Ezt a folyamatot valamilyen szabvány keretein belül lehessen megvalósítani CRISP-DM (Cross Industry Standard Process for Data Mining), amely leírja, hogy miként kell kinéznie egy adatbányászati projektnek, valamint ismerteti annak lépéseit. PMML (adatbányászati eredmények szabványos leírása), OLE DB for data mining (a Microsoft adatbányászati szabványa), SQL/MM (az adatbányászat ISO szabványa), JDMAPI (java szabvány).
  11. 12. Az adatbányászati rendszer felépítése <ul><ul><ul><li>Adatbázis, adattárház </li></ul></ul></ul><ul><ul><ul><li>Szerver </li></ul></ul></ul><ul><ul><ul><li>Tudás bázis </li></ul></ul></ul><ul><ul><ul><li>Adatbányász motor </li></ul></ul></ul><ul><ul><ul><li>Minta kiértékelő modul </li></ul></ul></ul><ul><ul><ul><li>Grafikus felhasználói felület </li></ul></ul></ul>
  12. 13. Az adatbányászat feladatai <ul><li>Gyakori minták kinyerése </li></ul><ul><li>Attribútumok közötti kapcsolat </li></ul><ul><li>Klaszterezés </li></ul><ul><li>Sorozatelemzés </li></ul><ul><li>Eltéréselemzés </li></ul><ul><li>Webes adatbányászat </li></ul>
  13. 14. Az adatbányászat feltételei <ul><li>Az adatbányász és a terület szakértőjének szoros együttműködése </li></ul><ul><li>Nagy mennyiségű adat </li></ul><ul><li>Sok attribútum </li></ul><ul><li>Tiszta adat </li></ul><ul><li>Torzítatlan adat </li></ul><ul><li>Alkalmazási terület akcióképessége </li></ul><ul><li>A befektetés megtérülésének mérhetősége </li></ul>
  14. 15. Az adatbányászat felhasználási területei Bank Genom elemzés (emberi genetika) Vásárlás Akciók szervezése Online áruházak Webportálok Csillagászat Utazások Vírusölő programok Stb. Stb. Stb. Stb.
  15. 16. Adatbányász szoftverek I. WEKA The Waikato Environment for Knowledge Analysis Kifejezetten szövegbányászati célokra lett kifejlesztve. A WEKA egy gépi-tanulási algoritmus gyűjtemény adatbányászat céljára. Az algoritmus megjelenhet közvetlenül adathalmaz formájában, vagy előhívható a saját Java kódról. A Weka eszközöket tartalmaz az adatok könnyebb rendszerezésére, visszaalakítására, klaszterálására, emellett társítási szabályokat és megjelenítést is magába foglal. Valamint alkalmas az új gépi tanulási sémák fejlesztésére is. A programot egyébkén az Új Zélandi Waikato egyetem fejlesztette ki. Hátránya, hogy nem túlságosan felhasználóbarát. Kép __1__
  16. 17. Adatbányász szoftverek II. Enterprise Miner A SAS rendszer adatbányászati eszköze az Enterprise Miner. Hatékony adatbányászati megoldás, mely képes arra, hogy nagy mennyiségű adatból kivonja a tudást. Egyaránt használhatják statisztikai elemzők és üzleti specialisták. Webes bányászatra is használható. A WEB Enterprise Minerrel történő elemzésével megismerhetővé válik a felhasználók Internet használati szokásai, feltárható, milyen szabályrendszer szerint válik a látogatóból vásárló. A szoftver előnyei: Az adatbányászati folyamatot eszközkészletek segítik. A nyers adathalmazból kiindulva eljut a pontos, üzletfolyamat-központú adatbányászati modellig. Folyamatdiagramja feleslegessé teszi a kézi kódolást, s nagymértékben csökkenti a modellek létrehozását. Kép 1 2 3
  17. 18. Adatbányász szoftverek III. Intelligent Miner <ul><li>Az IBM fejlesztette adatbányászati szoftver. A szoftver segítségével elemzés céljából megjeleníthető az adatmodellezés eredménye. Az ábrázoló alkalmazások PMML formátumú bányászati modelleket tudnak feldolgozni. </li></ul><ul><ul><li>A PMML az adatbányászati modellek szabványos formátuma. Az XML-alapú PMML szabvány lehetővé teszi, hogy a különböző gyártók által forgalmazott alkalmazások fel tudják dolgozni egymás adatbányászati modelljeit. </li></ul></ul>Kép 1 2 3
  18. 19. Adatbányász szoftverek IV. Clementine <ul><li>A Clementine adatbányászati szoftver segítségével lehetővé válik az üzleti tapasztalatokon alapuló előrejelző modellek gyors kifejlesztése, s ezeket be tudjuk illeszteni üzleti és a döntési folyamatokba is. A Clementine lehetővé teszi a meglévő befektetések megőrzését és felhasználását, valamint az elemzés beépítését az üzleti munkafolyamatba. Ezzel szemben, a konkurens adatbányászati eszközök, nem támogatják az elemzések üzleti felhasználásának folyamatát. A Clementine grafikus, interaktív folyamatmodellező felhasználói felülete lehetővé teszi az értékes modellek gyorsabb átültetését az üzleti alkalmazásba. A Clementine a leghatékonyabb adatbányászati eszköz, amely elérhető a piacon. Rugalmas modell - felhasználás jellemzi. </li></ul>
  19. 20. Adatbányászat a könyvtárakban I. A könyvtáraknak túl kell lépniük a dokumentum- és adatszolgáltatáson , hogy különböző irányú értéknövelt szolgáltatást kínálhassanak. Ennek egyik útja az adatbányászat 2 nagy adathalmaz: dokumentumok adatai és a használattal összefüggő adatbázis . Az integrált könyvtári rendszerek még nem rendelkeznek döntéstámogató modullal Egyes könyvtárak állománymenedzsment gyakorlata, a könyvtári döntéshozók vagy a könyvkiadók számára egyaránt értékes forrást jelentenek Adatbányászat (beillesztés az IKR-be)
  20. 21. Adatbányászat a könyvtárakban II. Tehát: érveket adhatunk a könyvtár kezébe, illetve segíthetjük az erős és gyenge pontjaik felderítésében is Bibliomining A könyvtárak számára végzett adatbányászat a könyvtári szolgáltatások adatiból előállított adatbányászati és bibliometriai alkalmazás
  21. 22. A könyvtári adatbányászat folyamata <ul><li>A cél meghatározása, a döntés előkészítése </li></ul><ul><li>Az adatforrások meghatározása </li></ul><ul><li>Elemzési módszer kiválasztása </li></ul><ul><li>Minták azonosítása </li></ul><ul><li>Az eredmények elemzése és alkalmazása </li></ul>Mintha ismerős lenne?!
  22. 23. Szövegbányászat “ Eddig a dokumentumokat kézzel kellett kategorizálni, de ez már a múlté…”
  23. 24. Szövegbányászat Adatbányászat esetében jól strukturált számszerű adatok kal dolgozunk. A szövegbányászatban strukturálatlan szöveges állományok képezik a kiindulási alapot. Ezek a módszerek nem működnek a strukturálatlan szöveges adatokon. Ezért a strukturálatlan szöveges adathalmazok hasonló célú feldolgozása más megoldásokat tesz szükségessé. Textmining Dokumentumokon végzett feldolgozási és elemzési tevékenység, melynek célja a dokumentumokban rejtetten meglévő új információk feltárása. Olyan különböző dokumentumforrásokból származó szöveges ismeretek és információk gépi intelligenciával történő kigyűjtése és reprezentációja, amely a feldolgozás előtt rejtve és feltáratlanul maradt az elemző előtt
  24. 25. Szövegbányászat Célja az emberi nyelvi tudás ötvözése a számítógép nagy sebességével és pontosságával A szövegbányászat az összegzéskészítő módszereket kínálja megoldásként, amelyek automatikusan összefoglalják a dokumentum tartalmát, aminek alapján a felhasználó már könnyebben tájékozódhat
  25. 26. A szövegbányászat folyamata Szöveg előfeldolgozása Osztályozás Szövegklaszterezés Kivonatolás
  26. 27. Szövegbányászati feladatok Információkinyerés Témakövetés Szöveges információk vizualizálása
  27. 29. Webes bányászat “ Intuícióm azt sugallja, hogy az Internet több kárt okoz, mint amennyi hasznot hajt” Stanislaw Lem Webmining
  28. 30. Webes bányászat “ Elmentünk az Internetre, előfizettünk az adtabázisokra, már összeszedtünk egy nagy halom adatot, rendben, de mit csináljunk vele?” A webmining az adatbányászat egyik speciális esete. A webes adatbányászat tulajdonképpen egy Internetes információkinyerő alkalmazás Ennek bemutatása több figyelmet érdemelne, mint amelyet ez az írás megengedhet magának
  29. 31. Weboldalak rangsorolása A weboldalak látogatottságáról napló (web-log) készül. Ezek olyan statisztikákat készítenek, melyek tájékoztatnak arról, hogy mennyi ideig tartott a látogatás, hányszor töltötték le stb. Ezeket a web-logokat elemzés alá lehet vetni, mégpedig az adatbányászat segítségével A látogatottság mérésére nem használnak adatbányászati szoftvert ilyen célból, viszont összefüggések és üzleti szabályszerűségek kinyerésére igen Miben áll a weboldal “fontossága”? Erre nem tudunk objektív választ adni
  30. 32. Page Rank Az 1998- óta működő Google is ezt használja és eredményesen. Az algoritmus előnye, hogy gyors és könnyen programozható. A lényeg, hogy az emberek, milyen úton jutnak el arra a weboldalra. Ezt a linkeken tudjuk mérni A következtetés átültethető egy algoritmusba is, ami a linkstruktúra alapján felállítja nekünk a sorrendet. Ez az algoritmus a Page Rank Page Rank
  31. 33. Hibák Zsákutca probléma A “zsákutca” esetünkben egy olyan weblap, amelyről nincs hivatkozás semmilyen irányba. Ha az algoritmus ideér leáll. Megáll a tudomány; nincs tovább.
  32. 34. Hibák Pókháló probléma “ Pókháló” az a rendszer, amelyben minden link az ugyanabban a rendszerben lévő lapra mutat. Röviden: több lap- egy rendszer. Egymásra hivatkoznak a lapok; visszahivatkozás. Ennek így se, füle se farka, az algoritmus nem áll le, de hamis adatot fog adni.
  33. 35. Reklám
  34. 36. Köszönjük a figyelmet!

×