Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Adatbányászat Készítette: Molnár Csaba Matolcsi Zoltán Megfulladunk az információban miközben tudásra éhezünk
Mi az adatbányászat? <ul><li>Matematikai, statisztikai módszerek együttese, melynek célja, hogy adatbázisokban, adattárakb...
Miért fontos az adatbányászat? <ul><li>A vállalatok  léte múlhat  az információ   gyors és pontos   begyűjtésén, elemzésén...
Az adatbányászat szükségessége <ul><ul><ul><li>Meg lehet-e jósolni a legbiztonságosabb eladást/vásárlást a következő idősz...
Az adatbányászat rövid története Az utóbbi 10 évben igen jelentős változásokon ment keresztül az adatelemzési “iparág”. Az...
Miről szól az adatbányászat? I. Adatok   elektronikus   tárolása Nagy mennyiségű   adat halmozódik fel. Adatbázisok A táro...
Miről szól az adatbányászat? II. Az adatbázisból való   tudásfeltárás   során adatbányászati  algoritmusokat  alkalmaznak....
A tudásfeltárás <ul><ul><ul><li>Alkalmazási terület feltárása </li></ul></ul></ul><ul><ul><ul><li>Adott szektor kiválasztá...
 
Megszerzett tudással szembeni elvárások <ul><li>Legyen: </li></ul><ul><ul><ul><li>Könnyen érthető </li></ul></ul></ul><ul>...
Az adatbányászatra vonatkozó szabványok Az adatbányászat elterjedésével, létrejött egy igény, Ezt a folyamatot valamilyen ...
Az adatbányászati rendszer felépítése <ul><ul><ul><li>Adatbázis, adattárház </li></ul></ul></ul><ul><ul><ul><li>Szerver </...
Az adatbányászat feladatai <ul><li>Gyakori minták kinyerése </li></ul><ul><li>Attribútumok közötti kapcsolat </li></ul><ul...
Az adatbányászat feltételei <ul><li>Az adatbányász és a terület szakértőjének szoros együttműködése </li></ul><ul><li>Nagy...
Az adatbányászat felhasználási területei Bank Genom elemzés (emberi genetika) Vásárlás Akciók szervezése Online áruházak W...
Adatbányász szoftverek I. WEKA The Waikato Environment for Knowledge Analysis Kifejezetten szövegbányászati célokra lett k...
Adatbányász szoftverek II. Enterprise Miner A SAS rendszer adatbányászati eszköze az Enterprise Miner. Hatékony adatbányás...
Adatbányász szoftverek III. Intelligent Miner <ul><li>Az IBM fejlesztette adatbányászati szoftver. A szoftver segítségével...
Adatbányász szoftverek IV. Clementine <ul><li>A Clementine adatbányászati szoftver segítségével lehetővé válik az üzleti t...
Adatbányászat a könyvtárakban I. A könyvtáraknak   túl kell lépniük a dokumentum- és adatszolgáltatáson , hogy  különböző ...
Adatbányászat a könyvtárakban II. Tehát: érveket adhatunk a könyvtár kezébe, illetve segíthetjük az erős és gyenge pontjai...
A könyvtári adatbányászat folyamata <ul><li>A cél meghatározása, a döntés előkészítése </li></ul><ul><li>Az adatforrások m...
Szövegbányászat “ Eddig a dokumentumokat kézzel kellett kategorizálni, de ez már a múlté…”
Szövegbányászat Adatbányászat esetében   jól strukturált   számszerű  adatok kal   dolgozunk. A   szövegbányászatban struk...
Szövegbányászat Célja az emberi nyelvi tudás ötvözése a számítógép nagy sebességével és pontosságával A szövegbányászat az...
A szövegbányászat folyamata Szöveg előfeldolgozása Osztályozás Szövegklaszterezés Kivonatolás
Szövegbányászati feladatok Információkinyerés Témakövetés Szöveges információk vizualizálása
 
Webes bányászat “ Intuícióm azt sugallja, hogy az Internet több kárt okoz, mint amennyi hasznot hajt” Stanislaw Lem Webmin...
Webes bányászat “ Elmentünk az Internetre, előfizettünk az adtabázisokra, már összeszedtünk egy nagy halom adatot, rendben...
Weboldalak rangsorolása A weboldalak látogatottságáról napló (web-log) készül. Ezek olyan statisztikákat készítenek, melye...
Page Rank Az 1998- óta működő Google is ezt használja és eredményesen. Az algoritmus előnye, hogy gyors és könnyen program...
Hibák Zsákutca probléma A “zsákutca” esetünkben egy olyan weblap, amelyről nincs hivatkozás semmilyen irányba. Ha az algor...
Hibák Pókháló probléma “ Pókháló” az a rendszer, amelyben minden link az ugyanabban a rendszerben lévő lapra mutat. Rövide...
Reklám
Köszönjük a figyelmet!
Upcoming SlideShare
Loading in …5
×

Adatbányászat

4,398 views

Published on

Published in: Technology, Education
  • Be the first to comment

  • Be the first to like this

Adatbányászat

  1. 1. Adatbányászat Készítette: Molnár Csaba Matolcsi Zoltán Megfulladunk az információban miközben tudásra éhezünk
  2. 2. Mi az adatbányászat? <ul><li>Matematikai, statisztikai módszerek együttese, melynek célja, hogy adatbázisokban, adattárakban információkat tárjon fel. </li></ul>Data Mining Új távlatokat nyit meg ott, ahol a hagyományos módszerek nem elég jók Egyesíti az adatbázis-kezelés, a statisztika és a mesterséges intelligencia kutatások eredményeit.
  3. 3. Miért fontos az adatbányászat? <ul><li>A vállalatok léte múlhat az információ gyors és pontos begyűjtésén, elemzésén. </li></ul>“ a menedzsment kiszolgálása a hatalmas, halott vállalati adattömegben rejlő másodlagos információkkal, s a világhálózaton elhelyezett kétségbeejtő mennyiségű szemét részben automatikus átvizsgálása.” Dobay Péter Adatbányászat Az elemzők speciális eszközök nélkül , - amelyek a nagytömegű adatok feldolgozását végzik el- nem képesek értelmes döntéseket hozni.
  4. 4. Az adatbányászat szükségessége <ul><ul><ul><li>Meg lehet-e jósolni a legbiztonságosabb eladást/vásárlást a következő időszakban? </li></ul></ul></ul><ul><ul><ul><li>Eleget tesz-e az ügyfél a kölcsönnek vagy határidőre visszafizeti-e azt? </li></ul></ul></ul><ul><ul><ul><li>Mi az orvosi diagnózisa a betegnek? </li></ul></ul></ul><ul><ul><ul><li>Milyen nagy telefon vagy energia csúcsok következnek be? </li></ul></ul></ul><ul><ul><ul><li>Mi az oka annak, hogy hirtelen rossz terméket gyártunk? </li></ul></ul></ul>A modern adatbányászati rendszerek a kutatott rendszer előző adatai alapján önmaguktól “tanulnak”. Amikor a tömör és értékelhető tudást feltártuk, beépíthetjük döntéstámogatási rendszerünkbe, és ennek alapján okosabb és informáltabb döntést hozhatunk.
  5. 5. Az adatbányászat rövid története Az utóbbi 10 évben igen jelentős változásokon ment keresztül az adatelemzési “iparág”. Az elmúlt évtized közepéig a piackutatás jelentette az egyetlen megbízható forrást. A technológia fejlődése azonban lehetővé tette az adatbázisok (adattárházak) létrejöttét, ahol rendkívül nagy mennyiségű információ kerül tárolásra. Hatalmas adattemetők jöttek létre. Egyre nagyobb mértékben nőtt az adatok professzionális kielemzésének igénye. Ennek pedig alapfeltétele volt egy meglévő nagy adatbázis. Így született meg az adatbányászat
  6. 6. Miről szól az adatbányászat? I. Adatok elektronikus tárolása Nagy mennyiségű adat halmozódik fel. Adatbázisok A tárolt adatoknak a nagy része önmagában nem hasznos Adatokból kinyert információra van szükség Szükséglet egy új eszközre; ez pedig az adatbányászat
  7. 7. Miről szól az adatbányászat? II. Az adatbázisból való tudásfeltárás során adatbányászati algoritmusokat alkalmaznak. Knowledge Discovery in Databases Az algoritmusok elvégzése során “ mintákat ” fedezünk fel az adatokban. Minél több minta kinyerése, minél több adatból kinyert, minél több lekérdezés eredményeként jön létre. Ha ezt emberek végzik, akkor a folyamat lassú, drága; vagyis gazdaságtalan . Számítógép segítségével gyors és pontos eredményt:“ kincset ” állítanak elő az adatbázis adataiból
  8. 8. A tudásfeltárás <ul><ul><ul><li>Alkalmazási terület feltárása </li></ul></ul></ul><ul><ul><ul><li>Adott szektor kiválasztása </li></ul></ul></ul><ul><ul><ul><li>Adattisztítás </li></ul></ul></ul><ul><ul><ul><li>Adatintegráció </li></ul></ul></ul><ul><ul><ul><li>Adattér csökkentés </li></ul></ul></ul><ul><ul><ul><li>Algoritmus típusának kiválasztása </li></ul></ul></ul><ul><ul><ul><li>Algoritmus meghatározása </li></ul></ul></ul><ul><ul><ul><li>Algoritmus alkalmazása </li></ul></ul></ul><ul><ul><ul><li>Kinyert információ értelmezése </li></ul></ul></ul><ul><ul><ul><li>A tudás megerősítése </li></ul></ul></ul>
  9. 10. Megszerzett tudással szembeni elvárások <ul><li>Legyen: </li></ul><ul><ul><ul><li>Könnyen érthető </li></ul></ul></ul><ul><ul><ul><li>Érvényes </li></ul></ul></ul><ul><ul><ul><li>Hasznos </li></ul></ul></ul><ul><ul><ul><li>Újszerű </li></ul></ul></ul>A megszerzett tudás megjelenítése legalább annyira fontos, mint az összefüggések meghatározása. Akiknek szolgáltatjuk a kinyert tudást, azokat sokkal jobban megragadja egy jól elkészített ábra, mint egy matematikai struktúra.
  10. 11. Az adatbányászatra vonatkozó szabványok Az adatbányászat elterjedésével, létrejött egy igény, Ezt a folyamatot valamilyen szabvány keretein belül lehessen megvalósítani CRISP-DM (Cross Industry Standard Process for Data Mining), amely leírja, hogy miként kell kinéznie egy adatbányászati projektnek, valamint ismerteti annak lépéseit. PMML (adatbányászati eredmények szabványos leírása), OLE DB for data mining (a Microsoft adatbányászati szabványa), SQL/MM (az adatbányászat ISO szabványa), JDMAPI (java szabvány).
  11. 12. Az adatbányászati rendszer felépítése <ul><ul><ul><li>Adatbázis, adattárház </li></ul></ul></ul><ul><ul><ul><li>Szerver </li></ul></ul></ul><ul><ul><ul><li>Tudás bázis </li></ul></ul></ul><ul><ul><ul><li>Adatbányász motor </li></ul></ul></ul><ul><ul><ul><li>Minta kiértékelő modul </li></ul></ul></ul><ul><ul><ul><li>Grafikus felhasználói felület </li></ul></ul></ul>
  12. 13. Az adatbányászat feladatai <ul><li>Gyakori minták kinyerése </li></ul><ul><li>Attribútumok közötti kapcsolat </li></ul><ul><li>Klaszterezés </li></ul><ul><li>Sorozatelemzés </li></ul><ul><li>Eltéréselemzés </li></ul><ul><li>Webes adatbányászat </li></ul>
  13. 14. Az adatbányászat feltételei <ul><li>Az adatbányász és a terület szakértőjének szoros együttműködése </li></ul><ul><li>Nagy mennyiségű adat </li></ul><ul><li>Sok attribútum </li></ul><ul><li>Tiszta adat </li></ul><ul><li>Torzítatlan adat </li></ul><ul><li>Alkalmazási terület akcióképessége </li></ul><ul><li>A befektetés megtérülésének mérhetősége </li></ul>
  14. 15. Az adatbányászat felhasználási területei Bank Genom elemzés (emberi genetika) Vásárlás Akciók szervezése Online áruházak Webportálok Csillagászat Utazások Vírusölő programok Stb. Stb. Stb. Stb.
  15. 16. Adatbányász szoftverek I. WEKA The Waikato Environment for Knowledge Analysis Kifejezetten szövegbányászati célokra lett kifejlesztve. A WEKA egy gépi-tanulási algoritmus gyűjtemény adatbányászat céljára. Az algoritmus megjelenhet közvetlenül adathalmaz formájában, vagy előhívható a saját Java kódról. A Weka eszközöket tartalmaz az adatok könnyebb rendszerezésére, visszaalakítására, klaszterálására, emellett társítási szabályokat és megjelenítést is magába foglal. Valamint alkalmas az új gépi tanulási sémák fejlesztésére is. A programot egyébkén az Új Zélandi Waikato egyetem fejlesztette ki. Hátránya, hogy nem túlságosan felhasználóbarát. Kép __1__
  16. 17. Adatbányász szoftverek II. Enterprise Miner A SAS rendszer adatbányászati eszköze az Enterprise Miner. Hatékony adatbányászati megoldás, mely képes arra, hogy nagy mennyiségű adatból kivonja a tudást. Egyaránt használhatják statisztikai elemzők és üzleti specialisták. Webes bányászatra is használható. A WEB Enterprise Minerrel történő elemzésével megismerhetővé válik a felhasználók Internet használati szokásai, feltárható, milyen szabályrendszer szerint válik a látogatóból vásárló. A szoftver előnyei: Az adatbányászati folyamatot eszközkészletek segítik. A nyers adathalmazból kiindulva eljut a pontos, üzletfolyamat-központú adatbányászati modellig. Folyamatdiagramja feleslegessé teszi a kézi kódolást, s nagymértékben csökkenti a modellek létrehozását. Kép 1 2 3
  17. 18. Adatbányász szoftverek III. Intelligent Miner <ul><li>Az IBM fejlesztette adatbányászati szoftver. A szoftver segítségével elemzés céljából megjeleníthető az adatmodellezés eredménye. Az ábrázoló alkalmazások PMML formátumú bányászati modelleket tudnak feldolgozni. </li></ul><ul><ul><li>A PMML az adatbányászati modellek szabványos formátuma. Az XML-alapú PMML szabvány lehetővé teszi, hogy a különböző gyártók által forgalmazott alkalmazások fel tudják dolgozni egymás adatbányászati modelljeit. </li></ul></ul>Kép 1 2 3
  18. 19. Adatbányász szoftverek IV. Clementine <ul><li>A Clementine adatbányászati szoftver segítségével lehetővé válik az üzleti tapasztalatokon alapuló előrejelző modellek gyors kifejlesztése, s ezeket be tudjuk illeszteni üzleti és a döntési folyamatokba is. A Clementine lehetővé teszi a meglévő befektetések megőrzését és felhasználását, valamint az elemzés beépítését az üzleti munkafolyamatba. Ezzel szemben, a konkurens adatbányászati eszközök, nem támogatják az elemzések üzleti felhasználásának folyamatát. A Clementine grafikus, interaktív folyamatmodellező felhasználói felülete lehetővé teszi az értékes modellek gyorsabb átültetését az üzleti alkalmazásba. A Clementine a leghatékonyabb adatbányászati eszköz, amely elérhető a piacon. Rugalmas modell - felhasználás jellemzi. </li></ul>
  19. 20. Adatbányászat a könyvtárakban I. A könyvtáraknak túl kell lépniük a dokumentum- és adatszolgáltatáson , hogy különböző irányú értéknövelt szolgáltatást kínálhassanak. Ennek egyik útja az adatbányászat 2 nagy adathalmaz: dokumentumok adatai és a használattal összefüggő adatbázis . Az integrált könyvtári rendszerek még nem rendelkeznek döntéstámogató modullal Egyes könyvtárak állománymenedzsment gyakorlata, a könyvtári döntéshozók vagy a könyvkiadók számára egyaránt értékes forrást jelentenek Adatbányászat (beillesztés az IKR-be)
  20. 21. Adatbányászat a könyvtárakban II. Tehát: érveket adhatunk a könyvtár kezébe, illetve segíthetjük az erős és gyenge pontjaik felderítésében is Bibliomining A könyvtárak számára végzett adatbányászat a könyvtári szolgáltatások adatiból előállított adatbányászati és bibliometriai alkalmazás
  21. 22. A könyvtári adatbányászat folyamata <ul><li>A cél meghatározása, a döntés előkészítése </li></ul><ul><li>Az adatforrások meghatározása </li></ul><ul><li>Elemzési módszer kiválasztása </li></ul><ul><li>Minták azonosítása </li></ul><ul><li>Az eredmények elemzése és alkalmazása </li></ul>Mintha ismerős lenne?!
  22. 23. Szövegbányászat “ Eddig a dokumentumokat kézzel kellett kategorizálni, de ez már a múlté…”
  23. 24. Szövegbányászat Adatbányászat esetében jól strukturált számszerű adatok kal dolgozunk. A szövegbányászatban strukturálatlan szöveges állományok képezik a kiindulási alapot. Ezek a módszerek nem működnek a strukturálatlan szöveges adatokon. Ezért a strukturálatlan szöveges adathalmazok hasonló célú feldolgozása más megoldásokat tesz szükségessé. Textmining Dokumentumokon végzett feldolgozási és elemzési tevékenység, melynek célja a dokumentumokban rejtetten meglévő új információk feltárása. Olyan különböző dokumentumforrásokból származó szöveges ismeretek és információk gépi intelligenciával történő kigyűjtése és reprezentációja, amely a feldolgozás előtt rejtve és feltáratlanul maradt az elemző előtt
  24. 25. Szövegbányászat Célja az emberi nyelvi tudás ötvözése a számítógép nagy sebességével és pontosságával A szövegbányászat az összegzéskészítő módszereket kínálja megoldásként, amelyek automatikusan összefoglalják a dokumentum tartalmát, aminek alapján a felhasználó már könnyebben tájékozódhat
  25. 26. A szövegbányászat folyamata Szöveg előfeldolgozása Osztályozás Szövegklaszterezés Kivonatolás
  26. 27. Szövegbányászati feladatok Információkinyerés Témakövetés Szöveges információk vizualizálása
  27. 29. Webes bányászat “ Intuícióm azt sugallja, hogy az Internet több kárt okoz, mint amennyi hasznot hajt” Stanislaw Lem Webmining
  28. 30. Webes bányászat “ Elmentünk az Internetre, előfizettünk az adtabázisokra, már összeszedtünk egy nagy halom adatot, rendben, de mit csináljunk vele?” A webmining az adatbányászat egyik speciális esete. A webes adatbányászat tulajdonképpen egy Internetes információkinyerő alkalmazás Ennek bemutatása több figyelmet érdemelne, mint amelyet ez az írás megengedhet magának
  29. 31. Weboldalak rangsorolása A weboldalak látogatottságáról napló (web-log) készül. Ezek olyan statisztikákat készítenek, melyek tájékoztatnak arról, hogy mennyi ideig tartott a látogatás, hányszor töltötték le stb. Ezeket a web-logokat elemzés alá lehet vetni, mégpedig az adatbányászat segítségével A látogatottság mérésére nem használnak adatbányászati szoftvert ilyen célból, viszont összefüggések és üzleti szabályszerűségek kinyerésére igen Miben áll a weboldal “fontossága”? Erre nem tudunk objektív választ adni
  30. 32. Page Rank Az 1998- óta működő Google is ezt használja és eredményesen. Az algoritmus előnye, hogy gyors és könnyen programozható. A lényeg, hogy az emberek, milyen úton jutnak el arra a weboldalra. Ezt a linkeken tudjuk mérni A következtetés átültethető egy algoritmusba is, ami a linkstruktúra alapján felállítja nekünk a sorrendet. Ez az algoritmus a Page Rank Page Rank
  31. 33. Hibák Zsákutca probléma A “zsákutca” esetünkben egy olyan weblap, amelyről nincs hivatkozás semmilyen irányba. Ha az algoritmus ideér leáll. Megáll a tudomány; nincs tovább.
  32. 34. Hibák Pókháló probléma “ Pókháló” az a rendszer, amelyben minden link az ugyanabban a rendszerben lévő lapra mutat. Röviden: több lap- egy rendszer. Egymásra hivatkoznak a lapok; visszahivatkozás. Ennek így se, füle se farka, az algoritmus nem áll le, de hamis adatot fog adni.
  33. 35. Reklám
  34. 36. Köszönjük a figyelmet!

×