SlideShare a Scribd company logo
1 of 14
Download to read offline
Behatolási adatok
feldolgozása gépi
tanulás és
MapReduce
segítségével
Készítette: Brunner Csaba
Információrendszerek Tanszék
Miről lesz szó?
§ Kutatási kérdések
§ A behatolás detektálás kihívásai
§ Gépi tanulás
§ MapReduce
§ Kutatási módszertan
– Az adatbázis
– Mintavételezés
§ Eredmények értékelése
– Modellek értékelése
– Teljesítmény
Készítette: Brunner Csaba
Információrendszerek Tanszék
Kutatási probléma, kutatási kérdések
§ Behatolás detektálás támogatása párhuzamosított gépi tanulási eljárásokkal
§ Kutatási kérdések
– Milyen gépi tanulási eljárások alkalmazhatók a behatolásdetektálás területén
– Milyen párhuzamosítást érdemes alkalmazni ahhoz, hogy az adatbányászati modell
legalább elfogadható teljesítményt nyújtson az adathalmazon
§ Hipotézisek:
– 1.: az adatbányászati modell legalább elfogadható teljesítményt nyújt az adathalmazon.
– 2.: A párhuzamosításnak köszönhetően javulás várható a műveletvégrehajtási időben.
§ A hipotézisek vizsgálatára kísérletet végeztem el egy adatbázison, melynek
feldolgozására egy saját programkódot írtam.
Készítette: Brunner Csaba
Információrendszerek Tanszék
A behatolás detektálás kihívásai, behatolás
detektálási rendszer (IDS)
§ Az	IDS	routerek	és	tűzfalak	mellett	működve	figyeli	a	hálózat	
használatában	tapasztalt	anomáliákat.
– Kategóriái:
• Hálózat	alapú	IDS
• Hoszt	alapú	IDS
– Típusai:
• Szignatúra	alapú
• Statisztika	alapú
• Neurális	hálózattal	támogatott
Készítette: Brunner Csaba
Információrendszerek Tanszék
Gépi tanulás (Machine learning)
§ Machine learning – Gépi tanulás
– „Célja annak a hipotézisnek a keresése, amely a legjobban illeszkedik a kiindulásul
vett adatokra – azzal az elvárással, hogy az így megtanult minta vagy összefüggés
alkalmazható legyen előre nem látott adatok esetére is.” (Sántáné-Tóth et al., 2008)
§ Tanuló algoritmusok kategóriái:
– Felügyelt tanulás
• Regresszió
• Osztályozás
– Nem-felügyelt tanulás
§ A választásom végül a Döntési fa algoritmusok közül az ID3 algoritmusra
esett.
Készítette: Brunner Csaba
Információrendszerek Tanszék
A MapReduce
§ MapReduce
– Lényege: nagy mennyiségű adatot oszt fel párhuzamosan működő
feldolgozó egységek között, majd az eredményeket valamilyen művelet
segítségével összegzi
Készítette: Brunner Csaba
Információrendszerek Tanszék
Kutatási módszertan – a feldolgozott adatbázis
§ A már bemutatott behatolás detektálási feladatra választott adatbázis:
– KDD Cup 1999-es versenyének adatbázisa
– 41 változó ~5 millió adata a tréning, és további ~2 millió a teszt állományban
– A könnyebb feldolgozhatóság érdekében a biztosított 10%-os tréning és teszt
mintákkal dolgoztam
– Célváltozó: túl részletes volt, ezért egy fogalmi hierarchiát alkalmaztam
Készítette: Brunner Csaba
Információrendszerek Tanszék
Kutatási módszertan – mintavételezés
§ Túl sok volt még így is az adatsor, mintavételezést kellett használni.
§ Egy további változó jellemző az volt, hogy 2, 4 vagy 8 feldolgozási
szálon futott a program.
§ Mindent egybevetbe 28 kísérleti futtatásra került sor.
Készítette: Brunner Csaba
Információrendszerek Tanszék
Eredmények értékelése – modell teljesítménye
5 osztályon
1g4sz
2g8sz
Készítette: Brunner Csaba
Információrendszerek Tanszék
Eredmények értékelése –modell teljesítménye
2 osztályon
Készítette: Brunner Csaba
Információrendszerek Tanszék
Eredmények értékelése - teljesítmény
Készítette: Brunner Csaba
Információrendszerek Tanszék
Eredmények értékelése - teljesítmény
Készítette: Brunner Csaba
Információrendszerek Tanszék
Eredmények értékelése - teljesítmény
Készítette: Brunner Csaba
Információrendszerek Tanszék
Konklúzió
§ A hipotézisek:
– 1.: az adatbányászati modell legalább elfogadható teljesítményt nyújt az
adathalmazon? - beigazolódott
– 2.: A párhuzamosításnak köszönhetően javulás várható a
műveletvégrehajtási időben. – beigazolódott
§ Javaslatok a további kutatásra:
– Adatok tárolása
– Pontosabb előrejelzések
– Összegzett teljesítmény
Készítette: Brunner Csaba

More Related Content

Viewers also liked (12)

Anem a l'hort
Anem a l'hortAnem a l'hort
Anem a l'hort
 
Guia orientacion familiar_ceapa
Guia orientacion familiar_ceapaGuia orientacion familiar_ceapa
Guia orientacion familiar_ceapa
 
ARDA 2016 November slideshare
ARDA 2016 November slideshareARDA 2016 November slideshare
ARDA 2016 November slideshare
 
Tokyo Guide
Tokyo GuideTokyo Guide
Tokyo Guide
 
Directorio 2.0
Directorio 2.0Directorio 2.0
Directorio 2.0
 
Ley s.o.p.a.
Ley s.o.p.a.Ley s.o.p.a.
Ley s.o.p.a.
 
Double page spread
Double page spreadDouble page spread
Double page spread
 
Ponencia investigación físico virtual y la ruta crítica
Ponencia investigación físico virtual y la ruta críticaPonencia investigación físico virtual y la ruta crítica
Ponencia investigación físico virtual y la ruta crítica
 
CURRICULUM 2016 DUGLAS GUTIERREZ
CURRICULUM 2016 DUGLAS GUTIERREZCURRICULUM 2016 DUGLAS GUTIERREZ
CURRICULUM 2016 DUGLAS GUTIERREZ
 
Kestra 2016 October slideshare
Kestra 2016 October slideshareKestra 2016 October slideshare
Kestra 2016 October slideshare
 
Diosas y héroes 2013
Diosas y héroes 2013Diosas y héroes 2013
Diosas y héroes 2013
 
Poster
PosterPoster
Poster
 

More from Informatikai Intézet

Fintech Workshop D00: Tuan Trinh Anh - Hallgatói fintech projekt kezdeménye...
Fintech Workshop D00: Tuan Trinh Anh - Hallgatói fintech projekt kezdeménye...Fintech Workshop D00: Tuan Trinh Anh - Hallgatói fintech projekt kezdeménye...
Fintech Workshop D00: Tuan Trinh Anh - Hallgatói fintech projekt kezdeménye...Informatikai Intézet
 
FinTech Workshop 00: FinTech és banki digitalizáció workshop bevezető
FinTech Workshop 00: FinTech és banki digitalizáció workshop bevezetőFinTech Workshop 00: FinTech és banki digitalizáció workshop bevezető
FinTech Workshop 00: FinTech és banki digitalizáció workshop bevezetőInformatikai Intézet
 
FinTech Workshop 01: Kenesei Zsófia - Service experience design a banki gyak...
FinTech Workshop 01: Kenesei Zsófia - Service experience design a banki gyak...FinTech Workshop 01: Kenesei Zsófia - Service experience design a banki gyak...
FinTech Workshop 01: Kenesei Zsófia - Service experience design a banki gyak...Informatikai Intézet
 
FinTech Workshop 02: Varga Krisztián - A digitális átalakulás lehetőségeinek...
FinTech Workshop 02: Varga Krisztián - A digitális átalakulás lehetőségeinek...FinTech Workshop 02: Varga Krisztián - A digitális átalakulás lehetőségeinek...
FinTech Workshop 02: Varga Krisztián - A digitális átalakulás lehetőségeinek...Informatikai Intézet
 
Fintech Workshop 03: Racskó Péter - Blokklánc és demokrácia
Fintech Workshop 03: Racskó Péter - Blokklánc és demokráciaFintech Workshop 03: Racskó Péter - Blokklánc és demokrácia
Fintech Workshop 03: Racskó Péter - Blokklánc és demokráciaInformatikai Intézet
 
FinTech Workshop 05: Michael Puhle - An introduction to Robo-Advisors
FinTech Workshop 05: Michael Puhle - An introduction to Robo-AdvisorsFinTech Workshop 05: Michael Puhle - An introduction to Robo-Advisors
FinTech Workshop 05: Michael Puhle - An introduction to Robo-AdvisorsInformatikai Intézet
 
FinTech Workshop 04: Csóka Péter - The Effects of Blockchain on central cle...
FinTech Workshop 04: Csóka Péter - The Effects of Blockchain on central cle...FinTech Workshop 04: Csóka Péter - The Effects of Blockchain on central cle...
FinTech Workshop 04: Csóka Péter - The Effects of Blockchain on central cle...Informatikai Intézet
 
FinTech Workshop D01: Horváth András - Currency Clusterer
FinTech Workshop D01: Horváth András - Currency ClustererFinTech Workshop D01: Horváth András - Currency Clusterer
FinTech Workshop D01: Horváth András - Currency ClustererInformatikai Intézet
 
FinTech Workshop D02: Kádár Bence - Pénzes Gábor: Blockchain technológia ...
FinTech Workshop D02: Kádár Bence - Pénzes Gábor: Blockchain technológia ...FinTech Workshop D02: Kádár Bence - Pénzes Gábor: Blockchain technológia ...
FinTech Workshop D02: Kádár Bence - Pénzes Gábor: Blockchain technológia ...Informatikai Intézet
 
Fehér Péter - Varga Krisztián: A digitális átalakulás lehetőségeinek vizsgála...
Fehér Péter - Varga Krisztián: A digitális átalakulás lehetőségeinek vizsgála...Fehér Péter - Varga Krisztián: A digitális átalakulás lehetőségeinek vizsgála...
Fehér Péter - Varga Krisztián: A digitális átalakulás lehetőségeinek vizsgála...Informatikai Intézet
 
Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális p...
Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális p...Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális p...
Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális p...Informatikai Intézet
 
Dávid Burka: Comparing different scenarios of Hungarian demographic processes
Dávid Burka: Comparing different scenarios of Hungarian demographic processesDávid Burka: Comparing different scenarios of Hungarian demographic processes
Dávid Burka: Comparing different scenarios of Hungarian demographic processesInformatikai Intézet
 
Gabriella Baksa-Haskó - Ilona Béres: Development of General Skills
Gabriella Baksa-Haskó - Ilona Béres: Development of General SkillsGabriella Baksa-Haskó - Ilona Béres: Development of General Skills
Gabriella Baksa-Haskó - Ilona Béres: Development of General SkillsInformatikai Intézet
 
Blanka Láng, László Kovács and László Mohácsi: Linear regression model select...
Blanka Láng, László Kovács and László Mohácsi: Linear regression model select...Blanka Láng, László Kovács and László Mohácsi: Linear regression model select...
Blanka Láng, László Kovács and László Mohácsi: Linear regression model select...Informatikai Intézet
 
Agnes Dede: Bureaucratic processes and the IT
Agnes Dede: Bureaucratic processes and the ITAgnes Dede: Bureaucratic processes and the IT
Agnes Dede: Bureaucratic processes and the ITInformatikai Intézet
 
Szabó Zoltán: Digitális Üzleti Átalakulás
Szabó Zoltán: Digitális Üzleti ÁtalakulásSzabó Zoltán: Digitális Üzleti Átalakulás
Szabó Zoltán: Digitális Üzleti ÁtalakulásInformatikai Intézet
 

More from Informatikai Intézet (20)

Fókuszban a digitalizáció
Fókuszban a digitalizációFókuszban a digitalizáció
Fókuszban a digitalizáció
 
Fintech Workshop D00: Tuan Trinh Anh - Hallgatói fintech projekt kezdeménye...
Fintech Workshop D00: Tuan Trinh Anh - Hallgatói fintech projekt kezdeménye...Fintech Workshop D00: Tuan Trinh Anh - Hallgatói fintech projekt kezdeménye...
Fintech Workshop D00: Tuan Trinh Anh - Hallgatói fintech projekt kezdeménye...
 
FinTech Workshop 00: FinTech és banki digitalizáció workshop bevezető
FinTech Workshop 00: FinTech és banki digitalizáció workshop bevezetőFinTech Workshop 00: FinTech és banki digitalizáció workshop bevezető
FinTech Workshop 00: FinTech és banki digitalizáció workshop bevezető
 
FinTech Workshop 01: Kenesei Zsófia - Service experience design a banki gyak...
FinTech Workshop 01: Kenesei Zsófia - Service experience design a banki gyak...FinTech Workshop 01: Kenesei Zsófia - Service experience design a banki gyak...
FinTech Workshop 01: Kenesei Zsófia - Service experience design a banki gyak...
 
FinTech Workshop 02: Varga Krisztián - A digitális átalakulás lehetőségeinek...
FinTech Workshop 02: Varga Krisztián - A digitális átalakulás lehetőségeinek...FinTech Workshop 02: Varga Krisztián - A digitális átalakulás lehetőségeinek...
FinTech Workshop 02: Varga Krisztián - A digitális átalakulás lehetőségeinek...
 
Fintech Workshop 03: Racskó Péter - Blokklánc és demokrácia
Fintech Workshop 03: Racskó Péter - Blokklánc és demokráciaFintech Workshop 03: Racskó Péter - Blokklánc és demokrácia
Fintech Workshop 03: Racskó Péter - Blokklánc és demokrácia
 
FinTech Workshop 05: Michael Puhle - An introduction to Robo-Advisors
FinTech Workshop 05: Michael Puhle - An introduction to Robo-AdvisorsFinTech Workshop 05: Michael Puhle - An introduction to Robo-Advisors
FinTech Workshop 05: Michael Puhle - An introduction to Robo-Advisors
 
FinTech Workshop 04: Csóka Péter - The Effects of Blockchain on central cle...
FinTech Workshop 04: Csóka Péter - The Effects of Blockchain on central cle...FinTech Workshop 04: Csóka Péter - The Effects of Blockchain on central cle...
FinTech Workshop 04: Csóka Péter - The Effects of Blockchain on central cle...
 
FinTech Workshop D01: Horváth András - Currency Clusterer
FinTech Workshop D01: Horváth András - Currency ClustererFinTech Workshop D01: Horváth András - Currency Clusterer
FinTech Workshop D01: Horváth András - Currency Clusterer
 
FinTech Workshop D02: Kádár Bence - Pénzes Gábor: Blockchain technológia ...
FinTech Workshop D02: Kádár Bence - Pénzes Gábor: Blockchain technológia ...FinTech Workshop D02: Kádár Bence - Pénzes Gábor: Blockchain technológia ...
FinTech Workshop D02: Kádár Bence - Pénzes Gábor: Blockchain technológia ...
 
Digitális Üzleti Átalakulás 2016
Digitális Üzleti Átalakulás 2016Digitális Üzleti Átalakulás 2016
Digitális Üzleti Átalakulás 2016
 
Fehér Péter - Varga Krisztián: A digitális átalakulás lehetőségeinek vizsgála...
Fehér Péter - Varga Krisztián: A digitális átalakulás lehetőségeinek vizsgála...Fehér Péter - Varga Krisztián: A digitális átalakulás lehetőségeinek vizsgála...
Fehér Péter - Varga Krisztián: A digitális átalakulás lehetőségeinek vizsgála...
 
Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális p...
Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális p...Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális p...
Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális p...
 
Dávid Burka: Comparing different scenarios of Hungarian demographic processes
Dávid Burka: Comparing different scenarios of Hungarian demographic processesDávid Burka: Comparing different scenarios of Hungarian demographic processes
Dávid Burka: Comparing different scenarios of Hungarian demographic processes
 
Gabriella Baksa-Haskó - Ilona Béres: Development of General Skills
Gabriella Baksa-Haskó - Ilona Béres: Development of General SkillsGabriella Baksa-Haskó - Ilona Béres: Development of General Skills
Gabriella Baksa-Haskó - Ilona Béres: Development of General Skills
 
Blanka Láng, László Kovács and László Mohácsi: Linear regression model select...
Blanka Láng, László Kovács and László Mohácsi: Linear regression model select...Blanka Láng, László Kovács and László Mohácsi: Linear regression model select...
Blanka Láng, László Kovács and László Mohácsi: Linear regression model select...
 
Agnes Dede: Bureaucratic processes and the IT
Agnes Dede: Bureaucratic processes and the ITAgnes Dede: Bureaucratic processes and the IT
Agnes Dede: Bureaucratic processes and the IT
 
Varga Krisztián: ITSM kutatás 2016
Varga Krisztián: ITSM kutatás 2016Varga Krisztián: ITSM kutatás 2016
Varga Krisztián: ITSM kutatás 2016
 
Szabó Zoltán: Digitális Üzleti Átalakulás
Szabó Zoltán: Digitális Üzleti ÁtalakulásSzabó Zoltán: Digitális Üzleti Átalakulás
Szabó Zoltán: Digitális Üzleti Átalakulás
 
Fehér Péter - IT kontrolling
Fehér Péter - IT kontrollingFehér Péter - IT kontrolling
Fehér Péter - IT kontrolling
 

Brunner Csaba: Behatolási adatok feldolgozása gépi tanulás és MapReduce segítségével

  • 1. Behatolási adatok feldolgozása gépi tanulás és MapReduce segítségével Készítette: Brunner Csaba
  • 2. Információrendszerek Tanszék Miről lesz szó? § Kutatási kérdések § A behatolás detektálás kihívásai § Gépi tanulás § MapReduce § Kutatási módszertan – Az adatbázis – Mintavételezés § Eredmények értékelése – Modellek értékelése – Teljesítmény Készítette: Brunner Csaba
  • 3. Információrendszerek Tanszék Kutatási probléma, kutatási kérdések § Behatolás detektálás támogatása párhuzamosított gépi tanulási eljárásokkal § Kutatási kérdések – Milyen gépi tanulási eljárások alkalmazhatók a behatolásdetektálás területén – Milyen párhuzamosítást érdemes alkalmazni ahhoz, hogy az adatbányászati modell legalább elfogadható teljesítményt nyújtson az adathalmazon § Hipotézisek: – 1.: az adatbányászati modell legalább elfogadható teljesítményt nyújt az adathalmazon. – 2.: A párhuzamosításnak köszönhetően javulás várható a műveletvégrehajtási időben. § A hipotézisek vizsgálatára kísérletet végeztem el egy adatbázison, melynek feldolgozására egy saját programkódot írtam. Készítette: Brunner Csaba
  • 4. Információrendszerek Tanszék A behatolás detektálás kihívásai, behatolás detektálási rendszer (IDS) § Az IDS routerek és tűzfalak mellett működve figyeli a hálózat használatában tapasztalt anomáliákat. – Kategóriái: • Hálózat alapú IDS • Hoszt alapú IDS – Típusai: • Szignatúra alapú • Statisztika alapú • Neurális hálózattal támogatott Készítette: Brunner Csaba
  • 5. Információrendszerek Tanszék Gépi tanulás (Machine learning) § Machine learning – Gépi tanulás – „Célja annak a hipotézisnek a keresése, amely a legjobban illeszkedik a kiindulásul vett adatokra – azzal az elvárással, hogy az így megtanult minta vagy összefüggés alkalmazható legyen előre nem látott adatok esetére is.” (Sántáné-Tóth et al., 2008) § Tanuló algoritmusok kategóriái: – Felügyelt tanulás • Regresszió • Osztályozás – Nem-felügyelt tanulás § A választásom végül a Döntési fa algoritmusok közül az ID3 algoritmusra esett. Készítette: Brunner Csaba
  • 6. Információrendszerek Tanszék A MapReduce § MapReduce – Lényege: nagy mennyiségű adatot oszt fel párhuzamosan működő feldolgozó egységek között, majd az eredményeket valamilyen művelet segítségével összegzi Készítette: Brunner Csaba
  • 7. Információrendszerek Tanszék Kutatási módszertan – a feldolgozott adatbázis § A már bemutatott behatolás detektálási feladatra választott adatbázis: – KDD Cup 1999-es versenyének adatbázisa – 41 változó ~5 millió adata a tréning, és további ~2 millió a teszt állományban – A könnyebb feldolgozhatóság érdekében a biztosított 10%-os tréning és teszt mintákkal dolgoztam – Célváltozó: túl részletes volt, ezért egy fogalmi hierarchiát alkalmaztam Készítette: Brunner Csaba
  • 8. Információrendszerek Tanszék Kutatási módszertan – mintavételezés § Túl sok volt még így is az adatsor, mintavételezést kellett használni. § Egy további változó jellemző az volt, hogy 2, 4 vagy 8 feldolgozási szálon futott a program. § Mindent egybevetbe 28 kísérleti futtatásra került sor. Készítette: Brunner Csaba
  • 9. Információrendszerek Tanszék Eredmények értékelése – modell teljesítménye 5 osztályon 1g4sz 2g8sz Készítette: Brunner Csaba
  • 10. Információrendszerek Tanszék Eredmények értékelése –modell teljesítménye 2 osztályon Készítette: Brunner Csaba
  • 11. Információrendszerek Tanszék Eredmények értékelése - teljesítmény Készítette: Brunner Csaba
  • 12. Információrendszerek Tanszék Eredmények értékelése - teljesítmény Készítette: Brunner Csaba
  • 13. Információrendszerek Tanszék Eredmények értékelése - teljesítmény Készítette: Brunner Csaba
  • 14. Információrendszerek Tanszék Konklúzió § A hipotézisek: – 1.: az adatbányászati modell legalább elfogadható teljesítményt nyújt az adathalmazon? - beigazolódott – 2.: A párhuzamosításnak köszönhetően javulás várható a műveletvégrehajtási időben. – beigazolódott § Javaslatok a további kutatásra: – Adatok tárolása – Pontosabb előrejelzések – Összegzett teljesítmény Készítette: Brunner Csaba