3. Veri madenciliği nedir?
Anlamlı desenler ve kurallar bulmak için büyük
miktardaki verinin analiz ve keşfidir.
Verinin faydalı özetinin ortaya çıkarılmasıdır.
Çok büyük veritabanlarındaki gizli kalmış global desenler
ve hasta verileri ile onların teşhis verileri arasındaki
ilişkiler gibi ilişkilerin taranıp bulunmasıdır.
Veri madenciliği verinin analizi ve veri kaynaklarındaki
benzerlik ve desenleri bulmak için kullanılan yazılım
teknikleri ile ilgilidir.
Veri madenciliği analizleri veriden işe güvenilir karar ve
sonuçlara varmak için verinin dönüşümü ile ilgilidir
4. Aşamaları nelerdir?
Seçim: Madenciliği yapılacak veri belli kriterlere göre
seçilir veya bölümlere ayrılır.
İlk İşlem: Bu aşama veri temizleme aşamasıdır,
gereksiz görülen bilgi silinir, mesela gebelik testinde
cinsiyet bilgisinin silinmesi gibi.
Dönüşüm: Veri sadece bir yerden bir yere taşınmaz,
veri kullanılabilir ve yönetilebilir hale getirilir.
Veri Madenciliği: Bu aşama verideki desenlerin
açığa çıkarılması ile ilgili aşamadır.
Yorum ve Biçimlendirme: Bu aşamada insani karar
verme, tahmin ve sınıflama işleri, veritabanının içerik
özeti ve bilgiye çevrilen desenler sistem tarafından
tanımlanır.
6. Geri planında hangi
disiplinler bulunur?
Makine öğrenimi
Uzman sistemler
İstatistik
Veritabanları
Görselleştirme
7. Uygulamaları nelerdir?
1. Bağıntı (Assocation) (Ör: Sepet Analizi)
2. Sınıflandırma (Classification)
3. Regrasyon (Ör: Kredi Skorlama)
4. Zaman içinde sıralı örüntüler (Sequence
patterns in time)
5. Benzer zaman sıraları (time series)
6. İstisnalar (Ör: Fark Saptanması)
7. Doküman madenciliği (Web Mining)
8. Teknikleri nelerdir?
1. İstatistiksel Yöntemler (Statistical
Methods)
2. Bellek Tabanlı Yöntemler (Memory
Based Reasioning)
3. Sinir Ağları (Neural Networks)
4. Karar Ağaçları (Decision Trees)
9. Örnek bir çalışma
Yaklaşık üç ay boyunca web sunucusu üzerinde toplanan
günlük verileri analiz için seçildi (seçim).
Sunucu dosyası içindeki analiz değeri olmayan (resim
dosyası istekleri vs.) kayıtlar elendi (ilk işlem)
Veriler dosyalardan veritabanına aktarıldı ve bazı veriler
üzerinde dönüşümler yapıldı (tarih ve saat gibi)
(dönüşüm)
Eğitilmeye hazır hale gelen veriler sınıflandırma işlemine
tabi tutuldu, bu işlemi yaparken karar ağaçları
tekniğinden faydalanıldı. (veri madenciliği)
Sınıflandırma sonrasında saldırı yapan ve normal
kullanıcıların profilleri ortaya çıkarıldı. (yorum biçim)
11. Saldırı nedir?
Bilgisayar sistemleri için güvenlik hedefleri;
güvenilirlik, bütünlük ve kullanılabilirliktir.
Bu güvenlik hedeflerini tehlikeye atmaya çalışan
etkilere saldırı adı verilir.
Saldırı engelleme için kullanılan doğrulama,
şifreleme ve benzeri teknikler yeterli değildir.
Bu yüzden saldırı tespit sistemi bir ihtiyaçtır.
12. Saldırı tespit sistemi
nedir?
Saldırı tespit sistemleri, İnternet veya yerel
ağdan gelebilecek ve ağdaki sistemlere zarar
verebilecek, çeşitli paket ve verilerden
oluşabilen saldırıları fark etmek üzere
tasarlanmış sistemlerdir. Temel amaçları
belirlenen kurallar çerçevesinde bu saldırıları
tespit ederek mail , sms , snmp mesajları gibi
araçlarla haber vermek ve gerekliyse bu
saldırıyı önlemektir.
13. Saldırı tipleri nelerdir?
Bir sisteme yapılan saldırılar genellikle;
Harici ataklar
Bir başkası gibi görünme
İmtiyazı kötüye kullanma
Gizli kullanıcılar
şekillerinde ortaya çıkmaktadırlar.
Saldırıları etkisiz hale getirmek için ise
engelleme, ele geçirme, caydırma, biçim bozma
ve bulma gibi teknikler kullanılabilir.
14. Saldırı tespiti metotları
nelerdir?
Anormallik Tabanlı: normal ve normal
olmayan kullanıcılar için tipik desenler tespit
edilir ve kullanılır.
İmza Tabanlı: önceki atakların ve eşleşen
desenlerin imzası modellenir.
Otomatik Kurallar: tarihsel bilgi kullanılarak
normal ve saldırı trafiği modellenir.
Kural Merkezli Politika: kurallar uzmanlar
tarafından belirlenir.
15. Saldırı tespiti
yaklaşımları nelerdir?
Kötüye Kullanım Tespiti:
saldırıları tanımak için çok iyi bilinen
desenlerden faydalanılır.
Problemi:saldırı desenleri elle kodlanır ve ilk kez yapılan saldırılar
tanınamaz.
Anormallik Tespiti:
normal kullanım desenlerinden
faydalanılarak normal olmayan (saldırı)
desenler bulunur.
Problemi: olaylar arasındaki ilişkilerin yakalanması mümkün
olamamaktadır.
16. Veri Madenciliği
Yaklaşımı
Saldırı tespiti için bir başka yaklaşım
veri madenciliği yaklaşımıdır.
Öğrenim ve tespit ajanları bulunur. Akıllı
ajan tabanlı bir yaklaşımdır.
Öğrenim ajanları tespit modelleri ile
devamlı eğitilirler, tespit ajanları ise
saldırıların tespiti için güncellenmiş
modeller sunarlar.
18. Saldırı Tespitinde
Veri Madenciliği
Saldırı tespitinde veri madenciliği
kullanımının sebepleri şunlardır;
Denetleme(audit) verisi üzerinde normal ve
saldırı etkinlikleri kanıt bırakırlar.
Veri merkezli bakış açısından bakıldığında
veri saldırı tespiti bir veri analiz işidir.
İstisna saptanması ve hata yönetimi gibi
başarılı uygulamalarla aynı etki alanı
içerisindedir.
19. Amaç
Web günlük dosyalarını kullanarak
saldırı tespiti yapma. Böylece IIS
açıklarını görerek önlem alınması.
20. Araç
Web sunucu günlüklerindeki verilerden
saldırı tespiti yapmak için araç olarak
veri madenciliği teknikleri kullanılacak.
Bu tekniklerden özellikle sınıflandırma,
kümeleme ve uyum kuralları üzerinde
durulacak.
21. Yöntem
Karar ağacı yöntemi ile kullanıcılar
normal ve anormal olmak üzere iki sınıfa
ayrılacak.
Uyum kuralları sayesinde, saldırı yapan
kullanıcıların sistemden hangi dosyaları
birlikte istedikleri bulunmaya çalışılacak.
Kümeleme sayesinde de kullanıcılar üç
boyutlu bir uzay sayesinde birbirine
yakınlık ve uzaklıklarına göre normal
veya anormal olarak tespit edilecek.
25. Temizleme aşaması
Günlük verileri arasında resim
dosyaları ile ilgili kayıtlar analiz
değeri olmayan kayıtlar oldukları
için temizlenmiştir.
26. Dönüşüm aşaması
Bu aşamada günlük verilerinden soyutlamalar
yoluyla istatistiksel bilgiler elde edilmiştir. Bu
bilgiler daha çok hit bilgileri şeklindedir.
Bu işlem ile günlük verileri üzerinde çalışılabilir
hale gelmiştir.
28. Veri madenciliği aşaması
Bu aşamada;
Sınıflandırma
Uyum kuralları
Kümeleme gibi temel veri madenciliği
teknikleri kullanılmıştır.
29. Sınıflandırma
Sınıflandırma uygulamasında amaç
dosya tiplerine göre ortalama dosya
isteklerinin dağılımını bulmaktır,
böylece dosya tipi ve ortalamalar
arasındaki ilişki bulunmaya
çalışılmaktadır.
31. Elde edilen sonuçlar
(default.ida) dosyası; code red virüsü ve
kurdu tarafından istenen dosya, özellikle
her bir bağlantıda tek istekte
bulunmakta.
(.asp ve .htm) dosyaları; ortalama istek
adetleri 16’dan daha düşük olmakta.
(.exe ve .dll) dosyaları; istek ortalamaları
daha çok 16’dan daha büyük olmakta.
35. Elde edilen sonuçlar
EXE ve DLL uzantılı dosya istekleri
arasında yüksek derecede bir uyum
bulundu.
ASP ve HTM uzantılı dosya istekleri
arasında da yüksek dereceli bir uyum
bulundu.
IDA uzantılı dosya isteklerinin diğer
dosya istekleri ile arasında bir uyum
olmadığı görüldü.
36. Bir problem ve çözümü
Sınıflandırma ve uyum kuralları teknikleri
ile kısmen ida uzantılı dosyaların saldırı
dosyası olduğu bulunsa dahi kimi zaman
normal dosya istekleri gibi davrandığı
(asp) görülmüştür.
IDA uzantılı dosya isteklerinin bu
tekniklerle bulunamaması üzerine başka
bir yöntem ile tespite çalışılmıştır.
Bu yöntem şudur; durum kodları ile
metotları saymak.
37. Yöntemin sonuçları
Bu yöntem uygulandığı zaman;
Durum kodu oranları incelendiğinde (ASP-%80, IDA-%79,
HTM-%77, EXE-%22, DLL-%21) gibi değerler bulunmakta
ve yine IDA uzantısı kamufle olmaktadır.
Metot kullanım sıklıkları ise (ASP-%20 POST, HTM-%20
POST, EXE-%2 POST, DLL-%0 POST, IDA-%2 POST)
şeklindedir.
Bu sonuçlara göre sınıflandırma ve uyum
kuralları yeterli gelmediğinde ek yöntemlerle
saldırı davranışının tespit edilebileceği
görülmüştür.
38. Sonuç
Web günlük verilerin sayılması veya istatistiksel
yöntemlerle özetinin çıkarılması bizlere saldırı
tespiti konusunda faydalı bilgi sağlamaktadır.
Bu çalışmada sınıflandırma, uyum kuralları ve
istatistiksel yöntemler kullanarak saldırı
davranışını modellemeye çalıştık.
Bu şekilde saldırı davranışını modellediğimiz
zaman saldırı dosyasının uzantısı ne olursa
olsun onu tanımak mümkün hale gelecektir.