Web Mining Nedir Genel Bilgilendirme

Mehmet AKŞAHİN
Bilgisayar Mühendisliği
Yüksek Lisans Öğrencisi

WEB MİNİNG
WEB MADENCİLİĞİ NEDİR?
NERELERDE KULLANILIR?

GİRİŞ
• Web Madenciliği; birçok mühendisin görüşüne
göre ilk kez Etzioni tarafından 1996’da ortaya
atılmıştır[1]
• Web Madenciliği, Veri Madenciliğinin alt dalıdır.
• Veri Madenciliğinden yola çıkarak, Web
Madenciliği, Metin Madenciliği gibi alt dallar
ortaya çıkmıştır.

GİRİŞ
• Veri toplamanın önemini kavrayan her firma ,
kamu kuruluşu ve benzeri kuruluşlar, verileri
depolayarak onlardan sonuçlar çıkarmaktadır.
• Ancak veri tabanlarından sorgular yardımı ile elde
edilen bilgiler sadece sorgu bazlı bilgiler olup en
üst düzeyde faydaya ulaşılamamaktadır.
Verilerden en yüksek şekilde faydalanabilmenin
yolu veri madenciliğinden geçmektedir.

Veri, Metin ve Web Madenciliği
• Veri Madenciliği yerine göre alt dallara
ayrılmaktadır.
• Veri madenciliği mevcut veriden anlamlı bilgileri,
ilişkileri çıkarmada kullanılan tekniklere verilen
genel isimdir. Veri madenciliği yapısal veriyi analiz
edebilmekte iken; metin ve web madenciliği
yapısal olmayan verinin, veri madenciliğinde
kullanılmak üzere, yapısal hale
dönüştürülmesinde kullanılmaktadır.

Veri, Metin ve Web Madenciliği
• Farklı birçok alanda kullanılabilen veri
madenciliğinin alt alanlarından Metin ve Web
Madenciliği; yapısal olmayan verinin metin ve
web madenciliği yöntemleri ile yapısal hale
dönüştürülmesi ile başlar ve teknik işlemlerle
devam eder.
• Ancak her şeyden önce; yapısal olmayan verinin,
veri,web veya metin madenciliğinde
kullanılabilecek bir yapısal veri haline gelmesi
gerekmektedir.

Yapısal ve Yapısal Olmayan Veriler
• Yapısal veri, bir yapı içerisinde organize edilebilen
ve bundan dolayı tanımlanabilen veri için
kullanılan bir terimdir. Yapısal veri, içerikteki veri
tipine göre organize edilebilen ve arama
yapılabilen veridir.
• En yaygın kullanılan yapısal veri kaynakları SQL
(Structured Query Language) ve Access gibi veri
kaynaklarıdır. SQL kaynaklar için Oracle,
PostgreSQL, Microsoft SQL Server gibi yardımcı
database programları kullanılabilir.

Yapısal ve Yapısal Olmayan Veriler
• Buna karşın yapısal olmayan verinin
tanımlanabilir bir yapısı yoktur.
• En çok bilinen yapısal olmayan veri türleri; resim
dosyaları, pdf, word ve text gibi metin dosyaları,
web üzerinde tutulan log dosyaları ve
epostalardır. Excel gibi hücre yapısına sahip veri
türleri yapısal olmasına rağmen halen yapısal
olma ve olmama konusundaki yeri tartışmalıdır.

Veri Madenciliğinin Metin ve Web
Madenciliğindeki Rolü
• Veri madenciliği çözümleri ve algoritmalar metin
veya web verisindeki kalıplar bulmadan veya
model oluşturmadan önce metin veya web
verisinin yapısal olması gerekmektedir.
• Metin ve Web madenciliği işlemleri, veri
madenciliğinde kullanılacak yapısal veriye
ulaşmak için kullanılan araçlar olarak
tanımlanabilir

Metin ve Web Madenciliği
• Metin ve web madenciliği son yıllarda oldukça
fazla çalışılan birbiri ile ilişkili alanlardır. Metin
madenciliği, çok büyük belgelerin analizi ve metin
tabanlı verinin içerisindeki gizli kalıpların elde
edilmesidir.
• Web madenciliği ise, web içerikleri, sayfa yapıları
ve web bağlantı istatistiklerinin de içinde olduğu
web ile ilişkili olan verinin analizini içermektedir
[10].

Metin Madenciliği
• Kısaca Metin Madenciliğinden bahsedersek;
• Metin verisindeki anlamın ortaya
çıkarılabilmesi için kullanılan yöntem metin
madenciliğidir.
• Metin yazımında standart kurallar
olmadığından dolayı bilgisayar bunları
anlayamamaktadır.

Metin Madenciliği
• Yapısal olmayan bilgiden içerik çıkarmak için
kullanılan geleneksel yöntemler; dilbilimsel
olmayan yöntemlerdir.
• Bu yöntemler, hem sorgudaki hem de
metindeki kelimelerin karakterlerini
karşılaştıran bir temele dayanır. Bundan dolayı
içeriği açıklayıcı sonuçlar elde edemez.

Metin Madenciliği
• Dili anlamanın temeli dilbilimsel yollara dayanır
ve bu Natural Language Processing (NLP) olarak
ifade edilir.
• NLP’yi içeren bir sistemde, karmaşık yapıların
bulunduğu ifadeler (örneğin; duştan akan soğuk
su ile içilen soğuk su arasındaki fark gibi) akıllı
olarak çıkarabilmekte ve terimleri sınıflayarak;
ürünler, organizasyonlar veya kişiler gibi sınıflara
atamaktadır.

Web Madenciliği Giriş
• Tüm bu özetlerden sonra asıl konumuz olan
Web Madenciliğine giriş yapacağız.
• Başta da belirtildiği gibi Web Madenciliğini
anlayabilmek için Veri Madenciliğini anlamak
ve Metin Madenciliği hakkında yüzeysel bilgi
sahibi olmak gerekmektedir.

Web Madenciliği
• Web kullanım madenciliği, bir veya birçok web
sunucusundan kullanıcı erişim desenlerinin
otomatik keşfinin ve analizin yapıldığı bir tip veri
madenciliği etkinliğidir.
• Birçok kuruluş pazar analizleri için geliştirdikleri
stratejileri ziyaretçi bilgilerine dayanarak yerine
getirir. Kuruluşlar günlük operasyonlarla her gün
yüzlerce MB veri toplamaktadır.

Web Madenciliği
• Bu bilgilerin çoğu web sunucuların otomatik
olarak tuttuğu günlük dosyalarından elde edilir.
Günlük dosyaları, istemciden sunucuya
gönderilen her bir isteğin bir kayıt olarak
eklenmesi ile meydana gelir.
• Günlük dosyalarının analizi, müşterilerin ilgi
alanları, ürünler üzerinden pazar stratejileri
oluşturma, promosyon kampanyalarının etkisi gibi
hususlarda, kurumlara karar süreçlerinde
yardımcı olur.

Web Madenciliği
• Sunucu erişim kayıtlarının ve kullanıcı kaydı
verilerinin analizi, aynı zamanda kurumun daha
etkili bir sunumunun yapılabilmesi için Web
sitesini nasıl daha iyi hale getirebileceği hakkında
değerli bilgiler sağlar.
• İntranet teknolojilerini kullanan kurumlarda, bu
tür analizler çalışma grubu iletişimi ve kurumsal
altyapının daha iyi işletilmesine ışık tutabilir.

Web Madenciliği
• Son olarak, World Wide Web üzerinden
reklam yapan kurumlar için kullanıcı erişim
desenlerini analiz etmek, reklamların belirli bir
kullanıcı grubuna yönlendirilmesine yardımcı
olur
• Web madenciliği alanları ve web kullanım
madenciliği aşamaları şeması bir sonraki
slaytta verilmiştir.

Web
Madenciliği
Web İçerik
Madenciliği
Web Yapı
Madenciliği
Web Kullanım
Madenciliği
Web Sayfa
İçerik
Madenciliği
Arama
Sonuç
Madenciliği
Genel Web
Kullanım
Madenciliği
Site
Güncelleme
Sistemleri
Sistem
İyileştirme
Kişiselleştirme

Web
Madenciliği
Web İçerik
Madenciliği
Web Yapı
Madenciliği
Web Kullanım
Madenciliği
Erişilebilir web
kaynaklarından
faydalı bilgi
bulmaya çalışır
Web sitesi ve
sayfalarının yapısal
olarak özetini
çıkarmaya çalışır
Kullanıcı erişimleri esnasında
oluşan hareket verisinden
anlamlı ve faydalı paternler
bulmaya çalışır

1. Web İçerik Madenciliği
• Web içerik madenciliği ile web sayfalarının
içerikleri incelenir ve kullanışlı bilgi çıkarımı
sağlanır.
• Web içerik madenciliği kullanarak web
sayfalarının başlıklar, içerisinde geçen
kelimeler, resimler veya müzik dosyalar
incelenir. Bulunan içeriklere göre web siteleri
belirli sınıflara veya kümelere ayrılabilir

1. Web İçerik Madenciliği
• Web içerik madenciliği web kaynaklarından
otomatik bilgi arama tekniklerini tanımlar. Verinin
farklı tiplerde oluşu ve yapısal olmayışı bu
konudaki tekniklere daha karışık yaklaşımlar
kazandırır.
• İki tip veri madenciliği stratejisi olabilir; metin
içeriklerini doğrudan arama ya da arama
motorları gibi araçların aramalarını yardımcı alan.

2. Web Yapı Madenciliği
• Web erişim araçlarının çoğu çok değerli olabilecek
bağlantı(link) verisini gözardı ederek sadece text
verisine ulaşır, Web yapı madenciliğinin amacı
web sitesi ve web sayfası hakkında bağlantı
verisine bakarak bilgi üretmektir.
• Teknik olarak, Web içerik madenciliği dökümanın
içeriğine, yapı madenciliği ise dökümanlar arası
bağlantılara yoğunlaşır

2. Web Yapı Madenciliği
• Yani web yapı madenciliği ile internetin temel
yapısını oluşturan web siteleri, web sayfaları
arası ya da web sayfasındaki bağlantılar
arasındaki ilişkiler incelenir.

3. Web Kullanım Madenciliği
• Web kullanım madenciliği ile web
sunucularında tutulan kullanıcı erişim kayıtları
incelenerek anlamlı ve faydalı kalıplar
bulunabilir. Web kullanım madenciliği
yöntemleri uygulanarak web sitelerini ziyaret
eden kişilerin davranış ve tutumları
belirlenebilir

• Web kullanım madenciliği kullanıcıların
web’de dolaşırken yaptıkları erişim
hareketlerince oluşturulan veriden bilgi
üretmeyi hedefler.
• Bu konudaki çalışmalar Genel Web Kullanım
Madenciliği, Site Güncelleme Sistemleri,
Sistem İyileştirme ve Kişiselleştirme başlıkları
altında toplanabilir.

1. Genel Web Kullanım Madenciliği Sistemleri kullanıcıların
genel davranış biçimerini bilinen ya da önerilen veri
madenciliği algoritmalarını sunucu erişim dosyalarındaki
veriye uygulayarak bulmaya çalışır.
2. Site Günçelleştirme Sistemlerinin hedefi ise site içerik ve
yapısında yapılması gereken tadilatları bulmaktır.
3. Sistem İyileştirme üzerine yapılan araştırmalar web
kullanım verisini kullanarak trafiği etkinleştirmeyi hedefler.
4. Son olarak, kişiselleştirme çalışmaları bireysel taleplere
gore değişen siteler oluşturmaya çalışır

Patern Bulma Teknikleri
• Her web madenciliği işlemi çeşitli araştırma
alanlarından uyarlanan patern bulma
tekniğine ihtiyaç duyar.

Veri
Temizleme
Veri Entegrasyonu
İlgili
Veri
Seçim
Veri Madenciliği
Patern Tespiti
Patern
Değerlendirme
Veritabanı
Anlamlı
Bilgi

• Tanımsal İstatistik : Web sitesindeki veriyi
tanımlamakta ve bilgi elde etmekte kullanılan
en güçlü teknikler istatistik metodlardır.
Analist farklı değişkenleri baz alan tanımlayıcı
istatistik analizler yapabilir.

• İlişkilendirme Kuralları (Association Rules):
Web alanında beraber kullanılan sayfalar
ilşkilendirme kuralları uygulanarak bulunup
aynı sunucuya konulabilirler. İlişkilendirme
kuralları genelllikle veri tabanındaki veriler
arasındaki ilşkileri tespit etmeye çalışır.

• Gruplama (Clustering) : Gruplama(kümeleme)
analizi veriler arasında benzer karakteristik
değerler taşıyanları bir araya getirerek gruplar
oluşturmayı hedefler.
• Sınıflandırma (Classification) : Bu teknikler
verileri ait oldukları tanımlı sınıflara koymaya
çalışır..

• Sıralı Paternler : Zamana yayılan veri kümeleri
arasında benzer paternler bulmaya çalışılır.
• Bağımlılık Modellemesi : Web değikenleri
arasındaki bağımlılıkları ortaya çıkaran
modeler oluşturmak hedeflenir.

SONUÇ
• Web madenciliğinin günümüzde birçok alanda
kullanılmasının en önemli sebebi; kişilerin web
sayfalarında göstermiş oldukları davranışların,
hareketlerin ve yapmış oldukları işlem
bilgilerinin var olan iş süreçlerine
entegrasyonunu sağlayarak müşterinin en iyi
şekilde anlaşılmasını sağlayan müşteri odaklı
bir sistem oluşturmasıdır.

Örnek
2002-01-06 13:45:24 65.116.145.138 - 193.255.141.93 80 GET
/dersler/grafik/Notes/default.html - 200
Mozilla/4.0+(compatible;+MSIE+5.0;+Windows+98;+DigExt)

Kaynaklar
• [1] Chakrabarti, S. (2003), Mining the Web: Discovering Knowledge from Hypertext Data, Morgan Kaufmann
• Publishers, San Francisco.
• [2] Dolgun, M.Ö. (2006), Büyük Al$veri$ Merkezleri Kçin Veri Madencilii Uygulamalar, Yüksek Lisans Tezi,
• Hacettepe Üniversitesi Fen Bilimleri Enstitüsü, Ankara.
• [3] Han, J., Kamber, M. (2001), Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, San
• Francisco.
• [4] Hearst, M. (2009), What is text mining, http://www.sims.berkeley.edu/~hearst/textmining.html.
• [5] Introduction to Text Mining (2008), SPSS Inc.
• [6] Liu, B. (2007), Web Data Mining: Exploring Hyperlinks, Contents and Usage Data, Springer.
• [7] Özdemir Güzel, T., Dolgun, M.Ö., Patr, U., Delilolu, S., Korkmaz, H.E. (2007), 2005 Yl Örenci Seçme
• Snav (ÖSS) Verileri Kullanlarak Örenci Profilinin Belirlenmesi, 5. +statistik Kongresi, Antalya.
• [8] Shapiro-Piatetsky, G., Steingold, S. (2000), Measuring Lift Quality in Database Marketing, ACM SIGKDD
• Explorations Newsletter, 2(2), 76-80.
• [9] Sholom M.W., Indurkhya N., Zhang T., Damerau F. (2004), Text Mining: Predictive Methods for
• Analyzing Unstructured Information, Springer.
• [10] Tan, A.H., Yu, P.S. (2004), Guest Editorial: Text and Web Mining, Applied Intelligence 18, 239-241,
• Kluwer Academic Publisher.
• [11] Unstructured data (2009), http://en.wikipedia.org/wiki/Unstructured_data.
• [12] W. Fan, L. Wallace, S. Rich, Z. Zhang. (2006), Tapping into the power of text mining, Communications of
• ACM, 49(9), 76-82.

Web Mining Nedir Genel Bilgilendirme

Recommended

Recommended

More Related Content

What's hot

What's hot (17)

Viewers also liked

Viewers also liked (10)

Similar to Web Mining Nedir Genel Bilgilendirme

Similar to Web Mining Nedir Genel Bilgilendirme (20)

Web Mining Nedir Genel Bilgilendirme

Editor's Notes