Metin Madenciliği & Veri Madenciliği Hakkında Bilgiler, Kullanım Alanları, Amaçları, İlişkili Olduğu Disiplinler ve Yöntemler | Sunum | @2019 K. Anıl AYDIN / Veri Madenciliği ve Uygulamaları
2. Metin Madenciliği Nedir?
2
Veri madenciliği, istatistik, veri
tabanı yönetim sistemleri ve
makine öğrenmesi gibi birçok
disiplini kullanarak daha önce
keşfedilmemiş ve açık bir şekilde
ortada olmayan bilgiyi çıkarmak
için kullanılan veri analiz
metodudur.
3. “
➔ En basit anlamda; Metin
madenciliği çalışmaları: metni veri
kaynağı olarak kabul eden veri
madenciliği (data mining)
çalışmasıdır.
➔ Diğer bir tanımla: Metin üzerinden
yapısallaştırılmış (structured) veri
elde etmeyi amaçlar.
3
Örneğin; metinlerin sınıflandırılması (classfication), bölütlenmesi
(clustering), metinlerden konu çıkarılması (entity extraction), sınıf
taneciklerinin üretilmesi (production of granular taxonomy), duygusal
analiz (sentimental analysis), metin özetleme (document
summarization), ve varlık ilişki modellemesi (entity relationship
modelling) gibi çalışmaları hedefler.
4. Veri madenciliği &
Metin madenciliği
Veri madenciliğinde
yapılandırılmış numerik veri
kullanılırken metin madenciliği
yapılandırılmamış metinler kullanılır.
Veri madenciliğinde kullanılan
veriler veri ambarlarında çıkartılmış,
dönüştürülmüş ve yüklenmiş durumda
bulunan verileri kullanırken metin
madenciliği kesin olmayan verileri
modellemeye çalışmaktadır.
4
5. Neden Kullanılır?
5
Metin madenciliği teknikleri yüksek boyutlu metin
içeriklerinden gözle görülmeyecek içeriklerin, ilişkilerin
ve örüntülerin çıkartılarak bunların yeni iş fırsatlarında
ve süreçlerinde kullanılmasını sağlar.
Metin madenciliği zaman ve kaynak tasarrufu sağlar.
Süreçler otomatize edilerek metin madenciliği
modellerinde elde edilen sonuçlar spesifik problemlerin
çözümünde kullanılabilir.
6. Hedefleri?
6
● Büyük hacimli metinsel veriden anahtar
konseptler , örüntüleri ve ilişkileri çıkarmamızı
sağlar.
● Metin içeriklerdeki trendleri gözlemleyerek gezi
ve eğlence alanında müşteri duygularını
anlamaya çalışır.
● Belgelerdeki içeriği özetleyerek basitçe daha
anlaşılır bir hale gelmesini sağlar.
● Tahminleme analitiklerinde kullanmak için metni
7. Örnek Metin Madenciliği Uygulaması
➔ Örneğin elimizde 100 adet yazı olsun.
➔ Bu yazıları yazan yazarları biliyor olalım.
(diyelim ki 5 farklı yazarın 20’şer adet
yazısı olsun).
➔ Yeni gelen 101. Yazının bu 5 yazardan
hangisine ait olduğunu bulmak, klasik bir
metin madenciliği uygulamasıdır.
➔ Ve literatürde yazar tanıma (author
recognition) olarak da geçer.
7
8. Metin Madenciliği İş Akışı
8
1. Probleminizin tanımı ve spesifik
amacınızı belirleyin.
2. Toplanacak metinleri belirleyin.
3. Metinleri organize ve
düzenleyin.
4. Özellik Çıkarın.
5. Modelinizi Belirleyin.
6. Bu modelinizi train/test olarak 2
ye böldükten sonra
değerlendirme yapın. (Precision,
Recall, Accuracy, Relevance)
ölçün
9. 6 Adım
9
➔ METİN TOPLAMA
➔ METİN ÖN İŞLEME
➔ ÖZELLİK SEÇME
➔ VERİ MADENCİLİĞİ
➔ GÖRSELLEŞTİRME
➔ DEĞERLENDİRME
10. Metin Madenciliği’ nde Kullanılan “6
ADIM”
1. Metin toplama:
İlgilenilen konularda
bilgi erişim sistemleri
kullanılarak metin
koleksiyonu oluşturma
sürecidir.
10
2. Metin ön işleme:
Metni kelimelere ayırma, kelimelerin
anlamsal değerlerini bulma, kelimeleri
köklerine ayırma ve gereksiz kelimeleri
ayıklama, dokümanı fazlalıklardan
arındırmak, gereksiz bilgileri çıkarmak,
yazım kurallarına uygunluğunu tespit
etmek, ekleri ve genel kelimeleri çıkarmak,
kelime köklerini belirlemek, önek ve
sonekleri ayırmak, kelime anlamlarını
belirlemek, ilişki analizi yapmak gibi metin
belgelerin yapıtaşı olan kelimelerle ilgili
işlemleri içeren süreçtir.
11. 3. Özellik seçme:
Bu aşamada ön işlemden
geçen metinlerdeki önemli
kelimeleri (varlıkları) belirleme
ve ilişkili olmayan özelliklerin
çıkarılması (sadece birkaç
dokümanda gözlemlenen
özelliklerin çıkarılması, birçok
dokumanda gözlemlenen
özellikleri azaltma) işlemleri
yapılmaktadır.
11
Metin Madenciliği’ nde Kullanılan “6
ADIM”
4. Veri madenciliği:
Yapılandırılmış format
haline getirilen metinlerin
geleneksel veri
madenciliği teknikleriyle
(karar ağaçları, yapay
sinir ağları, kümeleme
vb.) analizi sürecidir.
12. 6. Değerlendirme:
Genel olarak sistemlerin
değerlendirilmesinde duyarlılık (precision),
anma (recall) ya da ikisinin birleşiminden
oluşan F-score ölçütü kullanılmaktadır.
12
Metin Madenciliği’ nde Kullanılan “6
ADIM”
5. Görselleştirme:
Elde edilen sonuçların
kullanıcıya sunumunda en
etkin ve anlaşılır
görselleştirmenin
yapılması aşamasıdır.
- Duyarlılık, erişim çıktısındaki ilgili belge sayısının erişim
çıktısındaki belge sayısına oranıdır.
- Anma ise, erişim çıktısındaki ilgili belge sayısının belgeler
kümesinde ilgili belgeler sayısına oranıdır.
13. - Kullanılan Alanlar
⬡ Enformasyon Getirimi (Information Retrieval):
Bu aşama ilgilenilen külliyet (derlem, corpus) hakkında ön
bilginin toplandığı aşamadır.
⬡ Doğal dil işleme aşaması (natural language processing):
Bu aşama bütün metin madenciliği aşamalarında kullanılmasa
bile genelde özellik çıkarımı ve metinden bazı anlamsal
bilgilerin elde edilmesinde sıklıkla başvurulan aşamadır.
13
14. - Kullanılan Alanlar
⬡ Adlandırılmış varlık tanıma (named entity recognition):
Genellikle metin işleme aşamasında istatistiksel bazı özelliklerin
çıkarılması için kullanılır. Örneğin, metnin içerisindeki kişi
isimleri, yer isimleri, semboller, kısaltmalar v.s. bu yöntemle
bulunur.
⬡ Örüntüsü tanımlı varlıkların bulunması (pattern identified
entities): Bazı durumlarda, metnin içerisinden özel bazı
bilgilerin metin madenciliğine konu olması mümkündür.
14
15. - Kullanılan Alanlar
⬡ Eş Atıf (Coreference): Bir varlığa işaret eden (atıf eden) isim kelime
gruplarını ve diğer terimlerin bulunması/ayrılmasını hedefler.
⬡ İlişki, kural, olay çıkarımları: Çeşitli amaçlarla metnin içerisinden
bazı bilgilerin çıkarılması istenebilir.
⬡ Duygu analizi (sentimental Analysis): Metinlerde geçen duygusal
ifadelerin çıkarılmasını amaçlar. En sık kullanılanı duygusal
kutupsallıktır (sentimental polarity). Buna göre bir konu hakkında
geçen mesajların veya yazıların olumlu veya olumsuz olmasına göre
iki sınıfa ayrılması hedeflenir. 15
16. - Kullanılan Alanlar
⬡ Competitive Intelligence (Rekabetçi Zeka)
⬡ Life Sciences (Yaşam Bilimi)
⬡ Voice of the customer (Müşterinin Sesi)
⬡ Law enforcement (Yasaların uygulanması)
⬡ Sentiment Analysis and Trend Spotting
(Duygu Analizi ve Trend Gözlemleme/Takip)
⬡ Media and Publishing (Medya ve Yayıncılık)
⬡ Legal and Tax (Yasa ve Vergi)
16