SlideShare a Scribd company logo
1 of 19
Veri Madenciliği ve Uygulamaları Dersi
Kazım Anıl AYDIN @2019
Metin Madenciliği Nedir?
2
Veri madenciliği, istatistik, veri
tabanı yönetim sistemleri ve
makine öğrenmesi gibi birçok
disiplini kullanarak daha önce
keşfedilmemiş ve açık bir şekilde
ortada olmayan bilgiyi çıkarmak
için kullanılan veri analiz
metodudur.
“
➔ En basit anlamda; Metin
madenciliği çalışmaları: metni veri
kaynağı olarak kabul eden veri
madenciliği (data mining)
çalışmasıdır.
➔ Diğer bir tanımla: Metin üzerinden
yapısallaştırılmış (structured) veri
elde etmeyi amaçlar.
3
Örneğin; metinlerin sınıflandırılması (classfication), bölütlenmesi
(clustering), metinlerden konu çıkarılması (entity extraction), sınıf
taneciklerinin üretilmesi (production of granular taxonomy), duygusal
analiz (sentimental analysis), metin özetleme (document
summarization), ve varlık ilişki modellemesi (entity relationship
modelling) gibi çalışmaları hedefler.
Veri madenciliği &
Metin madenciliği
Veri madenciliğinde
yapılandırılmış numerik veri
kullanılırken metin madenciliği
yapılandırılmamış metinler kullanılır.
Veri madenciliğinde kullanılan
veriler veri ambarlarında çıkartılmış,
dönüştürülmüş ve yüklenmiş durumda
bulunan verileri kullanırken metin
madenciliği kesin olmayan verileri
modellemeye çalışmaktadır.
4
Neden Kullanılır?
5
Metin madenciliği teknikleri yüksek boyutlu metin
içeriklerinden gözle görülmeyecek içeriklerin, ilişkilerin
ve örüntülerin çıkartılarak bunların yeni iş fırsatlarında
ve süreçlerinde kullanılmasını sağlar.
Metin madenciliği zaman ve kaynak tasarrufu sağlar.
Süreçler otomatize edilerek metin madenciliği
modellerinde elde edilen sonuçlar spesifik problemlerin
çözümünde kullanılabilir.
Hedefleri?
6
● Büyük hacimli metinsel veriden anahtar
konseptler , örüntüleri ve ilişkileri çıkarmamızı
sağlar.
● Metin içeriklerdeki trendleri gözlemleyerek gezi
ve eğlence alanında müşteri duygularını
anlamaya çalışır.
● Belgelerdeki içeriği özetleyerek basitçe daha
anlaşılır bir hale gelmesini sağlar.
● Tahminleme analitiklerinde kullanmak için metni
Örnek Metin Madenciliği Uygulaması
➔ Örneğin elimizde 100 adet yazı olsun.
➔ Bu yazıları yazan yazarları biliyor olalım.
(diyelim ki 5 farklı yazarın 20’şer adet
yazısı olsun).
➔ Yeni gelen 101. Yazının bu 5 yazardan
hangisine ait olduğunu bulmak, klasik bir
metin madenciliği uygulamasıdır.
➔ Ve literatürde yazar tanıma (author
recognition) olarak da geçer.
7
Metin Madenciliği İş Akışı
8
1. Probleminizin tanımı ve spesifik
amacınızı belirleyin.
2. Toplanacak metinleri belirleyin.
3. Metinleri organize ve
düzenleyin.
4. Özellik Çıkarın.
5. Modelinizi Belirleyin.
6. Bu modelinizi train/test olarak 2
ye böldükten sonra
değerlendirme yapın. (Precision,
Recall, Accuracy, Relevance)
ölçün
6 Adım
9
➔ METİN TOPLAMA
➔ METİN ÖN İŞLEME
➔ ÖZELLİK SEÇME
➔ VERİ MADENCİLİĞİ
➔ GÖRSELLEŞTİRME
➔ DEĞERLENDİRME
Metin Madenciliği’ nde Kullanılan “6
ADIM”
1. Metin toplama:
İlgilenilen konularda
bilgi erişim sistemleri
kullanılarak metin
koleksiyonu oluşturma
sürecidir.
10
2. Metin ön işleme:
Metni kelimelere ayırma, kelimelerin
anlamsal değerlerini bulma, kelimeleri
köklerine ayırma ve gereksiz kelimeleri
ayıklama, dokümanı fazlalıklardan
arındırmak, gereksiz bilgileri çıkarmak,
yazım kurallarına uygunluğunu tespit
etmek, ekleri ve genel kelimeleri çıkarmak,
kelime köklerini belirlemek, önek ve
sonekleri ayırmak, kelime anlamlarını
belirlemek, ilişki analizi yapmak gibi metin
belgelerin yapıtaşı olan kelimelerle ilgili
işlemleri içeren süreçtir.
3. Özellik seçme:
Bu aşamada ön işlemden
geçen metinlerdeki önemli
kelimeleri (varlıkları) belirleme
ve ilişkili olmayan özelliklerin
çıkarılması (sadece birkaç
dokümanda gözlemlenen
özelliklerin çıkarılması, birçok
dokumanda gözlemlenen
özellikleri azaltma) işlemleri
yapılmaktadır.
11
Metin Madenciliği’ nde Kullanılan “6
ADIM”
4. Veri madenciliği:
Yapılandırılmış format
haline getirilen metinlerin
geleneksel veri
madenciliği teknikleriyle
(karar ağaçları, yapay
sinir ağları, kümeleme
vb.) analizi sürecidir.
6. Değerlendirme:
Genel olarak sistemlerin
değerlendirilmesinde duyarlılık (precision),
anma (recall) ya da ikisinin birleşiminden
oluşan F-score ölçütü kullanılmaktadır.
12
Metin Madenciliği’ nde Kullanılan “6
ADIM”
5. Görselleştirme:
Elde edilen sonuçların
kullanıcıya sunumunda en
etkin ve anlaşılır
görselleştirmenin
yapılması aşamasıdır.
- Duyarlılık, erişim çıktısındaki ilgili belge sayısının erişim
çıktısındaki belge sayısına oranıdır.
- Anma ise, erişim çıktısındaki ilgili belge sayısının belgeler
kümesinde ilgili belgeler sayısına oranıdır.
- Kullanılan Alanlar
⬡ Enformasyon Getirimi (Information Retrieval):
Bu aşama ilgilenilen külliyet (derlem, corpus) hakkında ön
bilginin toplandığı aşamadır.
⬡ Doğal dil işleme aşaması (natural language processing):
Bu aşama bütün metin madenciliği aşamalarında kullanılmasa
bile genelde özellik çıkarımı ve metinden bazı anlamsal
bilgilerin elde edilmesinde sıklıkla başvurulan aşamadır.
13
- Kullanılan Alanlar
⬡ Adlandırılmış varlık tanıma (named entity recognition):
Genellikle metin işleme aşamasında istatistiksel bazı özelliklerin
çıkarılması için kullanılır. Örneğin, metnin içerisindeki kişi
isimleri, yer isimleri, semboller, kısaltmalar v.s. bu yöntemle
bulunur.
⬡ Örüntüsü tanımlı varlıkların bulunması (pattern identified
entities): Bazı durumlarda, metnin içerisinden özel bazı
bilgilerin metin madenciliğine konu olması mümkündür.
14
- Kullanılan Alanlar
⬡ Eş Atıf (Coreference): Bir varlığa işaret eden (atıf eden) isim kelime
gruplarını ve diğer terimlerin bulunması/ayrılmasını hedefler.
⬡ İlişki, kural, olay çıkarımları: Çeşitli amaçlarla metnin içerisinden
bazı bilgilerin çıkarılması istenebilir.
⬡ Duygu analizi (sentimental Analysis): Metinlerde geçen duygusal
ifadelerin çıkarılmasını amaçlar. En sık kullanılanı duygusal
kutupsallıktır (sentimental polarity). Buna göre bir konu hakkında
geçen mesajların veya yazıların olumlu veya olumsuz olmasına göre
iki sınıfa ayrılması hedeflenir. 15
- Kullanılan Alanlar
⬡ Competitive Intelligence (Rekabetçi Zeka)
⬡ Life Sciences (Yaşam Bilimi)
⬡ Voice of the customer (Müşterinin Sesi)
⬡ Law enforcement (Yasaların uygulanması)
⬡ Sentiment Analysis and Trend Spotting
(Duygu Analizi ve Trend Gözlemleme/Takip)
⬡ Media and Publishing (Medya ve Yayıncılık)
⬡ Legal and Tax (Yasa ve Vergi)
16
“Metin Madenciliği”
nin ilişkili olduğu
disiplinler ve
yöntemler
17
18
Teşekkürler!
Sorularınız?
Kazım Anıl AYDIN
- Linkedin: /kazimanilaydin
Kaynaklar:
⬡ www.evrengunlugu.net
⬡ www.metinmadenciligi.com
⬡ bilgisayarkavramlari.sadievrenseker.com
⬡ biyo-informatik.blogspot.com
⬡ medium.com/algorithms-data-structures/
⬡ mis.sadievrenseker.com
19

More Related Content

What's hot

How Indeed asks coding interview questions
How Indeed asks coding interview questionsHow Indeed asks coding interview questions
How Indeed asks coding interview questionsFangda Wang
 
Chapter 12. Outlier Detection.ppt
Chapter 12. Outlier Detection.pptChapter 12. Outlier Detection.ppt
Chapter 12. Outlier Detection.pptSubrata Kumer Paul
 
Destek Vektör Makineleri - Support Vector Machine
Destek Vektör Makineleri - Support Vector MachineDestek Vektör Makineleri - Support Vector Machine
Destek Vektör Makineleri - Support Vector MachineOğuzhan TAŞ Akademi
 
Information Security in Big Data : Privacy and Data Mining
Information Security in Big Data : Privacy and Data MiningInformation Security in Big Data : Privacy and Data Mining
Information Security in Big Data : Privacy and Data Miningwanani181
 
POO - 02 - Fundamentos da Linguagem Java e da Orientação a Objetos
POO - 02 - Fundamentos da Linguagem Java e da Orientação a ObjetosPOO - 02 - Fundamentos da Linguagem Java e da Orientação a Objetos
POO - 02 - Fundamentos da Linguagem Java e da Orientação a ObjetosLudimila Monjardim Casagrande
 
Active learning lecture
Active learning lectureActive learning lecture
Active learning lectureazuring
 
Text classification presentation
Text classification presentationText classification presentation
Text classification presentationMarijn van Zelst
 
Text Classification in Python – using Pandas, scikit-learn, IPython Notebook ...
Text Classification in Python – using Pandas, scikit-learn, IPython Notebook ...Text Classification in Python – using Pandas, scikit-learn, IPython Notebook ...
Text Classification in Python – using Pandas, scikit-learn, IPython Notebook ...Jimmy Lai
 
Text classification
Text classificationText classification
Text classificationHarry Potter
 
Document clustering and classification
Document clustering and classification Document clustering and classification
Document clustering and classification Mahmoud Alfarra
 
Deep Learning Interview Questions And Answers | AI & Deep Learning Interview ...
Deep Learning Interview Questions And Answers | AI & Deep Learning Interview ...Deep Learning Interview Questions And Answers | AI & Deep Learning Interview ...
Deep Learning Interview Questions And Answers | AI & Deep Learning Interview ...Simplilearn
 
Feature selection
Feature selectionFeature selection
Feature selectionDong Guo
 
Real World End to End machine Learning Pipeline
Real World End to End machine Learning PipelineReal World End to End machine Learning Pipeline
Real World End to End machine Learning PipelineSrivatsan Srinivasan
 
Data science a machine learning tour (french)
Data science a machine learning tour (french)Data science a machine learning tour (french)
Data science a machine learning tour (french)Franck Bardol
 
K means and dbscan
K means and dbscanK means and dbscan
K means and dbscanYan Xu
 

What's hot (17)

How Indeed asks coding interview questions
How Indeed asks coding interview questionsHow Indeed asks coding interview questions
How Indeed asks coding interview questions
 
Chapter 12. Outlier Detection.ppt
Chapter 12. Outlier Detection.pptChapter 12. Outlier Detection.ppt
Chapter 12. Outlier Detection.ppt
 
Destek Vektör Makineleri - Support Vector Machine
Destek Vektör Makineleri - Support Vector MachineDestek Vektör Makineleri - Support Vector Machine
Destek Vektör Makineleri - Support Vector Machine
 
Information Security in Big Data : Privacy and Data Mining
Information Security in Big Data : Privacy and Data MiningInformation Security in Big Data : Privacy and Data Mining
Information Security in Big Data : Privacy and Data Mining
 
POO - 02 - Fundamentos da Linguagem Java e da Orientação a Objetos
POO - 02 - Fundamentos da Linguagem Java e da Orientação a ObjetosPOO - 02 - Fundamentos da Linguagem Java e da Orientação a Objetos
POO - 02 - Fundamentos da Linguagem Java e da Orientação a Objetos
 
Text mining
Text miningText mining
Text mining
 
Active learning lecture
Active learning lectureActive learning lecture
Active learning lecture
 
Text classification presentation
Text classification presentationText classification presentation
Text classification presentation
 
Text Classification in Python – using Pandas, scikit-learn, IPython Notebook ...
Text Classification in Python – using Pandas, scikit-learn, IPython Notebook ...Text Classification in Python – using Pandas, scikit-learn, IPython Notebook ...
Text Classification in Python – using Pandas, scikit-learn, IPython Notebook ...
 
Text classification
Text classificationText classification
Text classification
 
Document clustering and classification
Document clustering and classification Document clustering and classification
Document clustering and classification
 
Deep Learning Interview Questions And Answers | AI & Deep Learning Interview ...
Deep Learning Interview Questions And Answers | AI & Deep Learning Interview ...Deep Learning Interview Questions And Answers | AI & Deep Learning Interview ...
Deep Learning Interview Questions And Answers | AI & Deep Learning Interview ...
 
Feature selection
Feature selectionFeature selection
Feature selection
 
Real World End to End machine Learning Pipeline
Real World End to End machine Learning PipelineReal World End to End machine Learning Pipeline
Real World End to End machine Learning Pipeline
 
Data science a machine learning tour (french)
Data science a machine learning tour (french)Data science a machine learning tour (french)
Data science a machine learning tour (french)
 
Random Forest Algoritması
Random Forest AlgoritmasıRandom Forest Algoritması
Random Forest Algoritması
 
K means and dbscan
K means and dbscanK means and dbscan
K means and dbscan
 

More from Kazım Anıl AYDIN

Metin Madenciliği Nedir? ( PDF Sunum )
Metin Madenciliği Nedir? ( PDF Sunum )Metin Madenciliği Nedir? ( PDF Sunum )
Metin Madenciliği Nedir? ( PDF Sunum )Kazım Anıl AYDIN
 
SIPOC Analizi | Üretim yönetimi dersi sunumu
SIPOC Analizi | Üretim yönetimi dersi sunumuSIPOC Analizi | Üretim yönetimi dersi sunumu
SIPOC Analizi | Üretim yönetimi dersi sunumuKazım Anıl AYDIN
 
C# ile iki konum (küresel koordinatlarla – enlem/boylam) arası mesafe hesaplama
C# ile iki konum (küresel koordinatlarla – enlem/boylam) arası mesafe hesaplamaC# ile iki konum (küresel koordinatlarla – enlem/boylam) arası mesafe hesaplama
C# ile iki konum (küresel koordinatlarla – enlem/boylam) arası mesafe hesaplamaKazım Anıl AYDIN
 
Malzeme taşıma si̇stemleri̇ - Üni̇te yük eki̇pmanları / Material Handling Sys...
Malzeme taşıma si̇stemleri̇ - Üni̇te yük eki̇pmanları / Material Handling Sys...Malzeme taşıma si̇stemleri̇ - Üni̇te yük eki̇pmanları / Material Handling Sys...
Malzeme taşıma si̇stemleri̇ - Üni̇te yük eki̇pmanları / Material Handling Sys...Kazım Anıl AYDIN
 
Benzetim modelleme örnekleri - Arena - Examples arena simulation program
Benzetim modelleme örnekleri - Arena - Examples arena simulation programBenzetim modelleme örnekleri - Arena - Examples arena simulation program
Benzetim modelleme örnekleri - Arena - Examples arena simulation programKazım Anıl AYDIN
 
Ölçme tekniği sunumu araştırma dosyası
Ölçme tekniği sunumu araştırma dosyasıÖlçme tekniği sunumu araştırma dosyası
Ölçme tekniği sunumu araştırma dosyasıKazım Anıl AYDIN
 
Sensörler ve transdüserler sunumu araştırma dosyası
Sensörler ve transdüserler sunumu araştırma dosyasıSensörler ve transdüserler sunumu araştırma dosyası
Sensörler ve transdüserler sunumu araştırma dosyasıKazım Anıl AYDIN
 
Tat alma duyusu ve modellemesi araştırma dosyası
Tat alma duyusu ve modellemesi araştırma dosyasıTat alma duyusu ve modellemesi araştırma dosyası
Tat alma duyusu ve modellemesi araştırma dosyasıKazım Anıl AYDIN
 
Sensörler ve transdüserler sunumu
Sensörler ve transdüserler sunumuSensörler ve transdüserler sunumu
Sensörler ve transdüserler sunumuKazım Anıl AYDIN
 
Tat alma duyusu ve modellemesi̇
Tat alma duyusu ve modellemesi̇Tat alma duyusu ve modellemesi̇
Tat alma duyusu ve modellemesi̇Kazım Anıl AYDIN
 
Yalın üretim - Lean manufacturing
Yalın üretim - Lean manufacturingYalın üretim - Lean manufacturing
Yalın üretim - Lean manufacturingKazım Anıl AYDIN
 

More from Kazım Anıl AYDIN (11)

Metin Madenciliği Nedir? ( PDF Sunum )
Metin Madenciliği Nedir? ( PDF Sunum )Metin Madenciliği Nedir? ( PDF Sunum )
Metin Madenciliği Nedir? ( PDF Sunum )
 
SIPOC Analizi | Üretim yönetimi dersi sunumu
SIPOC Analizi | Üretim yönetimi dersi sunumuSIPOC Analizi | Üretim yönetimi dersi sunumu
SIPOC Analizi | Üretim yönetimi dersi sunumu
 
C# ile iki konum (küresel koordinatlarla – enlem/boylam) arası mesafe hesaplama
C# ile iki konum (küresel koordinatlarla – enlem/boylam) arası mesafe hesaplamaC# ile iki konum (küresel koordinatlarla – enlem/boylam) arası mesafe hesaplama
C# ile iki konum (küresel koordinatlarla – enlem/boylam) arası mesafe hesaplama
 
Malzeme taşıma si̇stemleri̇ - Üni̇te yük eki̇pmanları / Material Handling Sys...
Malzeme taşıma si̇stemleri̇ - Üni̇te yük eki̇pmanları / Material Handling Sys...Malzeme taşıma si̇stemleri̇ - Üni̇te yük eki̇pmanları / Material Handling Sys...
Malzeme taşıma si̇stemleri̇ - Üni̇te yük eki̇pmanları / Material Handling Sys...
 
Benzetim modelleme örnekleri - Arena - Examples arena simulation program
Benzetim modelleme örnekleri - Arena - Examples arena simulation programBenzetim modelleme örnekleri - Arena - Examples arena simulation program
Benzetim modelleme örnekleri - Arena - Examples arena simulation program
 
Ölçme tekniği sunumu araştırma dosyası
Ölçme tekniği sunumu araştırma dosyasıÖlçme tekniği sunumu araştırma dosyası
Ölçme tekniği sunumu araştırma dosyası
 
Sensörler ve transdüserler sunumu araştırma dosyası
Sensörler ve transdüserler sunumu araştırma dosyasıSensörler ve transdüserler sunumu araştırma dosyası
Sensörler ve transdüserler sunumu araştırma dosyası
 
Tat alma duyusu ve modellemesi araştırma dosyası
Tat alma duyusu ve modellemesi araştırma dosyasıTat alma duyusu ve modellemesi araştırma dosyası
Tat alma duyusu ve modellemesi araştırma dosyası
 
Sensörler ve transdüserler sunumu
Sensörler ve transdüserler sunumuSensörler ve transdüserler sunumu
Sensörler ve transdüserler sunumu
 
Tat alma duyusu ve modellemesi̇
Tat alma duyusu ve modellemesi̇Tat alma duyusu ve modellemesi̇
Tat alma duyusu ve modellemesi̇
 
Yalın üretim - Lean manufacturing
Yalın üretim - Lean manufacturingYalın üretim - Lean manufacturing
Yalın üretim - Lean manufacturing
 

Metin Madenciliği Nedir? ( Sunum )

  • 1. Veri Madenciliği ve Uygulamaları Dersi Kazım Anıl AYDIN @2019
  • 2. Metin Madenciliği Nedir? 2 Veri madenciliği, istatistik, veri tabanı yönetim sistemleri ve makine öğrenmesi gibi birçok disiplini kullanarak daha önce keşfedilmemiş ve açık bir şekilde ortada olmayan bilgiyi çıkarmak için kullanılan veri analiz metodudur.
  • 3. “ ➔ En basit anlamda; Metin madenciliği çalışmaları: metni veri kaynağı olarak kabul eden veri madenciliği (data mining) çalışmasıdır. ➔ Diğer bir tanımla: Metin üzerinden yapısallaştırılmış (structured) veri elde etmeyi amaçlar. 3 Örneğin; metinlerin sınıflandırılması (classfication), bölütlenmesi (clustering), metinlerden konu çıkarılması (entity extraction), sınıf taneciklerinin üretilmesi (production of granular taxonomy), duygusal analiz (sentimental analysis), metin özetleme (document summarization), ve varlık ilişki modellemesi (entity relationship modelling) gibi çalışmaları hedefler.
  • 4. Veri madenciliği & Metin madenciliği Veri madenciliğinde yapılandırılmış numerik veri kullanılırken metin madenciliği yapılandırılmamış metinler kullanılır. Veri madenciliğinde kullanılan veriler veri ambarlarında çıkartılmış, dönüştürülmüş ve yüklenmiş durumda bulunan verileri kullanırken metin madenciliği kesin olmayan verileri modellemeye çalışmaktadır. 4
  • 5. Neden Kullanılır? 5 Metin madenciliği teknikleri yüksek boyutlu metin içeriklerinden gözle görülmeyecek içeriklerin, ilişkilerin ve örüntülerin çıkartılarak bunların yeni iş fırsatlarında ve süreçlerinde kullanılmasını sağlar. Metin madenciliği zaman ve kaynak tasarrufu sağlar. Süreçler otomatize edilerek metin madenciliği modellerinde elde edilen sonuçlar spesifik problemlerin çözümünde kullanılabilir.
  • 6. Hedefleri? 6 ● Büyük hacimli metinsel veriden anahtar konseptler , örüntüleri ve ilişkileri çıkarmamızı sağlar. ● Metin içeriklerdeki trendleri gözlemleyerek gezi ve eğlence alanında müşteri duygularını anlamaya çalışır. ● Belgelerdeki içeriği özetleyerek basitçe daha anlaşılır bir hale gelmesini sağlar. ● Tahminleme analitiklerinde kullanmak için metni
  • 7. Örnek Metin Madenciliği Uygulaması ➔ Örneğin elimizde 100 adet yazı olsun. ➔ Bu yazıları yazan yazarları biliyor olalım. (diyelim ki 5 farklı yazarın 20’şer adet yazısı olsun). ➔ Yeni gelen 101. Yazının bu 5 yazardan hangisine ait olduğunu bulmak, klasik bir metin madenciliği uygulamasıdır. ➔ Ve literatürde yazar tanıma (author recognition) olarak da geçer. 7
  • 8. Metin Madenciliği İş Akışı 8 1. Probleminizin tanımı ve spesifik amacınızı belirleyin. 2. Toplanacak metinleri belirleyin. 3. Metinleri organize ve düzenleyin. 4. Özellik Çıkarın. 5. Modelinizi Belirleyin. 6. Bu modelinizi train/test olarak 2 ye böldükten sonra değerlendirme yapın. (Precision, Recall, Accuracy, Relevance) ölçün
  • 9. 6 Adım 9 ➔ METİN TOPLAMA ➔ METİN ÖN İŞLEME ➔ ÖZELLİK SEÇME ➔ VERİ MADENCİLİĞİ ➔ GÖRSELLEŞTİRME ➔ DEĞERLENDİRME
  • 10. Metin Madenciliği’ nde Kullanılan “6 ADIM” 1. Metin toplama: İlgilenilen konularda bilgi erişim sistemleri kullanılarak metin koleksiyonu oluşturma sürecidir. 10 2. Metin ön işleme: Metni kelimelere ayırma, kelimelerin anlamsal değerlerini bulma, kelimeleri köklerine ayırma ve gereksiz kelimeleri ayıklama, dokümanı fazlalıklardan arındırmak, gereksiz bilgileri çıkarmak, yazım kurallarına uygunluğunu tespit etmek, ekleri ve genel kelimeleri çıkarmak, kelime köklerini belirlemek, önek ve sonekleri ayırmak, kelime anlamlarını belirlemek, ilişki analizi yapmak gibi metin belgelerin yapıtaşı olan kelimelerle ilgili işlemleri içeren süreçtir.
  • 11. 3. Özellik seçme: Bu aşamada ön işlemden geçen metinlerdeki önemli kelimeleri (varlıkları) belirleme ve ilişkili olmayan özelliklerin çıkarılması (sadece birkaç dokümanda gözlemlenen özelliklerin çıkarılması, birçok dokumanda gözlemlenen özellikleri azaltma) işlemleri yapılmaktadır. 11 Metin Madenciliği’ nde Kullanılan “6 ADIM” 4. Veri madenciliği: Yapılandırılmış format haline getirilen metinlerin geleneksel veri madenciliği teknikleriyle (karar ağaçları, yapay sinir ağları, kümeleme vb.) analizi sürecidir.
  • 12. 6. Değerlendirme: Genel olarak sistemlerin değerlendirilmesinde duyarlılık (precision), anma (recall) ya da ikisinin birleşiminden oluşan F-score ölçütü kullanılmaktadır. 12 Metin Madenciliği’ nde Kullanılan “6 ADIM” 5. Görselleştirme: Elde edilen sonuçların kullanıcıya sunumunda en etkin ve anlaşılır görselleştirmenin yapılması aşamasıdır. - Duyarlılık, erişim çıktısındaki ilgili belge sayısının erişim çıktısındaki belge sayısına oranıdır. - Anma ise, erişim çıktısındaki ilgili belge sayısının belgeler kümesinde ilgili belgeler sayısına oranıdır.
  • 13. - Kullanılan Alanlar ⬡ Enformasyon Getirimi (Information Retrieval): Bu aşama ilgilenilen külliyet (derlem, corpus) hakkında ön bilginin toplandığı aşamadır. ⬡ Doğal dil işleme aşaması (natural language processing): Bu aşama bütün metin madenciliği aşamalarında kullanılmasa bile genelde özellik çıkarımı ve metinden bazı anlamsal bilgilerin elde edilmesinde sıklıkla başvurulan aşamadır. 13
  • 14. - Kullanılan Alanlar ⬡ Adlandırılmış varlık tanıma (named entity recognition): Genellikle metin işleme aşamasında istatistiksel bazı özelliklerin çıkarılması için kullanılır. Örneğin, metnin içerisindeki kişi isimleri, yer isimleri, semboller, kısaltmalar v.s. bu yöntemle bulunur. ⬡ Örüntüsü tanımlı varlıkların bulunması (pattern identified entities): Bazı durumlarda, metnin içerisinden özel bazı bilgilerin metin madenciliğine konu olması mümkündür. 14
  • 15. - Kullanılan Alanlar ⬡ Eş Atıf (Coreference): Bir varlığa işaret eden (atıf eden) isim kelime gruplarını ve diğer terimlerin bulunması/ayrılmasını hedefler. ⬡ İlişki, kural, olay çıkarımları: Çeşitli amaçlarla metnin içerisinden bazı bilgilerin çıkarılması istenebilir. ⬡ Duygu analizi (sentimental Analysis): Metinlerde geçen duygusal ifadelerin çıkarılmasını amaçlar. En sık kullanılanı duygusal kutupsallıktır (sentimental polarity). Buna göre bir konu hakkında geçen mesajların veya yazıların olumlu veya olumsuz olmasına göre iki sınıfa ayrılması hedeflenir. 15
  • 16. - Kullanılan Alanlar ⬡ Competitive Intelligence (Rekabetçi Zeka) ⬡ Life Sciences (Yaşam Bilimi) ⬡ Voice of the customer (Müşterinin Sesi) ⬡ Law enforcement (Yasaların uygulanması) ⬡ Sentiment Analysis and Trend Spotting (Duygu Analizi ve Trend Gözlemleme/Takip) ⬡ Media and Publishing (Medya ve Yayıncılık) ⬡ Legal and Tax (Yasa ve Vergi) 16
  • 17. “Metin Madenciliği” nin ilişkili olduğu disiplinler ve yöntemler 17
  • 19. Kaynaklar: ⬡ www.evrengunlugu.net ⬡ www.metinmadenciligi.com ⬡ bilgisayarkavramlari.sadievrenseker.com ⬡ biyo-informatik.blogspot.com ⬡ medium.com/algorithms-data-structures/ ⬡ mis.sadievrenseker.com 19