Halil İbrahim ÇELENLİ
Makine Öğrenmesi Uygulamalarında Metin
Madenciliği
26/10/2018
Halil İbrahim ÇELENLİ
Makine öğrenmesi ve derin öğrenme alanlarında
çalışan bir mühendis ☺
2012 -2016 Cumhuriyet Üniversitesi Bilgisayar Mühendisliği (Lisans)
2017- ?? Kocaeli Üniversitesi Bilgisayar Mühendisliği (Lisansüstü)
2017- ?? Marmara Üniversitesi Bilgisayar Mühendisliği (Tübitak 1001 Proje)
2018- ?? Iceberg Technologies (Yapay Zeka Araştırmacısı)
github.com/ibrahimcelenli facebook.com/halilibrahim.celenli linkedin.com/in/halilibrahimcelenli
01
02
03
04
05
06
Konular
Genel bir değerlendirme.
Giriş
Metinler nasıl sınıflandırılır?
Metin Madenciliği
Metinler nasıl temsil edilir?
Metinlerin Temsil Edilmesi
Makine nasıl öğrenir?
Makine Öğrenmesi
Hangi programlama dili tercih edilmeli?
Programlama
Son sözler ve sorular?
Kapanış
1Giriş
https://www.kdnuggets.com/2016/03/data-science-puzzle-explained.html
https://trends.google.com/trends/explore?date=2018-01-01%202018-12-31&q=machine%20learning,deep%20learning,data%20science,data%20mining,ar
tificial%20intelligence
https://buzzrobot.com/difference-between-artificial-intelligence-machine-learning-and-deep-learning-ccfd779eca7b
2Metin Madenciliği
Doğal Dil İşleme
https://ontotext.com/top-5-semantic-technology-trends-2017/
https://data-flair.training/blogs/text-mining/
https://www.educba.com/important-text-mining-vs-natural-language-processing/
Metin Sınıflandırma
Spam algılama (mail)
Duygu analizi (olumlu, olumsuz)
Türlerine göre ayırma (haber)
Olumlu Olumsuz Film İncelemesi
İnanılmaz derecede hayal kırıklığı yaratan bir filmdi.
Bu şimdiye kadar çekilmiş en iyi komedi filmlerinden biri.
İlginç, en kötü yanı boks sahneleriydi.
Doküman Sınıflandırma
Konu Modelleme
Metin İşleme
Ön işlem (stop words, tokenization,stemmer )
Özellik üretme ve seçme (tf-idf ve bag of words)
Değerlendirme
http://www.rroij.com/open-access/text-mining-concepts-process-and-applications-36-39.pdf
Ön işlem
2) Stemmer
3) Stop Words
1)Tokenization
3Metinlerin Temsil
Edilmesi
Bag of Words
Term Frequency –Inverse Document Frequency (TF-IDF)
Word Embedding Yöntemleri
N-GRAMS
Cosine Similarity
4Makine Öğrenmesi
https://www.xenonstack.com/blog/data-science/overview-of-artificial-intelligence-and-role-of-natural-language-processing-in-big-data
http://usblogs.pwc.com/emerging-technology/machine-learning-methods-infographic/
Example
Priors
P(c)=
P(j)=
3
4
1
4
33
Conditional Probabilities:
P(Chinese|c) =
P(Tokyo|c) =
P(Japan|c) =
P(Chinese|j) =
P(Tokyo|j) =
P(Japan|j) =
(5+1) / (8+6) = 6/14 = 3/7
(0+1) / (8+6) = 1/14
(1+1) / (3+6) = 2/9
(0+1) / (8+6) = 1/14
(1+1) / (3+6) = 2/9
(1+1) / (3+6) = 2/9
Choosing a class:
P(c|d5)
P(j|d5) 1/4 * (2/9)3
* 2/9 * 2/9
≈ 0.0001
3/4 * (3/7)3
* 1/14 * 1/14
≈ 0.0003
Evaluation
True Negative + True Positive
Accuracy =
True Negative + False Positive + False Negative + True Positive
https://towardsdatascience.com/accuracy-precision-recall-or-f1-331fb37c5cb9
Cross Validation
https://dzone.com/articles/machine-learning-algorithms-2018-kaggle-ml-survey
Web Crawler
https://medium.com/swlh/ill-tell-you-why-deep-learning-is-so-popular-and-in-demand-5aca72628780
5Programlama
https://www.kdnuggets.com/2017/05/poll-analytics-data-science-machine-learning-software-leaders.html
https://www.kdnuggets.com/2017/05/poll-analytics-data-science-machine-learning-software-leaders.html
Tesla K80
6Kapanış
https://blog.ai-academy.com/six-graphs-to-understand-the-state-of-ai-academic-research-3a79cac4c9c2
World distribution of AI research
Github : https://github.com/ibrahimcelenli/tweet-classification
DİNLEDİĞİNİZ İÇİN TEŞEKKÜRLER ☺
İletişim : halilibrahimcelenli@gmail.com
github.com/ibrahimcelenli facebook.com/halilibrahim.celenli linkedin.com/in/halilibrahimcelenli

Makine Öğrenmesi Uygulamalarında Metin Madenciliği