Əsgər Məmmədli
Elektron Hökumətin İnkişafı Mərkəzi
Proqram Təminatı departamenti, Data Mühəndisliyi şöbəsi
10 aprel 2019
NLP
NLP – Kompüterlərə insan dilinin (sözlərin, ifadələrin) öyrədilməsi haqqında elm sahəsidir.
Linguistics
NLP
ELIZA
İlk chatbot (MİT)
Psixoterapistin simulasiyası
1966
IBM-Georgetown,
İlk Maşın Tərcüməsi, Rus-İngilis
1954
LIFER/LADDER
İlk NLP VB Sistemi,
ABŞ Hərbi-Dəniz
qüvvələri üçün
1978
Racter
İlk ingilis dilində əsər
yazan proqram
1983
Qayda Əsaslı
Heuristik
Öyrənmə
IBM Watson
Jeopardy yarşında
ən güclü rəqiblərinə
qalib gəldi
2011
Anlayış
Tokenization
(token)
Stemming
(stem)
Lemmatization
(lemma)
Part-Of-Speech (POS)
Tagging
Nümunə asançılar asan asançı isim
Nümunə sinfini sinf sinif isim
Nümunə studied studi study NN
Nümunə is is be VB
Named Entity Recognition (NER):
StopWords:
Məsələn: ki, və, ilə, the, this, and
Chunking:
Nümunə:
Yazı və danışıq dilində 100 milyon söz toplusu
Korpus – böyük həcmdə mətnlər toplusudu. Bu mətnlər leksik, qrammatik, sintaktik,
semantik və s. informasiyaları təmin edir.
İngilis dili üçün məşhur korpuslar:
Yazı və danışıq dilində 22 milyon söz toplusu
(1990-cı ildən etibarən)
Spoken English Corpus (SEC)
53,637 sözdən ibarət 339 dəqiqəlik səs yazısı
Mənbə: https://www.ibm.com/blogs/watson/2016/05/biggest-data-challenges-might-not-even-know/
Mənbə: https://w3techs.com - 2018
İnternetdə kontentlərin dili
Mobil tərcüməçi
Dilmanc tərcümə
Dilmanc imla
Dilmanc səsləndirmə
Saytlar üçün
Dilmanc tərcümə düyməsi
Səslə idarə olunan
mini kompüter
Avtomatik məlumat-sorğu sistemi
Cümlə 1:
It was great. I came to Azerbaijan
several year ago and after 10
years your country turned to an
amazing, modern and attractive
country.
Cümlə 2:
We had diplomat friends driving
us everywhere but the roads and
driving habits were terrifying
Məlumatlar
Vote Classifier
Classic Naive Bayes
c1 = pos; c2 = neg
Logistic Regression
c1 = pos; c2 = pos
Linear Support Vector
Classification
c1 = pos; c2 = pos
с1 = 3/3 =1
c2 = 2/3 = 0.71
Textblob
Pattern
c1 = 0.48; c2 = -1.0
c1 = pos
c2 = neg
Alqoritm necə işləyir?
Faydalı linklər:
https://www.kaggle.com/
https://idao.world/
https://xgboost.readthedocs.io/en/latest/
https://www.kdd.org/kdd2016/papers/files/rfp0697-chenAemb.pdf
https://tech.yandex.com/catboost/
https://www.coursera.org/learn/machine-learning
https://www.edx.org/course/subject/data-analysis-statistics
https://pythonprogramming.net/
https://www.udemy.com/machinelearning/ (ödənişlidir)
http://digital.gov.az/
http://asankadr.az/

Natural Language Processing

Editor's Notes

  • #4 Automatic Language Processing Advisory Committee Karen Sparck Jones, “Natural language processing: a historical review”, 2001 Indiana University, “Introduction to Advanced Natural Language Processing”, 2015 Ekaterina Kochmar, "Introduction to Natural Language Processing - Cambridge Data Science Bootcamp", 2016 Diksha Khurana, Aditya Koli, Kiran Khatter, Sukhdev Singh, "Natural Language Processing: State of The Art, Current Trends and Challenges", 2017 Chris Manning, Richard Socher, "Natural Language Processing with Deep Learning", 2017 Wikipedia, “History of natural language processing”, 2017 Gartner.com, “Gartner Top 10 Strategic Technology Trends for 2018”, 2017
  • #8 Polyak?
  • #10 http://news.mit.edu/2015/how-three-mit-students-fooled-scientific-journals-0414