கற்கும்
கருவிகளுக்கான
மமாழியியல்
பயிலிகளில் மமாழிக் கூறுகளளப்
பயன் படுத்தும் வாய்ப்புகள்
இல.சுந்தர்
QUASILINGUIST@GMAIL.COM
ஒவ்மவாரு முளற ஒரு
மமாழியியலாளளர வீட்டுக்கு
அனுப்பும்பபாதும் எங்கள் மெயலியின
்
வீரியம் கூடுகிறது!
FRED JELINEK
இயல்மமாழி பக்குவத்தில் (NLP) மமாழியியல்
● மொல், உளரத் மதாகுதிகளாக்கம் (CORPUS CREATION)
○ வளகப்படுத்தலும் குறியிடலும் (TAGGING)
○ பமநிளலெ் மொல், கீநிளலெ் மொல் பட்டியலிடுதல் (HYPERNYMS AND HYPONYMS)
● இலக்கண வழியாகப் பகுப்பாய்தல் (GRAMMAR-BASED PARSERS)
இயல்மமாழிக் கணிளமெ் மெயலிகள்
● எழுத்துப்மபயர்ப்பு (TRANSLITERATION)
● ஒலிமபயர்ப்பு (TRANSCRIPTION)
● மமாழிமபயர்ப்பு (TRANSLATION)
● வளகப்படுத்தல் (CLASSIFICATION)
● உணர்வறிதல் (SENTIMENT DETECTION)
பயிலுதல் அறிமுகம்
• ஏற்கனபவ கண
் ட புள்ளிகளளப் பற்றிய தரவுகளளக் மகாண
் டு
புதிதாய்க் காணும் புள்ளிகளளப் பற்றி உளரத்தல்
• வளகப்படுத்தல் (எ.கா. உயிரின வளகப்பாடு)
• மதிப்புளரத்தல் (எ.கா. பங்குெ்ெந்ளதயில் விளல)
விளல
மெயற்ளகக் கற்றல் முளறளம
புள்ளிகளளப் பற்றிய பண
் புக்கூறுகளளப் பிரித்தல்
(extract features)
புள்ளிகளின் வளகப்பாட்ளட உள்ளிடுதல் (label
training data)
தக்கமதாரு பயிலிநுட்பத்ளதத் பதர்ந்மதடுத்தல்
(choose ML algo)
புள்ளிகளளக்மகாண
் டு பயிற்றுவித்தல் (train ML
model)
இன்னும் வளகப்படுத்தாத உருப்படிகளளப்
பயிலிகளளக் மகாண
் டு வளகப்படுத்தல் (label test
data)
இயந்திரக் கற்றலிலும் ஆழக்கற்றலிலும்
மூலம்: https://www.merkle.com/apac/blog/dispelling-myths-deep-learning-vs-machine-learning
வாய்ப்பியெ் ெரிவுத் தடம் (SGD)
நன
் றி: https://towardsdatascience.com/gradient-descent-animation-1-simple-linear-regression-
மீள்வரு நரம்புப் பிளணயம் (RNN)
நன
் றி: https://towardsdatascience.com/animated-rnn-lstm-and-gru-ef124d06cf45
OPENAI CHATGPT என
்ன மொல்கிறது?
மமாழியியளல எவ்வாறு பயன
் படுத்தலாம்?
● மநறியுளர தகுதரம் வழங்கல் LINGUISTICS AS A NORMATIVE STANDARD
● உளமமாழியியல்ொர் ஆய்வுக் கட்டு PSYCHOLINGUISTICS AND EXPERIMENTAL
CONTROL
● பண
் புக்கூறு மபறல் FEATURE EXTRACTION
● ஒலிக்பகாளவ SOUNDEX
● ஒலியன
் கூறுகள் PHONOLOGICAL FEATURES
● அலகீடு METRICAL ANALYSIS
மநறியுளர தகுதரம் வழங்கல்
• THE RATIO OF MEN WHO SURVIVE
TO THE WOMEN AND CHILDREN
WHO SURVIVE... IS/ARE?
யாப்பின
்
பதளவ
ஒலிக்பகாளவ பயன் பாடு
தீதும் நன
் றும்: தமிழ், மலையாள மமாழிக்
கருத்துகலள வளர்முக-எதிர்மலை
முலனகளிை் வலகப்படுத்தும் பயிலி
Theedhum Nandrum: A machine learning system to
classify the sentiment polarity of comments in Tamil and
Malayalam
இல. பாலசுந்தரராமன் , ெஞ்சீத் குமார்
L. BalaSundaraRaman, Sanjeeth Kumar
யூட்டியூபு கருத்துத்
மதாகுதி
தமிழ்
மளலயாள
மமாழிக்
கருத்துளரகள்
மபரும்பாலும்
திளரப்படங்க
ள் குறித்தளவ
தமிளழயும்
மளலயாளத்
ளதயும்
ஆங்கில
எழுத்துக்களி
ல்
எழுதியுள்ள
ளவ மிகுதி
ஆங்காங்பக
ஆங்கிலெ்
மொற்களும்
உள்ளன
எடுத்துக்காட்டுகள்
வளர்முக-எதிர்மளற
உணர்வுப்பகுப்பி
வளர்முக, எதிர்மளற,
கலந்த உணர்வு,
தமிழன்று என
வளகப்படுத்தல்
பத்தாயிரம்
புள்ளிகளளக் மகாண
் டு
ஐயாயிரம் புள்ளிகளள
வளகப்படுத்த
பவண
் டும்
பண
் புக்
கூறுகள்
• உணர்குறிகள் (Emoji)
• 😂
• 😍
• 😩
• 💯
• நீ ளம்
• மொல்லாட்சி ("கலக்கல்")
• மொற்மறாடரளமப்பு ("படம் ஊத்திக்கும்")
• மொல்மலாலிப்பு (Soundex)
• കാര്തിക്, കാര്ത്തിക്, കാര്തിഗ് = കAPKBF00
• கார்த்திக், கார்த்திக்கு = கAPKBF00
• Karthik = KAPKBF00
• கூகிள் மமாழியறிதல் உள்ளீடு
மமன
் மபாருள்
https://github.com/oligoglot/theedhum-
nandrum
வடிவளமப்பு: https://thariqueazeez.com/
கற்குங்கருவிகள் மமாழியியலுக்கு
● உளரயாக்கம் GENERATIVE AI FOR CORPUS
● மதாடரளடவு CONCORDANCE
● உருபன் பகுப்பாய்வு TAGGING
பமலும்
அறிந்து
மகாள்ள
• http://www.kaniyam.com/learn-
machine-learning-in-tamil/ எளிய
தமிழில் Machine Learning –
மின
்னூல் – து. நித்யா
• http://www.kaniyam.com/learn-
deep-learning-in-tamil/ எளிய
தமிழில் Deep Learning –
மதாழில்நுட்பம் – து. நித்யா
• https://towardsdatascience.com/mult
i-class-text-classification-with-lstm-
1590bee1bd17
நன
் றி நவிலல்
• ஈசுவர் சிரீதரன் - உணர்குறிகள்
மதாடர்பான பங்களிப்பு
• சுபவத் கமல் மிசுரா (Shwet Kamal Mishra) -
RNN மதாடர்பான அறிவுளரகள்
• தீதும் நன
்றும் சின
்னம் வடிவளமப்பு:
தாரிக் https://thariqueazeez.com/
உொத்துளண (பகுதி 1)
• Linzen, Tal. "What can linguistics and deep learning contribute to each other?." arXiv preprint
arXiv:1809.04179 (2018).
• Ettinger, Allyson. "What BERT is not: Lessons from a new suite of psycholinguistic diagnostics for
language models." Transactions of the Association for Computational Linguistics 8 (2020): 34-48.
• Chakravarthi, Bharathi Raja, Ruba Priyadharshini, Vigneshwaran Muralidaran, Shardul
Suryawanshi, Navya Jose, Elizabeth Sherly, and John Philip McCrae. "Overview of the track on
Sentiment Analysis for Davidian Languages in Code-Mixed Text." In Proceedings of the 12th
Forum for Information Retrieval Evaluation, 2020.
• Anoop Kunchukuttan. (2020). The IndicNLP Library.
https://github.com/anoopkunchukuttan/indic_nlp_library/blob/master/docs/indicnlp.pdf.
• Vanangamudi. (2020). indicnlp. https://github.com/indicnlp/solthiruthi-sothanaikal.
• Chakravarthi, Bharathi Raja., 2020. Leveraging orthographic information to improve machine
translation of under-resourced languages (Doctoral dissertation, NUI Galway).
• Kralj Novak P, Smailović J, Sluban B, Mozetič I (2015) Sentiment of Emojis. PLoS ONE 10(12):
e0144296. https://doi.org/10.1371/journal.pone.0144296.
உொத்துளண (பகுதி 2)
• Thottingal, S. (2018). libindic-soundex. https://github.com/libindic/soundex.
• Bhat, I., Mujadia, V., Tammewar, A., Bhat, R., & Shrivastava, M. (2015). IIIT-H System Submission for FIRE2014 Shared Task on
Transliterated Search. In Proceedings of the Forum for Information Retrieval Evaluation (pp. 48–53). ACM.D. E. Knuth, The Art of
Computer Programming, Vol. 1: Fundamental Algorithms (3rd. ed.), Addison Wesley Longman Publishing Co., Inc., 1997.
• Google Translation API V3. (2020). Language Detection Service.
https://cloud.google.com/translate/docs/reference/rest/v3/projects/detectLanguage.
• Zhang, T. (2004). Solving Large Scale Linear Prediction Problems Using Stochastic Gradient Descent Algorithms. In Proceedings of the
Twenty-First International Conference on Machine Learning (pp. 116). Association for Computing Machinery.
• Dravidian-CodeMix - FIRE 2020. (2020). Sentiment Analysis for Davidian Languages in Code-Mixed Text Rank List. https://dravidian-
codemix.github.io/2020/Dravidian-Codemix-Tamil.pdf.
• Sanjeeth Kumar, BalaSundaraRaman L., & Ishwar Sridharan. (2020). Theedhum Nandrum. https://github.com/oligoglot/theedhum-
nandrum.
• Chollet, F., & others. (2015). Keras. https://keras.io.
• Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V.,
Vanderplas, J., Passos, D., Brucher, M., Perrot, M., & Duchesnay, E. (2011). Scikit-learn: Machine Learning in Python Journal of
Machine Learning Research, 12, 2825–2830.
நன
் றி

Linguistics for machine learning applications.pptx