இயந்திரக் கற்றல் பயிலிகளில் மொழியியல் கூறுகளை ஏற்றும் வாய்ப்புகள்
இல. பாலசுந்தரராமன், மைக்குரோசாட்டு, பெங்களூர்
கடந்த இருபது ஆண்டுகளில் இயந்திரக் கற்றல் (Machine Learning) நுட்பம் படிப்படியாக வளர்ச்சியடைந்து வந்துள்ளது. இன்று வகைப்படுத்தல் (classification), உணர்வறிதல் (sentiment identification), எழுத்துப்பெயர்ப்பு (transliteration), ஒலிபெயர்ப்பு (transcription), மொழிபெயர்ப்பு (translation) முதலிய வழக்கமான பணிகளுக்கு ஒவ்வொருவரும் தனித்தனியாக அடிப்படையிலிருந்து பயிலிகளைப் பயிற்றுவிக்க வேண்டியதில்லை எனும் நிலை ஏற்பட்டுள்ளது. இணையத்தில் கிடைக்கும் உரைகளைக் கொண்டு முன்பே பயிற்றுவித்த ஆழக்கற்றல் பயிலி மாதிரிகளை (Pre-trained Deep Learning Models) எவரும் தரவிறக்கிக் கொள்ள முடியும். பின்பு தத்தம் தேவைக்கேற்ப துறைசார், களம் சார் பயிற்சியுரைகளைக் கொண்டு பொதுப்பயிலிகளை கூடுதல் பயிற்சிக்குட்படுத்தி குறிப்பிட்ட பணிகளுக்குப் பயன்படுத்த முடிகிறது.
ஆழக்கற்றலில் மொழியியற் பண்புகள் எவற்றையும் நாம் உள்ளிட வேண்டியதில்லை என்றும் போதிய அளவு எடுத்துக்காட்டுகள் இருப்பின் எவ்வித மொழிப்பண்பையும் பயிலி பயின்றுகொள்ளும் என்று அழுத்தமானவொரு வாதமுள்ளது. இதனால் இனி இயல்மொழிச் செயிலிகளைச் செய்வதற்கு மொழியியல் தேவையா என்ற கேள்வியும் எழுந்துள்ளது. இச்சூழலில், சில குறிப்பிட்ட இடங்களில் மொழியியற் கூறுகளை இயந்திரக் கற்றலுக்கு உள்ளீடாக வழங்குவதன்மூலம் பயிலிகள் முன்னைக் காட்டிலும் சிறப்பாக இயங்கும் வாய்ப்புள்ளது என்று சில எடுத்துக்காட்டுகளின் வழியாகக் காணலாம். தமிழிலும் மலையாளத்திலும் அமைந்த யூட்டியூபுக் கருத்துகளின் உணர்வைப் பகுக்கும் பயிலியொன்றை இதற்கு எடுத்துக்காட்டாகக் கொள்ளலாம். இதற்கான பயிலியொன்றை தமிழையும் மலையாளத்தையும் அறியாத சீன மொழி ஆய்வர்கள் ஆழக்கற்றல் பயிலியைப் பயன்படுத்தி வியத்தகு அளவிற்கு செயற்படுத்தினார்கள். இருப்பினும் இதிலும் சில எளிய மொழியியற் கூறுகளைச் சேர்ப்பதன்மூலம் இன்னும் மேம்பட்ட பயிலியை உருவாக்க முடியுமென்பதைக் காணலாம்.
மேற்கோள்கள்
Qiu, Xipeng, Tianxiang Sun, Yige Xu, Yunfan Shao, Ning Dai, and Xuanjing Huang. "Pre-trained models for natural language processing: A survey." Science China Technological Sciences (2020): 1-26.
Christopher D. Manning; Computational Linguistics and Deep Learning. Computational Linguistics 2015; 41 (4): 701–707. doi: https://doi.org/10.1162/COLI_a_00239
Ou, Xiaozhi, and Hongling Li. "YNU@ Dravidian-CodeMix-FIRE2020: XLM-RoBERTa for Multi-language Sentiment Analysis." In FIRE (Working Notes), pp. 560-565. 2020.
Church, Kenneth, and Mark Liberman. "The Future of Computational Linguistics: On Beyond Alchemy." Frontiers in Artificial Intelligence 4 (2021): 10.
Balasundararaman L and Sanjeeth Kumar Ravindranath. 2020. Theedum Nandrum@Dravidian-CodeMix-FIRE2020: A sentiment polarity detection system for YouTube comments with code switching between Tamil, Malayalam and English. In FIRE (Working Notes). CEUR, Hyderabad, India
5. பயிலுதல் அறிமுகம்
• ஏற்கனபவ கண
் ட புள்ளிகளளப் பற்றிய தரவுகளளக் மகாண
் டு
புதிதாய்க் காணும் புள்ளிகளளப் பற்றி உளரத்தல்
• வளகப்படுத்தல் (எ.கா. உயிரின வளகப்பாடு)
• மதிப்புளரத்தல் (எ.கா. பங்குெ்ெந்ளதயில் விளல)
7. மெயற்ளகக் கற்றல் முளறளம
புள்ளிகளளப் பற்றிய பண
் புக்கூறுகளளப் பிரித்தல்
(extract features)
புள்ளிகளின் வளகப்பாட்ளட உள்ளிடுதல் (label
training data)
தக்கமதாரு பயிலிநுட்பத்ளதத் பதர்ந்மதடுத்தல்
(choose ML algo)
புள்ளிகளளக்மகாண
் டு பயிற்றுவித்தல் (train ML
model)
இன்னும் வளகப்படுத்தாத உருப்படிகளளப்
பயிலிகளளக் மகாண
் டு வளகப்படுத்தல் (label test
data)
12. மமாழியியளல எவ்வாறு பயன
் படுத்தலாம்?
● மநறியுளர தகுதரம் வழங்கல் LINGUISTICS AS A NORMATIVE STANDARD
● உளமமாழியியல்ொர் ஆய்வுக் கட்டு PSYCHOLINGUISTICS AND EXPERIMENTAL
CONTROL
● பண
் புக்கூறு மபறல் FEATURE EXTRACTION
● ஒலிக்பகாளவ SOUNDEX
● ஒலியன
் கூறுகள் PHONOLOGICAL FEATURES
● அலகீடு METRICAL ANALYSIS
13. மநறியுளர தகுதரம் வழங்கல்
• THE RATIO OF MEN WHO SURVIVE
TO THE WOMEN AND CHILDREN
WHO SURVIVE... IS/ARE?
16. தீதும் நன
் றும்: தமிழ், மலையாள மமாழிக்
கருத்துகலள வளர்முக-எதிர்மலை
முலனகளிை் வலகப்படுத்தும் பயிலி
Theedhum Nandrum: A machine learning system to
classify the sentiment polarity of comments in Tamil and
Malayalam
இல. பாலசுந்தரராமன் , ெஞ்சீத் குமார்
L. BalaSundaraRaman, Sanjeeth Kumar
26. உொத்துளண (பகுதி 1)
• Linzen, Tal. "What can linguistics and deep learning contribute to each other?." arXiv preprint
arXiv:1809.04179 (2018).
• Ettinger, Allyson. "What BERT is not: Lessons from a new suite of psycholinguistic diagnostics for
language models." Transactions of the Association for Computational Linguistics 8 (2020): 34-48.
• Chakravarthi, Bharathi Raja, Ruba Priyadharshini, Vigneshwaran Muralidaran, Shardul
Suryawanshi, Navya Jose, Elizabeth Sherly, and John Philip McCrae. "Overview of the track on
Sentiment Analysis for Davidian Languages in Code-Mixed Text." In Proceedings of the 12th
Forum for Information Retrieval Evaluation, 2020.
• Anoop Kunchukuttan. (2020). The IndicNLP Library.
https://github.com/anoopkunchukuttan/indic_nlp_library/blob/master/docs/indicnlp.pdf.
• Vanangamudi. (2020). indicnlp. https://github.com/indicnlp/solthiruthi-sothanaikal.
• Chakravarthi, Bharathi Raja., 2020. Leveraging orthographic information to improve machine
translation of under-resourced languages (Doctoral dissertation, NUI Galway).
• Kralj Novak P, Smailović J, Sluban B, Mozetič I (2015) Sentiment of Emojis. PLoS ONE 10(12):
e0144296. https://doi.org/10.1371/journal.pone.0144296.
27. உொத்துளண (பகுதி 2)
• Thottingal, S. (2018). libindic-soundex. https://github.com/libindic/soundex.
• Bhat, I., Mujadia, V., Tammewar, A., Bhat, R., & Shrivastava, M. (2015). IIIT-H System Submission for FIRE2014 Shared Task on
Transliterated Search. In Proceedings of the Forum for Information Retrieval Evaluation (pp. 48–53). ACM.D. E. Knuth, The Art of
Computer Programming, Vol. 1: Fundamental Algorithms (3rd. ed.), Addison Wesley Longman Publishing Co., Inc., 1997.
• Google Translation API V3. (2020). Language Detection Service.
https://cloud.google.com/translate/docs/reference/rest/v3/projects/detectLanguage.
• Zhang, T. (2004). Solving Large Scale Linear Prediction Problems Using Stochastic Gradient Descent Algorithms. In Proceedings of the
Twenty-First International Conference on Machine Learning (pp. 116). Association for Computing Machinery.
• Dravidian-CodeMix - FIRE 2020. (2020). Sentiment Analysis for Davidian Languages in Code-Mixed Text Rank List. https://dravidian-
codemix.github.io/2020/Dravidian-Codemix-Tamil.pdf.
• Sanjeeth Kumar, BalaSundaraRaman L., & Ishwar Sridharan. (2020). Theedhum Nandrum. https://github.com/oligoglot/theedhum-
nandrum.
• Chollet, F., & others. (2015). Keras. https://keras.io.
• Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V.,
Vanderplas, J., Passos, D., Brucher, M., Perrot, M., & Duchesnay, E. (2011). Scikit-learn: Machine Learning in Python Journal of
Machine Learning Research, 12, 2825–2830.