நூல் ஆசிரியர் : P.ஜைனுல் ஆபிதீன்
பி.ஜே. அவர்களின் புத்தகங்கள் மற்றும் திருக்குர்ஆன் தமிழாக்கம் வாங்க பின் வரும் முகவரியைத் தொடர்பு கொள்ளவும்.
Moon Publication
83,மூர் தெரு, மண்ணடி,
சென்னை-6,00,001
Phone No: 004 65690810, Mobile No: 9444276341, 9976223885
இயந்திரக் கற்றல் பயிலிகளில் மொழியியல் கூறுகளை ஏற்றும் வாய்ப்புகள்
இல. பாலசுந்தரராமன், மைக்குரோசாட்டு, பெங்களூர்
கடந்த இருபது ஆண்டுகளில் இயந்திரக் கற்றல் (Machine Learning) நுட்பம் படிப்படியாக வளர்ச்சியடைந்து வந்துள்ளது. இன்று வகைப்படுத்தல் (classification), உணர்வறிதல் (sentiment identification), எழுத்துப்பெயர்ப்பு (transliteration), ஒலிபெயர்ப்பு (transcription), மொழிபெயர்ப்பு (translation) முதலிய வழக்கமான பணிகளுக்கு ஒவ்வொருவரும் தனித்தனியாக அடிப்படையிலிருந்து பயிலிகளைப் பயிற்றுவிக்க வேண்டியதில்லை எனும் நிலை ஏற்பட்டுள்ளது. இணையத்தில் கிடைக்கும் உரைகளைக் கொண்டு முன்பே பயிற்றுவித்த ஆழக்கற்றல் பயிலி மாதிரிகளை (Pre-trained Deep Learning Models) எவரும் தரவிறக்கிக் கொள்ள முடியும். பின்பு தத்தம் தேவைக்கேற்ப துறைசார், களம் சார் பயிற்சியுரைகளைக் கொண்டு பொதுப்பயிலிகளை கூடுதல் பயிற்சிக்குட்படுத்தி குறிப்பிட்ட பணிகளுக்குப் பயன்படுத்த முடிகிறது.
ஆழக்கற்றலில் மொழியியற் பண்புகள் எவற்றையும் நாம் உள்ளிட வேண்டியதில்லை என்றும் போதிய அளவு எடுத்துக்காட்டுகள் இருப்பின் எவ்வித மொழிப்பண்பையும் பயிலி பயின்றுகொள்ளும் என்று அழுத்தமானவொரு வாதமுள்ளது. இதனால் இனி இயல்மொழிச் செயிலிகளைச் செய்வதற்கு மொழியியல் தேவையா என்ற கேள்வியும் எழுந்துள்ளது. இச்சூழலில், சில குறிப்பிட்ட இடங்களில் மொழியியற் கூறுகளை இயந்திரக் கற்றலுக்கு உள்ளீடாக வழங்குவதன்மூலம் பயிலிகள் முன்னைக் காட்டிலும் சிறப்பாக இயங்கும் வாய்ப்புள்ளது என்று சில எடுத்துக்காட்டுகளின் வழியாகக் காணலாம். தமிழிலும் மலையாளத்திலும் அமைந்த யூட்டியூபுக் கருத்துகளின் உணர்வைப் பகுக்கும் பயிலியொன்றை இதற்கு எடுத்துக்காட்டாகக் கொள்ளலாம். இதற்கான பயிலியொன்றை தமிழையும் மலையாளத்தையும் அறியாத சீன மொழி ஆய்வர்கள் ஆழக்கற்றல் பயிலியைப் பயன்படுத்தி வியத்தகு அளவிற்கு செயற்படுத்தினார்கள். இருப்பினும் இதிலும் சில எளிய மொழியியற் கூறுகளைச் சேர்ப்பதன்மூலம் இன்னும் மேம்பட்ட பயிலியை உருவாக்க முடியுமென்பதைக் காணலாம்.
மேற்கோள்கள்
Qiu, Xipeng, Tianxiang Sun, Yige Xu, Yunfan Shao, Ning Dai, and Xuanjing Huang. "Pre-trained models for natural language processing: A survey." Science China Technological Sciences (2020): 1-26.
Christopher D. Manning; Computational Linguistics and Deep Learning. Computational Linguistics 2015; 41 (4): 701–707. doi: https://doi.org/10.1162/COLI_a_00239
Ou, Xiaozhi, and Hongling Li. "YNU@ Dravidian-CodeMix-FIRE2020: XLM-RoBERTa for Multi-language Sentiment Analysis." In FIRE (Working Notes), pp. 560-565. 2020.
Church, Kenneth, and Mark Liberman. "The Future of Computational Linguistics: On Beyond Alchemy." Frontiers in Artificial Intelligence 4 (2021): 10.
Balasundararaman L and Sanjeeth Kumar Ravindranath. 2020. Theedum Nandrum@Dravidian-CodeMix-FIRE2020: A sentiment polarity detection system for YouTube comments with code switching between Tamil, Malayalam and English. In FIRE (Working Notes). CEUR, Hyderabad, India
நூல் ஆசிரியர் : P.ஜைனுல் ஆபிதீன்
பி.ஜே. அவர்களின் புத்தகங்கள் மற்றும் திருக்குர்ஆன் தமிழாக்கம் வாங்க பின் வரும் முகவரியைத் தொடர்பு கொள்ளவும்.
Moon Publication
83,மூர் தெரு, மண்ணடி,
சென்னை-6,00,001
Phone No: 004 65690810, Mobile No: 9444276341, 9976223885
இயந்திரக் கற்றல் பயிலிகளில் மொழியியல் கூறுகளை ஏற்றும் வாய்ப்புகள்
இல. பாலசுந்தரராமன், மைக்குரோசாட்டு, பெங்களூர்
கடந்த இருபது ஆண்டுகளில் இயந்திரக் கற்றல் (Machine Learning) நுட்பம் படிப்படியாக வளர்ச்சியடைந்து வந்துள்ளது. இன்று வகைப்படுத்தல் (classification), உணர்வறிதல் (sentiment identification), எழுத்துப்பெயர்ப்பு (transliteration), ஒலிபெயர்ப்பு (transcription), மொழிபெயர்ப்பு (translation) முதலிய வழக்கமான பணிகளுக்கு ஒவ்வொருவரும் தனித்தனியாக அடிப்படையிலிருந்து பயிலிகளைப் பயிற்றுவிக்க வேண்டியதில்லை எனும் நிலை ஏற்பட்டுள்ளது. இணையத்தில் கிடைக்கும் உரைகளைக் கொண்டு முன்பே பயிற்றுவித்த ஆழக்கற்றல் பயிலி மாதிரிகளை (Pre-trained Deep Learning Models) எவரும் தரவிறக்கிக் கொள்ள முடியும். பின்பு தத்தம் தேவைக்கேற்ப துறைசார், களம் சார் பயிற்சியுரைகளைக் கொண்டு பொதுப்பயிலிகளை கூடுதல் பயிற்சிக்குட்படுத்தி குறிப்பிட்ட பணிகளுக்குப் பயன்படுத்த முடிகிறது.
ஆழக்கற்றலில் மொழியியற் பண்புகள் எவற்றையும் நாம் உள்ளிட வேண்டியதில்லை என்றும் போதிய அளவு எடுத்துக்காட்டுகள் இருப்பின் எவ்வித மொழிப்பண்பையும் பயிலி பயின்றுகொள்ளும் என்று அழுத்தமானவொரு வாதமுள்ளது. இதனால் இனி இயல்மொழிச் செயிலிகளைச் செய்வதற்கு மொழியியல் தேவையா என்ற கேள்வியும் எழுந்துள்ளது. இச்சூழலில், சில குறிப்பிட்ட இடங்களில் மொழியியற் கூறுகளை இயந்திரக் கற்றலுக்கு உள்ளீடாக வழங்குவதன்மூலம் பயிலிகள் முன்னைக் காட்டிலும் சிறப்பாக இயங்கும் வாய்ப்புள்ளது என்று சில எடுத்துக்காட்டுகளின் வழியாகக் காணலாம். தமிழிலும் மலையாளத்திலும் அமைந்த யூட்டியூபுக் கருத்துகளின் உணர்வைப் பகுக்கும் பயிலியொன்றை இதற்கு எடுத்துக்காட்டாகக் கொள்ளலாம். இதற்கான பயிலியொன்றை தமிழையும் மலையாளத்தையும் அறியாத சீன மொழி ஆய்வர்கள் ஆழக்கற்றல் பயிலியைப் பயன்படுத்தி வியத்தகு அளவிற்கு செயற்படுத்தினார்கள். இருப்பினும் இதிலும் சில எளிய மொழியியற் கூறுகளைச் சேர்ப்பதன்மூலம் இன்னும் மேம்பட்ட பயிலியை உருவாக்க முடியுமென்பதைக் காணலாம்.
மேற்கோள்கள்
Qiu, Xipeng, Tianxiang Sun, Yige Xu, Yunfan Shao, Ning Dai, and Xuanjing Huang. "Pre-trained models for natural language processing: A survey." Science China Technological Sciences (2020): 1-26.
Christopher D. Manning; Computational Linguistics and Deep Learning. Computational Linguistics 2015; 41 (4): 701–707. doi: https://doi.org/10.1162/COLI_a_00239
Ou, Xiaozhi, and Hongling Li. "YNU@ Dravidian-CodeMix-FIRE2020: XLM-RoBERTa for Multi-language Sentiment Analysis." In FIRE (Working Notes), pp. 560-565. 2020.
Church, Kenneth, and Mark Liberman. "The Future of Computational Linguistics: On Beyond Alchemy." Frontiers in Artificial Intelligence 4 (2021): 10.
Balasundararaman L and Sanjeeth Kumar Ravindranath. 2020. Theedum Nandrum@Dravidian-CodeMix-FIRE2020: A sentiment polarity detection system for YouTube comments with code switching between Tamil, Malayalam and English. In FIRE (Working Notes). CEUR, Hyderabad, India
This paper proposes a Tamil document summarization system that utilizes statistical, semantic, and heuristic methods to generate a coherent multi-document summary based on a given query. The system performs Latent Dirichlet Allocation (LDA) topic modeling on document clusters to identify important topics and words. Sentences are then scored based on topic modeling results and redundancy is removed using Maximal Marginal Relevance. The summary is generated from the highest scoring sentences in different perspectives based on the query topic or entities. Evaluation results show the system effectively summarizes multiple documents according to the query.
The document describes an indexing approach for faster retrieval of words from a database to generate Tamil lyrics based on part of speech, meter pattern, and rhyme scheme. It discusses the three rhyme schemes in Tamil (monai, edhugai, iyaibu) and meter patterns based on syllable length. The approach builds separate hash tables indexed by meter pattern and rhyming letters for each part of speech and rhyme scheme. Evaluating retrieval times shows the indexed approach takes on average 1.9 milliseconds compared to 875.47 milliseconds for an unindexed word-based approach, providing much faster retrieval with constant time complexity.
The document describes a template-based approach for generating multilingual summaries from documents in different languages. Templates are designed for tourism-related information like attractions, food, transportation. Information is extracted from documents represented in the Universal Networking Language (UNL) and used to generate summaries in both the source and target languages. Evaluation shows the approach achieves 90% accuracy in summary generation, though overall performance depends on factors like enconversion accuracy and dictionary coverage. The method can be extended to generate summaries for additional languages.
The document discusses analyzing Tamil lyrics to determine word frequency, rhyme patterns, and concept co-occurrence. It presents an analysis of over 2,000 Tamil songs to identify the top 10 most commonly used words, rhyme pairs, and co-occurring concepts. The analysis found that the lyrics most commonly expressed emotions of happiness and love. Future work could examine identifying emotions by genre and genre-specific rhyming patterns and concept relationships.
The document proposes an automated framework for generating Tamil summaries of cricket matches from statistical scorecard data. The framework performs data analytics on scorecards, determines interesting aspects of matches, extracts key events, and generates customized summaries in Tamil. It evaluates summaries based on their similarity to human-written ones. The implementation summarizes 90 cricket matches between various countries. Results found many hidden patterns and determined factors influencing match interestingness. Summaries were 70-85% similar to human ones, showing the framework can effectively analyze matches and automatically generate concise Tamil summaries.
1) The paper proposes an efficient Tamil text compaction system that reduces Tamil text to around 40% of the original by identifying word categories and mapping words to compact forms while maintaining meaning.
2) The system handles common Tamil words, abbreviations/acronyms, and numbers by using a morphological analyzer to identify word roots and a generator to re-add suffixes. Compact forms are retrieved from mappings stored in data structures like trees and hashmaps.
3) Testing on over 10,000 words showed the final text was reduced to 40% of the original size, providing a more efficient way to communicate in Tamil on platforms with character limits like social media and text messages.
The document appears to contain excerpts from multiple poems or writings discussing themes of love, tyranny, oppression, and resistance. It references kissing one's beloved, mountains kissing the sky, the sun and moon, and love being forsaken at death. It also mentions tyrants riding among the people, slashing and stabbing until their rage dies away, with the spilled blood speaking of their shame. Overall it touches on natural imagery, the fleeting nature of love, and standing up against oppression through nonviolent means.
Electronic commerce, commonly known as e-commerce, consists of buying and selling products or services over electronic systems like the Internet. It has grown significantly with widespread Internet usage and innovations in areas like online payment processing and supply chain management. There are two main types: business-to-business (B2B) commerce between companies, and business-to-consumer (B2C) commerce between companies and individuals. In the late 1990s, many Internet-based companies emerged but then failed in the "dot-com bubble," demonstrating the risks of online businesses. Successful e-commerce companies now take a long-term, relationship-building approach with customers to encourage loyalty.
The document summarizes several e-governance projects and services implemented in Tamil Nadu, India. It describes initiatives to provide online services for transportation licenses and registrations, commercial tax filings, scholarships, government procurement, social welfare programs, pregnancy monitoring, and technical education information. Many services allow citizens to apply, check status, and pay taxes online through a single window. Usage has increased significantly with over 1 million applications and registrations processed monthly in some programs.
This document discusses enriching Tamil and English Wikipedia entries about Classical Tamil literary works. It finds that currently, Wikipedia entries on these topics are often skeletal, lacking citations and coherent information. The document analyzes problems with presenting information on Classical Tamil literature in online encyclopedias. It provides an example of an existing brief English Wikipedia entry on a minor Tamil work and a proposed expanded Tamil Wikipedia entry on the same work to demonstrate how entries could be improved by making them more comprehensive with additional details, references and context. The goal is to help non-Tamil readers and scholars better understand important aspects of Tamil literature and culture through improved online encyclopedia entries.
The document discusses ways to popularize classical Tamil literature (Sangam literature) among common people in the age of blogs and social media. It notes that while Sangam literature is praised internationally, it is not well known within Tamil Nadu due to its archaic language and themes. It proposes using blogs and social media to present Sangam poems with explanations, illustrations, audio/video, and relating them to popular culture to make them more accessible. Experimental approaches like comic books and online databases of flora/fauna referenced could increase understanding. Sharing on social networks could spread the reach of such literature more widely. New approaches are needed to revitalize interest in Sangam works for modern audiences.
This document analyzes the impact of service-oriented architecture (SOA) and Web 2.0 on Tamil blogs and social networks. It discusses how SOA and Web 2.0 have enabled the growth of Tamil blogs and social media use among Tamils globally. The document evaluates several Tamil blogs and social networks to analyze how they discuss political and social issues in Tamil Nadu over the past year. However, it finds that the content on many of these sites lacks reliability and feeds readers incorrect information and opinions rather than facts. It concludes that content on Tamil online media requires auditing and certification to establish credibility and provide readers an accurate picture of issues.
This document summarizes an article about emerging technologies that enable autonomous language learning. It discusses how developments in mobile technology, social media, and online resources have increased opportunities for self-directed language learning. It provides examples of technologies that help develop learner autonomy, such as language learning diaries, e-portfolios, questionnaires, and personalized learning environments. It also emphasizes that autonomous learning works best when combined with teacher guidance and opportunities for peer interaction, such as through computer-mediated communication.
The document describes Agaraadhi, a novel online dictionary framework for the Tamil language. The framework indexes over 3 lakh Tamil words, providing morphological analysis, word usage statistics, translations to English, and more. It consists of online and offline components that together enable features like spelling correction, word suggestions, analyzing word usage in literature and social media, and games to support learning. The framework aims to provide more robust Tamil language reference than existing dictionaries.
A POS Tagger for Tamil Language”, Proceedings of the IJCNLP-2009, Suntec,
Singapore.
Dhanalakshmi V, Anand Kumar M, Soman K P and Rajendran S (2011), “Dependency
Parsing for Tamil using Malt Parser”, Proceedings of the International Conference on
Asian Language Processing (IALP), Bali, Indonesia.
Gimenez J and Marquez L (2004), “SVMTool: A general POS tagger generator based on
Support Vector Machines”, Proceedings of the 4th International Conference on Language
Resources and Evaluation (LREC 2004), Lisbon, Portugal.
Joakim Nivre and Johan Hall (
This document describes a factored statistical machine translation system from English to Tamil that incorporates Tamil morphology. The system first reorders and factors the English text, then uses morphological analysis and generation tools for Tamil to further factorize the text. This addresses challenges of translating between languages with different morphological structures and word orders. The system was shown to improve over a baseline SMT system for English to Tamil translation by integrating linguistic information like lemmas and morphological features.
1. The document describes a study that investigated the effectiveness of a learning package for teaching negations in Tamil to 6th standard students.
2. The study found that conventional teaching methods were ineffective in teaching negations in Tamil and students faced problems learning it.
3. The learning package was more effective at teaching negations than conventional methods, as shown by significant improvements in test scores for the experimental groups that used the package compared to the control groups.
This document provides an overview of computational linguistics and natural language processing. It discusses the field's history and development over time. Additionally, it describes several current and prospective applications of computational linguistics, including spell checking, grammar checking, information retrieval, summarization, translation, and more. The document aims to introduce computational linguistics and provide context around its relationship to computer science and artificial intelligence. It also highlights the important role of fundamental linguistic research.
This document describes a study on improving Tamil-English cross-language information retrieval through transliteration generation and mining techniques. The study achieved a peak Mean Average Precision of 0.5133 for monolingual English retrieval and 0.4145 for Tamil-English cross-language retrieval, representing an improvement over baselines without handling out-of-vocabulary terms. Transliteration mining performed better than generation at resolving out-of-vocabulary terms and boosting retrieval performance.
2. கணினிவழி தமி ெமாழியா வி ெபா மய க
Ambiguities in Computer Assisted Tamil Language Processing
இல.
இல தர
ைண ேபராசிாிய , ஒ கிைண பாள ,
கணினி தமி க வி தமி ேபராய , SRM ப கைல கழக . மி ன ச : sundarbaskar@gmail.com
ைர
கணினியி தமி ெமாழியி பய பா ெப கி ள . தமி ெமாழியி வள சி கணினியி
ப களி தவி க யாத ஒ றாகிவி ட . ெமாழி ஆ க வியாக கணினிைய பய ப தி
வ கிற நிைலயி தமி ெமாழி தர கைள அத ஓ ஒ கைம ட க தரேவ ள .
அதாவ கணித அ பைடயி ெமாழியி உ ள ெமாழியிய கைள கணினி ஏ ற
வைகயி மா றி தரேவ ள . இ தைகய வழி ைறகைள ெகா பேத கணினி ெமாழியிய
எ பதா . ெமாழி ெசய ப வதி உ ளஒ ைறயி ெதா தா இல கண . இ தைகய
ஒ ைற ந ன, ெதாழி ப வள சிகளினா ெமாழி உலகமயமா க ழ னா
சிைத மா ப வ கிற . ெமாழிைய இ தைகய சிைத களி மீ ெட க ெமாழியிய
கைள ைறயாக க , பய ப தேவ ய க டாய ஏ ப ள .
ெபா மய க தமி ெமாழி பய பா உ வா கி ற நிைல பா கைள ,கணினிவழி
ஆ ெச ேபா ஏ ப கிற ெமாழியைம சி க கைள ,அவ ைற தவி பத கான
வழி ைறகைள , ெமாழியிய வைக பா ெநறி ைறகைள எ வதாக இ
க ைர அைமகிற .
இய ைகெமாழியா ; கணினிெமாழியிய ; ெமாழி ெதாழி ப :
தமி ெமாழியி இய கைள ெதளிவாக அறி ெகா ள ஒ யனிய , உ பனிய , ெதாடாிய
ம ெபா ைமயிய ேபா ற ெமாழியிய அறி இ றியைமயாதன.
மனித ைளைய ேபா கணினிைய இய ைகெமாழி அறிைவ ெபறைவ ,ெமாழி
ெதாட கைள ாி ெகா ள , உ வா க , ெச யைவ ய சிேய இய ைக ெமாழியா
(Natural Language Processing). இ தைகய இய ைகெமாழியா ைவ ேம ெகா ள உ வா க ப கிற
வழி ைறக ைற ப த ேம கணினி ெமாழியிய (Computational Linguistics). கணினி
ெமாழியிய ைணேயா ெமாழி ேதைவயான மி ன ெமாழி க விகைள உ வா க
உத பேம ெமாழி ெதாழி ப (Language Technology). இைவ தா தமி ெம
ெபா கைள உ வா வத ேம ெகா ள ப கிற ப ைற வள சி பணிக .
கணினி தமி வள சி எ ப தமி ெதாட கைள ாி ெகா ள (Understanding), அவ ைற
உ வா க (Generate) ேதைவயான தமி ெமாழி அறிைவ கணினி அளி பத காக நா
ேம ெகா ளேவ ய பணிகைள றி கிற . தமி தர கைள கணினி ாி ெகா
வைகயி ெகா பத ெமாழியிய விதிக ேகா பா க ைண ாிகி றன. கணினி
ெமாழியிய ேகா பா கைள ெகா ெமாழியி அைம ைப, இல கண ைத கணினி ேக ற
வைகயி நிர களாக )Programs(, மி ன இல கணமாக மா றி ெகா , தமி ெமாழியி
ேதைவைய நிைற ெச ய ேவ . இ வா தமி ெமாழியி அைம ைப ஒ கைம ட ,
180
3. விதிகளாக மா ேபா தமி ெமாழியி த கால எ வழ கி ப ேவ ைறக
பய ப த ப வதா ெசா கைள பிாி ேபா (Parsing) வாிைச ப ேபா (Sorting)
ப ேவ ெமாழி பய பா சி க க எ கி றன. இ தைகய ெமாழி பய பா
சி க களி ஒ தா ெபா மய க (Word Sense Ambiguity).
தமிழி ச தி பிைழதி தி (Sandhi Checker), உ பனிய ப பா வி (Morphological Parser),
ெதாடாிய ப பா வி (Syntactic Parser), அைடவி (Indexing)(ெசா லைட , ெதாடரைட ,
ெபா ளைட ), தானிய கி ேப அறிவா (Automatic Speech Recognizer-ASR), இய திர
ெமாழிெபய (Machine Translation) ஆகிய ெமாழியா ெம ெபா க விகைள உ வா
வதி இ தைகய ெபா மய க இைட றாக அைமகி றன. இவ ைற சாிெச ய, ெபா மய க
ெசா லகராதிைய உ வா கேவ ய அவசிய .
ெபா மய க - விள க
‘Word Sense Ambiguity’ எ ஆ கில ெசா தமிழி ெதளிவி ைம, ழ ப , க மய க ,
ெபா மய க , இ ெபா ப நிைல, ெதளிவ ற நிைல என ப ேவ நிைலகளி
ெபா ெகா ள ப கி ற . எனி , கணினிெமாழியிய ெபா மய க எ ேற
ைகயாள ப கி ற . இ தைகய ெபா மய க கைள கைளவைத கணினிெமாழியிய ‘Word
Sense Disambiguation )WSD(’ எ வ .
ஒ ெதாட த அைம பி ெவளி ேதா ற தி உ ேதா ற தி ெவ ேவ ெபா த கிற .
இ தைகய ெபா ைம மா பா ஏ ப வத ாிய சில ெசா க சில நிைலக இ
ேநா க ப கி றன. தமி மரபில கண தி ஒ ெசா றி த பல ெபா , பல ெபா றி த
ஒ ெசா எ ற வைக பா காண ப கிற . அகராதி நிைலயி ஒ ெசா பல ெபா க
இ கலா .ஆனா , இவ றி ெபா மய க எ ப மா ப ட .
ெபா மய க ஏ ப வத கான நிைல பா க
தமி ெமாழி தர க உலகளாவிய ெபா ெமாழியி த ைமகைள ெகா பேதா தம ெகன
சில தனி த ைமகைள ெகா கி றன. வழ கிழ த க தா க க தமிழி
கால காலமாக நிக ெகா ளன. சாதி, ெதாழி , வ டார ேபா றைவ சா த வழ க ,
ைறசா த வழ க ேப , எ எ நிைல பா க தமி ெமாழி தரவிைன
கணினியி ஏ திற ஏ றா ேபா ஒ ைம ப வத ெபா விதிகைள உ வா
வத இைட களாக அைமகி றன.
ெசா களி இல கண வைக பா ைட நா ைமயான இல கண அறி (Grammatical
Knowledge) ம உலகிய அறிவி (Pragmatic Knowledge) ைணேயா அறிகிேறா . ஆனா
அவ ைற கணினி க த வதி ப ேவ ெமாழியைம சி க க எ கி றன. அவ ைற
சாிெச வத உ பனிய , ெதாடாிய ப பா க ைண ாிகி றன. ஒ ெதாடாி ஒ
ேம ப ட அைம க காண படலா . அதாவ றி பி ட ெதாடாி இட ெப ெசா க
த க ெவ ேவ வைகயி இைணயலா . அ ேபா ெபா மய க ஏ ப கிற .
ஆ கில தி ஒ ெபய (Transliterate) எ ேபா ைற ப த ப ட ஒ றி
எ கைள பய ப தேவ . ஆனா றி , ெந , ல,ழ,ள, ற,ர ேபா ற எ க
ேவ பா களி றி பய ப த ப வதா ெபா ழ ப அவ ைற உ சாி ேபா
ெதளிவி லாத நிைல காண ப கிற . எ கா டாக, பாட எ எ வைத ‘padam’
எ எ தினா பட எ ப பத வா பி கிற . எனேவ ம களி ெபய , ஊ ெபய ,
181
4. கவாி, ெபா களி ெபய ேபா றவ ைற தவறாக உ சாி கிற நிைல ஏ ப கிற . எனேவ,
இவ ைற ஓ ஒ ைற ெகா வரேவ .
ெபா ேவ பா ேவ ைம உ க , ச தி மா ற க , ல,ழ,ள, ற,ர ேவ பா க
கிய ப கா கி றன. ேம சாாிையக , இர த ேபா றைவ ைணெச கி றன.
பாட கைள ப ேபா எளிைமயாக ாி ெகா ளேவ ெம ேநா கி ெசா கைள
பிாி பதா உைரநைட எ ேபா ெபா மய வ ெதாியாம ெசா கைள பிாி பதா
ெபா மய கிற .ெபா மய க ஏ படாதவா பிாி கேவ எ பைத கவன தி
ெகா ளேவ ய அவசிய .ெபா உண திற ைற த இ கால தி பாட களி எ லா
ெசா கைள பிாி ேத எ த ேவ , எளிைம ப தேவ , சாதாரண ேப வழ கி
இ கேவ எ ப ேபா ற த ைமக கைடபி க ப கி றன .ேம , எ நைடயி
ம றவ களிடமி த கைள ேவ ப தேவ எ பத காக இ தைகய நிைல
இ கி ற .
1. தனி ெசா களா ஏ ப கிற ெபா மய க
சில தனி ெசா க ெதாட களி பய ப ேபா இ ேவ ெபா கைள த நி கி றன.
தமிழி தனி த சில ெசா கைள ெதாட களி பய ப ேபா அைவ ேதா ற தி ஒ
ேபால ெபா ளி இ ேவ நிைலகளி காண ப கி ற .ஒ ெதாடாி ேவைல எ ற ெசா
காண ப கிற . அ ‘ேவைலைய ’ றி கிறதா? அ ல ‘ேவ ’ எ ஆ த ைத றி கிறதா?
எ ற மய க ஏ ப கிற . ெதாட நிைலயி அத அ அ ல அத அைம த
ெசா ைல ைவ ேத, இ த ெசா இைத தா றி கிற எ அறிய கிற . நா ேவைல
வா கிேன .
[அவைர - அவ + ஐ அவைர ெச ], [வ ட - வ ட , தைலைய வ ட],
[காைல - கா + ஐ காைல ெபா ], [பா திர - கதா பா திர , சைமய பா திர ]
[ஆ - ஆ (River) எ (Number)], [எ ண-எ ண (Thinking) எ ண(Counting)]
ேம றி த சில ெசா க ட இர டா ேவ ைம உ வ ளதா அ ல தனி ெசா தானா
எ ற ழ பேம இ த ெபா மய க தி ாிய காரணமா . இ தைகய ழ பமி றி
ேவ ப வத சில இட களி ‘இ ’ சாாிைய பய ப த ப கிற .
கா + ஐ = காைத => கா +இ + ஐ = காதிைன.
கா + ஐ = காைட => கா + (இ ) + ஐ = கா ைட, கா ைன.
2. ெதாடரைம நிைலயி ஏ ப கிற ெபா மய க
ஒ ெதாட அைம பி எ லா ெசா க சாியான ெபா ைளேய த நி றா அைவ
ெபா ெகா ைறயி மய க ஏ ப கி றன. ‘ டா மரனி மைனவி’ எ
ெதாடாி டா எ ப மர ெபயரைடயாக வ கிறதா அ ல அவ மைனவி
ெபயரைடயாக வ கிறதா எ கிற ழ ப ஏ ப கிற . இ தைகய நிைலயி ேவ ைம உ
மைற வ வதா டா எ பத அ , கா ளி இ எ தாததா இ தைகய
ழ ப ஏ ப கிற . இதைன அைம ெபா மய க (Structural Ambiguity) எ ெமாழியிய
அறிஞ க வ . ெதாடாி றநிைலயி அகநிைலயி மா படாம ழ பமி றி
இ தா அைவ எ ெகா ைறயி ழ த ெபா ளி ேவ ப கி றன.
182
5. 3. ெசா கைள பிாி ேச எ கி ற நிைலயி ஏ ப கிற ெபா
மய க
தமிழி ேவ ெசா ட ப ேவ ப ட ஒ க இைணகி றன. அ வா இைண ேபா
அவ ேளேய ஓ இைய விதி உ வாகி ற . இ வா ெசா க ட ஒ கைள
இைண ேபா ெசா கைள பிாி ேச எ கி ற வழ க காண ப கி ற .
தமிழி ெமாழியிய விதி ப தனி நி ெபா தராத ைணவிைனக (Auxiliary Verb),
ஒ க (Affixes) மிதைவ ஒ க (Clitic) ேபா றவ ைற பிாி எ த டா எ பைத
மீ வ ெபா மய க தி கிய காரணமா .
ெபா வாக ஒ ெசா ைல பிாி ேதா ேச ேதா எ ேபா றவ த க தி அ பைடேய
மா கி ற நிைல ஏ ப கிற . எ கா டாக, அவ டேன எ ேச எ தினா with him
எ ெபா ப . அவ உடேன எ பிாி எ தினா he at once எ ெபா ப . எனேவ
மிக கவன ேதா இடமறி ெபா மய க ஏ படாதவா ேச ேதா பிாி ேதா எ தேவ .
ப கைல கழக , ெதாழி ப ேபா ற சில கைல ெசா கைள பிாி எ த டா .
இ ேபால ெமாழி பய பா விதிகைள ைறயாக பய ப தினா கணினிவழி
ெமாழியா ெபா மய கமி றி வாசி பத பய த .
• ைணவிைனக
வி (வ வி , ேபா வி , ப வி , கிவி ). ப (பா ப , ேவதைன ப , ஆைச ப ).
இ (பா ெகா , ப ெகா ). இ ேச தி , கா , பா தி ). ெகா
(ெதாி ெகா , பா ெகா ). ெகா ள (பா ெகா ள, ேபசி ெகா ள, அறி
ெகா ள). வி , வி ட (பா வி , ேபசிவி , பா வி ட , ேபா வி ட ). ப ,
ப ட (அறிய ப , விள க ப , ற ப ட , ேச க ப ட ). ேவ (பா க
ேவ , ெச லேவ , எ தேவ ). உ ள (ெதாியவ ள , பாட ப ள ).
ெகா , உ , ஆ , ேபா , வ , த , உ இ ேபா ற ஐ ப ேம ப ட ைணவிைனக
எ வழ கி ேப வழ கி காண ப கி றன. ஒ ெதாடாி ஒ ேம ப ட
ைணவிைனக இைண வ .
அவ க ப வி ெச றன . அவ க ப வி ெச றன .
பிாி எ தியதா இ வி ெதாட க கிைடேய ெபா ேவ பா ெதளிவாக ெதாிகிற .
• மிதைவ ஒ
தா - அைத தா , அவ தா , அ ேபா தா , அதனா தா .
பி ெனா
கீ , ேம - ைறயி கீ , தைலேம . வழி - கணினிவழி, அத வழி.
விட - அவைனவிட, ேபசியைதவிட.
விைன வி தி
ேபா - ெசா னேபா , பா தேபா . ப - அத ப , ெசா னப .
ெபா நிைல
க - அத க . கால - இைட கால , ச ககால .
வர - ெச வர, நட வர.
183
6. உ பனிய ெபா மய க
ஒ ெசா ஓ உ ப ெகா டதாகேவா அ ல அத ேம ப ட உ ப களாகேவா இ கலா .
ப ேவ உ ப களா உ வான ெசா கைள கணினிவழி ப பா ெச வ ‘உ பனிய
ப பா ’எ பதா . இத காக உ பனிய ப பா விக (Morphological Parsers) உ வா க
ப வ கி றன. இ வா உ வா ேபா ெபா மய க ெசா களி சி க க ேநா க
த கதாக உ ளன.
இய திர ெமாழிெபய பி (Machine Translation) கணினிெமாழியிய விதியான இ நிைல
உ பனிய (Two Level Morphology) எ ற ெமாழி த ைம றி ஆரா வ . ஒ ெதாடாி
அ நிைல (Deep Structure), றநிைல (Surface Structure) ஆகிய இர காண ப . இவ
றநிைலயி எ தவித மா பா ஏ ப வதி ைல. ஆனா , ெபா மய க ெசா க வ ேபா
அகநிைலயி ழ ப ஏ ப கிற .
தமிழி காண ப ெதாட களி ேவ ெசா க தனி வி திகேள காண ப கி றன.
தனி த ெசா கைள க டறிவத அகராதிகைள பய ப தலா . ம றவ ைற உ ளீ ெச
ஆ ெச ேத ப தறிய . ேவ ெசா கைள ஒ கைள ப , ெபா மய கமி றி
வைக ப வத உ பனிய ப பா அவசியமாகிற .
ெமாழியிய வைக பா ெபா மய க
ெமாழியிய அ பைடயி ெபா மய க ைத, ஒ யனிய (Phonology), உ பனிய
(Morphology), ெதாடாிய (Syntax), ெசா ெபா ைமயிய (Semantics), க தாட (Discourse)
ஆகிய நிைலகளி வைக ப தலா .
ஒ யனிய (ச தி) நிைலயி , ‘ேவைல ெச தா ’, ‘ேவைல ெச தா ’ எ பவ றி தலாவ
ேவைல பணிைய றி கிற , இர டாவ ேவைல க விைய றி கிற . உ பனிய நிைலயி ,
‘நா க தி வி ேற ’ எ ற ெதாடாி க தி எ ற ெபயைர றி கிறதா அ ல விைனைய
றி கிறதா எ பதி ழ ப ஏ ப கிற . ெதாடாிய நிைலயி , ‘நா இராமேனா சீைதைய
பா ேத ’ எ ற ெதாடாி இர வைகயாக ெபா ெகா ளலா . நா இராம சீைதைய
பா ேதா எ நா இராம சீைத ேச தி ேபா பா ேத எ ெபா
ப கிற . ெசா ெபா ைம நிைலயி , ‘ப ைச கா கறி’, ‘ப ைச ெபா ’, ‘ப ைச உட ’ ஆகிய
ெதாட களி ப ைச எ ற ெசா ேவ ப ட ெபா கைள றி நி கிற . றி எ த
ெபா ைள எ ெகா வ எ ப அத அ த ெசா ைல ெபா த .க தாட நிைலயி ,
ஏ ப கிற ெபா மய க ைத கணினி க தர யா . அவ ைற உலகிய அறிவி
(Pragmatic Knowledge) வாயிலாகேவ உணர .
ேம றி த ெபா மய க கைள தீ ைவ க ய அறிைவ - வழி ைறகைள எ வா
கணினி அளி ப றி , ப ேவ நிைலகளி ஆராய ெப கி றன.
ெபா மய க ைத தவி பத ாிய ெபா வான சில வழி ைறக
கணினிவழி தமி ெதாட கைள ஆ ெச ேபா ஏ ப கிற ெபா மயக ைத நீ கி
ெபா ைள ெதளிவாக ாி ெகா வத உ ெபா யனிய மா ற க ைண ாிகி றன.
ெபா மய க ைத இல கண வைக பா வாயிலாகேவ ெதளி ப த . ெபய , விைன
அ பைடயி உ வா ெசா களாக உ பனிய , ெதாடாிய ப பா கைள ெகா
அ ெசா , வி திக ஆகியவ ைற ப தா இவ ைற சாிெச ய .
184
7. ‘அவ ெந தா வி றா ’ எ ற ெதாடாி , அவ ெந ைய தா (ெந +தா ) வி றா எ
ேவ ைம மைற நி ெபா த கிறதா? அ ல அவ ணிைய ெந தா (ெந + + +ஆ )
பிற வி றா எ ற ெபா ப கிறதா? எ ற ஐய ஏ ப கிற . இ தைகய நிைலயி ெதாடாிய
ஆ வி அ பைடயிேலேய ெதளி ெபற .
அ ெசா லா ஏ ப கிற ெபா மய க ைத வி திகைள ெகா ெதளி ெபறலா . வி திகளா
ஏ ப கிற ெபா மய க தி அ ெசா ைல ெகா ெதளி ெபறலா . எ கா டாக,
‘ப தா ’ எ ற ெசா ப எ ப ெபயராக வ ேபா ப தா எ விைனயாக
வ ேபா ப தா எ வ எ பதைன அ ெசா வாயிலாக ெபற கிற . ‘ஆ ’
எ வி தி ‘அவனா நா வ ேத ’ எ ெதாடாி ெபய பி வ ததா ேவ ைம
வி தி எ ,‘வ தா நா வ ேவ ’எ ெதாடாி விைன பிற வ ததா ஆ எ ப
நிப தைன வி தி எ ப க டறிய கிற .
‘இ ’ எ ற ெசா இ ேவ ெபா த கி றன .அவ ைற இட ெபா அ பைடயிேலேய
ேச ேதா பிாி ேதா எ த . வி ைச பி காக , வைக ப வத காக , ெபா
ெதளிவி காக கா ளி ‘,’ இ எ வ க டாயமாகிற . இ ேபா ற ப ேவ ெமாழி
பய பா ெநறிக தமி ெமாழி இல கண களி ெமாழியிய விதிகளி காண கிைட
கி றன.
நிைறவாக
ெபா மய க தி கான அைட பைட காரண க , ெபா மய க ஏ ப வத ாிய
நிைல பா கைள றாக ப ெமாழியிய வைக பா த த எ கா க ட
ஆராய ெப றன. ேம , ெபா மய க ைத தவி பத ாிய ெபா வான சில வழி ைறக ,
கணினிவழி தமிழா ெச ேபா ஏ ப கிற சி க க ஆராய ெப றன. ஒ ெதாடைர
எ ேபா ெபய , விைன, ைணவிைன ேபா ற அ பைட ேவ பா கைள அறி ,
பய ப தினா ப ேவ ெமாழி பய பா சி க க சாிெச ய ப . அைனவ
ஒேரவிதமான ெமாழி பய பா ெகா ைகைய பய ப வத வழி ,கணினிவழி ெமாழியா
ெச வத எளிைமயாக இ . இ ேபா ற ப ேவ ெமாழியைம கைள ைற ப த
ேவ ய க டாய ஏ ப ள எ பைத இ க ைர கா கிற .
ேத ெத க ப ட ைண ப ய
1. ைனவ ச .அக திய க
,தமி ெமாழி அைம பிய ,ெம ய ப தமிழா வக ,சித பர .
தமி
2. டா ட ெபா ேகா, (2006), இ கால தமி இல கண , ெபாழி ெவளி ,ெச ைன.
3. எ .ஏ. ஃமா , (2007), அ பைட தமி இல கண , அைடயாள ,தி சி.
4. ேபரா. கலாநிதி அ. ச கதா , (2008), தமி ெமாழி இல கண இய க , நி ெச ாி
ஹ .
5. ைனவ ெச. ைவ. ச க , (2004), ெதா கா பிய ெதாடாிய , உலக தமிழாரா சி
நி வன .
6. ைனவ அ. தாேமாதர ைணவிைனக ,, ,ஆ க ைர .
7. தமி இைணய 2010, மாநா க ைரக .
8. Dr. M. Suseela, (2001), A Historical Study of Old Tamil Syntax, Tamil University.
9. Thomas Lehman, (1993), A Grammar of Modern Tamil, Pondichery Institute of Linguistics and
Culture.
185