SlideShare a Scribd company logo
கணினிவழி தமி ெமாழியா வி                                                              ெபா                    மய க
       Ambiguities in Computer Assisted Tamil Language Processing

                                                          இல.
                                                          இல           தர
                                         ைண ேபராசிாிய , ஒ                   கிைண பாள ,
கணினி தமி          க வி தமி          ேபராய , SRM ப கைல கழக . மி                           ன    ச : sundarbaskar@gmail.com




           ைர
கணினியி         தமி ெமாழியி          பய        பா    ெப கி         ள . தமி ெமாழியி                     வள    சி          கணினியி
ப களி        தவி    க        யாத ஒ       றாகிவி ட . ெமாழி ஆ                           க வியாக          கணினிைய          பய     ப     தி
வ கிற நிைலயி            தமி ெமாழி         தர கைள அத                    ஓ     ஒ        கைம ட            க         தரேவ              ள .
அதாவ        கணித அ           பைடயி             ெமாழியி       உ ள ெமாழியிய                              கைள        கணினி            ஏ ற
வைகயி       மா றி தரேவ                    ள . இ தைகய வழி ைறகைள                              ெகா        பேத கணினி ெமாழியிய
எ    பதா     . ெமாழி ெசய ப வதி                  உ ளஒ                   ைறயி           ெதா         தா       இல கண . இ தைகய
ஒ          ைற ந ன, ெதாழி                       ப வள         சிகளினா               ெமாழி உலகமயமா க                        ழ     னா
சிைத         மா ப            வ கிற . ெமாழிைய இ தைகய சிைத களி                                            மீ ெட          க ெமாழியிய
      கைள       ைறயாக க           , பய      ப        தேவ         ய க டாய              ஏ ப         ள .

ெபா        மய க         தமி ெமாழி         பய        பா           உ வா            கி    ற நிைல பா கைள                     ,கணினிவழி
ஆ       ெச         ேபா       ஏ ப கிற ெமாழியைம                           சி க கைள                ,அவ ைற             தவி       பத கான
வழி ைறகைள               , ெமாழியிய                   வைக பா                 ெநறி ைறகைள                  எ                வதாக இ
க     ைர அைமகிற .

இய ைகெமாழியா                     ; கணினிெமாழியிய ; ெமாழி ெதாழி                                             ப :
தமி ெமாழியி         இய        கைள         ெதளிவாக அறி              ெகா ள ஒ யனிய , உ பனிய , ெதாடாிய
ம       ெபா        ைமயிய         ேபா      ற ெமாழியிய             அறி    இ        றியைமயாதன.

மனித        ைளைய          ேபா            கணினிைய                 இய ைகெமாழி அறிைவ                           ெபறைவ            ,ெமாழி
ெதாட கைள           ாி     ெகா ள           , உ வா க               , ெச யைவ                     ய சிேய இய ைக ெமாழியா
(Natural Language Processing). இ தைகய இய ைகெமாழியா ைவ ேம ெகா ள உ வா க ப கிற
வழி ைறக                 ைற ப         த    ேம கணினி ெமாழியிய                           (Computational Linguistics). கணினி
ெமாழியிய            ைணேயா                ெமாழி            ேதைவயான மி                  ன       ெமாழி         க விகைள உ வா க
உத            பேம ெமாழி ெதாழி                    ப       (Language Technology). இைவ                               தா     தமி    ெம
ெபா        கைள உ வா           வத          ேம ெகா ள ப கிற ப                       ைற வள         சி பணிக .

கணினி தமி        வள       சி எ   ப       தமி        ெதாட கைள                ாி    ெகா ள            (Understanding), அவ ைற
உ வா க             (Generate) ேதைவயான தமி ெமாழி அறிைவ                                       கணினி            அளி பத காக நா
ேம ெகா ளேவ                ய பணிகைள                   றி கிற . தமி                 தர கைள               கணினி       ாி     ெகா
வைகயி        ெகா        பத        ெமாழியிய               விதிக          ேகா பா க                       ைண ாிகி         றன. கணினி
ெமாழியிய        ேகா பா கைள ெகா                           ெமாழியி        அைம ைப, இல கண ைத                           கணினி ேக ற
வைகயி        நிர களாக )Programs(, மி                 ன           இல கணமாக மா றி                    ெகா           , தமி ெமாழியி
ேதைவைய நிைற ெச ய ேவ                                 . இ வா             தமி ெமாழியி             அைம ைப ஒ                  கைம ட        ,

                                                                 180
விதிகளாக          மா         ேபா              தமி ெமாழியி             த கால          எ             வழ கி      ப ேவ                ைறக
பய      ப     த ப வதா                ெசா கைள             பிாி        ேபா           (Parsing) வாிைச ப               ேபா         (Sorting)
ப ேவ          ெமாழி              பய      பா             சி க க         எ கி         றன.    இ தைகய           ெமாழி        பய    பா
சி க களி          ஒ         தா       ெபா          மய க (Word Sense Ambiguity).

தமிழி       ச தி       பிைழதி            தி (Sandhi Checker), உ பனிய                       ப      பா வி (Morphological Parser),
ெதாடாிய            ப        பா வி (Syntactic Parser), அைடவி (Indexing)(ெசா லைட , ெதாடரைட ,
ெபா ளைட ), தானிய கி ேப                                   அறிவா         (Automatic Speech Recognizer-ASR), இய திர
ெமாழிெபய                (Machine Translation) ஆகிய ெமாழியா                                ெம   ெபா          க விகைள உ வா
வதி     இ தைகய ெபா                       மய க இைட றாக அைமகி                         றன. இவ ைற சாிெச ய, ெபா                        மய க
ெசா லகராதிைய உ வா கேவ                               ய     அவசிய .

ெபா           மய க - விள க
‘Word Sense Ambiguity’ எ                           ஆ கில         ெசா       தமிழி         ெதளிவி     ைம,     ழ ப , க            மய க ,
ெபா         மய க ,           இ ெபா             ப நிைல,           ெதளிவ ற              நிைல      என          ப ேவ          நிைலகளி
ெபா         ெகா ள ப கி                ற .         எனி      ,     கணினிெமாழியிய                      ெபா           மய க            எ    ேற
ைகயாள ப கி              ற . இ தைகய ெபா                          மய க கைள             கைளவைத          கணினிெமாழியிய                ‘Word
Sense Disambiguation )WSD(’ எ                              வ .

ஒ     ெதாட த           அைம பி             ெவளி ேதா ற தி                   உ ேதா ற தி                ெவ ேவ         ெபா         த கிற        .
இ தைகய ெபா                   ைம மா பா                ஏ ப வத               ாிய சில ெசா க               சில        நிைலக             இ
ேநா க ப கி             றன. தமி            மரபில கண தி                ஒ ெசா            றி த பல ெபா           , பல ெபா                  றி த
ஒ ெசா         எ    ற வைக பா                   காண ப கிற . அகராதி நிைலயி                        ஒ    ெசா             பல ெபா             க
இ       கலா       .ஆனா , இவ றி                          ெபா       மய க எ             ப    மா ப ட .

ெபா           மய க ஏ ப வத கான நிைல பா க
தமி ெமாழி தர க                   உலகளாவிய ெபா ெமாழியி                          த    ைமகைள ெகா                    பேதா      தம ெகன
சில தனி த             ைமகைள              ெகா             கி     றன. வழ கிழ த                   க             தா க க               தமிழி
கால காலமாக நிக                       ெகா            ளன. சாதி, ெதாழி , வ டார                    ேபா    றைவ சா        த வழ          க        ,
    ைறசா      த வழ           க            ேப       , எ           எ                 நிைல பா க              தமி ெமாழி        தரவிைன
கணினியி            ஏ        திற               ஏ றா ேபா            ஒ ைம ப                  வத         ெபா விதிகைள உ வா
வத          இைட             களாக அைமகி              றன.

ெசா களி            இல கண                 வைக பா ைட              நா                 ைமயான       இல கண         அறி         (Grammatical
Knowledge) ம                 உலகிய            அறிவி       (Pragmatic Knowledge)                ைணேயா         அறிகிேறா . ஆனா
அவ ைற கணினி                          க        த வதி       ப ேவ         ெமாழியைம                சி க க       எ கி    றன. அவ ைற
சாிெச வத               உ பனிய , ெதாடாிய                    ப     பா         க        ைண ாிகி        றன. ஒ        ெதாடாி       ஒ
ேம ப ட அைம                   க        காண படலா . அதாவ                           றி பி ட ெதாடாி              இட ெப             ெசா க
த க               ெவ ேவ              வைகயி         இைணயலா . அ ேபா                        ெபா       மய க ஏ ப கிற .

ஆ கில தி               ஒ ெபய                   (Transliterate)        எ            ேபா         ைற ப         த ப ட         ஒ           றி
எ           கைள         பய       ப       தேவ             . ஆனா            றி , ெந          , ல,ழ,ள, ற,ர ேபா          ற எ               க
ேவ பா களி              றி        பய       ப       த ப வதா             ெபா                ழ ப        அவ ைற          உ சாி          ேபா
ெதளிவி லாத                  நிைல          காண ப கிற . எ                         கா டாக, பாட          எ       எ      வைத        ‘padam’
எ       எ தினா              பட    எ           ப     பத           வா       பி       கிற . எனேவ ம களி              ெபய , ஊ          ெபய ,

                                                                      181
கவாி, ெபா               களி           ெபய       ேபா        றவ ைற              தவறாக உ சாி கிற நிைல ஏ ப கிற . எனேவ,
இவ ைற ஓ ஒ                                ைற           ெகா          வரேவ                 .

ெபா            ேவ பா                       ேவ         ைம உ              க        , ச தி மா ற க                 , ல,ழ,ள, ற,ர ேவ பா க
     கிய ப கா                   கி       றன. ேம           சாாிையக , இர                      த    ேபா         றைவ             ைணெச கி            றன.

பாட கைள                 ப             ேபா         எளிைமயாக                  ாி    ெகா ளேவ                    ெம              ேநா கி       ெசா கைள
பிாி பதா                உைரநைட எ                      ேபா          ெபா           மய         வ       ெதாியாம            ெசா கைள           பிாி பதா
ெபா            மய           கிற           .ெபா          மய க            ஏ படாதவா                பிாி கேவ                     எ    பைத         கவன தி
ெகா ளேவ                     ய       அவசிய         .ெபா             உண             திற       ைற த இ             கால தி            பாட களி        எ லா
ெசா கைள                     பிாி ேத எ             த       ேவ                , எளிைம ப            தேவ                  , சாதாரண           ேப    வழ கி
இ        கேவ                    எ     ப       ேபா     ற த       ைமக              கைடபி          க ப கி         றன .ேம              , எ         நைடயி
ம றவ களிடமி                               த கைள             ேவ ப             தேவ                    எ    பத காக                   இ தைகய            நிைல
இ        கி    ற .

1. தனி ெசா களா                            ஏ ப கிற ெபா                        மய க
சில தனி            ெசா க             ெதாட களி             பய       ப             ேபா        இ ேவ             ெபா        கைள        த        நி கி   றன.
தமிழி         தனி த சில ெசா கைள                             ெதாட களி               பய       ப            ேபா          அைவ ேதா ற தி                  ஒ
ேபால            ெபா ளி               இ ேவ           நிைலகளி                 காண ப கி             ற .ஒ          ெதாடாி            ேவைல எ        ற ெசா
காண ப கிற . அ                         ‘ேவைலைய ’                றி கிறதா? அ ல                    ‘ேவ ’ எ                 ஆ த ைத                றி கிறதா?
எ    ற மய க                 ஏ ப கிற . ெதாட                     நிைலயி             அத            அ            அ ல         அத                    அைம த
ெசா ைல ைவ ேத, இ த                                 ெசா         இைத தா                றி கிற          எ          அறிய              கிற . நா       ேவைல
வா கிேன             .
              [அவைர - அவ + ஐ அவைர ெச ], [வ ட - வ ட , தைலைய வ ட],
              [காைல - கா              + ஐ காைல ெபா                      ], [பா திர - கதா பா திர , சைமய பா திர ]

              [ஆ        - ஆ (River) எ               (Number)], [எ                ண-எ        ண (Thinking) எ              ண(Counting)]

ேம        றி த சில ெசா க                      ட     இர        டா        ேவ        ைம உ              வ         ளதா அ ல              தனி ெசா தானா
எ    ற         ழ பேம                 இ த          ெபா          மய க தி             ாிய      காரணமா                .    இ தைகய                 ழ பமி     றி
ேவ ப                வத               சில இட களி               ‘இ       ’ சாாிைய பய          ப       த ப கிற .
              கா    + ஐ = காைத => கா                      +இ           + ஐ = காதிைன.
              கா    + ஐ = காைட => கா                      +    (இ       ) + ஐ = கா ைட, கா                    ைன.
2. ெதாடரைம                          நிைலயி            ஏ ப கிற ெபா                           மய க
ஒ        ெதாட           அைம பி                எ லா            ெசா க                சாியான ெபா ைளேய த                              நி   றா           அைவ
ெபா           ெகா                        ைறயி       மய க            ஏ ப கி             றன. ‘            டா            மரனி        மைனவி’ எ
ெதாடாி                  டா           எ    ப         மர                  ெபயரைடயாக வ கிறதா அ ல                                    அவ      மைனவி
ெபயரைடயாக வ கிறதா எ                                 கிற       ழ ப           ஏ ப கிற . இ தைகய நிைலயி                                ேவ         ைம உ
மைற            வ வதா                          டா        எ     பத            அ           , கா            ளி இ           எ தாததா                இ தைகய
    ழ ப       ஏ ப கிற . இதைன அைம                                    ெபா           மய க (Structural Ambiguity) எ                             ெமாழியிய
அறிஞ க                          வ .       ெதாடாி               றநிைலயி                  அகநிைலயி                      மா படாம                 ழ பமி     றி
இ        தா         அைவ எ                     ெகா                  ைறயி                 ழ   த           ெபா ளி           ேவ ப கி              றன.




                                                                                 182
3. ெசா கைள                       பிாி              ேச                       எ         கி ற நிைலயி                          ஏ ப கிற ெபா
மய க
தமிழி           ேவ      ெசா        ட         ப ேவ ப ட ஒ                         க         இைணகி                றன. அ வா                   இைண            ேபா
அவ                   ேளேய        ஓ          இைய             விதி        உ வாகி            ற .       இ வா               ெசா க            ட        ஒ       கைள
இைண                 ேபா        ெசா கைள பிாி                        ேச            எ            கி    ற வழ க            காண ப கி               ற .

தமிழி          ெமாழியிய          விதி ப           தனி              நி           ெபா           தராத             ைணவிைனக                  (Auxiliary Verb),
ஒ          க     (Affixes) மிதைவ ஒ                  க        (Clitic)           ேபா       றவ ைற                பிாி        எ த              டா       எ    பைத
மீ வ            ெபா        மய க தி                     கிய காரணமா                     .

ெபா வாக ஒ                  ெசா ைல            பிாி ேதா ேச                    ேதா எ              ேபா              றவ த க             தி       அ        பைடேய
மா கி           ற நிைல ஏ ப கிற . எ                            கா டாக, அவ                      டேன எ               ேச              எ தினா           with him
எ          ெபா         ப       . அவ         உடேன எ                  பிாி        எ தினா               he at once எ                 ெபா        ப       . எனேவ
மிக        கவன ேதா             இடமறி           ெபா            மய க            ஏ படாதவா                    ேச     ேதா பிாி ேதா எ தேவ                             .
ப கைல கழக , ெதாழி                             ப        ேபா         ற சில கைல ெசா கைள                                   பிாி           எ      த           டா .
இ ேபால                 ெமாழி          பய      பா              விதிகைள                     ைறயாக                 பய     ப       தினா              கணினிவழி
ெமாழியா                      ெபா            மய கமி          றி வாசி பத                    பய        த      .

       •        ைணவிைனக
               வி (வ        வி , ேபா வி , ப                        வி ,          கிவி ). ப (பா ப , ேவதைன ப , ஆைச ப ).
               இ (பா             ெகா              , ப              ெகா               ). இ ேச              தி , கா              , பா         தி ). ெகா
               (ெதாி       ெகா         , பா             ெகா                 ). ெகா ள (பா                       ெகா ள, ேபசி ெகா ள, அறி
               ெகா ள). வி            , வி ட (பா                    வி        , ேபசிவி              , பா          வி ட , ேபா வி ட ). ப                           ,
               ப ட (அறிய ப                  , விள க ப                   ,       ற ப ட , ேச                      க ப ட ). ேவ                          (பா       க
               ேவ          , ெச லேவ                    , எ தேவ                   ). உ ள (ெதாியவ                            ள , பாட ப                     ள ).

ெகா , உ              , ஆ , ேபா , வ , த , உ                                  இ ேபா         ற ஐ ப                       ேம ப ட                ைணவிைனக
எ               வழ கி            ேப          வழ கி                 காண ப கி                   றன. ஒ             ெதாடாி            ஒ               ேம ப ட
    ைணவிைனக                    இைண            வ         .

               அவ க        ப         வி           ெச        றன .            அவ க          ப          வி           ெச       றன .

பிாி           எ தியதா         இ வி          ெதாட க                கிைடேய ெபா                      ேவ பா          ெதளிவாக ெதாிகிற .

       •       மிதைவ ஒ
                        தா       - அைத தா           , அவ           தா        , அ ேபா தா                 , அதனா தா             .
               பி ெனா
                        கீ , ேம         -    ைறயி           கீ , தைலேம . வழி - கணினிவழி, அத                                   வழி.
                        விட - அவைனவிட, ேபசியைதவிட.
               விைன வி தி
                        ேபா          - ெசா     னேபா , பா                    தேபா . ப               - அத        ப , ெசா        னப .
               ெபா நிைல

                        க    - அத           க . கால - இைட கால , ச ககால .
                        வர - ெச             வர, நட வர.




                                                                             183
உ பனிய                 ெபா           மய க
ஒ     ெசா     ஓ உ ப            ெகா        டதாகேவா அ ல                 அத          ேம ப ட உ ப             களாகேவா இ               கலா .
ப ேவ        உ ப          களா        உ வான ெசா கைள                      கணினிவழி          ப     பா        ெச வ             ‘உ பனிய
ப     பா      ’எ    பதா         . இத காக உ பனிய                   ப        பா விக       (Morphological Parsers) உ வா க
ப     வ கி     றன. இ வா               உ வா                 ேபா        ெபா        மய க        ெசா களி              சி க க       ேநா க
த கதாக உ ளன.

இய திர       ெமாழிெபய           பி        (Machine         Translation)          கணினிெமாழியிய            விதியான           இ நிைல
உ பனிய          (Two Level Morphology) எ                      ற ெமாழி த               ைம றி         ஆரா வ . ஒ                  ெதாடாி
அ நிைல (Deep Structure),                  றநிைல (Surface Structure) ஆகிய இர                              காண ப             . இவ
    றநிைலயி     எ தவித மா பா                   ஏ ப வதி ைல. ஆனா , ெபா                           மய க ெசா க                  வ     ேபா
அகநிைலயி            ழ ப    ஏ ப கிற .

தமிழி       காண ப          ெதாட களி                ேவ      ெசா க           தனி         வி திகேள                   காண ப கி           றன.
தனி த ெசா கைள              க        டறிவத            அகராதிகைள             பய     ப     தலா . ம றவ ைற உ ளீ                       ெச
ஆ       ெச ேத ப          தறிய                 . ேவ      ெசா கைள             ஒ         கைள      ப         , ெபா            மய கமி       றி
வைக ப           வத         உ பனிய             ப      பா      அவசியமாகிற .

ெமாழியிய           வைக பா                      ெபா          மய க
ெமாழியிய           அ      பைடயி               ெபா           மய க ைத,              ஒ யனிய            (Phonology),           உ பனிய
(Morphology), ெதாடாிய                (Syntax), ெசா ெபா                     ைமயிய        (Semantics), க            தாட      (Discourse)
ஆகிய நிைலகளி             வைக ப            தலா .

ஒ யனிய          (ச தி) நிைலயி , ‘ேவைல ெச தா                            ’, ‘ேவைல         ெச தா ’ எ பவ றி                         தலாவ
ேவைல பணிைய                றி கிற , இர                டாவ     ேவைல க விைய                     றி கிற . உ பனிய               நிைலயி ,
‘நா     க தி வி ேற ’ எ ற ெதாடாி                            க தி எ      ற ெபயைர               றி கிறதா அ ல                 விைனைய
    றி கிறதா எ      பதி         ழ ப        ஏ ப கிற . ெதாடாிய                     நிைலயி , ‘நா         இராமேனா              சீைதைய
பா    ேத ’ எ ற ெதாடாி                இர            வைகயாக          ெபா           ெகா ளலா . நா             இராம             சீைதைய
பா    ேதா     எ            நா        இராம             சீைத         ேச       தி         ேபா     பா        ேத         எ           ெபா
ப கிற . ெசா ெபா                 ைம நிைலயி , ‘ப ைச                     கா கறி’, ‘ப ைச          ெபா ’, ‘ப ைச உட                   ’ ஆகிய
ெதாட களி        ப ைச எ          ற ெசா                   ேவ ப ட ெபா                 கைள        றி      நி கிற .             றி    எ த
ெபா ைள எ                 ெகா வ            எ    ப     அத      அ         த ெசா ைல          ெபா        த .க            தாட    நிைலயி ,
ஏ ப கிற ெபா                மய க ைத                கணினி            க         தர        யா . அவ ைற உலகிய                        அறிவி
(Pragmatic Knowledge) வாயிலாகேவ உணர                                    .

ேம      றி த ெபா               மய க கைள               தீ      ைவ க                ய அறிைவ - வழி ைறகைள எ வா
கணினி         அளி ப            றி    , ப ேவ           நிைலகளி          ஆராய ெப கி             றன.

ெபா          மய க ைத தவி                       பத          ாிய ெபா வான சில வழி ைறக
கணினிவழி           தமி     ெதாட கைள ஆ                        ெச            ேபா        ஏ ப கிற ெபா                  மயக ைத நீ கி
ெபா ைள          ெதளிவாக              ாி       ெகா வத              உ ெபா யனிய                  மா ற க                ைண ாிகி          றன.
ெபா         மய க ைத இல கண வைக பா                                  வாயிலாகேவ ெதளி ப                   த               . ெபய , விைன
அ       பைடயி       உ வா              ெசா களாக உ                  பனிய , ெதாடாிய               ப      பா           கைள         ெகா
அ     ெசா , வி திக         ஆகியவ ைற ப                         தா       இவ ைற சாிெச ய                          .


                                                                  184
‘அவ           ெந தா           வி றா ’ எ ற ெதாடாி , அவ                                ெந ைய தா      (ெந +தா         ) வி றா          எ
ேவ            ைம மைற          நி         ெபா             த கிறதா? அ ல                அவ      ணிைய ெந தா            (ெந + + +ஆ                )
பிற        வி றா        எ     ற ெபா          ப கிறதா? எ                ற ஐய       ஏ ப கிற . இ தைகய நிைலயி                   ெதாடாிய
ஆ வி            அ       பைடயிேலேய ெதளி ெபற                                 .

அ         ெசா லா         ஏ ப கிற ெபா                     மய க ைத வி திகைள ெகா                      ெதளி ெபறலா . வி திகளா
ஏ ப கிற ெபா                       மய க தி                அ        ெசா ைல ெகா                 ெதளி ெபறலா . எ                    கா டாக,
‘ப        தா ’ எ ற ெசா                           ப        எ      ப     ெபயராக வ            ேபா     ப தா        எ            விைனயாக
வ         ேபா       ப        தா     எ                வ           எ   பதைன அ            ெசா     வாயிலாக        ெபற         கிற . ‘ஆ ’
எ               வி தி ‘அவனா             நா           வ ேத ’ எ                  ெதாடாி      ெபய          பி     வ ததா        ேவ          ைம
வி தி எ                 ,‘வ தா      நா       வ ேவ             ’எ            ெதாடாி        விைன         பிற   வ ததா         ஆ     எ      ப
நிப தைன வி தி எ                         ப             க       டறிய         கிற .

‘இ ’ எ           ற ெசா            இ ேவ               ெபா         த கி      றன .அவ ைற இட ெபா                      அ        பைடயிேலேய
ேச        ேதா பிாி ேதா எ த                               . வி        ைச பி காக            , வைக ப            வத காக         , ெபா
ெதளிவி காக                   கா         ளி ‘,’ இ              எ        வ       க டாயமாகிற . இ ேபா              ற ப ேவ           ெமாழி
பய        பா        ெநறிக           தமி ெமாழி இல கண களி                                ெமாழியிய        விதிகளி            காண கிைட
கி        றன.

நிைறவாக
ெபா              மய க தி கான                 அைட பைட                     காரண க ,          ெபா         மய க          ஏ ப வத             ாிய
நிைல பா கைள                        றாக       ப                ெமாழியிய           வைக பா            த     த எ          கா        க       ட
ஆராய ெப றன. ேம                          , ெபா             மய க ைத              தவி    பத     ாிய ெபா வான சில வழி ைறக ,
கணினிவழி             தமிழா              ெச           ேபா          ஏ ப கிற சி க க                 ஆராய ெப றன. ஒ                 ெதாடைர
எ             ேபா       ெபய , விைன,                      ைணவிைன ேபா                  ற அ     பைட ேவ பா கைள அறி                               ,
பய        ப      தினா         ப ேவ               ெமாழி            பய     பா           சி க க       சாிெச ய ப          .    அைனவ
ஒேரவிதமான ெமாழி                    பய       பா           ெகா ைகைய              பய     ப      வத    வழி ,கணினிவழி ெமாழியா
ெச வத               எளிைமயாக இ                        . இ ேபா           ற ப ேவ         ெமாழியைம                கைள          ைற ப            த
ேவ            ய க டாய             ஏ ப            ள       எ    பைத இ க             ைர         கா     கிற .

ேத         ெத         க ப ட              ைண                  ப       ய
     1.        ைனவ ச .அக திய                     க
                                  ,தமி ெமாழி அைம பிய ,ெம ய ப தமிழா வக ,சித பர .
                                   தமி
     2.    டா ட ெபா ேகா, (2006), இ கால தமி இல கண ,     ெபாழி ெவளி  ,ெச ைன.
     3.    எ .ஏ. ஃமா , (2007), அ  பைட தமி இல கண , அைடயாள ,தி சி.
     4.    ேபரா. கலாநிதி அ. ச                        கதா         , (2008), தமி ெமாழி இல கண இய                      க , நி      ெச           ாி
                ஹ        .
     5.        ைனவ           ெச. ைவ. ச                   க , (2004), ெதா கா பிய                  ெதாடாிய , உலக தமிழாரா                      சி
           நி வன .
     6.        ைனவ அ. தாேமாதர           ைணவிைனக ,,       ,ஆ     க    ைர .
     7.    தமி இைணய 2010, மாநா                க    ைரக .
     8.    Dr. M. Suseela, (2001), A Historical Study of Old Tamil Syntax, Tamil University.
     9.    Thomas Lehman, (1993), A Grammar of Modern Tamil, Pondichery Institute of Linguistics and
           Culture.




                                                                           185

More Related Content

What's hot

A critique on tamil unicode 1
A critique on tamil unicode 1A critique on tamil unicode 1
A critique on tamil unicode 1iraamaki
 
தொடர்பாடல் திறன்
தொடர்பாடல் திறன்தொடர்பாடல் திறன்
தொடர்பாடல் திறன்
SJK(T) Sithambaram Pillay
 
தமிழெழுத்தும் கிரந்தமும் ஒருங்குறி ஊடாடலும்V2.0
தமிழெழுத்தும் கிரந்தமும் ஒருங்குறி ஊடாடலும்V2.0தமிழெழுத்தும் கிரந்தமும் ஒருங்குறி ஊடாடலும்V2.0
தமிழெழுத்தும் கிரந்தமும் ஒருங்குறி ஊடாடலும்V2.0iraamaki
 
தமிழ் மொழிக் கற்பித்தலில் தொடர்புத்துறையும் கணினியும்
தமிழ் மொழிக் கற்பித்தலில் தொடர்புத்துறையும் கணினியும்தமிழ் மொழிக் கற்பித்தலில் தொடர்புத்துறையும் கணினியும்
தமிழ் மொழிக் கற்பித்தலில் தொடர்புத்துறையும் கணினியும்ஜெய்லக்ஷ்மி இராமமூர்த்தி
 
ஆசிரியர் மாணவர் தொடர்பாடல் சிக்கல்
ஆசிரியர் மாணவர் தொடர்பாடல் சிக்கல்ஆசிரியர் மாணவர் தொடர்பாடல் சிக்கல்
ஆசிரியர் மாணவர் தொடர்பாடல் சிக்கல்
SJK(T) Sithambaram Pillay
 
தமிழ்மொழி வளர்ச்சியில் நமது
தமிழ்மொழி வளர்ச்சியில் நமது தமிழ்மொழி வளர்ச்சியில் நமது
தமிழ்மொழி வளர்ச்சியில் நமது SJK(T) Sithambaram Pillay
 
ஆசிரியர் மாணவர் பெற்றோர் தொடர்பாடல் சிக்கல்
ஆசிரியர் மாணவர் பெற்றோர் தொடர்பாடல் சிக்கல்ஆசிரியர் மாணவர் பெற்றோர் தொடர்பாடல் சிக்கல்
ஆசிரியர் மாணவர் பெற்றோர் தொடர்பாடல் சிக்கல்
SJK(T) Sithambaram Pillay
 
தமிழும் தமிழரும் 1
தமிழும் தமிழரும் 1தமிழும் தமிழரும் 1
தமிழும் தமிழரும் 1iraamaki
 
Ariviyal sandru2
Ariviyal sandru2Ariviyal sandru2
Ariviyal sandru2
Mohamed Bilal Ali
 

What's hot (18)

D5 radha chellappan
D5 radha chellappanD5 radha chellappan
D5 radha chellappan
 
B4 elantamil
B4 elantamilB4 elantamil
B4 elantamil
 
B8 sivapillai
B8 sivapillaiB8 sivapillai
B8 sivapillai
 
A critique on tamil unicode 1
A critique on tamil unicode 1A critique on tamil unicode 1
A critique on tamil unicode 1
 
A1 devarajan
A1 devarajanA1 devarajan
A1 devarajan
 
தொடர்பாடல் திறன்
தொடர்பாடல் திறன்தொடர்பாடல் திறன்
தொடர்பாடல் திறன்
 
G2 selvakumar
G2 selvakumarG2 selvakumar
G2 selvakumar
 
B3 melangovan
B3 melangovanB3 melangovan
B3 melangovan
 
தமிழெழுத்தும் கிரந்தமும் ஒருங்குறி ஊடாடலும்V2.0
தமிழெழுத்தும் கிரந்தமும் ஒருங்குறி ஊடாடலும்V2.0தமிழெழுத்தும் கிரந்தமும் ஒருங்குறி ஊடாடலும்V2.0
தமிழெழுத்தும் கிரந்தமும் ஒருங்குறி ஊடாடலும்V2.0
 
தமிழ் மொழிக் கற்பித்தலில் தொடர்புத்துறையும் கணினியும்
தமிழ் மொழிக் கற்பித்தலில் தொடர்புத்துறையும் கணினியும்தமிழ் மொழிக் கற்பித்தலில் தொடர்புத்துறையும் கணினியும்
தமிழ் மொழிக் கற்பித்தலில் தொடர்புத்துறையும் கணினியும்
 
ஆசிரியர் மாணவர் தொடர்பாடல் சிக்கல்
ஆசிரியர் மாணவர் தொடர்பாடல் சிக்கல்ஆசிரியர் மாணவர் தொடர்பாடல் சிக்கல்
ஆசிரியர் மாணவர் தொடர்பாடல் சிக்கல்
 
தமிழ்மொழி வளர்ச்சியில் நமது
தமிழ்மொழி வளர்ச்சியில் நமது தமிழ்மொழி வளர்ச்சியில் நமது
தமிழ்மொழி வளர்ச்சியில் நமது
 
ஆசிரியர் மாணவர் பெற்றோர் தொடர்பாடல் சிக்கல்
ஆசிரியர் மாணவர் பெற்றோர் தொடர்பாடல் சிக்கல்ஆசிரியர் மாணவர் பெற்றோர் தொடர்பாடல் சிக்கல்
ஆசிரியர் மாணவர் பெற்றோர் தொடர்பாடல் சிக்கல்
 
தமிழும் தமிழரும் 1
தமிழும் தமிழரும் 1தமிழும் தமிழரும் 1
தமிழும் தமிழரும் 1
 
G3 chandrakala
G3 chandrakalaG3 chandrakala
G3 chandrakala
 
E2 tamilselvan
E2 tamilselvanE2 tamilselvan
E2 tamilselvan
 
Ariviyal sandru2
Ariviyal sandru2Ariviyal sandru2
Ariviyal sandru2
 
Front matter
Front matterFront matter
Front matter
 

Similar to D4 sundaram

கணித்தமிழும் மென்பொருள்களும் - தேவைகளும் தீர்வுகளும்
கணித்தமிழும் மென்பொருள்களும் - தேவைகளும் தீர்வுகளும் கணித்தமிழும் மென்பொருள்களும் - தேவைகளும் தீர்வுகளும்
கணித்தமிழும் மென்பொருள்களும் - தேவைகளும் தீர்வுகளும்
Shrinivasan T
 
Report-No.-3-of-2023-Performance-Audit-on-IFHRMS-Tamil-065278522d89142.419916...
Report-No.-3-of-2023-Performance-Audit-on-IFHRMS-Tamil-065278522d89142.419916...Report-No.-3-of-2023-Performance-Audit-on-IFHRMS-Tamil-065278522d89142.419916...
Report-No.-3-of-2023-Performance-Audit-on-IFHRMS-Tamil-065278522d89142.419916...
Sevajothi Crafts
 
கணினித்தமிழ் - பகுதி 1.pptx
கணினித்தமிழ் - பகுதி 1.pptxகணினித்தமிழ் - பகுதி 1.pptx
கணினித்தமிழ் - பகுதி 1.pptx
JosephineMalathiSAss
 
Linguistics for machine learning applications.pptx
Linguistics for machine learning applications.pptxLinguistics for machine learning applications.pptx
Linguistics for machine learning applications.pptx
BalaSundaraRaman (Sundar)
 
TamilNLP Tamil Mandram Talk
TamilNLP Tamil Mandram TalkTamilNLP Tamil Mandram Talk
TamilNLP Tamil Mandram Talk
Selvakumar Murugan
 
வினை-விடை-கட்டற்ற-மென்பொருள்
வினை-விடை-கட்டற்ற-மென்பொருள்வினை-விடை-கட்டற்ற-மென்பொருள்
வினை-விடை-கட்டற்ற-மென்பொருள்thamiziniyan
 
வினை-விடை-கட்டற்ற-மென்பொருள்
வினை-விடை-கட்டற்ற-மென்பொருள்வினை-விடை-கட்டற்ற-மென்பொருள்
வினை-விடை-கட்டற்ற-மென்பொருள்thamiziniyan
 
வினை-விடை-கட்டற்ற-மென்பொருள்
வினை-விடை-கட்டற்ற-மென்பொருள்வினை-விடை-கட்டற்ற-மென்பொருள்
வினை-விடை-கட்டற்ற-மென்பொருள்thamiziniyan
 
Million Digital Libraries Initiative by MobileVeda
Million Digital Libraries Initiative by MobileVedaMillion Digital Libraries Initiative by MobileVeda
Million Digital Libraries Initiative by MobileVeda
BharatFarmer
 
10 commentments of cei in tamil
10 commentments of cei in tamil10 commentments of cei in tamil
10 commentments of cei in tamilmanislice
 

Similar to D4 sundaram (10)

கணித்தமிழும் மென்பொருள்களும் - தேவைகளும் தீர்வுகளும்
கணித்தமிழும் மென்பொருள்களும் - தேவைகளும் தீர்வுகளும் கணித்தமிழும் மென்பொருள்களும் - தேவைகளும் தீர்வுகளும்
கணித்தமிழும் மென்பொருள்களும் - தேவைகளும் தீர்வுகளும்
 
Report-No.-3-of-2023-Performance-Audit-on-IFHRMS-Tamil-065278522d89142.419916...
Report-No.-3-of-2023-Performance-Audit-on-IFHRMS-Tamil-065278522d89142.419916...Report-No.-3-of-2023-Performance-Audit-on-IFHRMS-Tamil-065278522d89142.419916...
Report-No.-3-of-2023-Performance-Audit-on-IFHRMS-Tamil-065278522d89142.419916...
 
கணினித்தமிழ் - பகுதி 1.pptx
கணினித்தமிழ் - பகுதி 1.pptxகணினித்தமிழ் - பகுதி 1.pptx
கணினித்தமிழ் - பகுதி 1.pptx
 
Linguistics for machine learning applications.pptx
Linguistics for machine learning applications.pptxLinguistics for machine learning applications.pptx
Linguistics for machine learning applications.pptx
 
TamilNLP Tamil Mandram Talk
TamilNLP Tamil Mandram TalkTamilNLP Tamil Mandram Talk
TamilNLP Tamil Mandram Talk
 
வினை-விடை-கட்டற்ற-மென்பொருள்
வினை-விடை-கட்டற்ற-மென்பொருள்வினை-விடை-கட்டற்ற-மென்பொருள்
வினை-விடை-கட்டற்ற-மென்பொருள்
 
வினை-விடை-கட்டற்ற-மென்பொருள்
வினை-விடை-கட்டற்ற-மென்பொருள்வினை-விடை-கட்டற்ற-மென்பொருள்
வினை-விடை-கட்டற்ற-மென்பொருள்
 
வினை-விடை-கட்டற்ற-மென்பொருள்
வினை-விடை-கட்டற்ற-மென்பொருள்வினை-விடை-கட்டற்ற-மென்பொருள்
வினை-விடை-கட்டற்ற-மென்பொருள்
 
Million Digital Libraries Initiative by MobileVeda
Million Digital Libraries Initiative by MobileVedaMillion Digital Libraries Initiative by MobileVeda
Million Digital Libraries Initiative by MobileVeda
 
10 commentments of cei in tamil
10 commentments of cei in tamil10 commentments of cei in tamil
10 commentments of cei in tamil
 

More from Jasline Presilda

I6 mala3 sowmya
I6 mala3 sowmyaI6 mala3 sowmya
I6 mala3 sowmya
Jasline Presilda
 
I5 geetha4 suraiya
I5 geetha4 suraiyaI5 geetha4 suraiya
I5 geetha4 suraiya
Jasline Presilda
 
I4 madankarky3 subalalitha
I4 madankarky3 subalalithaI4 madankarky3 subalalitha
I4 madankarky3 subalalitha
Jasline Presilda
 
I3 madankarky2 karthika
I3 madankarky2 karthikaI3 madankarky2 karthika
I3 madankarky2 karthika
Jasline Presilda
 
I2 madankarky1 jharibabu
I2 madankarky1 jharibabuI2 madankarky1 jharibabu
I2 madankarky1 jharibabu
Jasline Presilda
 
I1 geetha3 revathi
I1 geetha3 revathiI1 geetha3 revathi
I1 geetha3 revathi
Jasline Presilda
 
Hari tamil-complete details
Hari tamil-complete detailsHari tamil-complete details
Hari tamil-complete details
Jasline Presilda
 
H4 neelavathy
H4 neelavathyH4 neelavathy
H4 neelavathy
Jasline Presilda
 
H1 iniya nehru
H1 iniya nehruH1 iniya nehru
H1 iniya nehru
Jasline Presilda
 
G1 nmurugaiyan
G1 nmurugaiyanG1 nmurugaiyan
G1 nmurugaiyan
Jasline Presilda
 
F2 pvairam sarathy
F2 pvairam sarathyF2 pvairam sarathy
F2 pvairam sarathy
Jasline Presilda
 
F1 ferdinjoe
F1 ferdinjoeF1 ferdinjoe
F1 ferdinjoe
Jasline Presilda
 
Emerging
EmergingEmerging
E1 geetha2 karthikeyan
E1 geetha2 karthikeyanE1 geetha2 karthikeyan
E1 geetha2 karthikeyan
Jasline Presilda
 
D3 dhanalakshmi
D3 dhanalakshmiD3 dhanalakshmi
D3 dhanalakshmi
Jasline Presilda
 
D2 anandkumar
D2 anandkumarD2 anandkumar
D2 anandkumar
Jasline Presilda
 
D1 singaravelu
D1 singaraveluD1 singaravelu
D1 singaravelu
Jasline Presilda
 
Computational linguistics
Computational linguisticsComputational linguistics
Computational linguistics
Jasline Presilda
 
C8 akumaran
C8 akumaranC8 akumaran
C8 akumaran
Jasline Presilda
 

More from Jasline Presilda (20)

I6 mala3 sowmya
I6 mala3 sowmyaI6 mala3 sowmya
I6 mala3 sowmya
 
I5 geetha4 suraiya
I5 geetha4 suraiyaI5 geetha4 suraiya
I5 geetha4 suraiya
 
I4 madankarky3 subalalitha
I4 madankarky3 subalalithaI4 madankarky3 subalalitha
I4 madankarky3 subalalitha
 
I3 madankarky2 karthika
I3 madankarky2 karthikaI3 madankarky2 karthika
I3 madankarky2 karthika
 
I2 madankarky1 jharibabu
I2 madankarky1 jharibabuI2 madankarky1 jharibabu
I2 madankarky1 jharibabu
 
I1 geetha3 revathi
I1 geetha3 revathiI1 geetha3 revathi
I1 geetha3 revathi
 
Hari tamil-complete details
Hari tamil-complete detailsHari tamil-complete details
Hari tamil-complete details
 
H4 neelavathy
H4 neelavathyH4 neelavathy
H4 neelavathy
 
H1 iniya nehru
H1 iniya nehruH1 iniya nehru
H1 iniya nehru
 
G1 nmurugaiyan
G1 nmurugaiyanG1 nmurugaiyan
G1 nmurugaiyan
 
F2 pvairam sarathy
F2 pvairam sarathyF2 pvairam sarathy
F2 pvairam sarathy
 
F1 ferdinjoe
F1 ferdinjoeF1 ferdinjoe
F1 ferdinjoe
 
Emerging
EmergingEmerging
Emerging
 
E3 ilangkumaran
E3 ilangkumaranE3 ilangkumaran
E3 ilangkumaran
 
E1 geetha2 karthikeyan
E1 geetha2 karthikeyanE1 geetha2 karthikeyan
E1 geetha2 karthikeyan
 
D3 dhanalakshmi
D3 dhanalakshmiD3 dhanalakshmi
D3 dhanalakshmi
 
D2 anandkumar
D2 anandkumarD2 anandkumar
D2 anandkumar
 
D1 singaravelu
D1 singaraveluD1 singaravelu
D1 singaravelu
 
Computational linguistics
Computational linguisticsComputational linguistics
Computational linguistics
 
C8 akumaran
C8 akumaranC8 akumaran
C8 akumaran
 

D4 sundaram

  • 1.
  • 2. கணினிவழி தமி ெமாழியா வி ெபா மய க Ambiguities in Computer Assisted Tamil Language Processing இல. இல தர ைண ேபராசிாிய , ஒ கிைண பாள , கணினி தமி க வி தமி ேபராய , SRM ப கைல கழக . மி ன ச : sundarbaskar@gmail.com ைர கணினியி தமி ெமாழியி பய பா ெப கி ள . தமி ெமாழியி வள சி கணினியி ப களி தவி க யாத ஒ றாகிவி ட . ெமாழி ஆ க வியாக கணினிைய பய ப தி வ கிற நிைலயி தமி ெமாழி தர கைள அத ஓ ஒ கைம ட க தரேவ ள . அதாவ கணித அ பைடயி ெமாழியி உ ள ெமாழியிய கைள கணினி ஏ ற வைகயி மா றி தரேவ ள . இ தைகய வழி ைறகைள ெகா பேத கணினி ெமாழியிய எ பதா . ெமாழி ெசய ப வதி உ ளஒ ைறயி ெதா தா இல கண . இ தைகய ஒ ைற ந ன, ெதாழி ப வள சிகளினா ெமாழி உலகமயமா க ழ னா சிைத மா ப வ கிற . ெமாழிைய இ தைகய சிைத களி மீ ெட க ெமாழியிய கைள ைறயாக க , பய ப தேவ ய க டாய ஏ ப ள . ெபா மய க தமி ெமாழி பய பா உ வா கி ற நிைல பா கைள ,கணினிவழி ஆ ெச ேபா ஏ ப கிற ெமாழியைம சி க கைள ,அவ ைற தவி பத கான வழி ைறகைள , ெமாழியிய வைக பா ெநறி ைறகைள எ வதாக இ க ைர அைமகிற . இய ைகெமாழியா ; கணினிெமாழியிய ; ெமாழி ெதாழி ப : தமி ெமாழியி இய கைள ெதளிவாக அறி ெகா ள ஒ யனிய , உ பனிய , ெதாடாிய ம ெபா ைமயிய ேபா ற ெமாழியிய அறி இ றியைமயாதன. மனித ைளைய ேபா கணினிைய இய ைகெமாழி அறிைவ ெபறைவ ,ெமாழி ெதாட கைள ாி ெகா ள , உ வா க , ெச யைவ ய சிேய இய ைக ெமாழியா (Natural Language Processing). இ தைகய இய ைகெமாழியா ைவ ேம ெகா ள உ வா க ப கிற வழி ைறக ைற ப த ேம கணினி ெமாழியிய (Computational Linguistics). கணினி ெமாழியிய ைணேயா ெமாழி ேதைவயான மி ன ெமாழி க விகைள உ வா க உத பேம ெமாழி ெதாழி ப (Language Technology). இைவ தா தமி ெம ெபா கைள உ வா வத ேம ெகா ள ப கிற ப ைற வள சி பணிக . கணினி தமி வள சி எ ப தமி ெதாட கைள ாி ெகா ள (Understanding), அவ ைற உ வா க (Generate) ேதைவயான தமி ெமாழி அறிைவ கணினி அளி பத காக நா ேம ெகா ளேவ ய பணிகைள றி கிற . தமி தர கைள கணினி ாி ெகா வைகயி ெகா பத ெமாழியிய விதிக ேகா பா க ைண ாிகி றன. கணினி ெமாழியிய ேகா பா கைள ெகா ெமாழியி அைம ைப, இல கண ைத கணினி ேக ற வைகயி நிர களாக )Programs(, மி ன இல கணமாக மா றி ெகா , தமி ெமாழியி ேதைவைய நிைற ெச ய ேவ . இ வா தமி ெமாழியி அைம ைப ஒ கைம ட , 180
  • 3. விதிகளாக மா ேபா தமி ெமாழியி த கால எ வழ கி ப ேவ ைறக பய ப த ப வதா ெசா கைள பிாி ேபா (Parsing) வாிைச ப ேபா (Sorting) ப ேவ ெமாழி பய பா சி க க எ கி றன. இ தைகய ெமாழி பய பா சி க களி ஒ தா ெபா மய க (Word Sense Ambiguity). தமிழி ச தி பிைழதி தி (Sandhi Checker), உ பனிய ப பா வி (Morphological Parser), ெதாடாிய ப பா வி (Syntactic Parser), அைடவி (Indexing)(ெசா லைட , ெதாடரைட , ெபா ளைட ), தானிய கி ேப அறிவா (Automatic Speech Recognizer-ASR), இய திர ெமாழிெபய (Machine Translation) ஆகிய ெமாழியா ெம ெபா க விகைள உ வா வதி இ தைகய ெபா மய க இைட றாக அைமகி றன. இவ ைற சாிெச ய, ெபா மய க ெசா லகராதிைய உ வா கேவ ய அவசிய . ெபா மய க - விள க ‘Word Sense Ambiguity’ எ ஆ கில ெசா தமிழி ெதளிவி ைம, ழ ப , க மய க , ெபா மய க , இ ெபா ப நிைல, ெதளிவ ற நிைல என ப ேவ நிைலகளி ெபா ெகா ள ப கி ற . எனி , கணினிெமாழியிய ெபா மய க எ ேற ைகயாள ப கி ற . இ தைகய ெபா மய க கைள கைளவைத கணினிெமாழியிய ‘Word Sense Disambiguation )WSD(’ எ வ . ஒ ெதாட த அைம பி ெவளி ேதா ற தி உ ேதா ற தி ெவ ேவ ெபா த கிற . இ தைகய ெபா ைம மா பா ஏ ப வத ாிய சில ெசா க சில நிைலக இ ேநா க ப கி றன. தமி மரபில கண தி ஒ ெசா றி த பல ெபா , பல ெபா றி த ஒ ெசா எ ற வைக பா காண ப கிற . அகராதி நிைலயி ஒ ெசா பல ெபா க இ கலா .ஆனா , இவ றி ெபா மய க எ ப மா ப ட . ெபா மய க ஏ ப வத கான நிைல பா க தமி ெமாழி தர க உலகளாவிய ெபா ெமாழியி த ைமகைள ெகா பேதா தம ெகன சில தனி த ைமகைள ெகா கி றன. வழ கிழ த க தா க க தமிழி கால காலமாக நிக ெகா ளன. சாதி, ெதாழி , வ டார ேபா றைவ சா த வழ க , ைறசா த வழ க ேப , எ எ நிைல பா க தமி ெமாழி தரவிைன கணினியி ஏ திற ஏ றா ேபா ஒ ைம ப வத ெபா விதிகைள உ வா வத இைட களாக அைமகி றன. ெசா களி இல கண வைக பா ைட நா ைமயான இல கண அறி (Grammatical Knowledge) ம உலகிய அறிவி (Pragmatic Knowledge) ைணேயா அறிகிேறா . ஆனா அவ ைற கணினி க த வதி ப ேவ ெமாழியைம சி க க எ கி றன. அவ ைற சாிெச வத உ பனிய , ெதாடாிய ப பா க ைண ாிகி றன. ஒ ெதாடாி ஒ ேம ப ட அைம க காண படலா . அதாவ றி பி ட ெதாடாி இட ெப ெசா க த க ெவ ேவ வைகயி இைணயலா . அ ேபா ெபா மய க ஏ ப கிற . ஆ கில தி ஒ ெபய (Transliterate) எ ேபா ைற ப த ப ட ஒ றி எ கைள பய ப தேவ . ஆனா றி , ெந , ல,ழ,ள, ற,ர ேபா ற எ க ேவ பா களி றி பய ப த ப வதா ெபா ழ ப அவ ைற உ சாி ேபா ெதளிவி லாத நிைல காண ப கிற . எ கா டாக, பாட எ எ வைத ‘padam’ எ எ தினா பட எ ப பத வா பி கிற . எனேவ ம களி ெபய , ஊ ெபய , 181
  • 4. கவாி, ெபா களி ெபய ேபா றவ ைற தவறாக உ சாி கிற நிைல ஏ ப கிற . எனேவ, இவ ைற ஓ ஒ ைற ெகா வரேவ . ெபா ேவ பா ேவ ைம உ க , ச தி மா ற க , ல,ழ,ள, ற,ர ேவ பா க கிய ப கா கி றன. ேம சாாிையக , இர த ேபா றைவ ைணெச கி றன. பாட கைள ப ேபா எளிைமயாக ாி ெகா ளேவ ெம ேநா கி ெசா கைள பிாி பதா உைரநைட எ ேபா ெபா மய வ ெதாியாம ெசா கைள பிாி பதா ெபா மய கிற .ெபா மய க ஏ படாதவா பிாி கேவ எ பைத கவன தி ெகா ளேவ ய அவசிய .ெபா உண திற ைற த இ கால தி பாட களி எ லா ெசா கைள பிாி ேத எ த ேவ , எளிைம ப தேவ , சாதாரண ேப வழ கி இ கேவ எ ப ேபா ற த ைமக கைடபி க ப கி றன .ேம , எ நைடயி ம றவ களிடமி த கைள ேவ ப தேவ எ பத காக இ தைகய நிைல இ கி ற . 1. தனி ெசா களா ஏ ப கிற ெபா மய க சில தனி ெசா க ெதாட களி பய ப ேபா இ ேவ ெபா கைள த நி கி றன. தமிழி தனி த சில ெசா கைள ெதாட களி பய ப ேபா அைவ ேதா ற தி ஒ ேபால ெபா ளி இ ேவ நிைலகளி காண ப கி ற .ஒ ெதாடாி ேவைல எ ற ெசா காண ப கிற . அ ‘ேவைலைய ’ றி கிறதா? அ ல ‘ேவ ’ எ ஆ த ைத றி கிறதா? எ ற மய க ஏ ப கிற . ெதாட நிைலயி அத அ அ ல அத அைம த ெசா ைல ைவ ேத, இ த ெசா இைத தா றி கிற எ அறிய கிற . நா ேவைல வா கிேன . [அவைர - அவ + ஐ அவைர ெச ], [வ ட - வ ட , தைலைய வ ட], [காைல - கா + ஐ காைல ெபா ], [பா திர - கதா பா திர , சைமய பா திர ] [ஆ - ஆ (River) எ (Number)], [எ ண-எ ண (Thinking) எ ண(Counting)] ேம றி த சில ெசா க ட இர டா ேவ ைம உ வ ளதா அ ல தனி ெசா தானா எ ற ழ பேம இ த ெபா மய க தி ாிய காரணமா . இ தைகய ழ பமி றி ேவ ப வத சில இட களி ‘இ ’ சாாிைய பய ப த ப கிற . கா + ஐ = காைத => கா +இ + ஐ = காதிைன. கா + ஐ = காைட => கா + (இ ) + ஐ = கா ைட, கா ைன. 2. ெதாடரைம நிைலயி ஏ ப கிற ெபா மய க ஒ ெதாட அைம பி எ லா ெசா க சாியான ெபா ைளேய த நி றா அைவ ெபா ெகா ைறயி மய க ஏ ப கி றன. ‘ டா மரனி மைனவி’ எ ெதாடாி டா எ ப மர ெபயரைடயாக வ கிறதா அ ல அவ மைனவி ெபயரைடயாக வ கிறதா எ கிற ழ ப ஏ ப கிற . இ தைகய நிைலயி ேவ ைம உ மைற வ வதா டா எ பத அ , கா ளி இ எ தாததா இ தைகய ழ ப ஏ ப கிற . இதைன அைம ெபா மய க (Structural Ambiguity) எ ெமாழியிய அறிஞ க வ . ெதாடாி றநிைலயி அகநிைலயி மா படாம ழ பமி றி இ தா அைவ எ ெகா ைறயி ழ த ெபா ளி ேவ ப கி றன. 182
  • 5. 3. ெசா கைள பிாி ேச எ கி ற நிைலயி ஏ ப கிற ெபா மய க தமிழி ேவ ெசா ட ப ேவ ப ட ஒ க இைணகி றன. அ வா இைண ேபா அவ ேளேய ஓ இைய விதி உ வாகி ற . இ வா ெசா க ட ஒ கைள இைண ேபா ெசா கைள பிாி ேச எ கி ற வழ க காண ப கி ற . தமிழி ெமாழியிய விதி ப தனி நி ெபா தராத ைணவிைனக (Auxiliary Verb), ஒ க (Affixes) மிதைவ ஒ க (Clitic) ேபா றவ ைற பிாி எ த டா எ பைத மீ வ ெபா மய க தி கிய காரணமா . ெபா வாக ஒ ெசா ைல பிாி ேதா ேச ேதா எ ேபா றவ த க தி அ பைடேய மா கி ற நிைல ஏ ப கிற . எ கா டாக, அவ டேன எ ேச எ தினா with him எ ெபா ப . அவ உடேன எ பிாி எ தினா he at once எ ெபா ப . எனேவ மிக கவன ேதா இடமறி ெபா மய க ஏ படாதவா ேச ேதா பிாி ேதா எ தேவ . ப கைல கழக , ெதாழி ப ேபா ற சில கைல ெசா கைள பிாி எ த டா . இ ேபால ெமாழி பய பா விதிகைள ைறயாக பய ப தினா கணினிவழி ெமாழியா ெபா மய கமி றி வாசி பத பய த . • ைணவிைனக வி (வ வி , ேபா வி , ப வி , கிவி ). ப (பா ப , ேவதைன ப , ஆைச ப ). இ (பா ெகா , ப ெகா ). இ ேச தி , கா , பா தி ). ெகா (ெதாி ெகா , பா ெகா ). ெகா ள (பா ெகா ள, ேபசி ெகா ள, அறி ெகா ள). வி , வி ட (பா வி , ேபசிவி , பா வி ட , ேபா வி ட ). ப , ப ட (அறிய ப , விள க ப , ற ப ட , ேச க ப ட ). ேவ (பா க ேவ , ெச லேவ , எ தேவ ). உ ள (ெதாியவ ள , பாட ப ள ). ெகா , உ , ஆ , ேபா , வ , த , உ இ ேபா ற ஐ ப ேம ப ட ைணவிைனக எ வழ கி ேப வழ கி காண ப கி றன. ஒ ெதாடாி ஒ ேம ப ட ைணவிைனக இைண வ . அவ க ப வி ெச றன . அவ க ப வி ெச றன . பிாி எ தியதா இ வி ெதாட க கிைடேய ெபா ேவ பா ெதளிவாக ெதாிகிற . • மிதைவ ஒ தா - அைத தா , அவ தா , அ ேபா தா , அதனா தா . பி ெனா கீ , ேம - ைறயி கீ , தைலேம . வழி - கணினிவழி, அத வழி. விட - அவைனவிட, ேபசியைதவிட. விைன வி தி ேபா - ெசா னேபா , பா தேபா . ப - அத ப , ெசா னப . ெபா நிைல க - அத க . கால - இைட கால , ச ககால . வர - ெச வர, நட வர. 183
  • 6. உ பனிய ெபா மய க ஒ ெசா ஓ உ ப ெகா டதாகேவா அ ல அத ேம ப ட உ ப களாகேவா இ கலா . ப ேவ உ ப களா உ வான ெசா கைள கணினிவழி ப பா ெச வ ‘உ பனிய ப பா ’எ பதா . இத காக உ பனிய ப பா விக (Morphological Parsers) உ வா க ப வ கி றன. இ வா உ வா ேபா ெபா மய க ெசா களி சி க க ேநா க த கதாக உ ளன. இய திர ெமாழிெபய பி (Machine Translation) கணினிெமாழியிய விதியான இ நிைல உ பனிய (Two Level Morphology) எ ற ெமாழி த ைம றி ஆரா வ . ஒ ெதாடாி அ நிைல (Deep Structure), றநிைல (Surface Structure) ஆகிய இர காண ப . இவ றநிைலயி எ தவித மா பா ஏ ப வதி ைல. ஆனா , ெபா மய க ெசா க வ ேபா அகநிைலயி ழ ப ஏ ப கிற . தமிழி காண ப ெதாட களி ேவ ெசா க தனி வி திகேள காண ப கி றன. தனி த ெசா கைள க டறிவத அகராதிகைள பய ப தலா . ம றவ ைற உ ளீ ெச ஆ ெச ேத ப தறிய . ேவ ெசா கைள ஒ கைள ப , ெபா மய கமி றி வைக ப வத உ பனிய ப பா அவசியமாகிற . ெமாழியிய வைக பா ெபா மய க ெமாழியிய அ பைடயி ெபா மய க ைத, ஒ யனிய (Phonology), உ பனிய (Morphology), ெதாடாிய (Syntax), ெசா ெபா ைமயிய (Semantics), க தாட (Discourse) ஆகிய நிைலகளி வைக ப தலா . ஒ யனிய (ச தி) நிைலயி , ‘ேவைல ெச தா ’, ‘ேவைல ெச தா ’ எ பவ றி தலாவ ேவைல பணிைய றி கிற , இர டாவ ேவைல க விைய றி கிற . உ பனிய நிைலயி , ‘நா க தி வி ேற ’ எ ற ெதாடாி க தி எ ற ெபயைர றி கிறதா அ ல விைனைய றி கிறதா எ பதி ழ ப ஏ ப கிற . ெதாடாிய நிைலயி , ‘நா இராமேனா சீைதைய பா ேத ’ எ ற ெதாடாி இர வைகயாக ெபா ெகா ளலா . நா இராம சீைதைய பா ேதா எ நா இராம சீைத ேச தி ேபா பா ேத எ ெபா ப கிற . ெசா ெபா ைம நிைலயி , ‘ப ைச கா கறி’, ‘ப ைச ெபா ’, ‘ப ைச உட ’ ஆகிய ெதாட களி ப ைச எ ற ெசா ேவ ப ட ெபா கைள றி நி கிற . றி எ த ெபா ைள எ ெகா வ எ ப அத அ த ெசா ைல ெபா த .க தாட நிைலயி , ஏ ப கிற ெபா மய க ைத கணினி க தர யா . அவ ைற உலகிய அறிவி (Pragmatic Knowledge) வாயிலாகேவ உணர . ேம றி த ெபா மய க கைள தீ ைவ க ய அறிைவ - வழி ைறகைள எ வா கணினி அளி ப றி , ப ேவ நிைலகளி ஆராய ெப கி றன. ெபா மய க ைத தவி பத ாிய ெபா வான சில வழி ைறக கணினிவழி தமி ெதாட கைள ஆ ெச ேபா ஏ ப கிற ெபா மயக ைத நீ கி ெபா ைள ெதளிவாக ாி ெகா வத உ ெபா யனிய மா ற க ைண ாிகி றன. ெபா மய க ைத இல கண வைக பா வாயிலாகேவ ெதளி ப த . ெபய , விைன அ பைடயி உ வா ெசா களாக உ பனிய , ெதாடாிய ப பா கைள ெகா அ ெசா , வி திக ஆகியவ ைற ப தா இவ ைற சாிெச ய . 184
  • 7. ‘அவ ெந தா வி றா ’ எ ற ெதாடாி , அவ ெந ைய தா (ெந +தா ) வி றா எ ேவ ைம மைற நி ெபா த கிறதா? அ ல அவ ணிைய ெந தா (ெந + + +ஆ ) பிற வி றா எ ற ெபா ப கிறதா? எ ற ஐய ஏ ப கிற . இ தைகய நிைலயி ெதாடாிய ஆ வி அ பைடயிேலேய ெதளி ெபற . அ ெசா லா ஏ ப கிற ெபா மய க ைத வி திகைள ெகா ெதளி ெபறலா . வி திகளா ஏ ப கிற ெபா மய க தி அ ெசா ைல ெகா ெதளி ெபறலா . எ கா டாக, ‘ப தா ’ எ ற ெசா ப எ ப ெபயராக வ ேபா ப தா எ விைனயாக வ ேபா ப தா எ வ எ பதைன அ ெசா வாயிலாக ெபற கிற . ‘ஆ ’ எ வி தி ‘அவனா நா வ ேத ’ எ ெதாடாி ெபய பி வ ததா ேவ ைம வி தி எ ,‘வ தா நா வ ேவ ’எ ெதாடாி விைன பிற வ ததா ஆ எ ப நிப தைன வி தி எ ப க டறிய கிற . ‘இ ’ எ ற ெசா இ ேவ ெபா த கி றன .அவ ைற இட ெபா அ பைடயிேலேய ேச ேதா பிாி ேதா எ த . வி ைச பி காக , வைக ப வத காக , ெபா ெதளிவி காக கா ளி ‘,’ இ எ வ க டாயமாகிற . இ ேபா ற ப ேவ ெமாழி பய பா ெநறிக தமி ெமாழி இல கண களி ெமாழியிய விதிகளி காண கிைட கி றன. நிைறவாக ெபா மய க தி கான அைட பைட காரண க , ெபா மய க ஏ ப வத ாிய நிைல பா கைள றாக ப ெமாழியிய வைக பா த த எ கா க ட ஆராய ெப றன. ேம , ெபா மய க ைத தவி பத ாிய ெபா வான சில வழி ைறக , கணினிவழி தமிழா ெச ேபா ஏ ப கிற சி க க ஆராய ெப றன. ஒ ெதாடைர எ ேபா ெபய , விைன, ைணவிைன ேபா ற அ பைட ேவ பா கைள அறி , பய ப தினா ப ேவ ெமாழி பய பா சி க க சாிெச ய ப . அைனவ ஒேரவிதமான ெமாழி பய பா ெகா ைகைய பய ப வத வழி ,கணினிவழி ெமாழியா ெச வத எளிைமயாக இ . இ ேபா ற ப ேவ ெமாழியைம கைள ைற ப த ேவ ய க டாய ஏ ப ள எ பைத இ க ைர கா கிற . ேத ெத க ப ட ைண ப ய 1. ைனவ ச .அக திய க ,தமி ெமாழி அைம பிய ,ெம ய ப தமிழா வக ,சித பர . தமி 2. டா ட ெபா ேகா, (2006), இ கால தமி இல கண , ெபாழி ெவளி ,ெச ைன. 3. எ .ஏ. ஃமா , (2007), அ பைட தமி இல கண , அைடயாள ,தி சி. 4. ேபரா. கலாநிதி அ. ச கதா , (2008), தமி ெமாழி இல கண இய க , நி ெச ாி ஹ . 5. ைனவ ெச. ைவ. ச க , (2004), ெதா கா பிய ெதாடாிய , உலக தமிழாரா சி நி வன . 6. ைனவ அ. தாேமாதர ைணவிைனக ,, ,ஆ க ைர . 7. தமி இைணய 2010, மாநா க ைரக . 8. Dr. M. Suseela, (2001), A Historical Study of Old Tamil Syntax, Tamil University. 9. Thomas Lehman, (1993), A Grammar of Modern Tamil, Pondichery Institute of Linguistics and Culture. 185