D4 sundaram

கணினிவழி தமி ெமாழியா வி ெபா மய க
Ambiguities in Computer Assisted Tamil Language Processing

இல.
இல தர
ைண ேபராசிாிய , ஒ கிைண பாள ,
கணினி தமி க வி தமி ேபராய , SRM ப கைல கழக . மி ன ச : sundarbaskar@gmail.com

ைர
கணினியி தமி ெமாழியி பய பா ெப கி ள . தமி ெமாழியி வள சி கணினியி
ப களி தவி க யாத ஒ றாகிவி ட . ெமாழி ஆ க வியாக கணினிைய பய ப தி
வ கிற நிைலயி தமி ெமாழி தர கைள அத ஓ ஒ கைம ட க தரேவ ள .
அதாவ கணித அ பைடயி ெமாழியி உ ள ெமாழியிய கைள கணினி ஏ ற
வைகயி மா றி தரேவ ள . இ தைகய வழி ைறகைள ெகா பேத கணினி ெமாழியிய
எ பதா . ெமாழி ெசய ப வதி உ ளஒ ைறயி ெதா தா இல கண . இ தைகய
ஒ ைற ந ன, ெதாழி ப வள சிகளினா ெமாழி உலகமயமா க ழ னா
சிைத மா ப வ கிற . ெமாழிைய இ தைகய சிைத களி மீ ெட க ெமாழியிய
கைள ைறயாக க , பய ப தேவ ய க டாய ஏ ப ள .

ெபா மய க தமி ெமாழி பய பா உ வா கி ற நிைல பா கைள ,கணினிவழி
ஆ ெச ேபா ஏ ப கிற ெமாழியைம சி க கைள ,அவ ைற தவி பத கான
வழி ைறகைள , ெமாழியிய வைக பா ெநறி ைறகைள எ வதாக இ
க ைர அைமகிற .

இய ைகெமாழியா ; கணினிெமாழியிய ; ெமாழி ெதாழி ப :
தமி ெமாழியி இய கைள ெதளிவாக அறி ெகா ள ஒ யனிய , உ பனிய , ெதாடாிய
ம ெபா ைமயிய ேபா ற ெமாழியிய அறி இ றியைமயாதன.

மனித ைளைய ேபா கணினிைய இய ைகெமாழி அறிைவ ெபறைவ ,ெமாழி
ெதாட கைள ாி ெகா ள , உ வா க , ெச யைவ ய சிேய இய ைக ெமாழியா
(Natural Language Processing). இ தைகய இய ைகெமாழியா ைவ ேம ெகா ள உ வா க ப கிற
வழி ைறக ைற ப த ேம கணினி ெமாழியிய (Computational Linguistics). கணினி
ெமாழியிய ைணேயா ெமாழி ேதைவயான மி ன ெமாழி க விகைள உ வா க
உத பேம ெமாழி ெதாழி ப (Language Technology). இைவ தா தமி ெம
ெபா கைள உ வா வத ேம ெகா ள ப கிற ப ைற வள சி பணிக .

கணினி தமி வள சி எ ப தமி ெதாட கைள ாி ெகா ள (Understanding), அவ ைற
உ வா க (Generate) ேதைவயான தமி ெமாழி அறிைவ கணினி அளி பத காக நா
ேம ெகா ளேவ ய பணிகைள றி கிற . தமி தர கைள கணினி ாி ெகா
வைகயி ெகா பத ெமாழியிய விதிக ேகா பா க ைண ாிகி றன. கணினி
ெமாழியிய ேகா பா கைள ெகா ெமாழியி அைம ைப, இல கண ைத கணினி ேக ற
வைகயி நிர களாக )Programs(, மி ன இல கணமாக மா றி ெகா , தமி ெமாழியி
ேதைவைய நிைற ெச ய ேவ . இ வா தமி ெமாழியி அைம ைப ஒ கைம ட ,

180

விதிகளாக மா ேபா தமி ெமாழியி த கால எ வழ கி ப ேவ ைறக
பய ப த ப வதா ெசா கைள பிாி ேபா (Parsing) வாிைச ப ேபா (Sorting)
ப ேவ ெமாழி பய பா சி க க எ கி றன. இ தைகய ெமாழி பய பா
சி க களி ஒ தா ெபா மய க (Word Sense Ambiguity).

தமிழி ச தி பிைழதி தி (Sandhi Checker), உ பனிய ப பா வி (Morphological Parser),
ெதாடாிய ப பா வி (Syntactic Parser), அைடவி (Indexing)(ெசா லைட , ெதாடரைட ,
ெபா ளைட ), தானிய கி ேப அறிவா (Automatic Speech Recognizer-ASR), இய திர
ெமாழிெபய (Machine Translation) ஆகிய ெமாழியா ெம ெபா க விகைள உ வா
வதி இ தைகய ெபா மய க இைட றாக அைமகி றன. இவ ைற சாிெச ய, ெபா மய க
ெசா லகராதிைய உ வா கேவ ய அவசிய .

ெபா மய க - விள க
‘Word Sense Ambiguity’ எ ஆ கில ெசா தமிழி ெதளிவி ைம, ழ ப , க மய க ,
ெபா மய க , இ ெபா ப நிைல, ெதளிவ ற நிைல என ப ேவ நிைலகளி
ெபா ெகா ள ப கி ற . எனி , கணினிெமாழியிய ெபா மய க எ ேற
ைகயாள ப கி ற . இ தைகய ெபா மய க கைள கைளவைத கணினிெமாழியிய ‘Word
Sense Disambiguation )WSD(’ எ வ .

ஒ ெதாட த அைம பி ெவளி ேதா ற தி உ ேதா ற தி ெவ ேவ ெபா த கிற .
இ தைகய ெபா ைம மா பா ஏ ப வத ாிய சில ெசா க சில நிைலக இ
ேநா க ப கி றன. தமி மரபில கண தி ஒ ெசா றி த பல ெபா , பல ெபா றி த
ஒ ெசா எ ற வைக பா காண ப கிற . அகராதி நிைலயி ஒ ெசா பல ெபா க
இ கலா .ஆனா , இவ றி ெபா மய க எ ப மா ப ட .

ெபா மய க ஏ ப வத கான நிைல பா க
தமி ெமாழி தர க உலகளாவிய ெபா ெமாழியி த ைமகைள ெகா பேதா தம ெகன
சில தனி த ைமகைள ெகா கி றன. வழ கிழ த க தா க க தமிழி
கால காலமாக நிக ெகா ளன. சாதி, ெதாழி , வ டார ேபா றைவ சா த வழ க ,
ைறசா த வழ க ேப , எ எ நிைல பா க தமி ெமாழி தரவிைன
கணினியி ஏ திற ஏ றா ேபா ஒ ைம ப வத ெபா விதிகைள உ வா
வத இைட களாக அைமகி றன.

ெசா களி இல கண வைக பா ைட நா ைமயான இல கண அறி (Grammatical
Knowledge) ம உலகிய அறிவி (Pragmatic Knowledge) ைணேயா அறிகிேறா . ஆனா
அவ ைற கணினி க த வதி ப ேவ ெமாழியைம சி க க எ கி றன. அவ ைற
சாிெச வத உ பனிய , ெதாடாிய ப பா க ைண ாிகி றன. ஒ ெதாடாி ஒ
ேம ப ட அைம க காண படலா . அதாவ றி பி ட ெதாடாி இட ெப ெசா க
த க ெவ ேவ வைகயி இைணயலா . அ ேபா ெபா மய க ஏ ப கிற .

ஆ கில தி ஒ ெபய (Transliterate) எ ேபா ைற ப த ப ட ஒ றி
எ கைள பய ப தேவ . ஆனா றி , ெந , ல,ழ,ள, ற,ர ேபா ற எ க
ேவ பா களி றி பய ப த ப வதா ெபா ழ ப அவ ைற உ சாி ேபா
ெதளிவி லாத நிைல காண ப கிற . எ கா டாக, பாட எ எ வைத ‘padam’
எ எ தினா பட எ ப பத வா பி கிற . எனேவ ம களி ெபய , ஊ ெபய ,

181

கவாி, ெபா களி ெபய ேபா றவ ைற தவறாக உ சாி கிற நிைல ஏ ப கிற . எனேவ,
இவ ைற ஓ ஒ ைற ெகா வரேவ .

ெபா ேவ பா ேவ ைம உ க , ச தி மா ற க , ல,ழ,ள, ற,ர ேவ பா க
கிய ப கா கி றன. ேம சாாிையக , இர த ேபா றைவ ைணெச கி றன.

பாட கைள ப ேபா எளிைமயாக ாி ெகா ளேவ ெம ேநா கி ெசா கைள
பிாி பதா உைரநைட எ ேபா ெபா மய வ ெதாியாம ெசா கைள பிாி பதா
ெபா மய கிற .ெபா மய க ஏ படாதவா பிாி கேவ எ பைத கவன தி
ெகா ளேவ ய அவசிய .ெபா உண திற ைற த இ கால தி பாட களி எ லா
ெசா கைள பிாி ேத எ த ேவ , எளிைம ப தேவ , சாதாரண ேப வழ கி
இ கேவ எ ப ேபா ற த ைமக கைடபி க ப கி றன .ேம , எ நைடயி
ம றவ களிடமி த கைள ேவ ப தேவ எ பத காக இ தைகய நிைல
இ கி ற .

1. தனி ெசா களா ஏ ப கிற ெபா மய க
சில தனி ெசா க ெதாட களி பய ப ேபா இ ேவ ெபா கைள த நி கி றன.
தமிழி தனி த சில ெசா கைள ெதாட களி பய ப ேபா அைவ ேதா ற தி ஒ
ேபால ெபா ளி இ ேவ நிைலகளி காண ப கி ற .ஒ ெதாடாி ேவைல எ ற ெசா
காண ப கிற . அ ‘ேவைலைய ’ றி கிறதா? அ ல ‘ேவ ’ எ ஆ த ைத றி கிறதா?
எ ற மய க ஏ ப கிற . ெதாட நிைலயி அத அ அ ல அத அைம த
ெசா ைல ைவ ேத, இ த ெசா இைத தா றி கிற எ அறிய கிற . நா ேவைல
வா கிேன .
[அவைர - அவ + ஐ அவைர ெச ], [வ ட - வ ட , தைலைய வ ட],
[காைல - கா + ஐ காைல ெபா ], [பா திர - கதா பா திர , சைமய பா திர ]

[ஆ - ஆ (River) எ (Number)], [எ ண-எ ண (Thinking) எ ண(Counting)]

ேம றி த சில ெசா க ட இர டா ேவ ைம உ வ ளதா அ ல தனி ெசா தானா
எ ற ழ பேம இ த ெபா மய க தி ாிய காரணமா . இ தைகய ழ பமி றி
ேவ ப வத சில இட களி ‘இ ’ சாாிைய பய ப த ப கிற .
கா + ஐ = காைத => கா +இ + ஐ = காதிைன.
கா + ஐ = காைட => கா + (இ ) + ஐ = கா ைட, கா ைன.
2. ெதாடரைம நிைலயி ஏ ப கிற ெபா மய க
ஒ ெதாட அைம பி எ லா ெசா க சாியான ெபா ைளேய த நி றா அைவ
ெபா ெகா ைறயி மய க ஏ ப கி றன. ‘ டா மரனி மைனவி’ எ
ெதாடாி டா எ ப மர ெபயரைடயாக வ கிறதா அ ல அவ மைனவி
ெபயரைடயாக வ கிறதா எ கிற ழ ப ஏ ப கிற . இ தைகய நிைலயி ேவ ைம உ
மைற வ வதா டா எ பத அ , கா ளி இ எ தாததா இ தைகய
ழ ப ஏ ப கிற . இதைன அைம ெபா மய க (Structural Ambiguity) எ ெமாழியிய
அறிஞ க வ . ெதாடாி றநிைலயி அகநிைலயி மா படாம ழ பமி றி
இ தா அைவ எ ெகா ைறயி ழ த ெபா ளி ேவ ப கி றன.

182

3. ெசா கைள பிாி ேச எ கி ற நிைலயி ஏ ப கிற ெபா
மய க
தமிழி ேவ ெசா ட ப ேவ ப ட ஒ க இைணகி றன. அ வா இைண ேபா
அவ ேளேய ஓ இைய விதி உ வாகி ற . இ வா ெசா க ட ஒ கைள
இைண ேபா ெசா கைள பிாி ேச எ கி ற வழ க காண ப கி ற .

தமிழி ெமாழியிய விதி ப தனி நி ெபா தராத ைணவிைனக (Auxiliary Verb),
ஒ க (Affixes) மிதைவ ஒ க (Clitic) ேபா றவ ைற பிாி எ த டா எ பைத
மீ வ ெபா மய க தி கிய காரணமா .

ெபா வாக ஒ ெசா ைல பிாி ேதா ேச ேதா எ ேபா றவ த க தி அ பைடேய
மா கி ற நிைல ஏ ப கிற . எ கா டாக, அவ டேன எ ேச எ தினா with him
எ ெபா ப . அவ உடேன எ பிாி எ தினா he at once எ ெபா ப . எனேவ
மிக கவன ேதா இடமறி ெபா மய க ஏ படாதவா ேச ேதா பிாி ேதா எ தேவ .
ப கைல கழக , ெதாழி ப ேபா ற சில கைல ெசா கைள பிாி எ த டா .
இ ேபால ெமாழி பய பா விதிகைள ைறயாக பய ப தினா கணினிவழி
ெமாழியா ெபா மய கமி றி வாசி பத பய த .

• ைணவிைனக
வி (வ வி , ேபா வி , ப வி , கிவி ). ப (பா ப , ேவதைன ப , ஆைச ப ).
இ (பா ெகா , ப ெகா ). இ ேச தி , கா , பா தி ). ெகா
(ெதாி ெகா , பா ெகா ). ெகா ள (பா ெகா ள, ேபசி ெகா ள, அறி
ெகா ள). வி , வி ட (பா வி , ேபசிவி , பா வி ட , ேபா வி ட ). ப ,
ப ட (அறிய ப , விள க ப , ற ப ட , ேச க ப ட ). ேவ (பா க
ேவ , ெச லேவ , எ தேவ ). உ ள (ெதாியவ ள , பாட ப ள ).

ெகா , உ , ஆ , ேபா , வ , த , உ இ ேபா ற ஐ ப ேம ப ட ைணவிைனக
எ வழ கி ேப வழ கி காண ப கி றன. ஒ ெதாடாி ஒ ேம ப ட
ைணவிைனக இைண வ .

அவ க ப வி ெச றன . அவ க ப வி ெச றன .

பிாி எ தியதா இ வி ெதாட க கிைடேய ெபா ேவ பா ெதளிவாக ெதாிகிற .

• மிதைவ ஒ
தா - அைத தா , அவ தா , அ ேபா தா , அதனா தா .
பி ெனா
கீ , ேம - ைறயி கீ , தைலேம . வழி - கணினிவழி, அத வழி.
விட - அவைனவிட, ேபசியைதவிட.
விைன வி தி
ேபா - ெசா னேபா , பா தேபா . ப - அத ப , ெசா னப .
ெபா நிைல

க - அத க . கால - இைட கால , ச ககால .
வர - ெச வர, நட வர.

183

உ பனிய ெபா மய க
ஒ ெசா ஓ உ ப ெகா டதாகேவா அ ல அத ேம ப ட உ ப களாகேவா இ கலா .
ப ேவ உ ப களா உ வான ெசா கைள கணினிவழி ப பா ெச வ ‘உ பனிய
ப பா ’எ பதா . இத காக உ பனிய ப பா விக (Morphological Parsers) உ வா க
ப வ கி றன. இ வா உ வா ேபா ெபா மய க ெசா களி சி க க ேநா க
த கதாக உ ளன.

இய திர ெமாழிெபய பி (Machine Translation) கணினிெமாழியிய விதியான இ நிைல
உ பனிய (Two Level Morphology) எ ற ெமாழி த ைம றி ஆரா வ . ஒ ெதாடாி
அ நிைல (Deep Structure), றநிைல (Surface Structure) ஆகிய இர காண ப . இவ
றநிைலயி எ தவித மா பா ஏ ப வதி ைல. ஆனா , ெபா மய க ெசா க வ ேபா
அகநிைலயி ழ ப ஏ ப கிற .

தமிழி காண ப ெதாட களி ேவ ெசா க தனி வி திகேள காண ப கி றன.
தனி த ெசா கைள க டறிவத அகராதிகைள பய ப தலா . ம றவ ைற உ ளீ ெச
ஆ ெச ேத ப தறிய . ேவ ெசா கைள ஒ கைள ப , ெபா மய கமி றி
வைக ப வத உ பனிய ப பா அவசியமாகிற .

ெமாழியிய வைக பா ெபா மய க
ெமாழியிய அ பைடயி ெபா மய க ைத, ஒ யனிய (Phonology), உ பனிய
(Morphology), ெதாடாிய (Syntax), ெசா ெபா ைமயிய (Semantics), க தாட (Discourse)
ஆகிய நிைலகளி வைக ப தலா .

ஒ யனிய (ச தி) நிைலயி , ‘ேவைல ெச தா ’, ‘ேவைல ெச தா ’ எ பவ றி தலாவ
ேவைல பணிைய றி கிற , இர டாவ ேவைல க விைய றி கிற . உ பனிய நிைலயி ,
‘நா க தி வி ேற ’ எ ற ெதாடாி க தி எ ற ெபயைர றி கிறதா அ ல விைனைய
றி கிறதா எ பதி ழ ப ஏ ப கிற . ெதாடாிய நிைலயி , ‘நா இராமேனா சீைதைய
பா ேத ’ எ ற ெதாடாி இர வைகயாக ெபா ெகா ளலா . நா இராம சீைதைய
பா ேதா எ நா இராம சீைத ேச தி ேபா பா ேத எ ெபா
ப கிற . ெசா ெபா ைம நிைலயி , ‘ப ைச கா கறி’, ‘ப ைச ெபா ’, ‘ப ைச உட ’ ஆகிய
ெதாட களி ப ைச எ ற ெசா ேவ ப ட ெபா கைள றி நி கிற . றி எ த
ெபா ைள எ ெகா வ எ ப அத அ த ெசா ைல ெபா த .க தாட நிைலயி ,
ஏ ப கிற ெபா மய க ைத கணினி க தர யா . அவ ைற உலகிய அறிவி
(Pragmatic Knowledge) வாயிலாகேவ உணர .

ேம றி த ெபா மய க கைள தீ ைவ க ய அறிைவ - வழி ைறகைள எ வா
கணினி அளி ப றி , ப ேவ நிைலகளி ஆராய ெப கி றன.

ெபா மய க ைத தவி பத ாிய ெபா வான சில வழி ைறக
கணினிவழி தமி ெதாட கைள ஆ ெச ேபா ஏ ப கிற ெபா மயக ைத நீ கி
ெபா ைள ெதளிவாக ாி ெகா வத உ ெபா யனிய மா ற க ைண ாிகி றன.
ெபா மய க ைத இல கண வைக பா வாயிலாகேவ ெதளி ப த . ெபய , விைன
அ பைடயி உ வா ெசா களாக உ பனிய , ெதாடாிய ப பா கைள ெகா
அ ெசா , வி திக ஆகியவ ைற ப தா இவ ைற சாிெச ய .

184

‘அவ ெந தா வி றா ’ எ ற ெதாடாி , அவ ெந ைய தா (ெந +தா ) வி றா எ
ேவ ைம மைற நி ெபா த கிறதா? அ ல அவ ணிைய ெந தா (ெந + + +ஆ )
பிற வி றா எ ற ெபா ப கிறதா? எ ற ஐய ஏ ப கிற . இ தைகய நிைலயி ெதாடாிய
ஆ வி அ பைடயிேலேய ெதளி ெபற .

அ ெசா லா ஏ ப கிற ெபா மய க ைத வி திகைள ெகா ெதளி ெபறலா . வி திகளா
ஏ ப கிற ெபா மய க தி அ ெசா ைல ெகா ெதளி ெபறலா . எ கா டாக,
‘ப தா ’ எ ற ெசா ப எ ப ெபயராக வ ேபா ப தா எ விைனயாக
வ ேபா ப தா எ வ எ பதைன அ ெசா வாயிலாக ெபற கிற . ‘ஆ ’
எ வி தி ‘அவனா நா வ ேத ’ எ ெதாடாி ெபய பி வ ததா ேவ ைம
வி தி எ ,‘வ தா நா வ ேவ ’எ ெதாடாி விைன பிற வ ததா ஆ எ ப
நிப தைன வி தி எ ப க டறிய கிற .

‘இ ’ எ ற ெசா இ ேவ ெபா த கி றன .அவ ைற இட ெபா அ பைடயிேலேய
ேச ேதா பிாி ேதா எ த . வி ைச பி காக , வைக ப வத காக , ெபா
ெதளிவி காக கா ளி ‘,’ இ எ வ க டாயமாகிற . இ ேபா ற ப ேவ ெமாழி
பய பா ெநறிக தமி ெமாழி இல கண களி ெமாழியிய விதிகளி காண கிைட
கி றன.

நிைறவாக
ெபா மய க தி கான அைட பைட காரண க , ெபா மய க ஏ ப வத ாிய
நிைல பா கைள றாக ப ெமாழியிய வைக பா த த எ கா க ட
ஆராய ெப றன. ேம , ெபா மய க ைத தவி பத ாிய ெபா வான சில வழி ைறக ,
கணினிவழி தமிழா ெச ேபா ஏ ப கிற சி க க ஆராய ெப றன. ஒ ெதாடைர
எ ேபா ெபய , விைன, ைணவிைன ேபா ற அ பைட ேவ பா கைள அறி ,
பய ப தினா ப ேவ ெமாழி பய பா சி க க சாிெச ய ப . அைனவ
ஒேரவிதமான ெமாழி பய பா ெகா ைகைய பய ப வத வழி ,கணினிவழி ெமாழியா
ெச வத எளிைமயாக இ . இ ேபா ற ப ேவ ெமாழியைம கைள ைற ப த
ேவ ய க டாய ஏ ப ள எ பைத இ க ைர கா கிற .

ேத ெத க ப ட ைண ப ய
1. ைனவ ச .அக திய க
,தமி ெமாழி அைம பிய ,ெம ய ப தமிழா வக ,சித பர .
தமி
2. டா ட ெபா ேகா, (2006), இ கால தமி இல கண , ெபாழி ெவளி ,ெச ைன.
3. எ .ஏ. ஃமா , (2007), அ பைட தமி இல கண , அைடயாள ,தி சி.
4. ேபரா. கலாநிதி அ. ச கதா , (2008), தமி ெமாழி இல கண இய க , நி ெச ாி
ஹ .
5. ைனவ ெச. ைவ. ச க , (2004), ெதா கா பிய ெதாடாிய , உலக தமிழாரா சி
நி வன .
6. ைனவ அ. தாேமாதர ைணவிைனக ,, ,ஆ க ைர .
7. தமி இைணய 2010, மாநா க ைரக .
8. Dr. M. Suseela, (2001), A Historical Study of Old Tamil Syntax, Tamil University.
9. Thomas Lehman, (1993), A Grammar of Modern Tamil, Pondichery Institute of Linguistics and
Culture.

185

D4 sundaram

Recommended

Recommended

More Related Content

What's hot

What's hot (18)

Similar to D4 sundaram

Similar to D4 sundaram (10)

More from Jasline Presilda

More from Jasline Presilda (20)

D4 sundaram