Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

D4 sundaram

294 views

Published on

Published in: Technology, Education
  • Be the first to comment

  • Be the first to like this

D4 sundaram

  1. 1. கணினிவழி தமி ெமாழியா வி ெபா மய க Ambiguities in Computer Assisted Tamil Language Processing இல. இல தர ைண ேபராசிாிய , ஒ கிைண பாள ,கணினி தமி க வி தமி ேபராய , SRM ப கைல கழக . மி ன ச : sundarbaskar@gmail.com ைரகணினியி தமி ெமாழியி பய பா ெப கி ள . தமி ெமாழியி வள சி கணினியிப களி தவி க யாத ஒ றாகிவி ட . ெமாழி ஆ க வியாக கணினிைய பய ப திவ கிற நிைலயி தமி ெமாழி தர கைள அத ஓ ஒ கைம ட க தரேவ ள .அதாவ கணித அ பைடயி ெமாழியி உ ள ெமாழியிய கைள கணினி ஏ றவைகயி மா றி தரேவ ள . இ தைகய வழி ைறகைள ெகா பேத கணினி ெமாழியியஎ பதா . ெமாழி ெசய ப வதி உ ளஒ ைறயி ெதா தா இல கண . இ தைகயஒ ைற ந ன, ெதாழி ப வள சிகளினா ெமாழி உலகமயமா க ழ னாசிைத மா ப வ கிற . ெமாழிைய இ தைகய சிைத களி மீ ெட க ெமாழியிய கைள ைறயாக க , பய ப தேவ ய க டாய ஏ ப ள .ெபா மய க தமி ெமாழி பய பா உ வா கி ற நிைல பா கைள ,கணினிவழிஆ ெச ேபா ஏ ப கிற ெமாழியைம சி க கைள ,அவ ைற தவி பத கானவழி ைறகைள , ெமாழியிய வைக பா ெநறி ைறகைள எ வதாக இக ைர அைமகிற .இய ைகெமாழியா ; கணினிெமாழியிய ; ெமாழி ெதாழி ப :தமி ெமாழியி இய கைள ெதளிவாக அறி ெகா ள ஒ யனிய , உ பனிய , ெதாடாியம ெபா ைமயிய ேபா ற ெமாழியிய அறி இ றியைமயாதன.மனித ைளைய ேபா கணினிைய இய ைகெமாழி அறிைவ ெபறைவ ,ெமாழிெதாட கைள ாி ெகா ள , உ வா க , ெச யைவ ய சிேய இய ைக ெமாழியா(Natural Language Processing). இ தைகய இய ைகெமாழியா ைவ ேம ெகா ள உ வா க ப கிறவழி ைறக ைற ப த ேம கணினி ெமாழியிய (Computational Linguistics). கணினிெமாழியிய ைணேயா ெமாழி ேதைவயான மி ன ெமாழி க விகைள உ வா கஉத பேம ெமாழி ெதாழி ப (Language Technology). இைவ தா தமி ெமெபா கைள உ வா வத ேம ெகா ள ப கிற ப ைற வள சி பணிக .கணினி தமி வள சி எ ப தமி ெதாட கைள ாி ெகா ள (Understanding), அவ ைறஉ வா க (Generate) ேதைவயான தமி ெமாழி அறிைவ கணினி அளி பத காக நாேம ெகா ளேவ ய பணிகைள றி கிற . தமி தர கைள கணினி ாி ெகாவைகயி ெகா பத ெமாழியிய விதிக ேகா பா க ைண ாிகி றன. கணினிெமாழியிய ேகா பா கைள ெகா ெமாழியி அைம ைப, இல கண ைத கணினி ேக றவைகயி நிர களாக )Programs(, மி ன இல கணமாக மா றி ெகா , தமி ெமாழியிேதைவைய நிைற ெச ய ேவ . இ வா தமி ெமாழியி அைம ைப ஒ கைம ட , 180
  2. 2. விதிகளாக மா ேபா தமி ெமாழியி த கால எ வழ கி ப ேவ ைறகபய ப த ப வதா ெசா கைள பிாி ேபா (Parsing) வாிைச ப ேபா (Sorting)ப ேவ ெமாழி பய பா சி க க எ கி றன. இ தைகய ெமாழி பய பாசி க களி ஒ தா ெபா மய க (Word Sense Ambiguity).தமிழி ச தி பிைழதி தி (Sandhi Checker), உ பனிய ப பா வி (Morphological Parser),ெதாடாிய ப பா வி (Syntactic Parser), அைடவி (Indexing)(ெசா லைட , ெதாடரைட ,ெபா ளைட ), தானிய கி ேப அறிவா (Automatic Speech Recognizer-ASR), இய திரெமாழிெபய (Machine Translation) ஆகிய ெமாழியா ெம ெபா க விகைள உ வாவதி இ தைகய ெபா மய க இைட றாக அைமகி றன. இவ ைற சாிெச ய, ெபா மய கெசா லகராதிைய உ வா கேவ ய அவசிய .ெபா மய க - விள க‘Word Sense Ambiguity’ எ ஆ கில ெசா தமிழி ெதளிவி ைம, ழ ப , க மய க ,ெபா மய க , இ ெபா ப நிைல, ெதளிவ ற நிைல என ப ேவ நிைலகளிெபா ெகா ள ப கி ற . எனி , கணினிெமாழியிய ெபா மய க எ ேறைகயாள ப கி ற . இ தைகய ெபா மய க கைள கைளவைத கணினிெமாழியிய ‘WordSense Disambiguation )WSD(’ எ வ .ஒ ெதாட த அைம பி ெவளி ேதா ற தி உ ேதா ற தி ெவ ேவ ெபா த கிற .இ தைகய ெபா ைம மா பா ஏ ப வத ாிய சில ெசா க சில நிைலக இேநா க ப கி றன. தமி மரபில கண தி ஒ ெசா றி த பல ெபா , பல ெபா றி தஒ ெசா எ ற வைக பா காண ப கிற . அகராதி நிைலயி ஒ ெசா பல ெபா கஇ கலா .ஆனா , இவ றி ெபா மய க எ ப மா ப ட .ெபா மய க ஏ ப வத கான நிைல பா கதமி ெமாழி தர க உலகளாவிய ெபா ெமாழியி த ைமகைள ெகா பேதா தம ெகனசில தனி த ைமகைள ெகா கி றன. வழ கிழ த க தா க க தமிழிகால காலமாக நிக ெகா ளன. சாதி, ெதாழி , வ டார ேபா றைவ சா த வழ க , ைறசா த வழ க ேப , எ எ நிைல பா க தமி ெமாழி தரவிைனகணினியி ஏ திற ஏ றா ேபா ஒ ைம ப வத ெபா விதிகைள உ வாவத இைட களாக அைமகி றன.ெசா களி இல கண வைக பா ைட நா ைமயான இல கண அறி (GrammaticalKnowledge) ம உலகிய அறிவி (Pragmatic Knowledge) ைணேயா அறிகிேறா . ஆனாஅவ ைற கணினி க த வதி ப ேவ ெமாழியைம சி க க எ கி றன. அவ ைறசாிெச வத உ பனிய , ெதாடாிய ப பா க ைண ாிகி றன. ஒ ெதாடாி ஒேம ப ட அைம க காண படலா . அதாவ றி பி ட ெதாடாி இட ெப ெசா கத க ெவ ேவ வைகயி இைணயலா . அ ேபா ெபா மய க ஏ ப கிற .ஆ கில தி ஒ ெபய (Transliterate) எ ேபா ைற ப த ப ட ஒ றிஎ கைள பய ப தேவ . ஆனா றி , ெந , ல,ழ,ள, ற,ர ேபா ற எ கேவ பா களி றி பய ப த ப வதா ெபா ழ ப அவ ைற உ சாி ேபாெதளிவி லாத நிைல காண ப கிற . எ கா டாக, பாட எ எ வைத ‘padam’எ எ தினா பட எ ப பத வா பி கிற . எனேவ ம களி ெபய , ஊ ெபய , 181
  3. 3. கவாி, ெபா களி ெபய ேபா றவ ைற தவறாக உ சாி கிற நிைல ஏ ப கிற . எனேவ,இவ ைற ஓ ஒ ைற ெகா வரேவ .ெபா ேவ பா ேவ ைம உ க , ச தி மா ற க , ல,ழ,ள, ற,ர ேவ பா க கிய ப கா கி றன. ேம சாாிையக , இர த ேபா றைவ ைணெச கி றன.பாட கைள ப ேபா எளிைமயாக ாி ெகா ளேவ ெம ேநா கி ெசா கைளபிாி பதா உைரநைட எ ேபா ெபா மய வ ெதாியாம ெசா கைள பிாி பதாெபா மய கிற .ெபா மய க ஏ படாதவா பிாி கேவ எ பைத கவன திெகா ளேவ ய அவசிய .ெபா உண திற ைற த இ கால தி பாட களி எ லாெசா கைள பிாி ேத எ த ேவ , எளிைம ப தேவ , சாதாரண ேப வழ கிஇ கேவ எ ப ேபா ற த ைமக கைடபி க ப கி றன .ேம , எ நைடயிம றவ களிடமி த கைள ேவ ப தேவ எ பத காக இ தைகய நிைலஇ கி ற .1. தனி ெசா களா ஏ ப கிற ெபா மய கசில தனி ெசா க ெதாட களி பய ப ேபா இ ேவ ெபா கைள த நி கி றன.தமிழி தனி த சில ெசா கைள ெதாட களி பய ப ேபா அைவ ேதா ற தி ஒேபால ெபா ளி இ ேவ நிைலகளி காண ப கி ற .ஒ ெதாடாி ேவைல எ ற ெசாகாண ப கிற . அ ‘ேவைலைய ’ றி கிறதா? அ ல ‘ேவ ’ எ ஆ த ைத றி கிறதா?எ ற மய க ஏ ப கிற . ெதாட நிைலயி அத அ அ ல அத அைம தெசா ைல ைவ ேத, இ த ெசா இைத தா றி கிற எ அறிய கிற . நா ேவைலவா கிேன . [அவைர - அவ + ஐ அவைர ெச ], [வ ட - வ ட , தைலைய வ ட], [காைல - கா + ஐ காைல ெபா ], [பா திர - கதா பா திர , சைமய பா திர ] [ஆ - ஆ (River) எ (Number)], [எ ண-எ ண (Thinking) எ ண(Counting)]ேம றி த சில ெசா க ட இர டா ேவ ைம உ வ ளதா அ ல தனி ெசா தானாஎ ற ழ பேம இ த ெபா மய க தி ாிய காரணமா . இ தைகய ழ பமி றிேவ ப வத சில இட களி ‘இ ’ சாாிைய பய ப த ப கிற . கா + ஐ = காைத => கா +இ + ஐ = காதிைன. கா + ஐ = காைட => கா + (இ ) + ஐ = கா ைட, கா ைன.2. ெதாடரைம நிைலயி ஏ ப கிற ெபா மய கஒ ெதாட அைம பி எ லா ெசா க சாியான ெபா ைளேய த நி றா அைவெபா ெகா ைறயி மய க ஏ ப கி றன. ‘ டா மரனி மைனவி’ எெதாடாி டா எ ப மர ெபயரைடயாக வ கிறதா அ ல அவ மைனவிெபயரைடயாக வ கிறதா எ கிற ழ ப ஏ ப கிற . இ தைகய நிைலயி ேவ ைம உமைற வ வதா டா எ பத அ , கா ளி இ எ தாததா இ தைகய ழ ப ஏ ப கிற . இதைன அைம ெபா மய க (Structural Ambiguity) எ ெமாழியியஅறிஞ க வ . ெதாடாி றநிைலயி அகநிைலயி மா படாம ழ பமி றிஇ தா அைவ எ ெகா ைறயி ழ த ெபா ளி ேவ ப கி றன. 182
  4. 4. 3. ெசா கைள பிாி ேச எ கி ற நிைலயி ஏ ப கிற ெபாமய கதமிழி ேவ ெசா ட ப ேவ ப ட ஒ க இைணகி றன. அ வா இைண ேபாஅவ ேளேய ஓ இைய விதி உ வாகி ற . இ வா ெசா க ட ஒ கைளஇைண ேபா ெசா கைள பிாி ேச எ கி ற வழ க காண ப கி ற .தமிழி ெமாழியிய விதி ப தனி நி ெபா தராத ைணவிைனக (Auxiliary Verb),ஒ க (Affixes) மிதைவ ஒ க (Clitic) ேபா றவ ைற பிாி எ த டா எ பைதமீ வ ெபா மய க தி கிய காரணமா .ெபா வாக ஒ ெசா ைல பிாி ேதா ேச ேதா எ ேபா றவ த க தி அ பைடேயமா கி ற நிைல ஏ ப கிற . எ கா டாக, அவ டேன எ ேச எ தினா with himஎ ெபா ப . அவ உடேன எ பிாி எ தினா he at once எ ெபா ப . எனேவமிக கவன ேதா இடமறி ெபா மய க ஏ படாதவா ேச ேதா பிாி ேதா எ தேவ .ப கைல கழக , ெதாழி ப ேபா ற சில கைல ெசா கைள பிாி எ த டா .இ ேபால ெமாழி பய பா விதிகைள ைறயாக பய ப தினா கணினிவழிெமாழியா ெபா மய கமி றி வாசி பத பய த . • ைணவிைனக வி (வ வி , ேபா வி , ப வி , கிவி ). ப (பா ப , ேவதைன ப , ஆைச ப ). இ (பா ெகா , ப ெகா ). இ ேச தி , கா , பா தி ). ெகா (ெதாி ெகா , பா ெகா ). ெகா ள (பா ெகா ள, ேபசி ெகா ள, அறி ெகா ள). வி , வி ட (பா வி , ேபசிவி , பா வி ட , ேபா வி ட ). ப , ப ட (அறிய ப , விள க ப , ற ப ட , ேச க ப ட ). ேவ (பா க ேவ , ெச லேவ , எ தேவ ). உ ள (ெதாியவ ள , பாட ப ள ).ெகா , உ , ஆ , ேபா , வ , த , உ இ ேபா ற ஐ ப ேம ப ட ைணவிைனகஎ வழ கி ேப வழ கி காண ப கி றன. ஒ ெதாடாி ஒ ேம ப ட ைணவிைனக இைண வ . அவ க ப வி ெச றன . அவ க ப வி ெச றன .பிாி எ தியதா இ வி ெதாட க கிைடேய ெபா ேவ பா ெதளிவாக ெதாிகிற . • மிதைவ ஒ தா - அைத தா , அவ தா , அ ேபா தா , அதனா தா . பி ெனா கீ , ேம - ைறயி கீ , தைலேம . வழி - கணினிவழி, அத வழி. விட - அவைனவிட, ேபசியைதவிட. விைன வி தி ேபா - ெசா னேபா , பா தேபா . ப - அத ப , ெசா னப . ெபா நிைல க - அத க . கால - இைட கால , ச ககால . வர - ெச வர, நட வர. 183
  5. 5. உ பனிய ெபா மய கஒ ெசா ஓ உ ப ெகா டதாகேவா அ ல அத ேம ப ட உ ப களாகேவா இ கலா .ப ேவ உ ப களா உ வான ெசா கைள கணினிவழி ப பா ெச வ ‘உ பனியப பா ’எ பதா . இத காக உ பனிய ப பா விக (Morphological Parsers) உ வா கப வ கி றன. இ வா உ வா ேபா ெபா மய க ெசா களி சி க க ேநா கத கதாக உ ளன.இய திர ெமாழிெபய பி (Machine Translation) கணினிெமாழியிய விதியான இ நிைலஉ பனிய (Two Level Morphology) எ ற ெமாழி த ைம றி ஆரா வ . ஒ ெதாடாிஅ நிைல (Deep Structure), றநிைல (Surface Structure) ஆகிய இர காண ப . இவ றநிைலயி எ தவித மா பா ஏ ப வதி ைல. ஆனா , ெபா மய க ெசா க வ ேபாஅகநிைலயி ழ ப ஏ ப கிற .தமிழி காண ப ெதாட களி ேவ ெசா க தனி வி திகேள காண ப கி றன.தனி த ெசா கைள க டறிவத அகராதிகைள பய ப தலா . ம றவ ைற உ ளீ ெசஆ ெச ேத ப தறிய . ேவ ெசா கைள ஒ கைள ப , ெபா மய கமி றிவைக ப வத உ பனிய ப பா அவசியமாகிற .ெமாழியிய வைக பா ெபா மய கெமாழியிய அ பைடயி ெபா மய க ைத, ஒ யனிய (Phonology), உ பனிய(Morphology), ெதாடாிய (Syntax), ெசா ெபா ைமயிய (Semantics), க தாட (Discourse)ஆகிய நிைலகளி வைக ப தலா .ஒ யனிய (ச தி) நிைலயி , ‘ேவைல ெச தா ’, ‘ேவைல ெச தா ’ எ பவ றி தலாவேவைல பணிைய றி கிற , இர டாவ ேவைல க விைய றி கிற . உ பனிய நிைலயி ,‘நா க தி வி ேற ’ எ ற ெதாடாி க தி எ ற ெபயைர றி கிறதா அ ல விைனைய றி கிறதா எ பதி ழ ப ஏ ப கிற . ெதாடாிய நிைலயி , ‘நா இராமேனா சீைதையபா ேத ’ எ ற ெதாடாி இர வைகயாக ெபா ெகா ளலா . நா இராம சீைதையபா ேதா எ நா இராம சீைத ேச தி ேபா பா ேத எ ெபாப கிற . ெசா ெபா ைம நிைலயி , ‘ப ைச கா கறி’, ‘ப ைச ெபா ’, ‘ப ைச உட ’ ஆகியெதாட களி ப ைச எ ற ெசா ேவ ப ட ெபா கைள றி நி கிற . றி எ தெபா ைள எ ெகா வ எ ப அத அ த ெசா ைல ெபா த .க தாட நிைலயி ,ஏ ப கிற ெபா மய க ைத கணினி க தர யா . அவ ைற உலகிய அறிவி(Pragmatic Knowledge) வாயிலாகேவ உணர .ேம றி த ெபா மய க கைள தீ ைவ க ய அறிைவ - வழி ைறகைள எ வாகணினி அளி ப றி , ப ேவ நிைலகளி ஆராய ெப கி றன.ெபா மய க ைத தவி பத ாிய ெபா வான சில வழி ைறககணினிவழி தமி ெதாட கைள ஆ ெச ேபா ஏ ப கிற ெபா மயக ைத நீ கிெபா ைள ெதளிவாக ாி ெகா வத உ ெபா யனிய மா ற க ைண ாிகி றன.ெபா மய க ைத இல கண வைக பா வாயிலாகேவ ெதளி ப த . ெபய , விைனஅ பைடயி உ வா ெசா களாக உ பனிய , ெதாடாிய ப பா கைள ெகாஅ ெசா , வி திக ஆகியவ ைற ப தா இவ ைற சாிெச ய . 184
  6. 6. ‘அவ ெந தா வி றா ’ எ ற ெதாடாி , அவ ெந ைய தா (ெந +தா ) வி றா எேவ ைம மைற நி ெபா த கிறதா? அ ல அவ ணிைய ெந தா (ெந + + +ஆ )பிற வி றா எ ற ெபா ப கிறதா? எ ற ஐய ஏ ப கிற . இ தைகய நிைலயி ெதாடாியஆ வி அ பைடயிேலேய ெதளி ெபற .அ ெசா லா ஏ ப கிற ெபா மய க ைத வி திகைள ெகா ெதளி ெபறலா . வி திகளாஏ ப கிற ெபா மய க தி அ ெசா ைல ெகா ெதளி ெபறலா . எ கா டாக,‘ப தா ’ எ ற ெசா ப எ ப ெபயராக வ ேபா ப தா எ விைனயாகவ ேபா ப தா எ வ எ பதைன அ ெசா வாயிலாக ெபற கிற . ‘ஆ ’எ வி தி ‘அவனா நா வ ேத ’ எ ெதாடாி ெபய பி வ ததா ேவ ைமவி தி எ ,‘வ தா நா வ ேவ ’எ ெதாடாி விைன பிற வ ததா ஆ எ பநிப தைன வி தி எ ப க டறிய கிற .‘இ ’ எ ற ெசா இ ேவ ெபா த கி றன .அவ ைற இட ெபா அ பைடயிேலேயேச ேதா பிாி ேதா எ த . வி ைச பி காக , வைக ப வத காக , ெபாெதளிவி காக கா ளி ‘,’ இ எ வ க டாயமாகிற . இ ேபா ற ப ேவ ெமாழிபய பா ெநறிக தமி ெமாழி இல கண களி ெமாழியிய விதிகளி காண கிைடகி றன.நிைறவாகெபா மய க தி கான அைட பைட காரண க , ெபா மய க ஏ ப வத ாியநிைல பா கைள றாக ப ெமாழியிய வைக பா த த எ கா க டஆராய ெப றன. ேம , ெபா மய க ைத தவி பத ாிய ெபா வான சில வழி ைறக ,கணினிவழி தமிழா ெச ேபா ஏ ப கிற சி க க ஆராய ெப றன. ஒ ெதாடைரஎ ேபா ெபய , விைன, ைணவிைன ேபா ற அ பைட ேவ பா கைள அறி ,பய ப தினா ப ேவ ெமாழி பய பா சி க க சாிெச ய ப . அைனவஒேரவிதமான ெமாழி பய பா ெகா ைகைய பய ப வத வழி ,கணினிவழி ெமாழியாெச வத எளிைமயாக இ . இ ேபா ற ப ேவ ெமாழியைம கைள ைற ப தேவ ய க டாய ஏ ப ள எ பைத இ க ைர கா கிற .ேத ெத க ப ட ைண ப ய 1. ைனவ ச .அக திய க ,தமி ெமாழி அைம பிய ,ெம ய ப தமிழா வக ,சித பர . தமி 2. டா ட ெபா ேகா, (2006), இ கால தமி இல கண , ெபாழி ெவளி ,ெச ைன. 3. எ .ஏ. ஃமா , (2007), அ பைட தமி இல கண , அைடயாள ,தி சி. 4. ேபரா. கலாநிதி அ. ச கதா , (2008), தமி ெமாழி இல கண இய க , நி ெச ாி ஹ . 5. ைனவ ெச. ைவ. ச க , (2004), ெதா கா பிய ெதாடாிய , உலக தமிழாரா சி நி வன . 6. ைனவ அ. தாேமாதர ைணவிைனக ,, ,ஆ க ைர . 7. தமி இைணய 2010, மாநா க ைரக . 8. Dr. M. Suseela, (2001), A Historical Study of Old Tamil Syntax, Tamil University. 9. Thomas Lehman, (1993), A Grammar of Modern Tamil, Pondichery Institute of Linguistics and Culture. 185

×