RELEVANCE OF ANNOTATED
CORPUS
Thennarasu Sakkan
Annotated Text Corpora is an important resource
for advances in NLP research and for developing
different language technologies.
The annotation of corpora is done using a set of
tags, which mark the linguistic properties of a word,
sentence or discourse.
The corpora annotated with various linguistic
information not only forms a precious resource for
language technologies but also involves large
amount of effort and time.
Therefore, it is important to create corpora which
once created can be used for various purposes.
Layered approach
It was proposed to follow a layered approach. Some of the
layers are:
Layer 1: Morphology
Layer 2: POS <morphosyntactic>
Layer 3: LWG
Layer 4: Chunks
Layer 5: Syntactic Analysis
Layer 6: Thematic roles/Predicate Argument structure
Layer 7: Semantic properties of the lexical items
Layers 8,9,10,11: Word sense, Pronoun referents (Anaphora),
etc, etc
Example,
((My younger sister
Suguna))_NP ((will be
coming))_VP ((from Tamil
Nadu))_PP ((early this
month))_NP.
((செவ்஬ா஦ில்_NNP))_NP ((ச஬ற்நிக஧஥ாக_RB))_RBP
((ர஧ா஬ர்_NNP ஬ிண்கனம்_NN))_NP ((஡ர஧஦ிநங்கி஦து_VF))_VP
!
(஢ாொ_NNP ஬ிஞ்ஞாணிகள்_NN))_NP ((ொ஡ரண_NN))_NP
!!_RD_SYM (See here exclamation marker.)
((஢ியூ஦ார்க்_NNP))_NP :_RD_PUNC ((செவ்஬ாய்_NNP
கி஧கத்ர஡_NN ஆய்வு_NN))_NP ((செய்஬஡ற்காக_RB))_RBP
((அச஥ரிக்கா_NNP))_NP ((அனுப்தி஦_VNF))_VGNF (ர஧ா஬ர்_NNP
஬ிண்கனம்_NN))_NP ((கிட்டத்஡ட்ட_RB))_RBP ((8_TC? ஥ா஡_NN
த஦஠த்஡ிற்கு_NN))_NP ((திநகு_NST))_? இன்று_NST))_?
(06.08.12) ((ச஬ற்நிக஧஥ாக_RB))_RBP
((஡ர஧஦ிநங்கி஦து_VF))_VP ((._PUNC))_?
((஬ிண்ச஬பி_NN ஆய்வு_NN ர஥஦த்஡ில்_NN))_NP
((இது_PRP))_?? ((ஒய௃_TC ஥ிகப்_INTF சதரி஦_JJ
ர஥ல்கல்னாக_RB??))_NP?? / RBP?? ((கய௃஡ப்தடுகிநது_VF))_VP
((._PUNC))_??
((பூ஥ி஦ில்_NN))_NP ((இய௃ந்து_N_NST))_NP?/N_ST?
((சு஥ார்_RB)) ((570_TC ஥ில்னி஦ன்_NN கி.஥ீ.,_NN
ச஡ாரன஬ில்_NN))_NP ((உள்பது_VF))_VGF
((செவ்஬ாய்_NNP கி஧கம்_NNP))_NP ._PUNC
((இந்஡_DMD கி஧கத்஡ில்_NN ஊ஦ிரிணங்கள்_NN))_NP
((஬ாழ்஬஡ற்காண_VNF))_VGNF ((஌ற்ந_JJ சூ஫ல்_NN))_NP
((இய௃க்கிந஡ா_VF))_VGF ((஋ன்தது_CCS))_??
((குநித்து_PSP))_?? ((ஆய்வு_NN))_NP
((செய்஦_VINF))_VGINF ((அச஥ரிக்கா஬ின்_NNP ஢ாொ_NNP
஬ிண்ச஬பி_NNP ஆ஧ாய்ச்ெி_NNP ர஥஦ம்_NNP))_NP
((தல்ர஬று_JJ))_JJP ((ஆய்வுகரப_NN))_NP
((ர஥ற்சகாண்டு_VNF))_VGNF ((஬ய௃கிநது_VF))_VGF.
((செவ்஬ாய்_NNP கி஧கம்_NN))_NP ((ச஡ாடர்தாண_JJ))_JJP
((தடங்கரபயும்_NN))_NP ((அவ்஬ப்ரதாது_RB))_RBP
((ச஬பி஦ிட்டு_VNF ஬ய௃கிநது_VM))_VGF ._SYM
Let us take sample of Malayalam Text for Chunking...

5 relevance of annotated corpus

  • 1.
  • 2.
    Annotated Text Corporais an important resource for advances in NLP research and for developing different language technologies. The annotation of corpora is done using a set of tags, which mark the linguistic properties of a word, sentence or discourse. The corpora annotated with various linguistic information not only forms a precious resource for language technologies but also involves large amount of effort and time.
  • 3.
    Therefore, it isimportant to create corpora which once created can be used for various purposes. Layered approach It was proposed to follow a layered approach. Some of the layers are: Layer 1: Morphology Layer 2: POS <morphosyntactic> Layer 3: LWG Layer 4: Chunks Layer 5: Syntactic Analysis Layer 6: Thematic roles/Predicate Argument structure Layer 7: Semantic properties of the lexical items Layers 8,9,10,11: Word sense, Pronoun referents (Anaphora), etc, etc
  • 4.
    Example, ((My younger sister Suguna))_NP((will be coming))_VP ((from Tamil Nadu))_PP ((early this month))_NP.
  • 5.
    ((செவ்஬ா஦ில்_NNP))_NP ((ச஬ற்நிக஧஥ாக_RB))_RBP ((ர஧ா஬ர்_NNP ஬ிண்கனம்_NN))_NP((஡ர஧஦ிநங்கி஦து_VF))_VP ! (஢ாொ_NNP ஬ிஞ்ஞாணிகள்_NN))_NP ((ொ஡ரண_NN))_NP !!_RD_SYM (See here exclamation marker.) ((஢ியூ஦ார்க்_NNP))_NP :_RD_PUNC ((செவ்஬ாய்_NNP கி஧கத்ர஡_NN ஆய்வு_NN))_NP ((செய்஬஡ற்காக_RB))_RBP ((அச஥ரிக்கா_NNP))_NP ((அனுப்தி஦_VNF))_VGNF (ர஧ா஬ர்_NNP ஬ிண்கனம்_NN))_NP ((கிட்டத்஡ட்ட_RB))_RBP ((8_TC? ஥ா஡_NN த஦஠த்஡ிற்கு_NN))_NP ((திநகு_NST))_? இன்று_NST))_? (06.08.12) ((ச஬ற்நிக஧஥ாக_RB))_RBP ((஡ர஧஦ிநங்கி஦து_VF))_VP ((._PUNC))_? ((஬ிண்ச஬பி_NN ஆய்வு_NN ர஥஦த்஡ில்_NN))_NP ((இது_PRP))_?? ((ஒய௃_TC ஥ிகப்_INTF சதரி஦_JJ ர஥ல்கல்னாக_RB??))_NP?? / RBP?? ((கய௃஡ப்தடுகிநது_VF))_VP ((._PUNC))_??
  • 6.
    ((பூ஥ி஦ில்_NN))_NP ((இய௃ந்து_N_NST))_NP?/N_ST? ((சு஥ார்_RB)) ((570_TC஥ில்னி஦ன்_NN கி.஥ீ.,_NN ச஡ாரன஬ில்_NN))_NP ((உள்பது_VF))_VGF ((செவ்஬ாய்_NNP கி஧கம்_NNP))_NP ._PUNC ((இந்஡_DMD கி஧கத்஡ில்_NN ஊ஦ிரிணங்கள்_NN))_NP ((஬ாழ்஬஡ற்காண_VNF))_VGNF ((஌ற்ந_JJ சூ஫ல்_NN))_NP ((இய௃க்கிந஡ா_VF))_VGF ((஋ன்தது_CCS))_?? ((குநித்து_PSP))_?? ((ஆய்வு_NN))_NP ((செய்஦_VINF))_VGINF ((அச஥ரிக்கா஬ின்_NNP ஢ாொ_NNP ஬ிண்ச஬பி_NNP ஆ஧ாய்ச்ெி_NNP ர஥஦ம்_NNP))_NP ((தல்ர஬று_JJ))_JJP ((ஆய்வுகரப_NN))_NP ((ர஥ற்சகாண்டு_VNF))_VGNF ((஬ய௃கிநது_VF))_VGF. ((செவ்஬ாய்_NNP கி஧கம்_NN))_NP ((ச஡ாடர்தாண_JJ))_JJP ((தடங்கரபயும்_NN))_NP ((அவ்஬ப்ரதாது_RB))_RBP ((ச஬பி஦ிட்டு_VNF ஬ய௃கிநது_VM))_VGF ._SYM
  • 7.
    Let us takesample of Malayalam Text for Chunking...