SlideShare a Scribd company logo
1 of 19
संगोष्ठी-पत्र
प्रश्न-पत्र 201 : प्राकृ तिक भाषा संसाधन
विषय : मशीनी अनुिाद
तनदेशक
पंकज द्वििेदी
अससस्टेंट प्रोफे सर
प्रौद्योगगकी अध्ययन के न्द्र
भाषा विद्यापीठ
प्रस्िुिकिाा,
असमि कु मार झा
एम॰आई॰एल॰ई॰
भाषा विद्यापीठ
महात्मा गांधी अंिरराष्रीय हहन्द्दी विश्िविद्यालय, िधाा
महाराष्र- 442205
 जे. सी. कै टफोर्ड के अनुसार :-
“एक भाषा की पाठ्य सामग्री को दूसरी भाषा की
पाठ्य सामग्री में प्रतिस्थावपि करना अनुिाद कहलािा है।“
 न्यूमाकड के अनुसार :-
“अनुिाद एक सशल्प है जजसमें एक भाषा में
सलखिि संदेश के स्थान पर दूसरी भाषा के उसी संदेश को
प्रस्िुि करने का प्रयत्न ककया जािा है।“
 हैलिर्े के अनुसार :-
अनुिाद एक संबंध है जो दो या दो से अगधक
पाठों के बीच होिा है। ये पाठ समान जस्थति में समान
प्रकाया संपाहदि करिे हैं। दोनों पाठों का संदभा समान होिा
है। और उसमें होने िाला संदेश भी समान होिा है।“
 एक भाषा के िथ्यों को दुसरे भाषा में बदलना
अनुिाद कहलािा हैं|
 अनुिाद करिे समय इस बाि की पूरी कोसशश की
जािी है कक िथ्यों के अथा और सेन्द्स में कोई
बदलाि न हो|
 अनुिाद मुख्यिः दो प्रकार के होिे है :-
 मानि अनुिाद
 मशीनी अनुिाद
 जब अनुिाद की प्रकिया ककसी मानि द्िारा ककया
जािा है, इस प्रकार के अनुिाद को मानि अनुिाद
कहिे है|
 मानि अनुिाद की प्रकिया धीमी होिी है लेककन
उसमे गलतियााँ कम होिी है|
 मानि अनुिाद में कोई मानि के िल दो या िीन
भाषा के िथ्यों का अनुिाद कर सकिा है जजसे िह
अच्छी िरह जानिा हैं|
 मानि अनुिाद में कोई अनुिादक एक हदन में
लगभग ८००० शब्दों को अनुिाद कर सकिा हैं|
 जब अनुिाद की प्रकिया ककसी मशीन द्िारा कराई
जािी है िो उसे मशीनी अनुिाद कहिे हैं|
 मशीनी अनुिाद मुख्यिः दो ससद्धांिों पर काया
करिा है :-
1.Statical Machine Translation
२. Rule Based Machine translation
 मशीनी अनुिाद दो िरह की होिी है :-
 पाठ-से-पाठ मशीनी अनुिाद
 िाक्-से-िाक् मशीनी अनुिाद
 पाठ-से-पाठ मशीनी अनुिाद में ककसी एक भाषा के
पाठ को ककसी दूसरे भाषा के पाठ के रूप में मशीन
द्िारा अनुिाहदि ककया जािा हैं|
 पाठ-से-पाठ मशीनी अनुिाद की सॉफ्टिेयर तनम्न
है:-
(१) Anusaaraka
(२) Google translator
 िाक्-से-िाक् मशीनी अनुिाद में ककसी एक भाषा के
िाक् रूप को ककसी दूसरे भाषा के िाक् में
अनुिाहदि ककसी मशीन द्िारा ककया जािा है|
 इस प्रकिया में पहले िाक्-से-पाठ में पररििान होिा
है कफर उसका अनुिाद ककया जािा है पुनः उसे
पाठ-से-िाक् में पररितिाि ककया जािा हैं|
 अनुसारका का नामांकरण संस्कृ ि शब्द ‘अनुसरण’
से हुआ है जजसका अथा होिा है :- अनुगमन करना|
 अनुसारका की विकास Chinmaya International
Foundation(CIF), IIIT हैदराबाद , हैदराबाद
विश्िविद्यालय के संयुक्ि प्रयास से ककया गया हैं|
 अनुसारका एक मशीनी अनुिादक है जजसका प्रयोग
अंग्रेजी से हहन्द्दी और अन्द्य भारिीय भाषाओं में
पाठ को अनुिाहदि करने के सलए ककया जािा हैं|
 इसके रूल पाखणतन अष्टाध्याय के तनयम अनुसार
होिा हैं|
 यह टूल ककसी भी िाक्य का अनुिाद कई चरणों में
करिा हैं|
 सबसे पहले जजस िाक्यों को अनुिाहदि करना है
उसकों पहले एक फाइल में टाइप करके सेि कीजजए.
 उसके बाद उसे तनम्न कमांड द्िारा रांसलेट कीजजए
“Anusaaraka_stanford.sh sample 0 True”
जहााँ sample सेि ककये गए फाइल का नाम हैं
 अनुिाहदि िाक्यों को frame के रूप में में देिने
का कमांड
“firefox $ HOME_anu_output/sample_frame.html “
 अनुसारका ककसी िाक्य का अनुिाद करने से पहले उसे पासा
करिा है जजसके सलए िह Stanford के पासार का उपयोग
करिा हैं|
 अनुसारका में standford पसेर द्िारा बने पासा री देिनें के
सलए –
“run_stanford-gui-pcfg.sh”
 Penn tree bank parser tree
“run_penn-pcfg.sh”
“run_penn-rnn.sh”
 वर्ड बाउंड्री –
दिाई वपली है
दिाई पी ली है
आज आएाँगे
आ जाएाँगे
 संहदग्धिा (Ambiguity) –
संहदग्धिा कई स्िर पर हो सकिी है :-
1) समानाथाक शब्द(Homophones) :- bank (finance) , bank(river bank)
२) Near homophones :- Maatraa , Maatra
3) Lexical :- सोना (Gold) , सोना (Sleep)
4) Syntactic level - मैंने दोड़िे हुए लड़के को देिा.
5) Sementic level - यह राम का गचत्र है.
6) Morphological level – गया गया गया .
हल्की नीली पुस्िक
 तनष्कषा में हम यह कह सकिे हैं कक मशीनी अनुिाद
को सम्पन्द्न करने के सलए भाषा, कं प्यूटर और मानि
प्रमुि घटक है जजनके माध्यम से मशीनी अनुिाद
संपन्द्न ककया जािा है। मशीन अनुिाद तनयम आधाररि
होिा है जजसमें व्याकरखणक तनयम को प्रमुििा दी जािी
है िथा दोनों भाषा के डेटाबेस को शब्दकोश में रिा
जािा है।
सांजख्यकी आधाररि प्रणाली में भाषा-युगम के
बीच सांजख्यकी संरचनाएाँ तनसमाि कर सुव्यिजस्थि
अंिरापृष्ठन (interface) का प्रयोग होिा है। इसमें कु छ
गखणिीय रचनाएाँ काम करिी है।
 www.iiit.ac.in
 http://en.wikipedia.org/wiki/Anusaaraka
 Class notes
 अनुसारका गाइड
 अनुिाद के विविध आयाम : डॉ. रंगोपाल ससंह
धन्द्यिाद

More Related Content

More from Dr. Amit Kumar Jha

राजभाषा हिंदी के विकास में कंप्यूटर एवं प्रौद्योगिकी का योगदान
राजभाषा हिंदी के विकास में कंप्यूटर एवं प्रौद्योगिकी का योगदानराजभाषा हिंदी के विकास में कंप्यूटर एवं प्रौद्योगिकी का योगदान
राजभाषा हिंदी के विकास में कंप्यूटर एवं प्रौद्योगिकी का योगदानDr. Amit Kumar Jha
 
भारतीय भाषाओं के लिए डिजिटल भाषिक मानचित्र
भारतीय भाषाओं के लिए डिजिटल भाषिक मानचित्रभारतीय भाषाओं के लिए डिजिटल भाषिक मानचित्र
भारतीय भाषाओं के लिए डिजिटल भाषिक मानचित्रDr. Amit Kumar Jha
 
Hindi Language and Information Technology
Hindi Language and Information TechnologyHindi Language and Information Technology
Hindi Language and Information TechnologyDr. Amit Kumar Jha
 
Information Management System Rajbhasha
Information Management System RajbhashaInformation Management System Rajbhasha
Information Management System RajbhashaDr. Amit Kumar Jha
 
कंप्यूटर पर हिंदी में कार्य
कंप्यूटर पर हिंदी में कार्यकंप्यूटर पर हिंदी में कार्य
कंप्यूटर पर हिंदी में कार्यDr. Amit Kumar Jha
 
Role of language engineering to preserve endangered languages
Role of language engineering to preserve endangered languagesRole of language engineering to preserve endangered languages
Role of language engineering to preserve endangered languagesDr. Amit Kumar Jha
 
Clickable Language Map of India
Clickable Language Map of IndiaClickable Language Map of India
Clickable Language Map of IndiaDr. Amit Kumar Jha
 
Role of Language Engineering to Preserve Endangered Language
Role of Language Engineering to Preserve Endangered Language Role of Language Engineering to Preserve Endangered Language
Role of Language Engineering to Preserve Endangered Language Dr. Amit Kumar Jha
 
Scientific Research methodology
Scientific Research methodologyScientific Research methodology
Scientific Research methodologyDr. Amit Kumar Jha
 
LingPy : A Python Library for Historical Linguistics
LingPy : A Python Library for Historical LinguisticsLingPy : A Python Library for Historical Linguistics
LingPy : A Python Library for Historical LinguisticsDr. Amit Kumar Jha
 
कंप्यूटर की पीढ़ियाँ
कंप्यूटर की पीढ़ियाँ कंप्यूटर की पीढ़ियाँ
कंप्यूटर की पीढ़ियाँ Dr. Amit Kumar Jha
 

More from Dr. Amit Kumar Jha (20)

Maithili Text-to-Speech
Maithili Text-to-SpeechMaithili Text-to-Speech
Maithili Text-to-Speech
 
राजभाषा हिंदी के विकास में कंप्यूटर एवं प्रौद्योगिकी का योगदान
राजभाषा हिंदी के विकास में कंप्यूटर एवं प्रौद्योगिकी का योगदानराजभाषा हिंदी के विकास में कंप्यूटर एवं प्रौद्योगिकी का योगदान
राजभाषा हिंदी के विकास में कंप्यूटर एवं प्रौद्योगिकी का योगदान
 
भारतीय भाषाओं के लिए डिजिटल भाषिक मानचित्र
भारतीय भाषाओं के लिए डिजिटल भाषिक मानचित्रभारतीय भाषाओं के लिए डिजिटल भाषिक मानचित्र
भारतीय भाषाओं के लिए डिजिटल भाषिक मानचित्र
 
Hindi Language and Information Technology
Hindi Language and Information TechnologyHindi Language and Information Technology
Hindi Language and Information Technology
 
Information Management System Rajbhasha
Information Management System RajbhashaInformation Management System Rajbhasha
Information Management System Rajbhasha
 
Morphology
MorphologyMorphology
Morphology
 
Microsoft office & Internet
Microsoft office & InternetMicrosoft office & Internet
Microsoft office & Internet
 
कंप्यूटर पर हिंदी में कार्य
कंप्यूटर पर हिंदी में कार्यकंप्यूटर पर हिंदी में कार्य
कंप्यूटर पर हिंदी में कार्य
 
Role of language engineering to preserve endangered languages
Role of language engineering to preserve endangered languagesRole of language engineering to preserve endangered languages
Role of language engineering to preserve endangered languages
 
Clickable Language Map of India
Clickable Language Map of IndiaClickable Language Map of India
Clickable Language Map of India
 
Networking and Topology
Networking and TopologyNetworking and Topology
Networking and Topology
 
Role of Language Engineering to Preserve Endangered Language
Role of Language Engineering to Preserve Endangered Language Role of Language Engineering to Preserve Endangered Language
Role of Language Engineering to Preserve Endangered Language
 
Scientific Research methodology
Scientific Research methodologyScientific Research methodology
Scientific Research methodology
 
LingPy : A Python Library for Historical Linguistics
LingPy : A Python Library for Historical LinguisticsLingPy : A Python Library for Historical Linguistics
LingPy : A Python Library for Historical Linguistics
 
लिनक्स (Linux)
लिनक्स (Linux) लिनक्स (Linux)
लिनक्स (Linux)
 
कंप्यूटर की पीढ़ियाँ
कंप्यूटर की पीढ़ियाँ कंप्यूटर की पीढ़ियाँ
कंप्यूटर की पीढ़ियाँ
 
Online Examination Portal
Online Examination PortalOnline Examination Portal
Online Examination Portal
 
Information engineering
Information engineeringInformation engineering
Information engineering
 
Language engineering
Language engineeringLanguage engineering
Language engineering
 
E-R Diagram
E-R DiagramE-R Diagram
E-R Diagram
 

Machine translation And Anusaaraka

  • 1. संगोष्ठी-पत्र प्रश्न-पत्र 201 : प्राकृ तिक भाषा संसाधन विषय : मशीनी अनुिाद तनदेशक पंकज द्वििेदी अससस्टेंट प्रोफे सर प्रौद्योगगकी अध्ययन के न्द्र भाषा विद्यापीठ प्रस्िुिकिाा, असमि कु मार झा एम॰आई॰एल॰ई॰ भाषा विद्यापीठ महात्मा गांधी अंिरराष्रीय हहन्द्दी विश्िविद्यालय, िधाा महाराष्र- 442205
  • 2.  जे. सी. कै टफोर्ड के अनुसार :- “एक भाषा की पाठ्य सामग्री को दूसरी भाषा की पाठ्य सामग्री में प्रतिस्थावपि करना अनुिाद कहलािा है।“  न्यूमाकड के अनुसार :- “अनुिाद एक सशल्प है जजसमें एक भाषा में सलखिि संदेश के स्थान पर दूसरी भाषा के उसी संदेश को प्रस्िुि करने का प्रयत्न ककया जािा है।“  हैलिर्े के अनुसार :- अनुिाद एक संबंध है जो दो या दो से अगधक पाठों के बीच होिा है। ये पाठ समान जस्थति में समान प्रकाया संपाहदि करिे हैं। दोनों पाठों का संदभा समान होिा है। और उसमें होने िाला संदेश भी समान होिा है।“
  • 3.  एक भाषा के िथ्यों को दुसरे भाषा में बदलना अनुिाद कहलािा हैं|  अनुिाद करिे समय इस बाि की पूरी कोसशश की जािी है कक िथ्यों के अथा और सेन्द्स में कोई बदलाि न हो|
  • 4.  अनुिाद मुख्यिः दो प्रकार के होिे है :-  मानि अनुिाद  मशीनी अनुिाद
  • 5.  जब अनुिाद की प्रकिया ककसी मानि द्िारा ककया जािा है, इस प्रकार के अनुिाद को मानि अनुिाद कहिे है|  मानि अनुिाद की प्रकिया धीमी होिी है लेककन उसमे गलतियााँ कम होिी है|  मानि अनुिाद में कोई मानि के िल दो या िीन भाषा के िथ्यों का अनुिाद कर सकिा है जजसे िह अच्छी िरह जानिा हैं|  मानि अनुिाद में कोई अनुिादक एक हदन में लगभग ८००० शब्दों को अनुिाद कर सकिा हैं|
  • 6.  जब अनुिाद की प्रकिया ककसी मशीन द्िारा कराई जािी है िो उसे मशीनी अनुिाद कहिे हैं|
  • 7.  मशीनी अनुिाद मुख्यिः दो ससद्धांिों पर काया करिा है :- 1.Statical Machine Translation २. Rule Based Machine translation
  • 8.  मशीनी अनुिाद दो िरह की होिी है :-  पाठ-से-पाठ मशीनी अनुिाद  िाक्-से-िाक् मशीनी अनुिाद
  • 9.  पाठ-से-पाठ मशीनी अनुिाद में ककसी एक भाषा के पाठ को ककसी दूसरे भाषा के पाठ के रूप में मशीन द्िारा अनुिाहदि ककया जािा हैं|  पाठ-से-पाठ मशीनी अनुिाद की सॉफ्टिेयर तनम्न है:- (१) Anusaaraka (२) Google translator
  • 10.  िाक्-से-िाक् मशीनी अनुिाद में ककसी एक भाषा के िाक् रूप को ककसी दूसरे भाषा के िाक् में अनुिाहदि ककसी मशीन द्िारा ककया जािा है|  इस प्रकिया में पहले िाक्-से-पाठ में पररििान होिा है कफर उसका अनुिाद ककया जािा है पुनः उसे पाठ-से-िाक् में पररितिाि ककया जािा हैं|
  • 11.  अनुसारका का नामांकरण संस्कृ ि शब्द ‘अनुसरण’ से हुआ है जजसका अथा होिा है :- अनुगमन करना|  अनुसारका की विकास Chinmaya International Foundation(CIF), IIIT हैदराबाद , हैदराबाद विश्िविद्यालय के संयुक्ि प्रयास से ककया गया हैं|
  • 12.  अनुसारका एक मशीनी अनुिादक है जजसका प्रयोग अंग्रेजी से हहन्द्दी और अन्द्य भारिीय भाषाओं में पाठ को अनुिाहदि करने के सलए ककया जािा हैं|  इसके रूल पाखणतन अष्टाध्याय के तनयम अनुसार होिा हैं|  यह टूल ककसी भी िाक्य का अनुिाद कई चरणों में करिा हैं|
  • 13.
  • 14.  सबसे पहले जजस िाक्यों को अनुिाहदि करना है उसकों पहले एक फाइल में टाइप करके सेि कीजजए.  उसके बाद उसे तनम्न कमांड द्िारा रांसलेट कीजजए “Anusaaraka_stanford.sh sample 0 True” जहााँ sample सेि ककये गए फाइल का नाम हैं  अनुिाहदि िाक्यों को frame के रूप में में देिने का कमांड “firefox $ HOME_anu_output/sample_frame.html “
  • 15.  अनुसारका ककसी िाक्य का अनुिाद करने से पहले उसे पासा करिा है जजसके सलए िह Stanford के पासार का उपयोग करिा हैं|  अनुसारका में standford पसेर द्िारा बने पासा री देिनें के सलए – “run_stanford-gui-pcfg.sh”  Penn tree bank parser tree “run_penn-pcfg.sh” “run_penn-rnn.sh”
  • 16.  वर्ड बाउंड्री – दिाई वपली है दिाई पी ली है आज आएाँगे आ जाएाँगे  संहदग्धिा (Ambiguity) – संहदग्धिा कई स्िर पर हो सकिी है :- 1) समानाथाक शब्द(Homophones) :- bank (finance) , bank(river bank) २) Near homophones :- Maatraa , Maatra 3) Lexical :- सोना (Gold) , सोना (Sleep) 4) Syntactic level - मैंने दोड़िे हुए लड़के को देिा. 5) Sementic level - यह राम का गचत्र है. 6) Morphological level – गया गया गया . हल्की नीली पुस्िक
  • 17.  तनष्कषा में हम यह कह सकिे हैं कक मशीनी अनुिाद को सम्पन्द्न करने के सलए भाषा, कं प्यूटर और मानि प्रमुि घटक है जजनके माध्यम से मशीनी अनुिाद संपन्द्न ककया जािा है। मशीन अनुिाद तनयम आधाररि होिा है जजसमें व्याकरखणक तनयम को प्रमुििा दी जािी है िथा दोनों भाषा के डेटाबेस को शब्दकोश में रिा जािा है। सांजख्यकी आधाररि प्रणाली में भाषा-युगम के बीच सांजख्यकी संरचनाएाँ तनसमाि कर सुव्यिजस्थि अंिरापृष्ठन (interface) का प्रयोग होिा है। इसमें कु छ गखणिीय रचनाएाँ काम करिी है।
  • 18.  www.iiit.ac.in  http://en.wikipedia.org/wiki/Anusaaraka  Class notes  अनुसारका गाइड  अनुिाद के विविध आयाम : डॉ. रंगोपाल ससंह