1. संगोष्ठी-पत्र
प्रश्न-पत्र 201 : प्राकृ तिक भाषा संसाधन
विषय : मशीनी अनुिाद
तनदेशक
पंकज द्वििेदी
अससस्टेंट प्रोफे सर
प्रौद्योगगकी अध्ययन के न्द्र
भाषा विद्यापीठ
प्रस्िुिकिाा,
असमि कु मार झा
एम॰आई॰एल॰ई॰
भाषा विद्यापीठ
महात्मा गांधी अंिरराष्रीय हहन्द्दी विश्िविद्यालय, िधाा
महाराष्र- 442205
2. जे. सी. कै टफोर्ड के अनुसार :-
“एक भाषा की पाठ्य सामग्री को दूसरी भाषा की
पाठ्य सामग्री में प्रतिस्थावपि करना अनुिाद कहलािा है।“
न्यूमाकड के अनुसार :-
“अनुिाद एक सशल्प है जजसमें एक भाषा में
सलखिि संदेश के स्थान पर दूसरी भाषा के उसी संदेश को
प्रस्िुि करने का प्रयत्न ककया जािा है।“
हैलिर्े के अनुसार :-
अनुिाद एक संबंध है जो दो या दो से अगधक
पाठों के बीच होिा है। ये पाठ समान जस्थति में समान
प्रकाया संपाहदि करिे हैं। दोनों पाठों का संदभा समान होिा
है। और उसमें होने िाला संदेश भी समान होिा है।“
3. एक भाषा के िथ्यों को दुसरे भाषा में बदलना
अनुिाद कहलािा हैं|
अनुिाद करिे समय इस बाि की पूरी कोसशश की
जािी है कक िथ्यों के अथा और सेन्द्स में कोई
बदलाि न हो|
4. अनुिाद मुख्यिः दो प्रकार के होिे है :-
मानि अनुिाद
मशीनी अनुिाद
5. जब अनुिाद की प्रकिया ककसी मानि द्िारा ककया
जािा है, इस प्रकार के अनुिाद को मानि अनुिाद
कहिे है|
मानि अनुिाद की प्रकिया धीमी होिी है लेककन
उसमे गलतियााँ कम होिी है|
मानि अनुिाद में कोई मानि के िल दो या िीन
भाषा के िथ्यों का अनुिाद कर सकिा है जजसे िह
अच्छी िरह जानिा हैं|
मानि अनुिाद में कोई अनुिादक एक हदन में
लगभग ८००० शब्दों को अनुिाद कर सकिा हैं|
6. जब अनुिाद की प्रकिया ककसी मशीन द्िारा कराई
जािी है िो उसे मशीनी अनुिाद कहिे हैं|
7. मशीनी अनुिाद मुख्यिः दो ससद्धांिों पर काया
करिा है :-
1.Statical Machine Translation
२. Rule Based Machine translation
8. मशीनी अनुिाद दो िरह की होिी है :-
पाठ-से-पाठ मशीनी अनुिाद
िाक्-से-िाक् मशीनी अनुिाद
9. पाठ-से-पाठ मशीनी अनुिाद में ककसी एक भाषा के
पाठ को ककसी दूसरे भाषा के पाठ के रूप में मशीन
द्िारा अनुिाहदि ककया जािा हैं|
पाठ-से-पाठ मशीनी अनुिाद की सॉफ्टिेयर तनम्न
है:-
(१) Anusaaraka
(२) Google translator
10. िाक्-से-िाक् मशीनी अनुिाद में ककसी एक भाषा के
िाक् रूप को ककसी दूसरे भाषा के िाक् में
अनुिाहदि ककसी मशीन द्िारा ककया जािा है|
इस प्रकिया में पहले िाक्-से-पाठ में पररििान होिा
है कफर उसका अनुिाद ककया जािा है पुनः उसे
पाठ-से-िाक् में पररितिाि ककया जािा हैं|
11. अनुसारका का नामांकरण संस्कृ ि शब्द ‘अनुसरण’
से हुआ है जजसका अथा होिा है :- अनुगमन करना|
अनुसारका की विकास Chinmaya International
Foundation(CIF), IIIT हैदराबाद , हैदराबाद
विश्िविद्यालय के संयुक्ि प्रयास से ककया गया हैं|
12. अनुसारका एक मशीनी अनुिादक है जजसका प्रयोग
अंग्रेजी से हहन्द्दी और अन्द्य भारिीय भाषाओं में
पाठ को अनुिाहदि करने के सलए ककया जािा हैं|
इसके रूल पाखणतन अष्टाध्याय के तनयम अनुसार
होिा हैं|
यह टूल ककसी भी िाक्य का अनुिाद कई चरणों में
करिा हैं|
13.
14. सबसे पहले जजस िाक्यों को अनुिाहदि करना है
उसकों पहले एक फाइल में टाइप करके सेि कीजजए.
उसके बाद उसे तनम्न कमांड द्िारा रांसलेट कीजजए
“Anusaaraka_stanford.sh sample 0 True”
जहााँ sample सेि ककये गए फाइल का नाम हैं
अनुिाहदि िाक्यों को frame के रूप में में देिने
का कमांड
“firefox $ HOME_anu_output/sample_frame.html “
15. अनुसारका ककसी िाक्य का अनुिाद करने से पहले उसे पासा
करिा है जजसके सलए िह Stanford के पासार का उपयोग
करिा हैं|
अनुसारका में standford पसेर द्िारा बने पासा री देिनें के
सलए –
“run_stanford-gui-pcfg.sh”
Penn tree bank parser tree
“run_penn-pcfg.sh”
“run_penn-rnn.sh”
16. वर्ड बाउंड्री –
दिाई वपली है
दिाई पी ली है
आज आएाँगे
आ जाएाँगे
संहदग्धिा (Ambiguity) –
संहदग्धिा कई स्िर पर हो सकिी है :-
1) समानाथाक शब्द(Homophones) :- bank (finance) , bank(river bank)
२) Near homophones :- Maatraa , Maatra
3) Lexical :- सोना (Gold) , सोना (Sleep)
4) Syntactic level - मैंने दोड़िे हुए लड़के को देिा.
5) Sementic level - यह राम का गचत्र है.
6) Morphological level – गया गया गया .
हल्की नीली पुस्िक
17. तनष्कषा में हम यह कह सकिे हैं कक मशीनी अनुिाद
को सम्पन्द्न करने के सलए भाषा, कं प्यूटर और मानि
प्रमुि घटक है जजनके माध्यम से मशीनी अनुिाद
संपन्द्न ककया जािा है। मशीन अनुिाद तनयम आधाररि
होिा है जजसमें व्याकरखणक तनयम को प्रमुििा दी जािी
है िथा दोनों भाषा के डेटाबेस को शब्दकोश में रिा
जािा है।
सांजख्यकी आधाररि प्रणाली में भाषा-युगम के
बीच सांजख्यकी संरचनाएाँ तनसमाि कर सुव्यिजस्थि
अंिरापृष्ठन (interface) का प्रयोग होिा है। इसमें कु छ
गखणिीय रचनाएाँ काम करिी है।