Ëàòèíààñ êèðèëë ð¿¿ õºðâ¿¿ëýã÷ õèéìýë îþóíû ñèñòåì
Ãàð÷èã
1. Îðøèë
2. Õýðýãëýã÷èéí øààðäëàãà òîäîðõîéëîõ
1 . Õýðýãëýã÷èéí òóõàé ìýäýýëýë
2 . Õýðýãëýã÷èéí ¿éë àæèëëàãààíû îíöëîã
3 . Ñèñòåì õàìðàõ õ¿ðýý
4 . Õóó÷èí ñèñòåìèéí äóòàãäàëòàé òàë
5 . Ñèñòåì õºãæ¿¿ëýõ áîëñîí ¿íäýñëýë
6 Õýðýãëýã÷èéí ôóíêöèîíàëü øààðäëàãà
3. Онолын хэсэг
3.1. Марковын далд загвар
3.2. Cтохастик загвар
4. Àðõèòåêòóðûí ñîíãîëò
4.1. ¯éëäëèéí ñèñòåìèéí ñîíãîëò
4.2. Ïðîãðàì÷ëàëûí õýëíèé ñîíãîëò
4.3. ªãºãäëèéí ñàí óäèðäàõ ñèñòåì
4.4. Òåõíèê õàíãàìæèéí ñîíãîëò
5. Судалгаа
6. Дүгнэлт
1
Латинаас кириллрүү хөрвүүлэгч хиймэл оюуны ñèñòåì
1. Îðøèë
Сїїлийн їед тєрєл бїрийн мэдээллийн хэрэгсэл єргєн нэвтэрч кирилл їсгийг
латин ї .сгээр галиглах нэгдсэн стандарт бий болгох шаардлага гарсаар байна
, ,Тухайлбал интернетээр харилцах интернетэд монгол ї ,гтэй мэдээлэл оруулах
,хайх монгол хэлтэй холбоотой тєрєл бїрийн компьютерийн программ хангамж
,боловсруулах монгол ї ,сэг ї ,г таних хэрэгсэл бий болгох бичмэл мэдээллийг
электрон аргаар унших зэрэг маш олон асуудал її .нтэй холбогдож байна
Хамгийн наад захын жишээ бол бид интернет шуудангаар харилцахдаа кирилл
їсгийг латин їсгээр орлуулан бичих нэгдсэн стандарт байхгїйн улмаас хїн бїр єєр
єєрийнхєєрєє ,бичиж заримдаа харилцан ойлголцоход бэрхшээл учрах эх хэлээ
мэддэгийн хїчинд утгыг нь хї .чээр ойлгох явдал ч гардаг билээ
Интернэт маш өргөн хэрэглэгдэх болсон өнөө үед түүнийг
.хэрэглэгчдийн тоо мөн адил маш их хэмжээтэй болсон Үүнийг дагаад
хэрэглэгчид latin үсгээр үгсийг галиглаж текстийг бичих нь маш их
.дэлгэрсэн Үүнийг дагаад latin үгийг кирилл үгрүү хөрвүүлдэг програм
.хэрэглэх шаардлага гарч ирсэн Энэ асуудлыг шийдвэрлэхээр бүтээгдсэн
хөрвүүлэгч програмууд бүтээгдсэн зарим нэг асуудлыг төдийлөн
. :шийдвэрлэж чадаагүй лбайна Жишээнь
“Zaluusaa nuguuyriadbsan temtseen ni hezeebolhiin hoo?”
“Eneixgoyo zurag bna. Gexdeeooroo jaaxan tiimxen garchij.”
Эндээс ажиглахад хэрэглэгчдийн latin үсгээр галиглаж бичих байдал нь
. : “харилцан адилгүй байна Тухайлбал nuguu- ”, “нөгөө ooroo- ”,өөрөө “bolhiin-
”,болхын “gexdee- ”гэхдээ зэрэг үгүүд дээр ижил үсгүүдийг өөр өөрөөр бичсэн
.байгааг ажиглаж болно Мөн хэрэглэгчид үгсийг товчилж бичих тохиолдол
.маш элбэг тохиолддог Энэ бүхнийг нэг загварт оруулна гэдэг бараг
. 100%боломжгүй хэрэг гэж хэлж болно Хиймэл оюун ашиглаж хийх
, .боломжгүйч хөрвүүлэлтийнүр дүнг илүүсайжруулахболомжтойюм
Уг ажлын хүрээнд миний бие Latin үгийг Кирилл үгрүү хөрвүүлдэг
application .програмхийхээр зорихболно
2
Латинаас кириллрүү хөрвүүлэгч хиймэл оюуны ñèñòåì
2.Õýðýãëýã÷èéí øààðäëàãа
2.1. Õóó÷èí ñèñòåìèéí äóòàãäàëòàé òàë
Өмнө нь latin үгийг кирилл болгон хөрвүүлдэг програмууд нэлээдгүй бүтээгдэж
.байсан Тэдгээр нь өөр өөрийн гэсэн сайн талуудтай байсан ч гэсэн дутагдалтай
. :талууд мөн нэлээдгүй байсан Жишээ нь
Latin – TS -хослолыг кирилл Ц .гэж тооцон хөрвүүлэлт хийгддэг Гэхдээ
“зарим тохиолдолд тухайлбал Batsukh” “гэсэн үгэнд ts” нь хамт бичигдэж байгаа
“ , ” .хэдий ч хослол бололгүй т с гэсэн хоёр тусдаа үсэг болох ёстой Гэх мэтчилэн
.хөрвүүлэлтийн үед алдаа гарах дутагдалтай талууд нэлээдгүй бий
2.2. Ñèñòåì õºãæ¿¿ëýõ áîëñîí ¿íäýñëýë
Урьд өмнө нь бүтээгдэж байсан ижил төстэй програмуудын алдаа дутагдлыг
,багасгах latin .үгийг кирилл үгрүү хөрвүүлэх ажлыг хиймэл оюун ашиглаж шийдэх
Өмнө хийгдэж байсан програмууд нь тодорхой дүрмийн дагуу галиглаж бичих
.боломжтой хийгдсэн байдаг Хэрэглэгчид маш олон төрлийн хэлбэрээр
.галиглаж хэвшсэн байдаг Тийм учраас хиймэл оюунтай болгосноор дээрх
.асуудлыг илүү уян хатан болгох давуу талтай
2.3. Ñèñòåì õамрах хүрээ
Энэ төрлийн програм нь ихэвчлэн интернэт сайтуудад хэрэглэгддэг бөгөөд
,хэрэглэгч мэдээ үлдээх зэрэг ажлуудыг хөнгөвчилж зарим тохиолдолд үсгийн
.фонтгүй байх зэрэг асуудлуудыг шийдвэрлэдэг
3
Латинаас кириллрүү хөрвүүлэгч хиймэл оюуны ñèñòåì
3.ОНОЛЫН ХЭСЭГ
3.1 Марковын далд загвар
( )Марковын далд загвар МДЗ гэдэг нь системийг параметрууд нь тодорхойгүй
Марковын процесс гэж үзээд ажиглагдаж байгаа өгөгдлүүдээр тэдгээр далд
.параметруудыг тодорхойлдог статистик загвар юм
1. :Зураг Марковын далд загварын магадлалын параметрууд s – ,төлвүүд k –
, – ,байж болох ажиглалтууд а төлөв шилжилтийн магадлалууд b – гаралтын
магадлалууд
:Марковын далд загварт дараах тэмдэглэгээнүүдийг ашигладаг
Төлвүүдийн
олонлог
S={s1, …, sN}
Гаралтын
цагаан
толгой
K={k1, ..., kM}={1, ..., M}
Эхлэлийн
төлвийн
магадлал
П={πi}, i
Төлөв
шилжилтийн
магадлал
A={aij}, i, j
Тэмдэгт
үүсгэх
магадлал
B={bijk}, i, j, k
Төлвийн
дараалал
x=(X1, …, XT+1) Xt: s → {1, …,
N}
Гаралтын
дараалал O=(o1, …, oT) ot
4
Латинаас кириллрүү хөрвүүлэгч хиймэл оюуны ñèñòåì
МДЗ өгөгдсөн тохиолдолд шууд Марковын процессыг загварчлан үр дүнг нь
.гаргаж болно
1 t:=1;
2 si төлвөөс πi (Xмагадлалтайгаарэхэл 1=i)
3 {төгсгөлгүйдавт
4 aij sмагадлалтайгаар i → sj ( . . Xшилж ө х t+1=j)
5 bijk oмагадлалтай t=k тэмдэгт гаргах
6 t:=t+1
7 }
2.Зураг Марковын процессын програм
. -Гэвч үүнийг хийх нь өөрөө тийм ч сонирхолтой ажил биш юм МДЗ ийн гол
-сонирхолтой тал нь ямар нэг өгөгдлийн олонлогийг МДЗ аар үүсгэгдсэн гэж
үзээд цаана нь байсан байж болох төлвүүдийн дарааллыг болон түүний
.магадлалыг олоход оршино
-МДЗ ын тухай дараах гурван үндсэн асуудал байдаг[1]:
1. μ = (A, B, )П загвар өгөгдсөн үед ажиглалтын тодорхой нэг үр дүн гарах
P(O|магадлал буюу μ)- ?г яаж үр ашигтайгаар тооцоолохвэ
2. OАжиглалтын дараалал ба μ загвар өгөгдсөн үед уг ажиглалтын
Xдараалалд хамгийн сайн тохирох төлвүүдийн дараалал 1, …, XT+1-ыг яаж
?сонгон авах вэ
3. OАжиглалтын дараалал ба μ = (A, B, )П загварын параметрүүдийг
өөрчлөх замаар гарган авсан боломжит загваруудын огторгуй өгөгдсөн
бол уг ажиглалтын дараалалд хамгийн сайн тохирох загварыг яаж сонгон
?авах вэ
Бид параметрүүдийг мэдэхгүй байх тохиолдолд тэдгээрийг өгөгдлөөс гарган авч
. .үнэлэх боломжтой Энэ нь гурав дахь асуудал юм Эхний асуудлыг ашиглан ямар
.загвар нь илүү сайн гэдгийг шийдэж болно Хоёр дахь асуудал нь бидэнд
Марковын гинж яг ямар замаар явсныг таах боломж олгох бөгөөд үүнийг
.ангилалтанд ашиглаж болдог
A .A . Ажиглалтын магадлалыг хайх
O=(o1, …, oT) ажиглалтын дараалал ба μ = (A, B, ) P(O|П загвар өгөгдсөн үед μ)
магадлалыг буюу загвар өгөгдсөн үед уг үр дүнгүүд ажиглагдах магадлалыг үр
. .ашигтайгаар тооцоолъё Уг процессыг код тайлах гэж нэрлэдэг
P(O|μ) = .байна
Бид төлвүүдийн дарааллын боломжит бүх утгуудын хувьд ажиглалтын
.магадлалуудыг нэмэх хэрэгтэй Гэвч энэ илэрхийллийг шууд хэрэглэх нь үр ашиг
. (муутай Ерөнхий тохиолдолд аль ч төлвөөс эхэлж болох ба аль ч төлвөөс өөр
) (2T+1)∙Nямар ч төлөв рүү шилжиж болох үед T+1
.удаа үржих үйлдэл хийнэ
5
Латинаас кириллрүү хөрвүүлэгч хиймэл оюуны ñèñòåì
Энэ хүндрэлийг арилгах арга бол динамик програмчлал буюу санах ойг ашиглах
.арга юм Үүнийг компьютерийн лингвистик болон компьютерийн ухаанд ерөнхий
[байдлаар ихээхэн хэрэглэдэг 2]. МДЗ гэх мэт
trellice, lattice ( )алгоритмуудад динамик програмчлалыг тор гэсэн ойлголтуудаар
.дүрслэнэ Үүнд бид хугацааны агшин бүрт төлвүүдийн байх магадлалыг
хугацааны өмнөх агшны магадлалуудаас хамааруулан бичсэн квадрат хүснэгт
.ашигладаг
-Тор нь МДЗ ын бүх замуудаас өгөгдсөн агшинд өгөгдсөн төлөвт дуусах эхлэлийн
.дэд замуудын магадлалыг хадгалдаг Илүү урт дэд замуудын магадлалыг арай
богино дэд замуудын магадлалыг ашиглан олж болно.
3. .Зураг Торны алгоритм Тор гэдэг нь төлвийг хугацааны эсрэг авсан квадрат
. (sхүснэгт юм i, t) xзангилаа нь t=i байх төлвийн дарааллуудын тухай мэдээллийг
. .хадгалж чадна Хэрчмүүд нь зангилаануудын хоорондох холбоог илэрхийлнэ
Уг зурагт бүрэн холболттой буюу аль ч төлөв нь өөр бүх төлөвтэйгээ
-холбогдсон МДЗ ыг үзүүлсэн байна[2][4].
3.2. Cтохастик загвар
Эхлээд текстийн статистик шинжилгээг үсгийн түвшинд хийж дараа нь эдгээр
.мэдээллийг ашиглан санамсаргүйгээр бага хэмжээний текстийг үүсгэнэ
:Туршилтууддараахгурвантүвшинд хийгдэнэ
1. Юниграм
2. Биграм
3. Триграм
35Монгол хэлний цагаан толгой үсэгтэй боловч үгүүдийг тусгаарлаж буй хоосон
36 .зайг дахь тэмдэгт болгон авах хэрэгтэй
I I .I I . Юниграм
Энэ түвшинд бид зэрэгцээ орших үсгүүдийн хооронд статистик хамаарал
. .байхгүй гэж үзнэ Үсгүүд бүрэн бие даасан байдалтай байна Ийм туршилтын үр
6
Латинаас кириллрүү хөрвүүлэгч хиймэл оюуны ñèñòåì
SNLPдүн нь Монгол хэлний тухай хангалттай мэдээллийг өгөхгүй боловч -гийн
үндсэн түвшний үүргийг гүйцэтгэнэ[3].
1Хүснэгт - .т текст дэх зарим үсгүүдийн давтамж болон магадлалыг үзүүлсэн
Хоёр үсэг гадаад хэлнээс орж ирсэн тул бага хэрэглэгдэж байгаа нь харагдаж
. (байна Үүнийг тэг утгатай магадлалууд харуулна хаалтанд байгаа тоонууд
“ ”- ).Монголыннууцтовчоо нышинжилгээндхамаарна
TABLE I. ХҮСНЭГТ 1.
ЮНИГРАМ ДАВТАМЖ БА МАГАДЛАЛ
№ Үсэг Давтамж Магадлал
1 А 42600(24607) 0.102169(0.094684)
2 Б 8716(5628) 0.020904(0.021656)
3 В 12249(4877) 0.029377(0.018766)
4 Г 24392(14910) 0.058500(0.057372)
5 Д 13343(9590) 0.032001(0.036901)
23 Ү 10761(9043) 0.025809(0.034796)
24 Ф 0(29) 0.000000(0.000112)
25 Х 14950(11217) 0.035855(0.043161)
33 Э 30407(17400) 0.072926(0.066953)
34 Ю 561(195) 0.001345(0.00075)
35 Я 2071(1415) 0.004967(0.005445)
36 70638(39491) 0.169414(0.151956)
I I I .I I I . Биграм
.Биграмын түвшинд бид арайбодитойурттай үгсийг үүсгэж чадна Энэ нь цагаан
.толгойдоо хоосон зайг оруулж тооцсоны үр дүн юм Үсэг бүр өмнөх үсэгтэйгээ
[3].Марковынгинжнийшинж чанараар статистик холбоотойбайна
Эх текстэнд хамгийн олон удаа орсон эхний арван үсгийн хослолын давтамж
2- .болонмагадлалыг Хүснэгт түзүүлсэн
TABLE II. 2.Хүснэгт
биграм давтамж ба магадлал
№ Үсгийн хослол Давтамж Магадлал
1 “ ”Н 12955(8107) 0.0310705(0.031195)
2 “ ”Х 9025(6317) 0.021645(0.024307)
3 “ ”Б 8211(5115) 0.0196928(0.019682)
4 “ ”Г 7369(2425) 0.0176734(0.009331)
5 “ ”АН 6895(3817) 0.0165366(0.014687)
6 “ ”ГЭ 6334(3009) 0.0151911(0.011578)
7
Латинаас кириллрүү хөрвүүлэгч хиймэл оюуны ñèñòåì
7 “ ”Р 6188(2823) 0.0148409(0.010862)
8 “ ”АА 5774(2875) 0.013848(0.011063)
9 “ ”АР 5595(3373) 0.0134187(0.012979)
10 “ ”Д 5300(3309) 0.0127112(0.012733)
IV.IV.
V .V . Триграм
n-ийн утга текстэд байгаа үгсийн максимум уртад дөхөх тусам бид илүү олон
.утгатай үгсийг гарган авах болно 3-Иймд бид шинжилгээгээ р түвшин хүртэл
.хийсэн Мөн дараагийн түвшингийн шинжилгээг хийхэд гарсан бас нэг хүндрэл нь
[3].санахойнхэмжээ экспоненциалаар өсчбайсанявдал юм
3Текстэд хамгийн олон удаа орсон эхний арван үсгэн гурвалыг Хүснэгт дээрээс
.харж болно
TABLE III. 3.Хүснэгт триграм давтамж ба магадлал
№ Үсгэн гурвал Давтамж Магадлал
1 “A “Н 4544(2498) 0.010898(0.009612)
2 “ ”ГЭ 4322(1320) 0.010366(0.005079)
3 “ ”ХА 3107(2193) 0.007452(0.008438)
4 “ ”ЭР 2752(834) 0.006600(0.003209)
5 “ ”НЬ 2711(701) 0.006502(0.000015)
6 “ ”БА 2266(1771) 0.005435(0.006815)
7 “ ”БИ 2242(912) 0.005377(0.003509)
8 “ ”ЭВ 2113(469) 0.005068(0.001805)
9 “ ”Н Х 2009(1451) 0.004818(0.005583)
10 “ ”БО 1962(1219) 0.004706(0.004691)
V I .V I .
TТекстийг .ширхэг тэмдэгтээс тогтсон гэж үзье N-грам шинжилгээний програм
O(T) , O(36хугацаанд n
) .хэмжээнийсанахойхэрэглэжажиллана
Их хэмжээний текстүүдийг шинжлэн ямар нэг зохиолын хүрээнд бус монгол
хэлний хувьд текстийн стохастик параметруудыг тооцон гаргаж болох юм ( –МНТ
259885 , -416955үсэг Гэсэр үсэг).[11][12]
8
Латинаас кириллрүү хөрвүүлэгч хиймэл оюуны ñèñòåì
4.ÀÐÕÈÒÅÊÒÓÐ ÑÎÍÃÎËÒ
4.1. ¯éëäëèéí ñèñòåìèéí ñîíãîëò
¯éëäëèéí ñèñòåìýýð: Windows XP
¯¿íèéã ñîíãîõ áîëñîí øàëòãààí íü õýðýãëýã÷èéí èíòåðôåéñ ñàéòàé òóë õýðýãëýã÷ àæèëëàõ, àøèãëàõàä õÿëáàð,
øèíý õóâèëáàð íü áàéíãà ãàð÷ áàéäàã, öààøèä õºãæèõ áîëîìæòîé, îëîí õýðýãëýã÷èéí ãîðèìûã õýðýãæ¿¿ëýõýä
òîõèðîìæòîé, ñ¿¿ëèéí ¿åä ãàð÷ á¿é ïðîãðàìóóä íü ýíý ¿éëäëèéí ñèñòåìä çîðèóëàãäñàí áàéäàã, õýðýãëýã÷äýä ºðãºí
òàðõñàí çýðýã îëîí äàâóó òàëóóä
4.2.Ïðîãðàì÷ëàëûí õýëíèé ñîíãîëò
C#.NET 2008 ïðîãðàì÷ëàëûí õýë äýýð áè÷íý. Äýýä ò¿âøíèé õýë, ïðîãðàìûí àæèëëàõ çàð÷èì, óÿëäàà õîëáîî
ñàéí, äýëãýöèéí çîõèîìæ ãàðãàõàä õÿëáàð, õýðýãëýã÷èä îéëãîìæòîé áàéõààð èíòåðôåéñ ñàéòàéãààð ïðîãðàì÷ëàõ
áîëîìæòîé, Windows-èéí îð÷íû õýðýãëýýíèé ïðîãðàìóóäààñ ôóíêö îðóóëæ àøèãëàõ áîëîìæòîé.
4.3.ªãºãäëèéí ñàí óäèðäàõ ñèñòåì
Óã ïðîãðàììûí ºãºãäëèéí ñàíã MSSQL Server 2005 àøèãëàí çîõèîí áàéãóóëíà. Óã ºãºãäëèéí ñàí íü íóóöëàëò
õàìãààëàëò ñàéòàé, ôóíêö ïðîöåäóð áè÷èæ ò¿¿íèéãýý øóóä àøèãëàõ áîëîìæòîé
4.4.Òåõíèê õàíãàìæèéí ñîíãîëò
Óã ñèñòåìèéã àøèãëàõ êîìïüþòåð íü: Pentium4 áà ò¿¿íýýñ äýýø, 40GB-ààñ áàãàã¿é õàòóó äèñêòýé, 512ÌÂ-
ààñ áàãàã¿é ñàíàõ îéòîé áàéõ áîëíî. Äýýðõ êîìïüþòåðèéã ñîíãîæ àâñàíû ó÷èð íü õýðýãëýã÷èéã õ¿ëýýëãýæ ÷èðýãäýë
9
Латинаас кириллрүү хөрвүүлэгч хиймэл оюуны ñèñòåì
ó÷ðóóëàõã¿é, ñòàòèñòèê ìýäýý áîëîí òàéëàí òîîöîî ãàðãàõàä õóãàöàà àëäàõã¿é, îëîí ¿éëäýë çýðýã ã¿éöýòãýõýä ñàíàõ îé
õ¿ðýëöýýòýé þì.
5.Судалгааны хэсэг
Латин үсэг 1941 2 1-нь оны сарын нд Бүгд Найрамдах Монгол Ард Улсын албан
. 3 25-ёсны бичиг болгосон Гэвч хоёр хоёрхон сарын дараа буюу сарын нд энэ
.шийдвэрээ буцаажээ Албан ёсоор бол Монгол хэлний бүх дуу авиаг тэмдэглэж
чадахгүй байсан тул больсон гэсэн хэдий ч дараахан нь ЗХУ-ын бүрэлдэхүүн
улсуудтай бараг нэгэн зэрэг кирилл үсгийг албанёсны болгосонтул энэ нь улс
.төрийн бодлого байсан байж магадгүй , ,Манай орны нийгэм соёл эдийн засгийн
,хөгжлийн өнөөгийн төвшинг тодорхойлох нэг гол үзүүлэлт нь мэдээлэл
, .харилцааны технологи болж түүнийг хэрэглэх хүрээ өргөжин тэлсээр байна
1990- ,Монгол улсад ээд оноос интернет үйлчилгээ нэвтэрч түүнийг ашиглан иргэд
,хоорондоо харилцан шуурхай мэдээлэл солилцох бизнес ажил хэргийн
, ,харилцаа тогтоох мэдлэг мэдээллийн санг ашиглах зэрэг цоо шинэ төрлийн
, , .ажил үйлчилгээ бий болж хэрэглэгчдийн тоо асар хурдан нэмэгдэх боллоо
,Түүнчлэн тоон технологийн холбоо шинээр нэвтэрч зөвхөн дуу яриагаар
.төдийгүй үүрэн телефон ашиглан захидал бичиж харилцах боломжтой болжээ
Монгол кирилл үсгийг латин үсгээр янз бүрийн хэлбэрээр оруулан хэрэглэснээр
, ,монгол үгийг зөв буруу ойлголцох монгол хэлний нэгдмэл байдлыг
.алдагдуулахад хүрсэн сөрөг үр дагавар гарах болжээ
Мэдээлэл харилцааны технологийн үндсэн дээр монгол хэлээр мэдээлэл бичиж
солилцох боломжийг хүн бүрд олгох зорилгоор дээр дурьдсан стандартыг
, ,үндэслэн бүх шатны сургуулийн сурагч оюутнууд нийт иргэдэд латин үсгийг
, , ,зааж сургах боловсон хүчин бэлтгэх гарын авлага монгол үгийг латин үсгээр
, , , ,бичих дүрэм зөв бичих толь сурах бичиг зохиох заах арга боловсруулах
10
Латинаас кириллрүү хөрвүүлэгч хиймэл оюуны ñèñòåì
, ,монгол кирилл латин цагаан толгойг харилцан уялдуулах замаар программ
-хангамжийн аргаар хооронд нь шууд хөрвүүлэх программ техникийн болон
түүнийг хэрэглэх арга зүйн боломж нөхцлийг бий болгох зэрэг ажлыг төрийн
.[8]бодлогын үндсэн дээр хэрэгжүүлэх шаардлага аяндаа гарч ирэв
Монгол хэлний кирилл їсгийг латин їсгээр галиглах тухай
transliteration .Галиглах гэдгийг англиар орсоор транслитерация гэдэг Олон улсын
( ISO 9:1995 Information and documentation -- Transliteration ofстандартын байгууллагаас
Cyrillic characters into Latin characters -- Slavic and non-Slavic languages) -болон АНУ ын
( LOC ) -Конгрессын номын сангаас санал болгосон кирилл латин галиг байдаг
боловч кирилл їсгийг латин їсгээр галиглах дэлхийн нэгдмэл систем одоогоор
зохиогдоогї .й байна Дэлхийн олон улсууд єєрийн хэрэглэдэг їсгээ єєр їсгээр
..галиглах стандарт зохиосон байна Кирилл ї , , ,сэг хэрэглэдэг орос украин болгар
, , , , ,белорус чечен македон молдав серб кабардиан зэрэг хэлїїд єєрсдийн албан
.ёсны латин галигийн системтей болсон байна Иймээс бид ч бас албан ёсны
- .кирилл латин галигийн системтей болмоор цаг болжээ
Монгол кирилл їсгийг латин їсгээр галиглахдаа дараах їндсэн шаардлагыг
.анхаарсан болно Її :нд
1) 1) Кирилл ї -сэгтэй улсуудын албан ёсны кирилл латин галигт бїгдэд нь адил
байгаа галигийг аль болохоор тэр хэвээр нь авч хэрэглэх нь зї .йтэй юм Энэ нь
алсдаа кирилл їсгийг латин їсгээр галиглах дэлхийн нэгдмэл систем бий
болбол тэр їед бид аль болохоор тїїнд дєхїї .байх санаа юм Ялангуяа орсын
стандартад аль болохоор дєхїї .хийхийг хичээх ёстой
2) 2) Латин галигаар нь уншихад монгол їгний дуудлага зєв гарч байх
11
Латинаас кириллрүү хөрвүүлэгч хиймэл оюуны ñèñòåì
3) 3) Нэг кирилл їсгийг аль болохоор нэг латин ї ,сгээр галиглахыг хичээх їїнд
монгол ї ,сгийн тохиолдох давтамжийг харгалзах бас компьютерийн стандарт
гар дээрх латин їсгийн байрлал нь хїний хуруунд ойр хол байдгийг анхаарах
4) 4) Монголд латин їсэг хэрэглэж байсан уламжлал ба ард тїмний дунд
хэрэглэж хэвшсэн байдлыг харгалзах
5) 5) Зєвхєн компьютерийн гар дээр шууд ил бичигдсэн латин ї ,сэг
тэмдэгтїїдийг хэрэглэх
6) 6) Монгол хэлзїйн дїрмийг харгалзах
Дээрхи зарчмыг барьж монгол бичгийн кирилл їсгийг латин їсгээр галигласныг
доорхи хїснэгтэд сийрїї .лэв Энэхїї - ( S- Galig)галигийг С Галиг гэж нэрлээд
.[8]цаашид бусадтай харьцуулж болно
12
Латинаас кириллрүү хөрвүүлэгч хиймэл оюуны ñèñòåì
Монгол їсгийг латин їсгээр галиглах нь
- ( S- Galig)С Галиг
№
Кирил їсэг
Латин галиг
№
Кирил їсэг
Латин галиг
1.
А
A
19
Р
R
2.
Б
B
20
С
S
3.
В
V
21
13
Латинаас кириллрүү хөрвүүлэгч хиймэл оюуны ñèñòåì
Т
T
4.
Г
G
22
У
U
5.
Д
D
23
U ( `U)
6.
Е
Ye
24
Ф
F
7.
Ё
Yo
25
Х
H, Kh
8.
Ж
J
26
Ц
Ts
9.
З
Z
27
Ч
Ch
10.
И
I
28
Ш
Sh
11.
Й
I
29
Щ
Shch
12.
К
K
30
Ъ
14
Латинаас кириллрүү хөрвүүлэгч хиймэл оюуны ñèñòåì
‘
13.
Л
L
31
Ы
Y
14.
М
M
32
Ь
'
15.
Н
N
33
Э
E
16.
О
O
34
Ю
Yu
17.
Є
O ( `O)
35
Я
Ya
18.
П
P
1Хүснэгт
:Тайлбар
15
Латинаас кириллрүү хөрвүүлэгч хиймэл оюуны ñèñòåì
сгийг галигласан тухай тайлбарыг дээрхи хїснэгтэд байгаа холбогдох їсгийн
.дугаарыг тавьж бичив
гийн эхний їед бичигдэх ї ( . ) .сгийг хаалтанд бичив
6.№ Кирилл їсэгтэй бусад хэлэнд Э ба Е їсгїї -дийг латин Е ээр бичиж зарим їед Е
ї Ye .сгийг латинаар гэж бичдэг Е монгол їсгийн дотроос тохиолдох
, 35давтамжаараа харьцангуй бага ї 26-сгээс д ордог тул хос ї Yeсгээр гэж галиглаж
.болох юм
8.№ Ж їсгийг кирилл їсэгтэй бї Zh .х улсууд гэж галигладаг Бид їїнтэй адил
1)байлгах нь дээр бичсэн шаардлагын дагуу авч їзвэл зє 2), 3), 4)-в боловч ийг
J - .харгалзаж ээр галиглахаар шийдсэн юм Мє Jн їсэг бол компьютерийн
.стандарт гар дээр хамгийн сайн байрлалтай байдаг
11№ . Й їсэг їргэлж эгшиг їсгийн дараа орох тул тїїний їгэнд орох байрлал
. -тодорхой байдаг Й ээр эхэлсэн монгол їг байдаггї .й Иймээс И ба Й їсгийг
I . Ai, oi, ui, ei, ii iхоёуланг нь латинаар гэж бичихэд болно гэж байвал ар талын
ї .сэг Й гэдэг нь илэрхий байх юм
Монгол уйгаржин бичигт ижил бичлэгтэй єєр дуудлагатай їсгїїд хэрэглэж ирсэн
уламжлалтай билээ
17№ , Є ї O-сгийг латин ээр бичиж їгийн эхний їед орсон Є ї `Oсгийг латинаар гэж
. ` -бичнэ О ийн ємнє (`)байгаа тэмдэг бол єргєлтийн тэмдэг бєгєєд
компьютерийн гарын зїї .н талын дээд хэсэгт байрлалтай байдаг Германы Ц
ї Oe Eсгийг гэж бичдгийг авч болох боловч латин ї 4сэг манай їсгэнд орох болчих
. `гээд байгаа юм Гаднаас нь харвал Ц ба О бас тєсєєтє , ` -й гэхдээ О ийн ємнє
( `) .байгаа тэмдэг бол компьютерийн гар дээр шууд ил байгаа билээ
,Жишээ нь євє -`ovog,г хєрєє-kh`oroo єргєдє -`orgodol . .л г м Эгшиг зохицох дїрмээр їгийн
бусад хэсэгт бичсэн латин О їсэг Є .гэж аяндаа дуудагдана Иймээс їгийн бїх
хэсэгт Є ї `Oсгийг латинаар бичихдээ заавал гэж ї (`)ргэлж єргєлтийн тэмдэгтэй
16
Латинаас кириллрүү хөрвүүлэгч хиймэл оюуны ñèñòåì
бичих албагї . `O .й гэж бичихэд компьютерийн гар дээр хоёр товчлуур дарна Є
монгол їсгийн дотроос тохиолдох давтамжаараа харьцангуй єндє , 35р ї 4-сгээс д
ордог тул компьютерийн гар дээр їргэлж хоёр товчлуур дарах нь тохиромжгїй
.байх болно Дээрх ї -ovog, -horoo, -orgodolгс нь овог хороо оргодол гэж бичсэнээс
.ялгаатай байна
23№
ї U-сгийг латин ээр бичиж їгийн эхний їед орсон
ї `U . `U-сгийг латинаар гэж бичнэ ийн ємнє ( `)байгаа тэмдэг бол єргєлтийн
тэмдэг бєгєєд компьютерийн гарын зїї .н талын дээд хэсэгт байрлалтай байдаг
Германы Ь ї Ue Eсгийг гэж бичдгийг авч болох боловч латин ї 4сэг манай їсгэнд
. `Uорох болох гээд байгаа юм Гаднаас нь харвал Ь ба бас тєсєєтє , `Uй гэхдээ
-ийн ємнє ( `) .байгаа тэмдэг бол компьютерийн гар дээр шууд ил байгаа билээ
,Жишээ нь ус ї -`us,с ї -`uil,йл їзїї -`uzuulen,лэн їзїї -`uzuur,р їхїї - `ukhuulekh . .лэх г м
монгол їсгийн дотроос тохиолдох давтамжаараа харьцангуй єндє , 35р їсгээс
7-эхний д ордог тул дээрх Є їсэгтэй адил анхаарах зї .йл байдаг
25№ . Х їсгийг кирилл ї Kh .сэгтэй ихэнх улсууд гэж галигладаг Х їсгийг латин нэг
ї 1), 2), 4) , Khсгээр Н гэж галиглаж болох боловч шаардлагын дагуу Н гэж галиглах
.болно Хатуу дуудлагатай Х ї ,сгийг латин Н зєєлє ( )н тагнайшсан дуудлагатай Х
ї Kh .сгийг гэж галиглана Энэ нь ерєнхийдєє эр ї ,гэнд Н эм ї Khгэнд байна гэсэн
ї . , Orhon, Kherlen, Handaa, Sukhee . .г Жишээ нь г м Гэхдээ эр їгэнд ч тагнайшин зєєлєн
. , arkhi, tamkhi, gorkhi, salkhi . .дуулдах нь бас байна Жишээ нь г м
26№ . Ц їсгийг кирилл їсэгтэй бї Ts .х улсууд гэж галигладаг
27№ . Ч їсгийг кирилл їсэгтэй бї Ch . 2х улсууд гэж галигладаг Харин хятад хэлэнд
янзын хоорондоо тєсєєтє Ch, Qй ийм авиаг латин ї . Qсгээр тэмдэглэдэг нь
17
Латинаас кириллрүү хөрвүүлэгч хиймэл оюуны ñèñòåì
. , Cha- ( ), Qing Hua - (хаалттай Ч маягаар дуулддаг Жишээ нь Ча Цай Чин Хуа Их
)Сургуулийн нэр
28№ . Ш їсгийг кирилл їсэгтэй бї Sh . 2х улсууд гэж галигладаг Харин хятад хэлэнд
янзын хоорондоо тєсєєтє Sh, Xй ийм авиаг латин ї . Xсгээр тэмдэглэдэг нь
. , Shanhai- , Xinjiang-хаалттай Ш маягаар дуулддаг Жишээ нь Шанхай Шинжаан
29№ . Щ їсгийг кирилл ї Shch Sch .сэгтэй улсууд эсвэл гэж галигладаг Щ монгол
ї ,сгийн тохиолдох давтамжаар хамгийн бага монгол їгэнд ордоггї .й
30№ . Ъ тэмдэгийг кирилл ї ( “ )сэгтэй зарим улсууд ишлэлийн давхар тэмдэг
( ‘ ) .эсвэл ишлэлийн дан тэмдэг бичиж галигладаг Монгол хэлэнд Ъ тэмдэгийг
хїсэх хэлбэрт гийгїїлэгчээр тєгссєн эр ї – , -гийг я ё дагавартай бичих гэж цєєн
. , -yav’ya, -or’yo, -av’ya, -och’yoтохиолдолд хэрэглэдэг Жишээ нь явъя оръё авъя очъё
Нэг ї ,гэнд Ъ Ь тэмдэг хамт ордоггї ,й монгол хэлзїйн їїднээс їгэнд энэ хоёр
,тэмдэгийн аль нь байх нь тодорхой байдаг тул Ъ Ь тэмдэгийг хоёуланг нь
( ‘ ) .ишлэлийн дан тэмдэг бичиж галиглаж болно
31№ . Ы їсгийг кирилл їсэгтэй улсууд зонхилон
.гэж латинаар галигладаг
32№ . Ь тэмдэгийг кирилл ї ( ‘ )сэгтэй улсууд ишлэлийн дан тэмдэг бичиж
.галигладаг Монгол хэлэнд Ь тэмдэгийг хїсэх хэлбэрт гийгїїлэгчээр тєгссєн эм
ї –гийг е дагавартай бичих болон гийгїїлэгчийг зєєлєрїїлэх тохиолдолд
.[7]хэрэглэдэг
, -ir’ye, -er’ye,Жишээ нь ирье эрье є -`og’ye, -min’, -mor’гье минь морь
Монгол їсгийн тохиолдох давтамжийг буурах дарааллаар нь
:байрлуулбал
18
Латинаас кириллрүү хөрвүүлэгч хиймэл оюуны ñèñòåì
, , ,А Н О Є, , ,Л У
, , , , , , , , , , , ,Э Г И Р Й Х Д Т С Б М
, , , , , , , , , , , , , , , ,В Ы Ж З Ч Ш Ц Е Ё Я Ъ Ь К Ю П Ф Щ
№ Кирилл үсэг Латин үсэг № Кирилл үсэг Латин үсэг
1 A A 18 п P
2 Б B 19 р p, r
3 В v, w 20 с s, c
4 Г G 21 т T
5 Д D 22 у U
6 Е e, ye 23 ү u, v
7 Ё Yo 24 ф F
8 Ж J 25 х kh, h, x
9 З Z 26 ц ts, c
10 И I 27 ч Ch
11 Й I 28 ш Sh
12 К K 29 ъ
13 Л L 30 ы ii, y
14 М M 31 ь I
15 Н N 32 э E
16 О O 33 ю Yu
19
Латинаас кириллрүү хөрвүүлэгч хиймэл оюуны ñèñòåì
17 Ө o, u 34 я Ya
2Хүснэгт
20
Латинаас кириллрүү хөрвүүлэгч хиймэл оюуны ñèñòåì
№
Кирилл
үсэг
Латин үсэг №
Кирилл
үсэг
Латин үсэг
1 A , 2А Я 14 N Н
2 B Б 15 O , , 2О Ө Ё
3 C , ,С Ц 1Ч 16 P П
4 D Д 17 Q
5 E , , 2Э Е Е 18 R Р
6 F Ф 19 S , 1, 2С Ш Ц
7 G Г 20 T , 1Т Ц
8 H , 2, 2, 2Х Х Ш Ч 21 U , , , 2У Ү Ө Ю
9 I , ,И Й Ь 22 V ,В Ү
10 J Ж 23 W В
11 K К 24 X Х
12 L Л 25 Y , 1, 1, 1, 1У Е Ё Ю Я
13 M М 26 Z З
3Хүснэгт
X 2үмүүсийн хэрэглээндээ түгээмэл хэрэглэдэг галигуудыг судлан хүснэгт ба
3- .хүснэгт т үзүүллээ
21
Латинаас кириллрүү хөрвүүлэгч хиймэл оюуны ñèñòåì
“ ”, ” ” -Монголын Нууц Товчоо Гэсэрийн тууж ыг ашиглан монгол хэлний хэл
зүйг шинжлэн кирилл үсгүүдийн давтамж болон магадлалуудыг доорх
.хүснэгтэнд үзүүллээ
Code CountOfcode Code CountOfcode
1 24607 0,094684 1 42600 0,102169 А 0,007485
2 5628 0,021656 2 8716 0,020904 Б -0,000752
3 4877 0,018766 3 12249 0,029377 В 0,010611
4 14910 0,057372 4 24392 0,0585 Г 0,001129
5 9590 0,036901 5 13343 0,032001 Д -0,004900
6 400 0,001539 6 815 0,001955 Е 0,000416
7 629 0,00242 7 1044 0,002504 Ё 0,000084
8 4964 0,019101 8 6458 0,015488 Ж -0,003612
9 2186 0,008411 9 3802 0,009118 З 0,000707
10 10800 0,041557 10 15986 0,03834 И -0,003217
11 7853 0,030217 11 11134 0,026703 Й -0,003514
12 55 0,000212 12 23 5,52E-05 К -0,000156
13 10594 0,040764 13 14288 0,034267 Л -0,006497
14 4478 0,017231 14 8138 0,019518 М 0,002287
15 17652 0,067922 15 28357 0,06801 Н 0,000087
16 10442 0,040179 16 16078 0,038561 О -0,001619
17 5934 0,022833 17 7512 0,018016 Ө -0,004817
18 18 6,93E-05 18 2 4,8E-06 П -0,000064
19 12352 0,047529 19 20488 0,049137 Р 0,001608
20 6189 0,023814 20 9841 0,023602 С -0,000212
21 7901 0,030402 21 10380 0,024895 Т -0,005507
22 8932 0,034369 22 14884 0,035697 У 0,001328
23 9043 0,034796 23 10761 0,025809 Ү -0,008988
24 29 0,000112 24 0 0 Ф -0,000112
25 11217 0,043161 25 14950 0,035855 Х -0,007306
26 1476 0,005679 26 2686 0,006442 Ц 0,000763
27 3574 0,013752 27 4971 0,011922 Ч -0,001830
28 1333 0,005129 28 2228 0,005344 Ш 0,000214
29 0 0 29 0 0 Щ 0,000000
30 175 0,000673 30 249 0,000597 Ъ -0,000076
31 2220 0,008542 31 3009 0,007217 Ы -0,001326
32 1326 0,005102 32 3894 0,009339 Ь 0,004237
33 17400 0,066953 33 30407 0,072926 Э 0,005974
34 195 0,00075 34 561 0,001345 Ю 0,000595
35 1415 0,005445 35 2071 0,004967 Я -0,000478
36 39491 0,151956 36 70638 0,169414 0,017458
22
Латинаас кириллрүү хөрвүүлэгч хиймэл оюуны ñèñòåì
№№ ҮсэгҮсэг ГэсэрГэсэр МНТМНТ
11 “ ”“ ” 0,1690,169 0,1520,152
22 “ ”А“ ”А 0,1020,102 0,0950,095
33 “ ”Э“ ”Э 0,0730,073 0,0670,067
44 “ ”Н“ ”Н 0,0680,068 0,0680,068
55 “ ”Г“ ”Г 0,0590,059 0,0570,057
66 “ ”Р“ ”Р 0,0490,049 0,0480,048
77 “ ”О“ ”О 0,0390,039 0,0400,040
88 “ ”И“ ”И 0,0380,038 0,0420,042
23
Латинаас кириллрүү хөрвүүлэгч хиймэл оюуны ñèñòåì
Төлөв хоорондын шилжилтийн магадлалыг биграм ашиглан тооцоолсон ба
1296- , -энэ нь хамгийн ихдээ н хослолын боломжууд байх боловч тэдгээрээс ж ч
“ ” , “ ”гийн араас ы бичигддэггүй ьъ хамт бичигдэхгүй зэрэг хослолууд хасагдаж
. 700тооцогдсон гаран хослол байгаа ба тэдгээрийн зарим хослолын давтамж
.болон магадлалыг доорх хүснэгтэд үзүүлсэн болно
CountOfcode Expr1 Expr2
8107 15 36 0,031195 Н 0
6317 36 25 0,024307 0 Х
5115 36 2 0,019682 0 Б
3817 1 15 0,014687 А Н
3707 4 36 0,014264 Г 0
3477 8 36 0,013379 Ж 0
3373 1 19 0,012979 А Р
24
Латинаас кириллрүү хөрвүүлэгч хиймэл оюуны ñèñòåì
3363 10 11 0,01294 И Й
3309 5 36 0,012733 Д 0
3205 36 21 0,012332 0 Т
3120 25 1 0,012005 Х А
3009 4 33 0,011578 Г Э
2875 1 1 0,011063 А А
2823 19 36 0,010862 Р 0
2811 11 36 0,010816 Й 0
2627 1 11 0,010108 А Й
2494 23 23 0,009597 Ү Ү
2445 33 33 0,009408 Э Э
2425 36 4 0,009331 0 Г
2338 33 15 0,008996 Э Н
2284 33 19 0,008789 Э Р
2209 36 15 0,0085 0 Н
2160 4 1 0,008311 Г А
2142 36 1 0,008242 0 А
40000Нийт үгийн сан бүхий материалыг ашиглан латин үсгийн давтамж болон
.магадлалыг доорх хүснэгт болон диаграмаар харуулав [6]
Letter Count Letter Frequency
E 21912 E 12.02
T 16587 T 9.10
A 14810 A 8.12
O 14003 O 7.68
I 13318 I 7.31
N 12666 N 6.95
S 11450 S 6.28
R 10977 R 6.02
25
Латинаас кириллрүү хөрвүүлэгч хиймэл оюуны ñèñòåì
H 10795 H 5.92
D 7874 D 4.32
L 7253 L 3.98
U 5246 U 2.88
C 4943 C 2.71
M 4761 M 2.61
F 4200 F 2.30
Y 3853 Y 2.11
W 3819 W 2.09
G 3693 G 2.03
P 3316 P 1.82
B 2715 B 1.49
V 2019 V 1.11
K 1257 K 0.69
X 315 X 0.17
Q 205 Q 0.11
J 188 J 0.10
Z 128 Z 0.07
26
Латинаас кириллрүү хөрвүүлэгч хиймэл оюуны ñèñòåì
27
Латинаас кириллрүү хөрвүүлэгч хиймэл оюуны ñèñòåì
V II.V II.
40000Нийт үгийн сан бүхий материалыг ашиглан латин үсгийн хослолын
.давтамж болон магадлалыг доорх хүснэгт болон диаграмаар харуулав [6]
Digraph Count Digraph Frequency
th 5532 th 1.52
he 4657 he 1.28
in 3429 in 0.94
er 3420 er 0.94
an 3005 an 0.82
re 2465 re 0.68
nd 2281 nd 0.63
at 2155 at 0.59
on 2086 on 0.57
nt 2058 nt 0.56
ha 2040 ha 0.56
es 2033 es 0.56
st 2009 st 0.55
en 2005 en 0.55
ed 1942 ed 0.53
to 1904 to 0.52
it 1822 it 0.50
ou 1820 ou 0.50
ea 1720 ea 0.47
hi 1690 hi 0.46
is 1660 is 0.46
or 1556 or 0.43
ti 1231 ti 0.34
as 1211 as 0.33
te 985 te 0.27
et 704 et 0.19
ng 668 ng 0.18
of 569 of 0.16
al 341 al 0.09
de 332 de 0.09
28
Латинаас кириллрүү хөрвүүлэгч хиймэл оюуны ñèñòåì
se 300 se 0.08
le 298 le 0.08
sa 215 sa 0.06
si 186 si 0.05
ar 157 ar 0.04
ve 148 ve 0.04
ra 137 ra 0.04
ld 64 ld 0.02
ur 60 ur 0.02
29
Латинаас кириллрүү хөрвүүлэгч хиймэл оюуны ñèñòåì
30,000 168,000үг буюу тэмдэгт бүхий латинаар галигласан текстийг ашиглан
,тэмдэгтүүдийн давтамж магадлал болон тэдгээрийн кирилл тэмдэгтийн
хэлбэрлүү хичнээн янзаар шилжиж байгаа дамтамжийг доорх хүснэгтэд
.үзүүлэв
Word,Quantity,%
a,22275,12,93 -21333а 2-942я
i,17397,10,09 -8832и -378ь -8187й
u,15039,8,73 -5968у -3928ү -4378ө 2-765ю
e,14628,8,49 -14412э -117е 2-99е
n,11985,6,95
h,10392,6,03 -6506х 2-286х 2-2109ч 2-1491ш
g,10263,5,96
o,9096,5,28 -5013о -3939ө 2-144ё
l,8922,5,18
d,8625,5,00
r,7590,4,40
s,7134,4,14 -4746с 2-897ц 1-1491ш
b,6117,3,55
t,5709,3,31 -4612т 1-897ц
m,4347,2,52
j,2892,1,68
c,2385,1,38 1-2109ч -175с -201ц
y,2247,1,30 -297у 1-942я 1-99е 1-765ю 1-144ё
v,1857,1,08 -1244в -613ү
z,1764,1,02
x,720,0,42
k,357,0,21 1-286х -71к
p,252,0,15
w,198,0,11
f,138,0,08
30
Латинаас кириллрүү хөрвүүлэгч хиймэл оюуны ñèñòåì
6. Дүгнэлт
, .Миний энэхүү ажил нь судалгааг түлхүү хийж түүндээ тулгуурлаж хийгдсэн
Судалгааны явцад програмаа хөгжүүлэх хэд хэдэн аргуудыг судалсан ба
.тэдгээр аргууд нь өөр өөрийн гэсэн давуу тал ба сул талуудтай байсан Ийм
учраас эдгээр аргуудын аль тохирохыг өөрийн програмдаа ашиглан хөгжүүлэх
.нь чухал байлаа Т ширхэг тэмдэгтээс тогтсон текстийн хувьд Биграм
.ашигласнаар үсгүүдийн хослох боломж магадлалуудыг тооцсон болно Мөн
.үүнтэй хослуулан өгөгдлийн санг ашигласан Одоо үзүүлж байгаа үр дүн
бололцооны хэмжээнд байгаа ч цааш цаашдын програмын сургалтын дүнд
.илүү сайн үр дүн үзүүлнэ гэсэн итгэл дүүрэн байна
31
Латинаас кириллрүү хөрвүүлэгч хиймэл оюуны ñèñòåì
:Ашигласан ном болон бусад материаллууд
[1] (MIT) Foundations of Statistical Natural Language Processing
[2] (Монгол хэлний стохастик загвар , , .Алтангэрэлийн Хүдэр Цэндийн Ганбат Ж
-Хаш Эрдэнэ)
[3] Монгол өгүүлбэр дэх үгийн аймгийг тодорхойлоход Марковын далд
загварыг ашиглах Алтангэрэлийн Хүдэр
[4] Prentice Hall - 2000 - Speech and Language Processing. An Introduction to Natural Language Processing,
Computational Linguistics and Speech Recognition - ISBN 0
[5] Michael Collins. A new statistical parser based on bigram lexical dependencies. In Proceedings of the 34th Annual
Meeting of the Association of Computational Linguistics, Santa Cruz, CA. 1996. pp.184-191.
[6] Cornell Math Explorer's Project – Substitution Ciphers
[7] www.mecs.gov.mn
[8] www.kanungo.com
[9] http://krilleer.blogspot.com
[10] www.mn.wikipedia.org
[1] [11] “Гэсэрийн тууж,” , 1975.Улаанбаатар
[2] [12] “ ,” , 1972.Монголын нууц товчоо Улаанбаатар
32
Латинаас кириллрүү хөрвүүлэгч хиймэл оюуны ñèñòåì
33

Латинаас крилл рүү хөрвүүлэгч

  • 1.
    Ëàòèíààñ êèðèëë ð¿¿õºðâ¿¿ëýã÷ õèéìýë îþóíû ñèñòåì Ãàð÷èã 1. Îðøèë 2. Õýðýãëýã÷èéí øààðäëàãà òîäîðõîéëîõ 1 . Õýðýãëýã÷èéí òóõàé ìýäýýëýë 2 . Õýðýãëýã÷èéí ¿éë àæèëëàãààíû îíöëîã 3 . Ñèñòåì õàìðàõ õ¿ðýý 4 . Õóó÷èí ñèñòåìèéí äóòàãäàëòàé òàë 5 . Ñèñòåì õºãæ¿¿ëýõ áîëñîí ¿íäýñëýë 6 Õýðýãëýã÷èéí ôóíêöèîíàëü øààðäëàãà 3. Онолын хэсэг 3.1. Марковын далд загвар 3.2. Cтохастик загвар 4. Àðõèòåêòóðûí ñîíãîëò 4.1. ¯éëäëèéí ñèñòåìèéí ñîíãîëò 4.2. Ïðîãðàì÷ëàëûí õýëíèé ñîíãîëò 4.3. ªãºãäëèéí ñàí óäèðäàõ ñèñòåì 4.4. Òåõíèê õàíãàìæèéí ñîíãîëò 5. Судалгаа 6. Дүгнэлт 1
  • 2.
    Латинаас кириллрүү хөрвүүлэгчхиймэл оюуны ñèñòåì 1. Îðøèë Сїїлийн їед тєрєл бїрийн мэдээллийн хэрэгсэл єргєн нэвтэрч кирилл їсгийг латин ї .сгээр галиглах нэгдсэн стандарт бий болгох шаардлага гарсаар байна , ,Тухайлбал интернетээр харилцах интернетэд монгол ї ,гтэй мэдээлэл оруулах ,хайх монгол хэлтэй холбоотой тєрєл бїрийн компьютерийн программ хангамж ,боловсруулах монгол ї ,сэг ї ,г таних хэрэгсэл бий болгох бичмэл мэдээллийг электрон аргаар унших зэрэг маш олон асуудал її .нтэй холбогдож байна Хамгийн наад захын жишээ бол бид интернет шуудангаар харилцахдаа кирилл їсгийг латин їсгээр орлуулан бичих нэгдсэн стандарт байхгїйн улмаас хїн бїр єєр єєрийнхєєрєє ,бичиж заримдаа харилцан ойлголцоход бэрхшээл учрах эх хэлээ мэддэгийн хїчинд утгыг нь хї .чээр ойлгох явдал ч гардаг билээ Интернэт маш өргөн хэрэглэгдэх болсон өнөө үед түүнийг .хэрэглэгчдийн тоо мөн адил маш их хэмжээтэй болсон Үүнийг дагаад хэрэглэгчид latin үсгээр үгсийг галиглаж текстийг бичих нь маш их .дэлгэрсэн Үүнийг дагаад latin үгийг кирилл үгрүү хөрвүүлдэг програм .хэрэглэх шаардлага гарч ирсэн Энэ асуудлыг шийдвэрлэхээр бүтээгдсэн хөрвүүлэгч програмууд бүтээгдсэн зарим нэг асуудлыг төдийлөн . :шийдвэрлэж чадаагүй лбайна Жишээнь “Zaluusaa nuguuyriadbsan temtseen ni hezeebolhiin hoo?” “Eneixgoyo zurag bna. Gexdeeooroo jaaxan tiimxen garchij.” Эндээс ажиглахад хэрэглэгчдийн latin үсгээр галиглаж бичих байдал нь . : “харилцан адилгүй байна Тухайлбал nuguu- ”, “нөгөө ooroo- ”,өөрөө “bolhiin- ”,болхын “gexdee- ”гэхдээ зэрэг үгүүд дээр ижил үсгүүдийг өөр өөрөөр бичсэн .байгааг ажиглаж болно Мөн хэрэглэгчид үгсийг товчилж бичих тохиолдол .маш элбэг тохиолддог Энэ бүхнийг нэг загварт оруулна гэдэг бараг . 100%боломжгүй хэрэг гэж хэлж болно Хиймэл оюун ашиглаж хийх , .боломжгүйч хөрвүүлэлтийнүр дүнг илүүсайжруулахболомжтойюм Уг ажлын хүрээнд миний бие Latin үгийг Кирилл үгрүү хөрвүүлдэг application .програмхийхээр зорихболно 2
  • 3.
    Латинаас кириллрүү хөрвүүлэгчхиймэл оюуны ñèñòåì 2.Õýðýãëýã÷èéí øààðäëàãа 2.1. Õóó÷èí ñèñòåìèéí äóòàãäàëòàé òàë Өмнө нь latin үгийг кирилл болгон хөрвүүлдэг програмууд нэлээдгүй бүтээгдэж .байсан Тэдгээр нь өөр өөрийн гэсэн сайн талуудтай байсан ч гэсэн дутагдалтай . :талууд мөн нэлээдгүй байсан Жишээ нь Latin – TS -хослолыг кирилл Ц .гэж тооцон хөрвүүлэлт хийгддэг Гэхдээ “зарим тохиолдолд тухайлбал Batsukh” “гэсэн үгэнд ts” нь хамт бичигдэж байгаа “ , ” .хэдий ч хослол бололгүй т с гэсэн хоёр тусдаа үсэг болох ёстой Гэх мэтчилэн .хөрвүүлэлтийн үед алдаа гарах дутагдалтай талууд нэлээдгүй бий 2.2. Ñèñòåì õºãæ¿¿ëýõ áîëñîí ¿íäýñëýë Урьд өмнө нь бүтээгдэж байсан ижил төстэй програмуудын алдаа дутагдлыг ,багасгах latin .үгийг кирилл үгрүү хөрвүүлэх ажлыг хиймэл оюун ашиглаж шийдэх Өмнө хийгдэж байсан програмууд нь тодорхой дүрмийн дагуу галиглаж бичих .боломжтой хийгдсэн байдаг Хэрэглэгчид маш олон төрлийн хэлбэрээр .галиглаж хэвшсэн байдаг Тийм учраас хиймэл оюунтай болгосноор дээрх .асуудлыг илүү уян хатан болгох давуу талтай 2.3. Ñèñòåì õамрах хүрээ Энэ төрлийн програм нь ихэвчлэн интернэт сайтуудад хэрэглэгддэг бөгөөд ,хэрэглэгч мэдээ үлдээх зэрэг ажлуудыг хөнгөвчилж зарим тохиолдолд үсгийн .фонтгүй байх зэрэг асуудлуудыг шийдвэрлэдэг 3
  • 4.
    Латинаас кириллрүү хөрвүүлэгчхиймэл оюуны ñèñòåì 3.ОНОЛЫН ХЭСЭГ 3.1 Марковын далд загвар ( )Марковын далд загвар МДЗ гэдэг нь системийг параметрууд нь тодорхойгүй Марковын процесс гэж үзээд ажиглагдаж байгаа өгөгдлүүдээр тэдгээр далд .параметруудыг тодорхойлдог статистик загвар юм 1. :Зураг Марковын далд загварын магадлалын параметрууд s – ,төлвүүд k – , – ,байж болох ажиглалтууд а төлөв шилжилтийн магадлалууд b – гаралтын магадлалууд :Марковын далд загварт дараах тэмдэглэгээнүүдийг ашигладаг Төлвүүдийн олонлог S={s1, …, sN} Гаралтын цагаан толгой K={k1, ..., kM}={1, ..., M} Эхлэлийн төлвийн магадлал П={πi}, i Төлөв шилжилтийн магадлал A={aij}, i, j Тэмдэгт үүсгэх магадлал B={bijk}, i, j, k Төлвийн дараалал x=(X1, …, XT+1) Xt: s → {1, …, N} Гаралтын дараалал O=(o1, …, oT) ot 4
  • 5.
    Латинаас кириллрүү хөрвүүлэгчхиймэл оюуны ñèñòåì МДЗ өгөгдсөн тохиолдолд шууд Марковын процессыг загварчлан үр дүнг нь .гаргаж болно 1 t:=1; 2 si төлвөөс πi (Xмагадлалтайгаарэхэл 1=i) 3 {төгсгөлгүйдавт 4 aij sмагадлалтайгаар i → sj ( . . Xшилж ө х t+1=j) 5 bijk oмагадлалтай t=k тэмдэгт гаргах 6 t:=t+1 7 } 2.Зураг Марковын процессын програм . -Гэвч үүнийг хийх нь өөрөө тийм ч сонирхолтой ажил биш юм МДЗ ийн гол -сонирхолтой тал нь ямар нэг өгөгдлийн олонлогийг МДЗ аар үүсгэгдсэн гэж үзээд цаана нь байсан байж болох төлвүүдийн дарааллыг болон түүний .магадлалыг олоход оршино -МДЗ ын тухай дараах гурван үндсэн асуудал байдаг[1]: 1. μ = (A, B, )П загвар өгөгдсөн үед ажиглалтын тодорхой нэг үр дүн гарах P(O|магадлал буюу μ)- ?г яаж үр ашигтайгаар тооцоолохвэ 2. OАжиглалтын дараалал ба μ загвар өгөгдсөн үед уг ажиглалтын Xдараалалд хамгийн сайн тохирох төлвүүдийн дараалал 1, …, XT+1-ыг яаж ?сонгон авах вэ 3. OАжиглалтын дараалал ба μ = (A, B, )П загварын параметрүүдийг өөрчлөх замаар гарган авсан боломжит загваруудын огторгуй өгөгдсөн бол уг ажиглалтын дараалалд хамгийн сайн тохирох загварыг яаж сонгон ?авах вэ Бид параметрүүдийг мэдэхгүй байх тохиолдолд тэдгээрийг өгөгдлөөс гарган авч . .үнэлэх боломжтой Энэ нь гурав дахь асуудал юм Эхний асуудлыг ашиглан ямар .загвар нь илүү сайн гэдгийг шийдэж болно Хоёр дахь асуудал нь бидэнд Марковын гинж яг ямар замаар явсныг таах боломж олгох бөгөөд үүнийг .ангилалтанд ашиглаж болдог A .A . Ажиглалтын магадлалыг хайх O=(o1, …, oT) ажиглалтын дараалал ба μ = (A, B, ) P(O|П загвар өгөгдсөн үед μ) магадлалыг буюу загвар өгөгдсөн үед уг үр дүнгүүд ажиглагдах магадлалыг үр . .ашигтайгаар тооцоолъё Уг процессыг код тайлах гэж нэрлэдэг P(O|μ) = .байна Бид төлвүүдийн дарааллын боломжит бүх утгуудын хувьд ажиглалтын .магадлалуудыг нэмэх хэрэгтэй Гэвч энэ илэрхийллийг шууд хэрэглэх нь үр ашиг . (муутай Ерөнхий тохиолдолд аль ч төлвөөс эхэлж болох ба аль ч төлвөөс өөр ) (2T+1)∙Nямар ч төлөв рүү шилжиж болох үед T+1 .удаа үржих үйлдэл хийнэ 5
  • 6.
    Латинаас кириллрүү хөрвүүлэгчхиймэл оюуны ñèñòåì Энэ хүндрэлийг арилгах арга бол динамик програмчлал буюу санах ойг ашиглах .арга юм Үүнийг компьютерийн лингвистик болон компьютерийн ухаанд ерөнхий [байдлаар ихээхэн хэрэглэдэг 2]. МДЗ гэх мэт trellice, lattice ( )алгоритмуудад динамик програмчлалыг тор гэсэн ойлголтуудаар .дүрслэнэ Үүнд бид хугацааны агшин бүрт төлвүүдийн байх магадлалыг хугацааны өмнөх агшны магадлалуудаас хамааруулан бичсэн квадрат хүснэгт .ашигладаг -Тор нь МДЗ ын бүх замуудаас өгөгдсөн агшинд өгөгдсөн төлөвт дуусах эхлэлийн .дэд замуудын магадлалыг хадгалдаг Илүү урт дэд замуудын магадлалыг арай богино дэд замуудын магадлалыг ашиглан олж болно. 3. .Зураг Торны алгоритм Тор гэдэг нь төлвийг хугацааны эсрэг авсан квадрат . (sхүснэгт юм i, t) xзангилаа нь t=i байх төлвийн дарааллуудын тухай мэдээллийг . .хадгалж чадна Хэрчмүүд нь зангилаануудын хоорондох холбоог илэрхийлнэ Уг зурагт бүрэн холболттой буюу аль ч төлөв нь өөр бүх төлөвтэйгээ -холбогдсон МДЗ ыг үзүүлсэн байна[2][4]. 3.2. Cтохастик загвар Эхлээд текстийн статистик шинжилгээг үсгийн түвшинд хийж дараа нь эдгээр .мэдээллийг ашиглан санамсаргүйгээр бага хэмжээний текстийг үүсгэнэ :Туршилтууддараахгурвантүвшинд хийгдэнэ 1. Юниграм 2. Биграм 3. Триграм 35Монгол хэлний цагаан толгой үсэгтэй боловч үгүүдийг тусгаарлаж буй хоосон 36 .зайг дахь тэмдэгт болгон авах хэрэгтэй I I .I I . Юниграм Энэ түвшинд бид зэрэгцээ орших үсгүүдийн хооронд статистик хамаарал . .байхгүй гэж үзнэ Үсгүүд бүрэн бие даасан байдалтай байна Ийм туршилтын үр 6
  • 7.
    Латинаас кириллрүү хөрвүүлэгчхиймэл оюуны ñèñòåì SNLPдүн нь Монгол хэлний тухай хангалттай мэдээллийг өгөхгүй боловч -гийн үндсэн түвшний үүргийг гүйцэтгэнэ[3]. 1Хүснэгт - .т текст дэх зарим үсгүүдийн давтамж болон магадлалыг үзүүлсэн Хоёр үсэг гадаад хэлнээс орж ирсэн тул бага хэрэглэгдэж байгаа нь харагдаж . (байна Үүнийг тэг утгатай магадлалууд харуулна хаалтанд байгаа тоонууд “ ”- ).Монголыннууцтовчоо нышинжилгээндхамаарна TABLE I. ХҮСНЭГТ 1. ЮНИГРАМ ДАВТАМЖ БА МАГАДЛАЛ № Үсэг Давтамж Магадлал 1 А 42600(24607) 0.102169(0.094684) 2 Б 8716(5628) 0.020904(0.021656) 3 В 12249(4877) 0.029377(0.018766) 4 Г 24392(14910) 0.058500(0.057372) 5 Д 13343(9590) 0.032001(0.036901) 23 Ү 10761(9043) 0.025809(0.034796) 24 Ф 0(29) 0.000000(0.000112) 25 Х 14950(11217) 0.035855(0.043161) 33 Э 30407(17400) 0.072926(0.066953) 34 Ю 561(195) 0.001345(0.00075) 35 Я 2071(1415) 0.004967(0.005445) 36 70638(39491) 0.169414(0.151956) I I I .I I I . Биграм .Биграмын түвшинд бид арайбодитойурттай үгсийг үүсгэж чадна Энэ нь цагаан .толгойдоо хоосон зайг оруулж тооцсоны үр дүн юм Үсэг бүр өмнөх үсэгтэйгээ [3].Марковынгинжнийшинж чанараар статистик холбоотойбайна Эх текстэнд хамгийн олон удаа орсон эхний арван үсгийн хослолын давтамж 2- .болонмагадлалыг Хүснэгт түзүүлсэн TABLE II. 2.Хүснэгт биграм давтамж ба магадлал № Үсгийн хослол Давтамж Магадлал 1 “ ”Н 12955(8107) 0.0310705(0.031195) 2 “ ”Х 9025(6317) 0.021645(0.024307) 3 “ ”Б 8211(5115) 0.0196928(0.019682) 4 “ ”Г 7369(2425) 0.0176734(0.009331) 5 “ ”АН 6895(3817) 0.0165366(0.014687) 6 “ ”ГЭ 6334(3009) 0.0151911(0.011578) 7
  • 8.
    Латинаас кириллрүү хөрвүүлэгчхиймэл оюуны ñèñòåì 7 “ ”Р 6188(2823) 0.0148409(0.010862) 8 “ ”АА 5774(2875) 0.013848(0.011063) 9 “ ”АР 5595(3373) 0.0134187(0.012979) 10 “ ”Д 5300(3309) 0.0127112(0.012733) IV.IV. V .V . Триграм n-ийн утга текстэд байгаа үгсийн максимум уртад дөхөх тусам бид илүү олон .утгатай үгсийг гарган авах болно 3-Иймд бид шинжилгээгээ р түвшин хүртэл .хийсэн Мөн дараагийн түвшингийн шинжилгээг хийхэд гарсан бас нэг хүндрэл нь [3].санахойнхэмжээ экспоненциалаар өсчбайсанявдал юм 3Текстэд хамгийн олон удаа орсон эхний арван үсгэн гурвалыг Хүснэгт дээрээс .харж болно TABLE III. 3.Хүснэгт триграм давтамж ба магадлал № Үсгэн гурвал Давтамж Магадлал 1 “A “Н 4544(2498) 0.010898(0.009612) 2 “ ”ГЭ 4322(1320) 0.010366(0.005079) 3 “ ”ХА 3107(2193) 0.007452(0.008438) 4 “ ”ЭР 2752(834) 0.006600(0.003209) 5 “ ”НЬ 2711(701) 0.006502(0.000015) 6 “ ”БА 2266(1771) 0.005435(0.006815) 7 “ ”БИ 2242(912) 0.005377(0.003509) 8 “ ”ЭВ 2113(469) 0.005068(0.001805) 9 “ ”Н Х 2009(1451) 0.004818(0.005583) 10 “ ”БО 1962(1219) 0.004706(0.004691) V I .V I . TТекстийг .ширхэг тэмдэгтээс тогтсон гэж үзье N-грам шинжилгээний програм O(T) , O(36хугацаанд n ) .хэмжээнийсанахойхэрэглэжажиллана Их хэмжээний текстүүдийг шинжлэн ямар нэг зохиолын хүрээнд бус монгол хэлний хувьд текстийн стохастик параметруудыг тооцон гаргаж болох юм ( –МНТ 259885 , -416955үсэг Гэсэр үсэг).[11][12] 8
  • 9.
    Латинаас кириллрүү хөрвүүлэгчхиймэл оюуны ñèñòåì 4.ÀÐÕÈÒÅÊÒÓÐ ÑÎÍÃÎËÒ 4.1. ¯éëäëèéí ñèñòåìèéí ñîíãîëò ¯éëäëèéí ñèñòåìýýð: Windows XP ¯¿íèéã ñîíãîõ áîëñîí øàëòãààí íü õýðýãëýã÷èéí èíòåðôåéñ ñàéòàé òóë õýðýãëýã÷ àæèëëàõ, àøèãëàõàä õÿëáàð, øèíý õóâèëáàð íü áàéíãà ãàð÷ áàéäàã, öààøèä õºãæèõ áîëîìæòîé, îëîí õýðýãëýã÷èéí ãîðèìûã õýðýãæ¿¿ëýõýä òîõèðîìæòîé, ñ¿¿ëèéí ¿åä ãàð÷ á¿é ïðîãðàìóóä íü ýíý ¿éëäëèéí ñèñòåìä çîðèóëàãäñàí áàéäàã, õýðýãëýã÷äýä ºðãºí òàðõñàí çýðýã îëîí äàâóó òàëóóä 4.2.Ïðîãðàì÷ëàëûí õýëíèé ñîíãîëò C#.NET 2008 ïðîãðàì÷ëàëûí õýë äýýð áè÷íý. Äýýä ò¿âøíèé õýë, ïðîãðàìûí àæèëëàõ çàð÷èì, óÿëäàà õîëáîî ñàéí, äýëãýöèéí çîõèîìæ ãàðãàõàä õÿëáàð, õýðýãëýã÷èä îéëãîìæòîé áàéõààð èíòåðôåéñ ñàéòàéãààð ïðîãðàì÷ëàõ áîëîìæòîé, Windows-èéí îð÷íû õýðýãëýýíèé ïðîãðàìóóäààñ ôóíêö îðóóëæ àøèãëàõ áîëîìæòîé. 4.3.ªãºãäëèéí ñàí óäèðäàõ ñèñòåì Óã ïðîãðàììûí ºãºãäëèéí ñàíã MSSQL Server 2005 àøèãëàí çîõèîí áàéãóóëíà. Óã ºãºãäëèéí ñàí íü íóóöëàëò õàìãààëàëò ñàéòàé, ôóíêö ïðîöåäóð áè÷èæ ò¿¿íèéãýý øóóä àøèãëàõ áîëîìæòîé 4.4.Òåõíèê õàíãàìæèéí ñîíãîëò Óã ñèñòåìèéã àøèãëàõ êîìïüþòåð íü: Pentium4 áà ò¿¿íýýñ äýýø, 40GB-ààñ áàãàã¿é õàòóó äèñêòýé, 512ÌÂ- ààñ áàãàã¿é ñàíàõ îéòîé áàéõ áîëíî. Äýýðõ êîìïüþòåðèéã ñîíãîæ àâñàíû ó÷èð íü õýðýãëýã÷èéã õ¿ëýýëãýæ ÷èðýãäýë 9
  • 10.
    Латинаас кириллрүү хөрвүүлэгчхиймэл оюуны ñèñòåì ó÷ðóóëàõã¿é, ñòàòèñòèê ìýäýý áîëîí òàéëàí òîîöîî ãàðãàõàä õóãàöàà àëäàõã¿é, îëîí ¿éëäýë çýðýã ã¿éöýòãýõýä ñàíàõ îé õ¿ðýëöýýòýé þì. 5.Судалгааны хэсэг Латин үсэг 1941 2 1-нь оны сарын нд Бүгд Найрамдах Монгол Ард Улсын албан . 3 25-ёсны бичиг болгосон Гэвч хоёр хоёрхон сарын дараа буюу сарын нд энэ .шийдвэрээ буцаажээ Албан ёсоор бол Монгол хэлний бүх дуу авиаг тэмдэглэж чадахгүй байсан тул больсон гэсэн хэдий ч дараахан нь ЗХУ-ын бүрэлдэхүүн улсуудтай бараг нэгэн зэрэг кирилл үсгийг албанёсны болгосонтул энэ нь улс .төрийн бодлого байсан байж магадгүй , ,Манай орны нийгэм соёл эдийн засгийн ,хөгжлийн өнөөгийн төвшинг тодорхойлох нэг гол үзүүлэлт нь мэдээлэл , .харилцааны технологи болж түүнийг хэрэглэх хүрээ өргөжин тэлсээр байна 1990- ,Монгол улсад ээд оноос интернет үйлчилгээ нэвтэрч түүнийг ашиглан иргэд ,хоорондоо харилцан шуурхай мэдээлэл солилцох бизнес ажил хэргийн , ,харилцаа тогтоох мэдлэг мэдээллийн санг ашиглах зэрэг цоо шинэ төрлийн , , .ажил үйлчилгээ бий болж хэрэглэгчдийн тоо асар хурдан нэмэгдэх боллоо ,Түүнчлэн тоон технологийн холбоо шинээр нэвтэрч зөвхөн дуу яриагаар .төдийгүй үүрэн телефон ашиглан захидал бичиж харилцах боломжтой болжээ Монгол кирилл үсгийг латин үсгээр янз бүрийн хэлбэрээр оруулан хэрэглэснээр , ,монгол үгийг зөв буруу ойлголцох монгол хэлний нэгдмэл байдлыг .алдагдуулахад хүрсэн сөрөг үр дагавар гарах болжээ Мэдээлэл харилцааны технологийн үндсэн дээр монгол хэлээр мэдээлэл бичиж солилцох боломжийг хүн бүрд олгох зорилгоор дээр дурьдсан стандартыг , ,үндэслэн бүх шатны сургуулийн сурагч оюутнууд нийт иргэдэд латин үсгийг , , ,зааж сургах боловсон хүчин бэлтгэх гарын авлага монгол үгийг латин үсгээр , , , ,бичих дүрэм зөв бичих толь сурах бичиг зохиох заах арга боловсруулах 10
  • 11.
    Латинаас кириллрүү хөрвүүлэгчхиймэл оюуны ñèñòåì , ,монгол кирилл латин цагаан толгойг харилцан уялдуулах замаар программ -хангамжийн аргаар хооронд нь шууд хөрвүүлэх программ техникийн болон түүнийг хэрэглэх арга зүйн боломж нөхцлийг бий болгох зэрэг ажлыг төрийн .[8]бодлогын үндсэн дээр хэрэгжүүлэх шаардлага аяндаа гарч ирэв Монгол хэлний кирилл їсгийг латин їсгээр галиглах тухай transliteration .Галиглах гэдгийг англиар орсоор транслитерация гэдэг Олон улсын ( ISO 9:1995 Information and documentation -- Transliteration ofстандартын байгууллагаас Cyrillic characters into Latin characters -- Slavic and non-Slavic languages) -болон АНУ ын ( LOC ) -Конгрессын номын сангаас санал болгосон кирилл латин галиг байдаг боловч кирилл їсгийг латин їсгээр галиглах дэлхийн нэгдмэл систем одоогоор зохиогдоогї .й байна Дэлхийн олон улсууд єєрийн хэрэглэдэг їсгээ єєр їсгээр ..галиглах стандарт зохиосон байна Кирилл ї , , ,сэг хэрэглэдэг орос украин болгар , , , , ,белорус чечен македон молдав серб кабардиан зэрэг хэлїїд єєрсдийн албан .ёсны латин галигийн системтей болсон байна Иймээс бид ч бас албан ёсны - .кирилл латин галигийн системтей болмоор цаг болжээ Монгол кирилл їсгийг латин їсгээр галиглахдаа дараах їндсэн шаардлагыг .анхаарсан болно Її :нд 1) 1) Кирилл ї -сэгтэй улсуудын албан ёсны кирилл латин галигт бїгдэд нь адил байгаа галигийг аль болохоор тэр хэвээр нь авч хэрэглэх нь зї .йтэй юм Энэ нь алсдаа кирилл їсгийг латин їсгээр галиглах дэлхийн нэгдмэл систем бий болбол тэр їед бид аль болохоор тїїнд дєхїї .байх санаа юм Ялангуяа орсын стандартад аль болохоор дєхїї .хийхийг хичээх ёстой 2) 2) Латин галигаар нь уншихад монгол їгний дуудлага зєв гарч байх 11
  • 12.
    Латинаас кириллрүү хөрвүүлэгчхиймэл оюуны ñèñòåì 3) 3) Нэг кирилл їсгийг аль болохоор нэг латин ї ,сгээр галиглахыг хичээх їїнд монгол ї ,сгийн тохиолдох давтамжийг харгалзах бас компьютерийн стандарт гар дээрх латин їсгийн байрлал нь хїний хуруунд ойр хол байдгийг анхаарах 4) 4) Монголд латин їсэг хэрэглэж байсан уламжлал ба ард тїмний дунд хэрэглэж хэвшсэн байдлыг харгалзах 5) 5) Зєвхєн компьютерийн гар дээр шууд ил бичигдсэн латин ї ,сэг тэмдэгтїїдийг хэрэглэх 6) 6) Монгол хэлзїйн дїрмийг харгалзах Дээрхи зарчмыг барьж монгол бичгийн кирилл їсгийг латин їсгээр галигласныг доорхи хїснэгтэд сийрїї .лэв Энэхїї - ( S- Galig)галигийг С Галиг гэж нэрлээд .[8]цаашид бусадтай харьцуулж болно 12
  • 13.
    Латинаас кириллрүү хөрвүүлэгчхиймэл оюуны ñèñòåì Монгол їсгийг латин їсгээр галиглах нь - ( S- Galig)С Галиг № Кирил їсэг Латин галиг № Кирил їсэг Латин галиг 1. А A 19 Р R 2. Б B 20 С S 3. В V 21 13
  • 14.
    Латинаас кириллрүү хөрвүүлэгчхиймэл оюуны ñèñòåì Т T 4. Г G 22 У U 5. Д D 23 U ( `U) 6. Е Ye 24 Ф F 7. Ё Yo 25 Х H, Kh 8. Ж J 26 Ц Ts 9. З Z 27 Ч Ch 10. И I 28 Ш Sh 11. Й I 29 Щ Shch 12. К K 30 Ъ 14
  • 15.
    Латинаас кириллрүү хөрвүүлэгчхиймэл оюуны ñèñòåì ‘ 13. Л L 31 Ы Y 14. М M 32 Ь ' 15. Н N 33 Э E 16. О O 34 Ю Yu 17. Є O ( `O) 35 Я Ya 18. П P 1Хүснэгт :Тайлбар 15
  • 16.
    Латинаас кириллрүү хөрвүүлэгчхиймэл оюуны ñèñòåì сгийг галигласан тухай тайлбарыг дээрхи хїснэгтэд байгаа холбогдох їсгийн .дугаарыг тавьж бичив гийн эхний їед бичигдэх ї ( . ) .сгийг хаалтанд бичив 6.№ Кирилл їсэгтэй бусад хэлэнд Э ба Е їсгїї -дийг латин Е ээр бичиж зарим їед Е ї Ye .сгийг латинаар гэж бичдэг Е монгол їсгийн дотроос тохиолдох , 35давтамжаараа харьцангуй бага ї 26-сгээс д ордог тул хос ї Yeсгээр гэж галиглаж .болох юм 8.№ Ж їсгийг кирилл їсэгтэй бї Zh .х улсууд гэж галигладаг Бид їїнтэй адил 1)байлгах нь дээр бичсэн шаардлагын дагуу авч їзвэл зє 2), 3), 4)-в боловч ийг J - .харгалзаж ээр галиглахаар шийдсэн юм Мє Jн їсэг бол компьютерийн .стандарт гар дээр хамгийн сайн байрлалтай байдаг 11№ . Й їсэг їргэлж эгшиг їсгийн дараа орох тул тїїний їгэнд орох байрлал . -тодорхой байдаг Й ээр эхэлсэн монгол їг байдаггї .й Иймээс И ба Й їсгийг I . Ai, oi, ui, ei, ii iхоёуланг нь латинаар гэж бичихэд болно гэж байвал ар талын ї .сэг Й гэдэг нь илэрхий байх юм Монгол уйгаржин бичигт ижил бичлэгтэй єєр дуудлагатай їсгїїд хэрэглэж ирсэн уламжлалтай билээ 17№ , Є ї O-сгийг латин ээр бичиж їгийн эхний їед орсон Є ї `Oсгийг латинаар гэж . ` -бичнэ О ийн ємнє (`)байгаа тэмдэг бол єргєлтийн тэмдэг бєгєєд компьютерийн гарын зїї .н талын дээд хэсэгт байрлалтай байдаг Германы Ц ї Oe Eсгийг гэж бичдгийг авч болох боловч латин ї 4сэг манай їсгэнд орох болчих . `гээд байгаа юм Гаднаас нь харвал Ц ба О бас тєсєєтє , ` -й гэхдээ О ийн ємнє ( `) .байгаа тэмдэг бол компьютерийн гар дээр шууд ил байгаа билээ ,Жишээ нь євє -`ovog,г хєрєє-kh`oroo єргєдє -`orgodol . .л г м Эгшиг зохицох дїрмээр їгийн бусад хэсэгт бичсэн латин О їсэг Є .гэж аяндаа дуудагдана Иймээс їгийн бїх хэсэгт Є ї `Oсгийг латинаар бичихдээ заавал гэж ї (`)ргэлж єргєлтийн тэмдэгтэй 16
  • 17.
    Латинаас кириллрүү хөрвүүлэгчхиймэл оюуны ñèñòåì бичих албагї . `O .й гэж бичихэд компьютерийн гар дээр хоёр товчлуур дарна Є монгол їсгийн дотроос тохиолдох давтамжаараа харьцангуй єндє , 35р ї 4-сгээс д ордог тул компьютерийн гар дээр їргэлж хоёр товчлуур дарах нь тохиромжгїй .байх болно Дээрх ї -ovog, -horoo, -orgodolгс нь овог хороо оргодол гэж бичсэнээс .ялгаатай байна 23№ ї U-сгийг латин ээр бичиж їгийн эхний їед орсон ї `U . `U-сгийг латинаар гэж бичнэ ийн ємнє ( `)байгаа тэмдэг бол єргєлтийн тэмдэг бєгєєд компьютерийн гарын зїї .н талын дээд хэсэгт байрлалтай байдаг Германы Ь ї Ue Eсгийг гэж бичдгийг авч болох боловч латин ї 4сэг манай їсгэнд . `Uорох болох гээд байгаа юм Гаднаас нь харвал Ь ба бас тєсєєтє , `Uй гэхдээ -ийн ємнє ( `) .байгаа тэмдэг бол компьютерийн гар дээр шууд ил байгаа билээ ,Жишээ нь ус ї -`us,с ї -`uil,йл їзїї -`uzuulen,лэн їзїї -`uzuur,р їхїї - `ukhuulekh . .лэх г м монгол їсгийн дотроос тохиолдох давтамжаараа харьцангуй єндє , 35р їсгээс 7-эхний д ордог тул дээрх Є їсэгтэй адил анхаарах зї .йл байдаг 25№ . Х їсгийг кирилл ї Kh .сэгтэй ихэнх улсууд гэж галигладаг Х їсгийг латин нэг ї 1), 2), 4) , Khсгээр Н гэж галиглаж болох боловч шаардлагын дагуу Н гэж галиглах .болно Хатуу дуудлагатай Х ї ,сгийг латин Н зєєлє ( )н тагнайшсан дуудлагатай Х ї Kh .сгийг гэж галиглана Энэ нь ерєнхийдєє эр ї ,гэнд Н эм ї Khгэнд байна гэсэн ї . , Orhon, Kherlen, Handaa, Sukhee . .г Жишээ нь г м Гэхдээ эр їгэнд ч тагнайшин зєєлєн . , arkhi, tamkhi, gorkhi, salkhi . .дуулдах нь бас байна Жишээ нь г м 26№ . Ц їсгийг кирилл їсэгтэй бї Ts .х улсууд гэж галигладаг 27№ . Ч їсгийг кирилл їсэгтэй бї Ch . 2х улсууд гэж галигладаг Харин хятад хэлэнд янзын хоорондоо тєсєєтє Ch, Qй ийм авиаг латин ї . Qсгээр тэмдэглэдэг нь 17
  • 18.
    Латинаас кириллрүү хөрвүүлэгчхиймэл оюуны ñèñòåì . , Cha- ( ), Qing Hua - (хаалттай Ч маягаар дуулддаг Жишээ нь Ча Цай Чин Хуа Их )Сургуулийн нэр 28№ . Ш їсгийг кирилл їсэгтэй бї Sh . 2х улсууд гэж галигладаг Харин хятад хэлэнд янзын хоорондоо тєсєєтє Sh, Xй ийм авиаг латин ї . Xсгээр тэмдэглэдэг нь . , Shanhai- , Xinjiang-хаалттай Ш маягаар дуулддаг Жишээ нь Шанхай Шинжаан 29№ . Щ їсгийг кирилл ї Shch Sch .сэгтэй улсууд эсвэл гэж галигладаг Щ монгол ї ,сгийн тохиолдох давтамжаар хамгийн бага монгол їгэнд ордоггї .й 30№ . Ъ тэмдэгийг кирилл ї ( “ )сэгтэй зарим улсууд ишлэлийн давхар тэмдэг ( ‘ ) .эсвэл ишлэлийн дан тэмдэг бичиж галигладаг Монгол хэлэнд Ъ тэмдэгийг хїсэх хэлбэрт гийгїїлэгчээр тєгссєн эр ї – , -гийг я ё дагавартай бичих гэж цєєн . , -yav’ya, -or’yo, -av’ya, -och’yoтохиолдолд хэрэглэдэг Жишээ нь явъя оръё авъя очъё Нэг ї ,гэнд Ъ Ь тэмдэг хамт ордоггї ,й монгол хэлзїйн їїднээс їгэнд энэ хоёр ,тэмдэгийн аль нь байх нь тодорхой байдаг тул Ъ Ь тэмдэгийг хоёуланг нь ( ‘ ) .ишлэлийн дан тэмдэг бичиж галиглаж болно 31№ . Ы їсгийг кирилл їсэгтэй улсууд зонхилон .гэж латинаар галигладаг 32№ . Ь тэмдэгийг кирилл ї ( ‘ )сэгтэй улсууд ишлэлийн дан тэмдэг бичиж .галигладаг Монгол хэлэнд Ь тэмдэгийг хїсэх хэлбэрт гийгїїлэгчээр тєгссєн эм ї –гийг е дагавартай бичих болон гийгїїлэгчийг зєєлєрїїлэх тохиолдолд .[7]хэрэглэдэг , -ir’ye, -er’ye,Жишээ нь ирье эрье є -`og’ye, -min’, -mor’гье минь морь Монгол їсгийн тохиолдох давтамжийг буурах дарааллаар нь :байрлуулбал 18
  • 19.
    Латинаас кириллрүү хөрвүүлэгчхиймэл оюуны ñèñòåì , , ,А Н О Є, , ,Л У , , , , , , , , , , , ,Э Г И Р Й Х Д Т С Б М , , , , , , , , , , , , , , , ,В Ы Ж З Ч Ш Ц Е Ё Я Ъ Ь К Ю П Ф Щ № Кирилл үсэг Латин үсэг № Кирилл үсэг Латин үсэг 1 A A 18 п P 2 Б B 19 р p, r 3 В v, w 20 с s, c 4 Г G 21 т T 5 Д D 22 у U 6 Е e, ye 23 ү u, v 7 Ё Yo 24 ф F 8 Ж J 25 х kh, h, x 9 З Z 26 ц ts, c 10 И I 27 ч Ch 11 Й I 28 ш Sh 12 К K 29 ъ 13 Л L 30 ы ii, y 14 М M 31 ь I 15 Н N 32 э E 16 О O 33 ю Yu 19
  • 20.
    Латинаас кириллрүү хөрвүүлэгчхиймэл оюуны ñèñòåì 17 Ө o, u 34 я Ya 2Хүснэгт 20
  • 21.
    Латинаас кириллрүү хөрвүүлэгчхиймэл оюуны ñèñòåì № Кирилл үсэг Латин үсэг № Кирилл үсэг Латин үсэг 1 A , 2А Я 14 N Н 2 B Б 15 O , , 2О Ө Ё 3 C , ,С Ц 1Ч 16 P П 4 D Д 17 Q 5 E , , 2Э Е Е 18 R Р 6 F Ф 19 S , 1, 2С Ш Ц 7 G Г 20 T , 1Т Ц 8 H , 2, 2, 2Х Х Ш Ч 21 U , , , 2У Ү Ө Ю 9 I , ,И Й Ь 22 V ,В Ү 10 J Ж 23 W В 11 K К 24 X Х 12 L Л 25 Y , 1, 1, 1, 1У Е Ё Ю Я 13 M М 26 Z З 3Хүснэгт X 2үмүүсийн хэрэглээндээ түгээмэл хэрэглэдэг галигуудыг судлан хүснэгт ба 3- .хүснэгт т үзүүллээ 21
  • 22.
    Латинаас кириллрүү хөрвүүлэгчхиймэл оюуны ñèñòåì “ ”, ” ” -Монголын Нууц Товчоо Гэсэрийн тууж ыг ашиглан монгол хэлний хэл зүйг шинжлэн кирилл үсгүүдийн давтамж болон магадлалуудыг доорх .хүснэгтэнд үзүүллээ Code CountOfcode Code CountOfcode 1 24607 0,094684 1 42600 0,102169 А 0,007485 2 5628 0,021656 2 8716 0,020904 Б -0,000752 3 4877 0,018766 3 12249 0,029377 В 0,010611 4 14910 0,057372 4 24392 0,0585 Г 0,001129 5 9590 0,036901 5 13343 0,032001 Д -0,004900 6 400 0,001539 6 815 0,001955 Е 0,000416 7 629 0,00242 7 1044 0,002504 Ё 0,000084 8 4964 0,019101 8 6458 0,015488 Ж -0,003612 9 2186 0,008411 9 3802 0,009118 З 0,000707 10 10800 0,041557 10 15986 0,03834 И -0,003217 11 7853 0,030217 11 11134 0,026703 Й -0,003514 12 55 0,000212 12 23 5,52E-05 К -0,000156 13 10594 0,040764 13 14288 0,034267 Л -0,006497 14 4478 0,017231 14 8138 0,019518 М 0,002287 15 17652 0,067922 15 28357 0,06801 Н 0,000087 16 10442 0,040179 16 16078 0,038561 О -0,001619 17 5934 0,022833 17 7512 0,018016 Ө -0,004817 18 18 6,93E-05 18 2 4,8E-06 П -0,000064 19 12352 0,047529 19 20488 0,049137 Р 0,001608 20 6189 0,023814 20 9841 0,023602 С -0,000212 21 7901 0,030402 21 10380 0,024895 Т -0,005507 22 8932 0,034369 22 14884 0,035697 У 0,001328 23 9043 0,034796 23 10761 0,025809 Ү -0,008988 24 29 0,000112 24 0 0 Ф -0,000112 25 11217 0,043161 25 14950 0,035855 Х -0,007306 26 1476 0,005679 26 2686 0,006442 Ц 0,000763 27 3574 0,013752 27 4971 0,011922 Ч -0,001830 28 1333 0,005129 28 2228 0,005344 Ш 0,000214 29 0 0 29 0 0 Щ 0,000000 30 175 0,000673 30 249 0,000597 Ъ -0,000076 31 2220 0,008542 31 3009 0,007217 Ы -0,001326 32 1326 0,005102 32 3894 0,009339 Ь 0,004237 33 17400 0,066953 33 30407 0,072926 Э 0,005974 34 195 0,00075 34 561 0,001345 Ю 0,000595 35 1415 0,005445 35 2071 0,004967 Я -0,000478 36 39491 0,151956 36 70638 0,169414 0,017458 22
  • 23.
    Латинаас кириллрүү хөрвүүлэгчхиймэл оюуны ñèñòåì №№ ҮсэгҮсэг ГэсэрГэсэр МНТМНТ 11 “ ”“ ” 0,1690,169 0,1520,152 22 “ ”А“ ”А 0,1020,102 0,0950,095 33 “ ”Э“ ”Э 0,0730,073 0,0670,067 44 “ ”Н“ ”Н 0,0680,068 0,0680,068 55 “ ”Г“ ”Г 0,0590,059 0,0570,057 66 “ ”Р“ ”Р 0,0490,049 0,0480,048 77 “ ”О“ ”О 0,0390,039 0,0400,040 88 “ ”И“ ”И 0,0380,038 0,0420,042 23
  • 24.
    Латинаас кириллрүү хөрвүүлэгчхиймэл оюуны ñèñòåì Төлөв хоорондын шилжилтийн магадлалыг биграм ашиглан тооцоолсон ба 1296- , -энэ нь хамгийн ихдээ н хослолын боломжууд байх боловч тэдгээрээс ж ч “ ” , “ ”гийн араас ы бичигддэггүй ьъ хамт бичигдэхгүй зэрэг хослолууд хасагдаж . 700тооцогдсон гаран хослол байгаа ба тэдгээрийн зарим хослолын давтамж .болон магадлалыг доорх хүснэгтэд үзүүлсэн болно CountOfcode Expr1 Expr2 8107 15 36 0,031195 Н 0 6317 36 25 0,024307 0 Х 5115 36 2 0,019682 0 Б 3817 1 15 0,014687 А Н 3707 4 36 0,014264 Г 0 3477 8 36 0,013379 Ж 0 3373 1 19 0,012979 А Р 24
  • 25.
    Латинаас кириллрүү хөрвүүлэгчхиймэл оюуны ñèñòåì 3363 10 11 0,01294 И Й 3309 5 36 0,012733 Д 0 3205 36 21 0,012332 0 Т 3120 25 1 0,012005 Х А 3009 4 33 0,011578 Г Э 2875 1 1 0,011063 А А 2823 19 36 0,010862 Р 0 2811 11 36 0,010816 Й 0 2627 1 11 0,010108 А Й 2494 23 23 0,009597 Ү Ү 2445 33 33 0,009408 Э Э 2425 36 4 0,009331 0 Г 2338 33 15 0,008996 Э Н 2284 33 19 0,008789 Э Р 2209 36 15 0,0085 0 Н 2160 4 1 0,008311 Г А 2142 36 1 0,008242 0 А 40000Нийт үгийн сан бүхий материалыг ашиглан латин үсгийн давтамж болон .магадлалыг доорх хүснэгт болон диаграмаар харуулав [6] Letter Count Letter Frequency E 21912 E 12.02 T 16587 T 9.10 A 14810 A 8.12 O 14003 O 7.68 I 13318 I 7.31 N 12666 N 6.95 S 11450 S 6.28 R 10977 R 6.02 25
  • 26.
    Латинаас кириллрүү хөрвүүлэгчхиймэл оюуны ñèñòåì H 10795 H 5.92 D 7874 D 4.32 L 7253 L 3.98 U 5246 U 2.88 C 4943 C 2.71 M 4761 M 2.61 F 4200 F 2.30 Y 3853 Y 2.11 W 3819 W 2.09 G 3693 G 2.03 P 3316 P 1.82 B 2715 B 1.49 V 2019 V 1.11 K 1257 K 0.69 X 315 X 0.17 Q 205 Q 0.11 J 188 J 0.10 Z 128 Z 0.07 26
  • 27.
    Латинаас кириллрүү хөрвүүлэгчхиймэл оюуны ñèñòåì 27
  • 28.
    Латинаас кириллрүү хөрвүүлэгчхиймэл оюуны ñèñòåì V II.V II. 40000Нийт үгийн сан бүхий материалыг ашиглан латин үсгийн хослолын .давтамж болон магадлалыг доорх хүснэгт болон диаграмаар харуулав [6] Digraph Count Digraph Frequency th 5532 th 1.52 he 4657 he 1.28 in 3429 in 0.94 er 3420 er 0.94 an 3005 an 0.82 re 2465 re 0.68 nd 2281 nd 0.63 at 2155 at 0.59 on 2086 on 0.57 nt 2058 nt 0.56 ha 2040 ha 0.56 es 2033 es 0.56 st 2009 st 0.55 en 2005 en 0.55 ed 1942 ed 0.53 to 1904 to 0.52 it 1822 it 0.50 ou 1820 ou 0.50 ea 1720 ea 0.47 hi 1690 hi 0.46 is 1660 is 0.46 or 1556 or 0.43 ti 1231 ti 0.34 as 1211 as 0.33 te 985 te 0.27 et 704 et 0.19 ng 668 ng 0.18 of 569 of 0.16 al 341 al 0.09 de 332 de 0.09 28
  • 29.
    Латинаас кириллрүү хөрвүүлэгчхиймэл оюуны ñèñòåì se 300 se 0.08 le 298 le 0.08 sa 215 sa 0.06 si 186 si 0.05 ar 157 ar 0.04 ve 148 ve 0.04 ra 137 ra 0.04 ld 64 ld 0.02 ur 60 ur 0.02 29
  • 30.
    Латинаас кириллрүү хөрвүүлэгчхиймэл оюуны ñèñòåì 30,000 168,000үг буюу тэмдэгт бүхий латинаар галигласан текстийг ашиглан ,тэмдэгтүүдийн давтамж магадлал болон тэдгээрийн кирилл тэмдэгтийн хэлбэрлүү хичнээн янзаар шилжиж байгаа дамтамжийг доорх хүснэгтэд .үзүүлэв Word,Quantity,% a,22275,12,93 -21333а 2-942я i,17397,10,09 -8832и -378ь -8187й u,15039,8,73 -5968у -3928ү -4378ө 2-765ю e,14628,8,49 -14412э -117е 2-99е n,11985,6,95 h,10392,6,03 -6506х 2-286х 2-2109ч 2-1491ш g,10263,5,96 o,9096,5,28 -5013о -3939ө 2-144ё l,8922,5,18 d,8625,5,00 r,7590,4,40 s,7134,4,14 -4746с 2-897ц 1-1491ш b,6117,3,55 t,5709,3,31 -4612т 1-897ц m,4347,2,52 j,2892,1,68 c,2385,1,38 1-2109ч -175с -201ц y,2247,1,30 -297у 1-942я 1-99е 1-765ю 1-144ё v,1857,1,08 -1244в -613ү z,1764,1,02 x,720,0,42 k,357,0,21 1-286х -71к p,252,0,15 w,198,0,11 f,138,0,08 30
  • 31.
    Латинаас кириллрүү хөрвүүлэгчхиймэл оюуны ñèñòåì 6. Дүгнэлт , .Миний энэхүү ажил нь судалгааг түлхүү хийж түүндээ тулгуурлаж хийгдсэн Судалгааны явцад програмаа хөгжүүлэх хэд хэдэн аргуудыг судалсан ба .тэдгээр аргууд нь өөр өөрийн гэсэн давуу тал ба сул талуудтай байсан Ийм учраас эдгээр аргуудын аль тохирохыг өөрийн програмдаа ашиглан хөгжүүлэх .нь чухал байлаа Т ширхэг тэмдэгтээс тогтсон текстийн хувьд Биграм .ашигласнаар үсгүүдийн хослох боломж магадлалуудыг тооцсон болно Мөн .үүнтэй хослуулан өгөгдлийн санг ашигласан Одоо үзүүлж байгаа үр дүн бололцооны хэмжээнд байгаа ч цааш цаашдын програмын сургалтын дүнд .илүү сайн үр дүн үзүүлнэ гэсэн итгэл дүүрэн байна 31
  • 32.
    Латинаас кириллрүү хөрвүүлэгчхиймэл оюуны ñèñòåì :Ашигласан ном болон бусад материаллууд [1] (MIT) Foundations of Statistical Natural Language Processing [2] (Монгол хэлний стохастик загвар , , .Алтангэрэлийн Хүдэр Цэндийн Ганбат Ж -Хаш Эрдэнэ) [3] Монгол өгүүлбэр дэх үгийн аймгийг тодорхойлоход Марковын далд загварыг ашиглах Алтангэрэлийн Хүдэр [4] Prentice Hall - 2000 - Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition - ISBN 0 [5] Michael Collins. A new statistical parser based on bigram lexical dependencies. In Proceedings of the 34th Annual Meeting of the Association of Computational Linguistics, Santa Cruz, CA. 1996. pp.184-191. [6] Cornell Math Explorer's Project – Substitution Ciphers [7] www.mecs.gov.mn [8] www.kanungo.com [9] http://krilleer.blogspot.com [10] www.mn.wikipedia.org [1] [11] “Гэсэрийн тууж,” , 1975.Улаанбаатар [2] [12] “ ,” , 1972.Монголын нууц товчоо Улаанбаатар 32
  • 33.
    Латинаас кириллрүү хөрвүүлэгчхиймэл оюуны ñèñòåì 33