SlideShare a Scribd company logo
1 of 40
1-се тема.
ТӘБИҒИ ТЕЛ ТАМҒАЛАР
СИСТЕМАҺЫ
ТЕМАНЫҢ ТӨП ӨЛӨШТӘРЕ
1.1. Белемде тә дим итеү һәм ойоштороу моделдары һәмҡ
методтары - 1-се-2-се лекциялар.
1.2. Тәбиғи тел системаларының нисбәт ылы һырламаһы —ҡ ҡ
3-сө-4-се, 8-се лекциялар.
1.3. Белем э тәү ең логик-статистик ысулдары.ҫ ҙ
5-се-7-се лекциялар.
Ү -АЛЛЫ ӨЙРӘНЕЛӘСӘК ТЕМАЛАР ЫҢ ФАКУЛЬТАТИВҘ Ҙ
БҮЛЕКТӘРЕ
1.4. Һү лек-тезаурусты автоматлаштырып тө өү технологияһы.ҙ ҙ
1.5. Тәбиғи тел байлығын тикшереү ми алы.ҫ
3-сө-4-се лекциялар.
ТӘБИҒИ ТЕЛ СИСТЕМАЛАРЫНЫҢ
НИСБӘТ ЫЛЫ ҺЫРЛАМАҺЫҠ Ҡ
 Тәбиғи тел тасуирламаһына статистик
анализ .
 «Дәрәжә-йышлы » моделы.ҡ
 Ципф ануны.ҡ
 Мандельброт формулаһы.
 «Дәрәжә-йышлы » моделыныңҡ
статистик бүленеше.
 Тәбиғи тел тасуирламаһының ү әгенҙ
тө өү.ҙ
Ә әбиәтҙ
Материал лекции представлен в
книге:
Ю.Н.Филиппович, А.В.Прохоров.
Семантика
информационных
технологий:
опыты словарно-тезаурусного
описания. /
Серия «Компьютерная лингвистика».
Вступ. Статья А.И.Новикова.
М.: МГУП, 2002.
— книга в комплекте с CD ROM
— С. 34–45.
ТӘБИҒИ ТЕЛ ТАСУИРЛАМАҺЫНА
СТАТИСТИК АНАЛИЗ
Лингвистик статистика, лингвостатистика
— телдең һәм телмәр ең нисбәт ылы һырламаһын статистикҙ ҡ ҡ
ысулдар менән тикшеренеүсе тел ғилеме бүлеге.

«Русский язык» энциклопедияһы
(1) Киң мәғәнәлә —тел ғилеменең статистик ысулдарын улланыуҡ
өлкәһе (йәғни ,телде һәм телмәр е өйрәнгәндә и әпләү һәмҙ ҫ
үлсәү ең математик статистикаһына таяныу);ҙ
(2) Тар мәғәнәлә — лингвистик материалдар менән бәйле айһы берҡ
(2) математик проблемалар ы өйрәнеү , башлыса текста телҙ
берәмектәренең статистик бүленеш типтарын барлау.
ЛИНГВИСТИК СТАТИСТИКА ТӨШӨНСӘҺЕ
ТЕКСТ

лингвистик берәмектәр ең э мә-э леклелегеҙ ҙ ҙ :
Хәреф, морфема, һү алыптары, ү бәйләнештәр, һөйләмдәр һ.б.ҙ ҡ ҙ ҙ
Лингвистик алыптар ың нисбәт ылы һырамаһы:ҡ ҙ ҡ ҡ
улланыш , йәнәшәлек, текста урынлашыу ануны, улар ың физикҠ ҡ ҙ
дәүмәле.

ЛИНГВОСТАТИСТИКА КАТЕГОРИЯҺЫНЫҢ ТӨП ТӨШӨНСӘЛӘРЕ :
Дөйөм күмәклек, һайланмалы , йышлы һәм ихтималлы , урынлашыуҡ ҡ ҡ
ихтималлығы һәм статистик баһалар.

ДӨЙӨМ КҮМӘКЛЕК ТӨР ӘРЕ:Ҙ
 Текстар (текст корпустары).
 Лингвистик кимәлдәге тел берәмектәре .
ҺҮ ЙЫШЛЫҒЫ ТЕОРИЯҺЫҘ
Һү йышлығы теорияһыныңҙ
сығана тарыҡ
А. Донъя тураһында методологик
(концептуаль) фекерләү әрҙ
Б. Эмпирик кү әтеү әрҙ ҙ
В. Үлсәмдәр
Г. Практик яндамалар
ҺҮ ЙЫШЛЫҒЫ ТЕОРИЯҺЫНЫҢҘ
МЕТОДОЛОГИК СЫҒАНА ТАРЫҠ
ЫСЫНБАРЛЫ (ПОРМ)Ҡ

< СУБЪЕКТТЫҢ ЫСЫНБАРЛЫ (ПОРМ) ТУРАҺЫНДА БЕЛЕМЕҠ
>  < ТӘБИҒИ ТЕЛ ТАСУИРЛАМАҺЫ>

МЕТАФИЗИК БЕЛЕМ

ТЕЛ БЕРӘМЕКТӘРЕН (СИНТАГМАЛАР Ы) ОЙОШТОРОУҘ
ТУРАҺЫНДА БЕЛЕМ :
…,
морфемалар,
Һү алыптары,ҙ ҡ
һү бәйләнештәр,ҙ
Һөйләмдәр ,
…,
текстар,
ҺҮ ЙЫШЛЫҒЫ ТЕОРИЯҺЫНДАҘ
ЭМПИРИК КҮ ӘТЕҮ ӘРҘ Ҙ
 Тел берәмектәрен улланыуға билдәле берҡ
нисбәт (номенклатура) һәм комбинатор
(аралашыуға, урын алышыуға) сикләү әр.ҙ
 айһы бер типтағы тел берәмектәренең уғатаҠ
арты лығы.ҡ
 Синтагмалар ың атмарлы иерархикҙ ҡ
структураһы.
 Тел берәмектәренең ва ыт э мә-э леклелеге .ҡ ҙ ҙ
ҺҮ ЙЫШЛЫҒЫ ТЕОРИЯҺЫНДА ҮЛСӘМДӘРҘ
 А.С.Пушкиндың ә әр әрен тикшереү :ҫ ҙ
улланылған һү әр – 545 000; төрлө һү әр– 21 000.Ҡ ҙҙ ҙҙ
 Мәктәп у ыусыларының телмәр эшмәкәрлеген тикшереү:ҡ
Текстар корпусы (хаттар, иншалар, күнегеү әр һ.б.) – 100 000;ҙ
улланылған һү әр – 6 000 000; төрлө һү алыптары– 25 000;Ҡ ҙҙ ҙ ҡ
төрлө һү әр – 2 500.ҙҙ
Хә ерге инглиз текстарын тикшереү:ҙ
улланылған һү әр – 250 000; китап текстарындағы төрлө һүҠ ҙҙ ҙ
алыптары – 24 000, телмәр ә – 10 000.ҡ ҙ
 Француз телмәрен тикшереү:
50% улланылған һү әр – 37 һү , 75% – 120 һү , 90% – 887 һү ;ҡ ҙҙ ҙ ҙ ҙ
95% телефондан һөйләшкәндә улланылған һү әр – 737 һү .ҡ ҙҙ ҙ
ҺҮ ЙЫШЛЫҒЫ ТЕОРИЯҺЫНДА ПРАКТИКҘ
ЯНДАМАЛАР
 Криптография
 Стенография
 Полиграфия
 улъя малар ы редакторлап ба маға ә ерләүҠ ҙ ҙ ҫ ҙ
 Текстар ы таныу,айырыу (ба ма һәм улъя ма)ҙ ҫ ҡ ҙ
 Аудиовизуаль телмәр е таныу,айырыу.ҙ
 Биремдәр ең автоматлаштырылған таянмаларын тө өү хҙ ҙ
 Автоматлаштырылған тәржемә
 Биремдәр ең күләмен ы ыуҙ ҡ ҫ
 Мәғлүмәт э ләүҙ
 Автоматик рәүештә тамғалау (индексирование) һәм
ү гәртеү (реферирование).ҙ
«ДӘРӘЖӘ-ЙЫШЛЫ » МОДЕЛЫҠ
Жан.-Батист Эступ (Jеаn Bарtistе Estоuр).
Джордж Кингсли Зипф (Gеоrgе Kingslеу Ziрf),
«ДӘРӘЖӘ-ЙЫШЛЫ » МОДЕЛЫНЫҢҠ
АҢЛАТМАЛАРЫ
<ТЕКСТ>

<ҺҮ ӨЛӨШТӘРЕҘ
ЙЫЙЛМАҺЫ ЙЫШЛЫҒЫ>

ДӘРӘ
ЖӘ
r
ҺҮҘ
W(r)
ЙЫШЛЫҠ
f(r)
1 W(1) f(1)
2 W(2) f(2)
…
r W(r) f(r)
Пример:
ДӘРӘЖӘ
r
ҺҮҘ
W(r)
ЙЫШЛЫҠ
f(r)
1 the 245
2 of 136
3 terms 98
4 to 81
5 a 65
6 and 61
7 in 55
8 we 52
... … …
ЦИПФТЫҢ ҺҮ ЙЫШЛЫҒЫ АНУНЫҘ Ҡ
i(k, r)/k = 0.1∗r-1
= 1/(10 ∗ r), (1.0)
БЫЛ: i(k,r)/k –текстағы һү әр ең сағыштырма йышлығыҙҙ ҙ
k – текстағы һү әр ең дөйөм һаны,ҙҙ ҙ
r – һү ең дәрәжәһе, һү йыйылмаһында йышлыҙҙ ҙ ҡ
функцияһының кәмеүенә табан тәртипкә һалынған рәттәге
урыны .
Ә ӘБИӘТҘ
Дж. Солтон.
Динамические библиотечные информационные
системы.
М.: Наука, 1979.
Б.Мандельброт.
Теория информации и психолингвистика: теория
частот слов // Математические методы в
социальных науках /
Сб. статей под ред. П.Лазарсфельда и Н.Генри.
М.: Прогресс, 1973. – С. 316–337.
ҺҮ ЙЫШЛЫҒЫ АНУНЫН «СЫҒАРЫУ»Ҙ Ҡ
(1)
Текст — символдар ың ( хәреф һәм буш урындар ың) аңһыҙ ҙ ҙ
э мә-э леклелеге . Буш урындар һү әр араһындағы сиктәр еҙ ҙ ҙҙ ҙ
билдәләй.
Билдәләйбе :ҙ
W(r) —һү ;ҙ r — һү ең дәрәжәһе (тот ан урыны);ҙҙ ҡ k — һү еңҙҙ
нисбәте; i (r, k)/k —һү ең сағыштырма йышлығы;ҙҙ р (r) — һү еңҙҙ
ихтималлығы ; р0 — буш урындар ың ихтималлығы ихтималлығы;ҙ
М —хәреф типтарының нисбәте, М>1, (1 — ро)/М —текстағы
хәрефтең ихтималлығы; m — һү әге хәрефтең нисбәте.ҙҙ
Ошолай а я ылыу мөмкинҙ ҙ
p0exp{-βm}, ай аҡ ҙ β=log (M/(1-p0)) —ро и М –ға буйһонған.
ыңғай дәүмәл.
m хәрефтән торған һү еңҙҙ ихтималлығы ;
ҺҮ ЙЫШЛЫҒЫ АНУНЫН «СЫҒАРЫУ»Ҙ Ҡ
(2)
Һү әҙҙ
хәреф
Һүҙ
тибы
Ми ал:ҫ
Буш урын: _; хәрефтәр: a,b,c;
M=3.
Һүҙ
тибы
Һү иҙ хтимал
лығы
0 1 _ 1 0.2500
1 M a,b,c 3 0.0625
2 M2
aa, ab, ac, ba, bb, bc, ca, cb, cc 9 0.0153
3 M3 aaa, aab, aac, aba, abb, abc,… 27 0.0038
Дәрәжә 1 2 3 4 5 6 … 12 …
Йышлыҡ ~ 62 ~ 62 ~ 62 ~ 15 ~ 15 ~ 15 … ~ 15 …
Их-лыҡ 0.0625 0.0625 0.0625 0.0153 0.0153 0.0153 … 0.0153 …
m хәреф нисбәте m менән һү дәрәжәһеҙ r араһындағы
бәйләнеш.
Ми алҫ : текстың күләме 1000 символ; буш урындар ~ 250, {a,b,c
— ~ 62; {aa,…cc} — ~ 15; {aaa,…ccc} — ~ 3.
ҺҮ ЙЫШЛЫҒЫ АНУНЫН «СЫҒАРЫУ»Ҙ Ҡ
(3)
ҺҮ ЙЫШЛЫҒЫ АНУНЫН «СЫҒАРЫУ»Ҙ Ҡ
(4)
Дәрәжә (ранг) менән ихтималлы араһында бәйләнешҡ
ү гәрмәүсе һикәлтәле функция ,ҙ
r ү гәргәндәҙ (Мm
— 1)/(М — 1) араһында,
т. э мә-э лекле аңлатмаға тура киләҙ ҙ
Әгәр m ур булһаҙ :
r  (Мm
— 1)/(М — 1), r (Мm
— 1)/(М — 1);
r ≅ (Мm— 1)/(М — 1),
йәки
ҺҮ ЙЫШЛЫҒЫ АНУНЫН «СЫҒАРЫУ»Ҙ Ҡ
(5)
m хәрефтән торған һү еңҙҙ ихтималлығы
ай а:ҡ ҙ
B = β/log M ; β=log (M/(1-p0)); Р = p0 (М—
1):
Һү ең ихтимллығы менән уның дәрәжәһеҙҙ
араһындағы бәйләнеш Ципф анунына тураҡ
килә.
Әгәр B аңлатмаһы = -1 и P = 0.1
МАНДЕЛЬБРОТ ФОРМУЛАҺЫ
Үтә йыш улланылған «Поведение» һү е,шулай у «һүҡ ҙ ҡ ҙ
составы байлығын » ылы һылаған һирәк һү әр , Цип әрфҡ ҡ ҙҙ ҙ
анунына тап килмәй.ҡ
Б.Мандельброт формулаһы (Bеnоit Mаndеlbrоt)
i(k,r) = рk (r+v)-b
, ай а:ҡ ҙ b, k, v – const (1.1)
0
0,02
0,04
0,06
0,08
0,1
0,12
0 5 10 15 20 25 30 35
Кривая
Мандельброта
Кривая
Ципфа
МАНДЕЛЬБРОТ ФОРМУЛАҺЫНЫҢ
ПАРАМЕТР АРЫҘ
МАНДЕЛЬБРОТ ФОРМУЛАҺЫНЫҢ
ПАРАМЕТР АРЫН БАҺАЛАУҘ (1)
Мандельброт формулаһын я ынса баһалау өсөнҡ
түбәндәге аңлатмалар ы алабы һәм ү гәрештәрҙ ҙ ҙ
яһайбы .ҙ
ҡай аҙ
: – һү ең сағыштырма осрау йышлығы .ҙҙ
Шулай итеп:
ай а:ҡ ҙ (1.2)
;)(),( b
vrkprki −
+=
,)ln(ln
),(
ln ln
vebp
k
rki r
+−=
k
rki ),(
,)ln()( vebPxf x
+−=
rxpP
k
rki
xf ln;ln;
),(
)( ===
МАНДЕЛЬБРОТ ФОРМУЛАҺЫНЫҢ
ПАРАМЕТР АРЫН БАҺАЛАУҘ (2)
Тейлор ың дәрәжәле күпбыуынлығы ми алында формула алабы (1.2)ҙ ҫ ҙ
)(
!
)0(
...
!2
)0(
!1
)0(
)0()( 1
)(2
++++
′′
+
′
+= n
nn
n To
n
xfxfxf
fxT
....
)(
)(
)(
)(
)ln()(
2
ve
ve
bxf
ve
e
bxf
vebPxf
x
x
x
x
x
+
−=′′
+
−=′
+−=
МАНДЕЛЬБРОТ ФОРМУЛАҺЫНЫҢ
ПАРАМЕТР АРЫН БАҺАЛАУҘ (3)
ӘгәрТейлор күпбыуынының коэффициентын С0,C1,...,Cn , тип
билдәләһәк , килеп сыға:
...
)1(2
1
1
)1ln(
)(...)(
2
1
0
1
2
210
v
v
bC
v
bC
vbPC
ToxCxCxCCxf n
n
n
+
−=
+
−=
+−=
+++++= +
МАНДЕЛЬБРОТ ФОРМУЛАҺЫНЫҢ
ПАРАМЕТР АРЫН БАҺАЛАУҘ (4)
Ошонан параметр ар өсөн коэффициенттар аша я ынсаҙ ҡ
аңлатмалар тө өйбө :ҙ ҙ
)1(0
1
2
1
0
)1(
)1(
2
2
vb
C
e
e
pvbCP
vCb
C
C
v
+
≈⇒+−≈
+−≈
−
≈
МАНДЕЛЬБРОТ ФОРМУЛАҺЫНЫҢ
ПАРАМЕТР АРЫН БАҺАЛАУҘ (5)
Йышлы функцияһының табылған аңлатмалары яр амында иңҡ ҙ
бәләкәй квадраттар ысулы менән дәрәжәле рәт коэффициенты табабыҙ
Бе әҙҙ S(T) = (<w, N(w,T)>).
)
),(
),(
ln(,ln
∑ TwN
TwN
r
∑ ),(
),(
TwN
TwN
S(T) = (< >), где
- Т тексында һү ең сағыштырма йышлығыҙҙ
w
Түбәндәге аңлатмалар индерәбе :ҙ ҙ
∑
==
),(
),(
ln;ln
TwN
TwN
yrx
j
i
iii
МАНДЕЛЬБРОТ ФОРМУЛАҺЫНЫҢ
ПАРАМЕТР АРЫН БАҺАЛАУҘ (6)
n
n xCxCxCCxP ++++= ...)( 2
210
∑ →−−−−= min)...( 2
10
n
ni xCxCCyF
0)...(2
...
0)...(2
0)...(2
10
10
1
10
0
=−−−−−=
∂
∂
=−−−−−=
∂
∂
=−−−−−=
∂
∂
∑
∑
∑
n
inii
n
i
n
n
iniii
n
inii
xCxCCyx
C
F
xCxCCyx
C
F
xCxCCy
C
F
Күпбыуын рәүешендәге аппроксимлаусы функцяны бирәбе :ҙ
Бының өсөн түбәндәге функциялар ы кәметәбе :ҙ ҙ
Был функцияның айырым сығарылышын и әпләп сығарабыҫ ҙ
һәм улар ы 0 тиңәйбе .ҙ ҙ
МАНДЕЛЬБРОТ ФОРМУЛАҺЫНЫҢ
ПАРАМЕТР АРЫН БАҺАЛАУҘ (7)
С0
,..,Cn
: ағылған буй тиге ләмәләр системаһын табабы .ҡ ҙ ҙ







=+++
=+++
=+++
∑ ∑∑∑
∑ ∑∑∑
∑ ∑∑
+
+
i
n
i
nn
in
n
i
n
i
ii
n
inii
i
n
ini
yxxCxCxC
yxxCxCxC
yxCxCNC
*1
10
12
10
10
...
....
...
...
МАНДЕЛЬБРОТ ФОРМУЛАҺЫНЫҢ
ПАРАМЕТР АРЫН БАҺАЛАУҘ (8)
rbp
k
rki
lnln
),(
ln −=
∑ →+−= min)ln( 2
ii bxpyF






=
=
⇒






=−
=−
∑ ∑ ∑
∑ ∑
1
0
2
ln
ln
ln
Cb
Cp
yxxbxp
yxbpN
iiii
ii
Ципф ануны өсөн баһалау параметр арының дөрө өрәкҡ ҙ ҫ
аңлатмаларын табырға мөмкин. Был осра та һү еңҡ ҙҙ
сағыштырма йышлығы логарифмы,уның дәрәжә логарифмы
менән буй бәйләнешкә инә.
Иң бәләкә квадраттар ысулын фай аланып буй тиге ләмәләр әнҙ ҙ ҙ
коэффициенттар аңлатмаһын таба алабыҙ:
k
rki
y i
i
),(
ln= ii rx ln=
;
«ДӘРӘЖӘ-ЙЫШЛЫ » МОДЕЛЫНДАҠ
СТАТИСТИК БҮЛЕНЕШ
b
vrp
k
rki
rf −
+== )(
),(
)(
∫ ∫
∞ ∞
−
=+=
0 0
1)()( drvrpdrrf b
∫
∞
−
+−+−
−
−=⇒
+−
−=
∞
+−
+
=+
0
1
11
)1(
101
)(
)( b
bb
b
vbp
b
v
p
b
vr
pvrp
bb
vrvbrf −+−
+−= )()1()( 1
Һү ең йышлы буйынса бүленешенеңҙҙ ҡ статистик анунынҡ
табабыҙ:
Нормалау шарты:
Интегралды и әпләйбе һәм нормалау аңлатмаһын табабы :ҫ ҙ ҙ
Һү ең йышлы буйынса бүленешенеңҙҙ ҡ статистик анунынҡ
ошолай я ырға мөмкин:ҙ
(1.3)
«ДӘРӘЖӘ-ЙЫШЛЫ » МОДЕЛЫНДАҠ
СТАТИСТИК БҮЛЕНЕШ АНУНЫН ТАБЫУҠ (1)
Математик көтөп алыу ы (ожидание) һәмҙ
дисперсияны (сәсрәү) и әпләп сығарабы .ҫ ҙ
∫ ∫
∞ ∞ +−
−−
−
=
−−
−=+==
0 0
2
1
2
1
)2)(1(
)1()()(
b
v
bb
v
vbdrvrrpdrrrfpE
b
bb
f
∫ ∫
∞ ∞
+−−
−−
=
−−−
−
−=+==
0 0
2
122
)3)(2(
2
)1)(3)(2(
2
)1()()(2
bb
v
bbb
vbvrrpdrrfrpE bb
f
)3()2(
1
)2()3)(2(
2
)( 2
2
2
22
2
2
−−
−
=
−
−
−−
=−=
bb
b
v
b
v
bb
v
EED ff
Икенсе сират башланғыс моментты и әпләп сығарабы .ҫ ҙ
Дисперсияны дисперсии:и әпләп сығарыу өсөн түбәндәгеҫ
формуланы улланабы .ҡ ҙ
.
«ДӘРӘЖӘ-ЙЫШЛЫ » МОДЕЛЫНДАҠ
СТАТИСТИК БҮЛЕНЕШ АНУНЫН ТАБЫУҠ (2)
2
1
−
=
b
vE f
)3()2(
1
2
2
−−
−
=
bb
b
vDf
1
13
2
2
−
−
=
E
D
E
D
b )2( −= bEv
Математик көтөп алыуы (ожидание) һәм дисперсия(сәсрәү) :
;
Моменттар ысулын фай аланып статистик бүленешҙ
параметр арының аңлатмаһын табырға мөмкин (1.3)ҙ . Түбәнге
формуланан табабыү (1.4) :ҙ
;
Бында, E һәм D – математик көтөп алыу һәм дөйөм
күмәклектәге дисперсия
.
(1.4)
ТӘБИҒИ ТЕЛ ТАСУИРЛАМАҺЫ Ү ӘГЕНҘ
ТӨ ӨҮҘ
Тәбиғи телдең ысынбарлы ты (ПОРМ) тасуирлауҡ
спецификацияһы

Лексик состав Баш а табиғи тел тасуирламалары менәнҡ
сағыштырыу

Тәғәйен ПОРМ һайлау
Тәбиғи тел тасуирламаларын өлөштәргә бүлеү .

Өйрәнелеүсе ПОРМ-ға ағылған текстар ың һынын ороуҡ ҙ ҡ

Килешеү статистик критерийын фай аланып һайланған текстар ыңҙ ҙ
ү әген ороу,һәм улар ың нисбәтҙ ҡ ҙ спецификацияһын сағыштырыу.

Килешеү критерий ары ( корреляция коэффициенты):ҙ
Пирсона (E.S.Pеаrsоn), Спирмена (C.Sреаrmаn), Кендалла (M.G.Kеndаll),
дихотомик (ранг шкалаларын ү гәрткәндә), пар ар ың айырымлығыҙ ҙ ҙ
дәүмәлен тикшереү статистикаһы , , Вилкоксондың килешеү критерийы
(F.Wilсохоn) һ.б.
Ә ӘБИӘТҘ
Дж.Гласс, Дж.Стенли.
Статистические методы в педагогике и
психологии.
Используемый материал: с. 142–165.
Л.Закс.
Статистическое оценивание /
Пер. с нем. В.Н.Варыгина. Под ред.
Ю.П.Адлера, В.Г.Горского.
М.: Статистика, 1976. – 600 с.
Используемый материал: с. 286–287.
В.Е. Гмурман.
Теория вероятностей и математическая
статистика.
М.: Высшая школа, 1998.
ТЕКСТАР ЫҢ БЕРТӨРЛӨЛӨГӨН БИЛДӘЛӘҮҘТЕКСТАР ЫҢ БЕРТӨРЛӨЛӨГӨН БИЛДӘЛӘҮҘ (1)(1)
< текстар (һыны)корпусы G> <вербаль айырыу = текст Ti>
ИКЕ ТЕКСТЫҢ БЕРТӨРЛӨДӨГӨН БИЛДӘЛӘҮСЕ АЛГОРИТМ
(текстар – T1, Т2; йышлы буйынса һү йыйылмалары – S(T1), S(T2))ҡ ҙ
1.Тәртипкә киилтерелгән һү әр күплеге тө өү:ҙҙ ҙ
S1 = ( w11, w12, w13,...,w1N ), S2 = ( w21, w22, w23,...,w2M ).
2. S1 и S2 күплек элементтарын номерлау :
S1 = (1,2,3,4,5,6...N), S2 = (1,3,2,5,N,4, N+1,N+2,...).
3. Һү әр ең сағыштырма осрау йышлығын ө тәйбе .ҙҙ ҙ ҫ ҙ
4. S1 и S2 күплеген берләштереү һәм тәртипкә һалыу.
5.Берләштерелгән күплеккүплек элементтарын ннмерациялау.
6. S1 (Wнабл күплек элементтары ндекстарын ушыу.ҡ
ТЕКСТАР ЫҢ БЕРТӨРЛӨЛӨГӨН БИЛДӘЛӘҮҘТЕКСТАР ЫҢ БЕРТӨРЛӨЛӨГӨН БИЛДӘЛӘҮҘ
(2)(2)
N > 25, M > 25
Wнижн. кр. ≤ Wнабл ≤ Wверхн. кр. , где
крнижнкрверхн WNMNW ... )1( −++=





 ++
−
−++
=
12
)1(
2
1)1(
),,(.
MNNM
z
NMN
MNQW кркрнижн
2
21
)(
Q
zФ кр
−
= ∫
−
=
x
z
dzexФ
0
2
2
2
1
)(
π
Q – ышаныстың ярты кимәле = α/2;
zкр
тиге лек буйынса Лаплас функцияһы таблицаһындаҙ
тора
,
ЭТАЛОН ТЕКСТ НИГЕ ЕНДӘ ТӘБИҒИ ТЕЛҘ
ТАСУИРЛАМАҺЫ Ү ӘГЕН ТӨ ӨҮҘ Ҙ
TeT 7
T 1
T 2
T 3
T 6 T 4
T 5
Ýòàëîííûéòåêñò
ТӘБИҒИ ТЕЛДЕҢ ЫСЫНБАРЛЛЫ ТЫ (ПОРМ)Ҡ
ТАСУИРЛАМАҺЫ Ү ӘГЕНЕҢҘ
ЙОНДО РӘҮЕШЛЕ ТОПОЛОГИЯҺЫҘ
Был ысул эталон текст талап итә.
Ү әк тө өү этаптарыҙ ҙ
1.Эталон текст һайлау.
2.Текстар ың бертөрлөлөкҙ
гипотезаһы Te L Ti.
тикшереү
3. Ti тексын G тексы
корпусына индереү.
ТӘБИҒИ ТЕЛ ЫСЫНБАРЛЫ ТЫ (ПОРМ)Ҡ
ТАСУИРЛАМА Ү ӘГЕН ТӨ ӨҮ ЕҢ БУЙҘ Ҙ Ҙ
СХЕМА ҺЫ
T 1
T 2
T 2
T 2
ТӘБИҒИ ТЕЛДЕҢ ЫСЫНБАРЛЛЫ ТЫ (ПОРМ)Ҡ
ТАСУИРЛАМАҺЫ Ү ӘГЕНЕҢҘ
БУЙ ТОПОЛОГИЯҺЫ
Эталон текст булып ағымдағы текст тора
Ү әк тө өү этаптарыҙ ҙ
1. Ti. тексын һайлау
2. Ti. тексын G текстар корусына индереү.
3. (Te = Ti или Te = Σ Ti ) эталон тексын һайлау
4. Ti+1. тексын һайлау
5. Te LTi+1 текстар ың бертөрлөлөк гипотезаһынҙ
тикшереү.
ТӘБИҒИ ТЕЛ ЫСЫНБАРЛЫ ТЫ (ПОРМ)Ҡ
ТАСУИРЛАМА Ү ӘГЕН ТӨ ӨҮ ЕҢ ТОТАШҘ Ҙ Ҙ
СХЕМА ҺЫ
T 1 T 2
T 3T 4
ТӘБИҒИ ТЕЛДЕҢ ЫСЫНБАРЛЛЫ ТЫ (ПОРМ)Ҡ
ТАСУИРЛАМАҺЫ Ү ӘГЕНЕҢҘ
ТОТАШ СЕЛТӘР ТОПОЛОГИЯҺЫ
G корпусының һәр бер Ti тексы эталон булып тора
Ү әк тө өү этаптарыҙ ҙ
Ti-1, Ti-2, Ti-3, … һ.б. текстарын G корпусына
индереү.
1. Ti тексын һайлау.
2. Te1 = Ti-1, Te2 = Ti-2, Te3 = Ti-3, … һ.б.эталон
текстарын һайлау.
3. Te1LTi, Te2LTi, Te3LTi, … һ.б. текстар ыңҙ
бертөрлөлөк гипотезаһын тикшереү.
4.Ti тексын G текстар корпусына индереү .
Ү -Ү ЕҢДЕ ТИКШЕРЕҮ ӨСӨНҘ Ҙ
ҺОРАУ АР.Ҙ
 «Дәрәжә-йышлы » текст моделын тасуирлағы .ҡ ҙ
 Ципфтың һү әр йышлығы анунын әйтеге .ҙҙ ҡ ҙ
 Ципф анунын « сығарығы ».ҡ ҙ
 Мандельброттың һү әр йышлығы ануны формулаһынҙҙ ҡ
я ығы .ҙ ҙ
 Мандельброт формулаһының коэффициенттар аңлатмаһын
табығы .ҙ
 «Дәрәжә-йышлы » статистик бүленеште сығарығы .ҡ ҙ
 Тәбиғи тел ысынбарлы ты (ПОРМ) тасуирлама ү әген тө өүҡ ҙ ҙ
ысулдарын һанап сығығы .ҙ
 Эталон текст ниге ендә тәбиғи тел ысынбарлы ты (ПОРМ)ҙ ҡ
тасуирлама ү әген тө өү этаптарын һанап сығығы .ҙ ҙ ҙ
 Тәбиғи тел ысынбарлы ты (ПОРМ) тасуирлама ү әгенҡ ҙ
тө өү ең буй схемаһын тасуирлағы .ҙ ҙ ҙ
 Тәбиғи тел ысынбарлы ты (ПОРМ) тасуирлама ү әгенҡ ҙ
тө өү ең тоташ схемаһын тасуирлағы .ҙ ҙ ҙ

More Related Content

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

лекции 3 4 тема 1

  • 1. 1-се тема. ТӘБИҒИ ТЕЛ ТАМҒАЛАР СИСТЕМАҺЫ ТЕМАНЫҢ ТӨП ӨЛӨШТӘРЕ 1.1. Белемде тә дим итеү һәм ойоштороу моделдары һәмҡ методтары - 1-се-2-се лекциялар. 1.2. Тәбиғи тел системаларының нисбәт ылы һырламаһы —ҡ ҡ 3-сө-4-се, 8-се лекциялар. 1.3. Белем э тәү ең логик-статистик ысулдары.ҫ ҙ 5-се-7-се лекциялар. Ү -АЛЛЫ ӨЙРӘНЕЛӘСӘК ТЕМАЛАР ЫҢ ФАКУЛЬТАТИВҘ Ҙ БҮЛЕКТӘРЕ 1.4. Һү лек-тезаурусты автоматлаштырып тө өү технологияһы.ҙ ҙ 1.5. Тәбиғи тел байлығын тикшереү ми алы.ҫ
  • 2. 3-сө-4-се лекциялар. ТӘБИҒИ ТЕЛ СИСТЕМАЛАРЫНЫҢ НИСБӘТ ЫЛЫ ҺЫРЛАМАҺЫҠ Ҡ  Тәбиғи тел тасуирламаһына статистик анализ .  «Дәрәжә-йышлы » моделы.ҡ  Ципф ануны.ҡ  Мандельброт формулаһы.  «Дәрәжә-йышлы » моделыныңҡ статистик бүленеше.  Тәбиғи тел тасуирламаһының ү әгенҙ тө өү.ҙ
  • 3. Ә әбиәтҙ Материал лекции представлен в книге: Ю.Н.Филиппович, А.В.Прохоров. Семантика информационных технологий: опыты словарно-тезаурусного описания. / Серия «Компьютерная лингвистика». Вступ. Статья А.И.Новикова. М.: МГУП, 2002. — книга в комплекте с CD ROM — С. 34–45.
  • 4. ТӘБИҒИ ТЕЛ ТАСУИРЛАМАҺЫНА СТАТИСТИК АНАЛИЗ Лингвистик статистика, лингвостатистика — телдең һәм телмәр ең нисбәт ылы һырламаһын статистикҙ ҡ ҡ ысулдар менән тикшеренеүсе тел ғилеме бүлеге.  «Русский язык» энциклопедияһы (1) Киң мәғәнәлә —тел ғилеменең статистик ысулдарын улланыуҡ өлкәһе (йәғни ,телде һәм телмәр е өйрәнгәндә и әпләү һәмҙ ҫ үлсәү ең математик статистикаһына таяныу);ҙ (2) Тар мәғәнәлә — лингвистик материалдар менән бәйле айһы берҡ (2) математик проблемалар ы өйрәнеү , башлыса текста телҙ берәмектәренең статистик бүленеш типтарын барлау.
  • 5. ЛИНГВИСТИК СТАТИСТИКА ТӨШӨНСӘҺЕ ТЕКСТ  лингвистик берәмектәр ең э мә-э леклелегеҙ ҙ ҙ : Хәреф, морфема, һү алыптары, ү бәйләнештәр, һөйләмдәр һ.б.ҙ ҡ ҙ ҙ Лингвистик алыптар ың нисбәт ылы һырамаһы:ҡ ҙ ҡ ҡ улланыш , йәнәшәлек, текста урынлашыу ануны, улар ың физикҠ ҡ ҙ дәүмәле.  ЛИНГВОСТАТИСТИКА КАТЕГОРИЯҺЫНЫҢ ТӨП ТӨШӨНСӘЛӘРЕ : Дөйөм күмәклек, һайланмалы , йышлы һәм ихтималлы , урынлашыуҡ ҡ ҡ ихтималлығы һәм статистик баһалар.  ДӨЙӨМ КҮМӘКЛЕК ТӨР ӘРЕ:Ҙ  Текстар (текст корпустары).  Лингвистик кимәлдәге тел берәмектәре .
  • 6. ҺҮ ЙЫШЛЫҒЫ ТЕОРИЯҺЫҘ Һү йышлығы теорияһыныңҙ сығана тарыҡ А. Донъя тураһында методологик (концептуаль) фекерләү әрҙ Б. Эмпирик кү әтеү әрҙ ҙ В. Үлсәмдәр Г. Практик яндамалар
  • 7. ҺҮ ЙЫШЛЫҒЫ ТЕОРИЯҺЫНЫҢҘ МЕТОДОЛОГИК СЫҒАНА ТАРЫҠ ЫСЫНБАРЛЫ (ПОРМ)Ҡ  < СУБЪЕКТТЫҢ ЫСЫНБАРЛЫ (ПОРМ) ТУРАҺЫНДА БЕЛЕМЕҠ >  < ТӘБИҒИ ТЕЛ ТАСУИРЛАМАҺЫ>  МЕТАФИЗИК БЕЛЕМ  ТЕЛ БЕРӘМЕКТӘРЕН (СИНТАГМАЛАР Ы) ОЙОШТОРОУҘ ТУРАҺЫНДА БЕЛЕМ : …, морфемалар, Һү алыптары,ҙ ҡ һү бәйләнештәр,ҙ Һөйләмдәр , …, текстар,
  • 8. ҺҮ ЙЫШЛЫҒЫ ТЕОРИЯҺЫНДАҘ ЭМПИРИК КҮ ӘТЕҮ ӘРҘ Ҙ  Тел берәмектәрен улланыуға билдәле берҡ нисбәт (номенклатура) һәм комбинатор (аралашыуға, урын алышыуға) сикләү әр.ҙ  айһы бер типтағы тел берәмектәренең уғатаҠ арты лығы.ҡ  Синтагмалар ың атмарлы иерархикҙ ҡ структураһы.  Тел берәмектәренең ва ыт э мә-э леклелеге .ҡ ҙ ҙ
  • 9. ҺҮ ЙЫШЛЫҒЫ ТЕОРИЯҺЫНДА ҮЛСӘМДӘРҘ  А.С.Пушкиндың ә әр әрен тикшереү :ҫ ҙ улланылған һү әр – 545 000; төрлө һү әр– 21 000.Ҡ ҙҙ ҙҙ  Мәктәп у ыусыларының телмәр эшмәкәрлеген тикшереү:ҡ Текстар корпусы (хаттар, иншалар, күнегеү әр һ.б.) – 100 000;ҙ улланылған һү әр – 6 000 000; төрлө һү алыптары– 25 000;Ҡ ҙҙ ҙ ҡ төрлө һү әр – 2 500.ҙҙ Хә ерге инглиз текстарын тикшереү:ҙ улланылған һү әр – 250 000; китап текстарындағы төрлө һүҠ ҙҙ ҙ алыптары – 24 000, телмәр ә – 10 000.ҡ ҙ  Француз телмәрен тикшереү: 50% улланылған һү әр – 37 һү , 75% – 120 һү , 90% – 887 һү ;ҡ ҙҙ ҙ ҙ ҙ 95% телефондан һөйләшкәндә улланылған һү әр – 737 һү .ҡ ҙҙ ҙ
  • 10. ҺҮ ЙЫШЛЫҒЫ ТЕОРИЯҺЫНДА ПРАКТИКҘ ЯНДАМАЛАР  Криптография  Стенография  Полиграфия  улъя малар ы редакторлап ба маға ә ерләүҠ ҙ ҙ ҫ ҙ  Текстар ы таныу,айырыу (ба ма һәм улъя ма)ҙ ҫ ҡ ҙ  Аудиовизуаль телмәр е таныу,айырыу.ҙ  Биремдәр ең автоматлаштырылған таянмаларын тө өү хҙ ҙ  Автоматлаштырылған тәржемә  Биремдәр ең күләмен ы ыуҙ ҡ ҫ  Мәғлүмәт э ләүҙ  Автоматик рәүештә тамғалау (индексирование) һәм ү гәртеү (реферирование).ҙ
  • 11. «ДӘРӘЖӘ-ЙЫШЛЫ » МОДЕЛЫҠ Жан.-Батист Эступ (Jеаn Bарtistе Estоuр). Джордж Кингсли Зипф (Gеоrgе Kingslеу Ziрf),
  • 12. «ДӘРӘЖӘ-ЙЫШЛЫ » МОДЕЛЫНЫҢҠ АҢЛАТМАЛАРЫ <ТЕКСТ>  <ҺҮ ӨЛӨШТӘРЕҘ ЙЫЙЛМАҺЫ ЙЫШЛЫҒЫ>  ДӘРӘ ЖӘ r ҺҮҘ W(r) ЙЫШЛЫҠ f(r) 1 W(1) f(1) 2 W(2) f(2) … r W(r) f(r) Пример: ДӘРӘЖӘ r ҺҮҘ W(r) ЙЫШЛЫҠ f(r) 1 the 245 2 of 136 3 terms 98 4 to 81 5 a 65 6 and 61 7 in 55 8 we 52 ... … …
  • 13. ЦИПФТЫҢ ҺҮ ЙЫШЛЫҒЫ АНУНЫҘ Ҡ i(k, r)/k = 0.1∗r-1 = 1/(10 ∗ r), (1.0) БЫЛ: i(k,r)/k –текстағы һү әр ең сағыштырма йышлығыҙҙ ҙ k – текстағы һү әр ең дөйөм һаны,ҙҙ ҙ r – һү ең дәрәжәһе, һү йыйылмаһында йышлыҙҙ ҙ ҡ функцияһының кәмеүенә табан тәртипкә һалынған рәттәге урыны .
  • 14. Ә ӘБИӘТҘ Дж. Солтон. Динамические библиотечные информационные системы. М.: Наука, 1979. Б.Мандельброт. Теория информации и психолингвистика: теория частот слов // Математические методы в социальных науках / Сб. статей под ред. П.Лазарсфельда и Н.Генри. М.: Прогресс, 1973. – С. 316–337.
  • 15. ҺҮ ЙЫШЛЫҒЫ АНУНЫН «СЫҒАРЫУ»Ҙ Ҡ (1) Текст — символдар ың ( хәреф һәм буш урындар ың) аңһыҙ ҙ ҙ э мә-э леклелеге . Буш урындар һү әр араһындағы сиктәр еҙ ҙ ҙҙ ҙ билдәләй. Билдәләйбе :ҙ W(r) —һү ;ҙ r — һү ең дәрәжәһе (тот ан урыны);ҙҙ ҡ k — һү еңҙҙ нисбәте; i (r, k)/k —һү ең сағыштырма йышлығы;ҙҙ р (r) — һү еңҙҙ ихтималлығы ; р0 — буш урындар ың ихтималлығы ихтималлығы;ҙ М —хәреф типтарының нисбәте, М>1, (1 — ро)/М —текстағы хәрефтең ихтималлығы; m — һү әге хәрефтең нисбәте.ҙҙ Ошолай а я ылыу мөмкинҙ ҙ p0exp{-βm}, ай аҡ ҙ β=log (M/(1-p0)) —ро и М –ға буйһонған. ыңғай дәүмәл. m хәрефтән торған һү еңҙҙ ихтималлығы ;
  • 16. ҺҮ ЙЫШЛЫҒЫ АНУНЫН «СЫҒАРЫУ»Ҙ Ҡ (2) Һү әҙҙ хәреф Һүҙ тибы Ми ал:ҫ Буш урын: _; хәрефтәр: a,b,c; M=3. Һүҙ тибы Һү иҙ хтимал лығы 0 1 _ 1 0.2500 1 M a,b,c 3 0.0625 2 M2 aa, ab, ac, ba, bb, bc, ca, cb, cc 9 0.0153 3 M3 aaa, aab, aac, aba, abb, abc,… 27 0.0038 Дәрәжә 1 2 3 4 5 6 … 12 … Йышлыҡ ~ 62 ~ 62 ~ 62 ~ 15 ~ 15 ~ 15 … ~ 15 … Их-лыҡ 0.0625 0.0625 0.0625 0.0153 0.0153 0.0153 … 0.0153 … m хәреф нисбәте m менән һү дәрәжәһеҙ r араһындағы бәйләнеш. Ми алҫ : текстың күләме 1000 символ; буш урындар ~ 250, {a,b,c — ~ 62; {aa,…cc} — ~ 15; {aaa,…ccc} — ~ 3.
  • 17. ҺҮ ЙЫШЛЫҒЫ АНУНЫН «СЫҒАРЫУ»Ҙ Ҡ (3)
  • 18. ҺҮ ЙЫШЛЫҒЫ АНУНЫН «СЫҒАРЫУ»Ҙ Ҡ (4) Дәрәжә (ранг) менән ихтималлы араһында бәйләнешҡ ү гәрмәүсе һикәлтәле функция ,ҙ r ү гәргәндәҙ (Мm — 1)/(М — 1) араһында, т. э мә-э лекле аңлатмаға тура киләҙ ҙ Әгәр m ур булһаҙ : r  (Мm — 1)/(М — 1), r (Мm — 1)/(М — 1); r ≅ (Мm— 1)/(М — 1), йәки
  • 19. ҺҮ ЙЫШЛЫҒЫ АНУНЫН «СЫҒАРЫУ»Ҙ Ҡ (5) m хәрефтән торған һү еңҙҙ ихтималлығы ай а:ҡ ҙ B = β/log M ; β=log (M/(1-p0)); Р = p0 (М— 1): Һү ең ихтимллығы менән уның дәрәжәһеҙҙ араһындағы бәйләнеш Ципф анунына тураҡ килә. Әгәр B аңлатмаһы = -1 и P = 0.1
  • 20. МАНДЕЛЬБРОТ ФОРМУЛАҺЫ Үтә йыш улланылған «Поведение» һү е,шулай у «һүҡ ҙ ҡ ҙ составы байлығын » ылы һылаған һирәк һү әр , Цип әрфҡ ҡ ҙҙ ҙ анунына тап килмәй.ҡ Б.Мандельброт формулаһы (Bеnоit Mаndеlbrоt) i(k,r) = рk (r+v)-b , ай а:ҡ ҙ b, k, v – const (1.1) 0 0,02 0,04 0,06 0,08 0,1 0,12 0 5 10 15 20 25 30 35 Кривая Мандельброта Кривая Ципфа
  • 22. МАНДЕЛЬБРОТ ФОРМУЛАҺЫНЫҢ ПАРАМЕТР АРЫН БАҺАЛАУҘ (1) Мандельброт формулаһын я ынса баһалау өсөнҡ түбәндәге аңлатмалар ы алабы һәм ү гәрештәрҙ ҙ ҙ яһайбы .ҙ ҡай аҙ : – һү ең сағыштырма осрау йышлығы .ҙҙ Шулай итеп: ай а:ҡ ҙ (1.2) ;)(),( b vrkprki − += ,)ln(ln ),( ln ln vebp k rki r +−= k rki ),( ,)ln()( vebPxf x +−= rxpP k rki xf ln;ln; ),( )( ===
  • 23. МАНДЕЛЬБРОТ ФОРМУЛАҺЫНЫҢ ПАРАМЕТР АРЫН БАҺАЛАУҘ (2) Тейлор ың дәрәжәле күпбыуынлығы ми алында формула алабы (1.2)ҙ ҫ ҙ )( ! )0( ... !2 )0( !1 )0( )0()( 1 )(2 ++++ ′′ + ′ += n nn n To n xfxfxf fxT .... )( )( )( )( )ln()( 2 ve ve bxf ve e bxf vebPxf x x x x x + −=′′ + −=′ +−=
  • 24. МАНДЕЛЬБРОТ ФОРМУЛАҺЫНЫҢ ПАРАМЕТР АРЫН БАҺАЛАУҘ (3) ӘгәрТейлор күпбыуынының коэффициентын С0,C1,...,Cn , тип билдәләһәк , килеп сыға: ... )1(2 1 1 )1ln( )(...)( 2 1 0 1 2 210 v v bC v bC vbPC ToxCxCxCCxf n n n + −= + −= +−= +++++= +
  • 25. МАНДЕЛЬБРОТ ФОРМУЛАҺЫНЫҢ ПАРАМЕТР АРЫН БАҺАЛАУҘ (4) Ошонан параметр ар өсөн коэффициенттар аша я ынсаҙ ҡ аңлатмалар тө өйбө :ҙ ҙ )1(0 1 2 1 0 )1( )1( 2 2 vb C e e pvbCP vCb C C v + ≈⇒+−≈ +−≈ − ≈
  • 26. МАНДЕЛЬБРОТ ФОРМУЛАҺЫНЫҢ ПАРАМЕТР АРЫН БАҺАЛАУҘ (5) Йышлы функцияһының табылған аңлатмалары яр амында иңҡ ҙ бәләкәй квадраттар ысулы менән дәрәжәле рәт коэффициенты табабыҙ Бе әҙҙ S(T) = (<w, N(w,T)>). ) ),( ),( ln(,ln ∑ TwN TwN r ∑ ),( ),( TwN TwN S(T) = (< >), где - Т тексында һү ең сағыштырма йышлығыҙҙ w Түбәндәге аңлатмалар индерәбе :ҙ ҙ ∑ == ),( ),( ln;ln TwN TwN yrx j i iii
  • 27. МАНДЕЛЬБРОТ ФОРМУЛАҺЫНЫҢ ПАРАМЕТР АРЫН БАҺАЛАУҘ (6) n n xCxCxCCxP ++++= ...)( 2 210 ∑ →−−−−= min)...( 2 10 n ni xCxCCyF 0)...(2 ... 0)...(2 0)...(2 10 10 1 10 0 =−−−−−= ∂ ∂ =−−−−−= ∂ ∂ =−−−−−= ∂ ∂ ∑ ∑ ∑ n inii n i n n iniii n inii xCxCCyx C F xCxCCyx C F xCxCCy C F Күпбыуын рәүешендәге аппроксимлаусы функцяны бирәбе :ҙ Бының өсөн түбәндәге функциялар ы кәметәбе :ҙ ҙ Был функцияның айырым сығарылышын и әпләп сығарабыҫ ҙ һәм улар ы 0 тиңәйбе .ҙ ҙ
  • 28. МАНДЕЛЬБРОТ ФОРМУЛАҺЫНЫҢ ПАРАМЕТР АРЫН БАҺАЛАУҘ (7) С0 ,..,Cn : ағылған буй тиге ләмәләр системаһын табабы .ҡ ҙ ҙ        =+++ =+++ =+++ ∑ ∑∑∑ ∑ ∑∑∑ ∑ ∑∑ + + i n i nn in n i n i ii n inii i n ini yxxCxCxC yxxCxCxC yxCxCNC *1 10 12 10 10 ... .... ... ...
  • 29. МАНДЕЛЬБРОТ ФОРМУЛАҺЫНЫҢ ПАРАМЕТР АРЫН БАҺАЛАУҘ (8) rbp k rki lnln ),( ln −= ∑ →+−= min)ln( 2 ii bxpyF       = = ⇒       =− =− ∑ ∑ ∑ ∑ ∑ 1 0 2 ln ln ln Cb Cp yxxbxp yxbpN iiii ii Ципф ануны өсөн баһалау параметр арының дөрө өрәкҡ ҙ ҫ аңлатмаларын табырға мөмкин. Был осра та һү еңҡ ҙҙ сағыштырма йышлығы логарифмы,уның дәрәжә логарифмы менән буй бәйләнешкә инә. Иң бәләкә квадраттар ысулын фай аланып буй тиге ләмәләр әнҙ ҙ ҙ коэффициенттар аңлатмаһын таба алабыҙ: k rki y i i ),( ln= ii rx ln= ;
  • 30. «ДӘРӘЖӘ-ЙЫШЛЫ » МОДЕЛЫНДАҠ СТАТИСТИК БҮЛЕНЕШ b vrp k rki rf − +== )( ),( )( ∫ ∫ ∞ ∞ − =+= 0 0 1)()( drvrpdrrf b ∫ ∞ − +−+− − −=⇒ +− −= ∞ +− + =+ 0 1 11 )1( 101 )( )( b bb b vbp b v p b vr pvrp bb vrvbrf −+− +−= )()1()( 1 Һү ең йышлы буйынса бүленешенеңҙҙ ҡ статистик анунынҡ табабыҙ: Нормалау шарты: Интегралды и әпләйбе һәм нормалау аңлатмаһын табабы :ҫ ҙ ҙ Һү ең йышлы буйынса бүленешенеңҙҙ ҡ статистик анунынҡ ошолай я ырға мөмкин:ҙ (1.3)
  • 31. «ДӘРӘЖӘ-ЙЫШЛЫ » МОДЕЛЫНДАҠ СТАТИСТИК БҮЛЕНЕШ АНУНЫН ТАБЫУҠ (1) Математик көтөп алыу ы (ожидание) һәмҙ дисперсияны (сәсрәү) и әпләп сығарабы .ҫ ҙ ∫ ∫ ∞ ∞ +− −− − = −− −=+== 0 0 2 1 2 1 )2)(1( )1()()( b v bb v vbdrvrrpdrrrfpE b bb f ∫ ∫ ∞ ∞ +−− −− = −−− − −=+== 0 0 2 122 )3)(2( 2 )1)(3)(2( 2 )1()()(2 bb v bbb vbvrrpdrrfrpE bb f )3()2( 1 )2()3)(2( 2 )( 2 2 2 22 2 2 −− − = − − −− =−= bb b v b v bb v EED ff Икенсе сират башланғыс моментты и әпләп сығарабы .ҫ ҙ Дисперсияны дисперсии:и әпләп сығарыу өсөн түбәндәгеҫ формуланы улланабы .ҡ ҙ .
  • 32. «ДӘРӘЖӘ-ЙЫШЛЫ » МОДЕЛЫНДАҠ СТАТИСТИК БҮЛЕНЕШ АНУНЫН ТАБЫУҠ (2) 2 1 − = b vE f )3()2( 1 2 2 −− − = bb b vDf 1 13 2 2 − − = E D E D b )2( −= bEv Математик көтөп алыуы (ожидание) һәм дисперсия(сәсрәү) : ; Моменттар ысулын фай аланып статистик бүленешҙ параметр арының аңлатмаһын табырға мөмкин (1.3)ҙ . Түбәнге формуланан табабыү (1.4) :ҙ ; Бында, E һәм D – математик көтөп алыу һәм дөйөм күмәклектәге дисперсия . (1.4)
  • 33. ТӘБИҒИ ТЕЛ ТАСУИРЛАМАҺЫ Ү ӘГЕНҘ ТӨ ӨҮҘ Тәбиғи телдең ысынбарлы ты (ПОРМ) тасуирлауҡ спецификацияһы  Лексик состав Баш а табиғи тел тасуирламалары менәнҡ сағыштырыу  Тәғәйен ПОРМ һайлау Тәбиғи тел тасуирламаларын өлөштәргә бүлеү .  Өйрәнелеүсе ПОРМ-ға ағылған текстар ың һынын ороуҡ ҙ ҡ  Килешеү статистик критерийын фай аланып һайланған текстар ыңҙ ҙ ү әген ороу,һәм улар ың нисбәтҙ ҡ ҙ спецификацияһын сағыштырыу.  Килешеү критерий ары ( корреляция коэффициенты):ҙ Пирсона (E.S.Pеаrsоn), Спирмена (C.Sреаrmаn), Кендалла (M.G.Kеndаll), дихотомик (ранг шкалаларын ү гәрткәндә), пар ар ың айырымлығыҙ ҙ ҙ дәүмәлен тикшереү статистикаһы , , Вилкоксондың килешеү критерийы (F.Wilсохоn) һ.б.
  • 34. Ә ӘБИӘТҘ Дж.Гласс, Дж.Стенли. Статистические методы в педагогике и психологии. Используемый материал: с. 142–165. Л.Закс. Статистическое оценивание / Пер. с нем. В.Н.Варыгина. Под ред. Ю.П.Адлера, В.Г.Горского. М.: Статистика, 1976. – 600 с. Используемый материал: с. 286–287. В.Е. Гмурман. Теория вероятностей и математическая статистика. М.: Высшая школа, 1998.
  • 35. ТЕКСТАР ЫҢ БЕРТӨРЛӨЛӨГӨН БИЛДӘЛӘҮҘТЕКСТАР ЫҢ БЕРТӨРЛӨЛӨГӨН БИЛДӘЛӘҮҘ (1)(1) < текстар (һыны)корпусы G> <вербаль айырыу = текст Ti> ИКЕ ТЕКСТЫҢ БЕРТӨРЛӨДӨГӨН БИЛДӘЛӘҮСЕ АЛГОРИТМ (текстар – T1, Т2; йышлы буйынса һү йыйылмалары – S(T1), S(T2))ҡ ҙ 1.Тәртипкә киилтерелгән һү әр күплеге тө өү:ҙҙ ҙ S1 = ( w11, w12, w13,...,w1N ), S2 = ( w21, w22, w23,...,w2M ). 2. S1 и S2 күплек элементтарын номерлау : S1 = (1,2,3,4,5,6...N), S2 = (1,3,2,5,N,4, N+1,N+2,...). 3. Һү әр ең сағыштырма осрау йышлығын ө тәйбе .ҙҙ ҙ ҫ ҙ 4. S1 и S2 күплеген берләштереү һәм тәртипкә һалыу. 5.Берләштерелгән күплеккүплек элементтарын ннмерациялау. 6. S1 (Wнабл күплек элементтары ндекстарын ушыу.ҡ
  • 36. ТЕКСТАР ЫҢ БЕРТӨРЛӨЛӨГӨН БИЛДӘЛӘҮҘТЕКСТАР ЫҢ БЕРТӨРЛӨЛӨГӨН БИЛДӘЛӘҮҘ (2)(2) N > 25, M > 25 Wнижн. кр. ≤ Wнабл ≤ Wверхн. кр. , где крнижнкрверхн WNMNW ... )1( −++=       ++ − −++ = 12 )1( 2 1)1( ),,(. MNNM z NMN MNQW кркрнижн 2 21 )( Q zФ кр − = ∫ − = x z dzexФ 0 2 2 2 1 )( π Q – ышаныстың ярты кимәле = α/2; zкр тиге лек буйынса Лаплас функцияһы таблицаһындаҙ тора ,
  • 37. ЭТАЛОН ТЕКСТ НИГЕ ЕНДӘ ТӘБИҒИ ТЕЛҘ ТАСУИРЛАМАҺЫ Ү ӘГЕН ТӨ ӨҮҘ Ҙ TeT 7 T 1 T 2 T 3 T 6 T 4 T 5 Ýòàëîííûéòåêñò ТӘБИҒИ ТЕЛДЕҢ ЫСЫНБАРЛЛЫ ТЫ (ПОРМ)Ҡ ТАСУИРЛАМАҺЫ Ү ӘГЕНЕҢҘ ЙОНДО РӘҮЕШЛЕ ТОПОЛОГИЯҺЫҘ Был ысул эталон текст талап итә. Ү әк тө өү этаптарыҙ ҙ 1.Эталон текст һайлау. 2.Текстар ың бертөрлөлөкҙ гипотезаһы Te L Ti. тикшереү 3. Ti тексын G тексы корпусына индереү.
  • 38. ТӘБИҒИ ТЕЛ ЫСЫНБАРЛЫ ТЫ (ПОРМ)Ҡ ТАСУИРЛАМА Ү ӘГЕН ТӨ ӨҮ ЕҢ БУЙҘ Ҙ Ҙ СХЕМА ҺЫ T 1 T 2 T 2 T 2 ТӘБИҒИ ТЕЛДЕҢ ЫСЫНБАРЛЛЫ ТЫ (ПОРМ)Ҡ ТАСУИРЛАМАҺЫ Ү ӘГЕНЕҢҘ БУЙ ТОПОЛОГИЯҺЫ Эталон текст булып ағымдағы текст тора Ү әк тө өү этаптарыҙ ҙ 1. Ti. тексын һайлау 2. Ti. тексын G текстар корусына индереү. 3. (Te = Ti или Te = Σ Ti ) эталон тексын һайлау 4. Ti+1. тексын һайлау 5. Te LTi+1 текстар ың бертөрлөлөк гипотезаһынҙ тикшереү.
  • 39. ТӘБИҒИ ТЕЛ ЫСЫНБАРЛЫ ТЫ (ПОРМ)Ҡ ТАСУИРЛАМА Ү ӘГЕН ТӨ ӨҮ ЕҢ ТОТАШҘ Ҙ Ҙ СХЕМА ҺЫ T 1 T 2 T 3T 4 ТӘБИҒИ ТЕЛДЕҢ ЫСЫНБАРЛЛЫ ТЫ (ПОРМ)Ҡ ТАСУИРЛАМАҺЫ Ү ӘГЕНЕҢҘ ТОТАШ СЕЛТӘР ТОПОЛОГИЯҺЫ G корпусының һәр бер Ti тексы эталон булып тора Ү әк тө өү этаптарыҙ ҙ Ti-1, Ti-2, Ti-3, … һ.б. текстарын G корпусына индереү. 1. Ti тексын һайлау. 2. Te1 = Ti-1, Te2 = Ti-2, Te3 = Ti-3, … һ.б.эталон текстарын һайлау. 3. Te1LTi, Te2LTi, Te3LTi, … һ.б. текстар ыңҙ бертөрлөлөк гипотезаһын тикшереү. 4.Ti тексын G текстар корпусына индереү .
  • 40. Ү -Ү ЕҢДЕ ТИКШЕРЕҮ ӨСӨНҘ Ҙ ҺОРАУ АР.Ҙ  «Дәрәжә-йышлы » текст моделын тасуирлағы .ҡ ҙ  Ципфтың һү әр йышлығы анунын әйтеге .ҙҙ ҡ ҙ  Ципф анунын « сығарығы ».ҡ ҙ  Мандельброттың һү әр йышлығы ануны формулаһынҙҙ ҡ я ығы .ҙ ҙ  Мандельброт формулаһының коэффициенттар аңлатмаһын табығы .ҙ  «Дәрәжә-йышлы » статистик бүленеште сығарығы .ҡ ҙ  Тәбиғи тел ысынбарлы ты (ПОРМ) тасуирлама ү әген тө өүҡ ҙ ҙ ысулдарын һанап сығығы .ҙ  Эталон текст ниге ендә тәбиғи тел ысынбарлы ты (ПОРМ)ҙ ҡ тасуирлама ү әген тө өү этаптарын һанап сығығы .ҙ ҙ ҙ  Тәбиғи тел ысынбарлы ты (ПОРМ) тасуирлама ү әгенҡ ҙ тө өү ең буй схемаһын тасуирлағы .ҙ ҙ ҙ  Тәбиғи тел ысынбарлы ты (ПОРМ) тасуирлама ү әгенҡ ҙ тө өү ең тоташ схемаһын тасуирлағы .ҙ ҙ ҙ

Editor's Notes

  1. Тема 1 «Естественно-языковые знаковые системы» включает шесть разделов, первые три из которых являются основными. 1.1. Модели и методы представления и организации знаний — лекции 1-2. 1.2. Спецификация ЕЯ систем — лекция 3. 1.3. Логико-статистические методы извлечения знаний — лекции 4–5. Материал этих разделов представлен в лекциях. Три других раздела предназначены для самостоятельного изучения, а его материал представлен в рекомендованной литературе. 2.4. Технология автоматизированного построения словаря-тезауруса. 2.5. Пример исследования ЕЯ ресурса.
  2. Вторая лекция посвящена количественной спецификации естественно-языковых систем. В ней рассматриваются следующие вопросы: Статистический анализ ЕЯ описания. Модель «ранг-частота». Закон Ципфа. Формула Мандельброта. Статистическое распределение в модели «ранг-частота». Построение ядра ЕЯ описания.
  3. Материал лекции представлен в книге: Ю.Н.Филиппович, А.В.Прохоров. Семантика информационных технологий: опыты словарно- тезаурусного описания. / Серия «Компьютерная лингвистика». Вступ. Статья Анатолия Ивановича Новикова. М.: МГУП, 2002.— книга в комплекте с CD ROM — С. 34–45.
  4. Применением аппарата математической статистики в исследовании ЕЯ представлений ПОРМ занимается раздел лингвистики «Лингвистическая статистика». Согласно, энциклопедии «Русский язык», лингвистическая статистика — раздел языкознания, занимающийся исследованиями статистическими методами количественных закономерностей в языке и речи. Лингвистическая статистика, лингвостатистика, — (1) в широком смысле — область применения статистических методов в языкознании (то есть опирающаяся на математическую статистику подсчетов и измерений при изучении языка и речи); (2) в узком смысле — изучение некоторых математических проблем, связанных с лингвистическим материалом, главным образом с типами статистических распределений языковых единиц в тексте. [ЭРЯ, 1997. Лингвистическая статистика. А.Я.Шайкевич]
  5. Предметом исследований в лингвистической статистике является текст, рассматриваемый как последовательность лингвистических единиц заданного уровня: букв или фонем, морфов или морфем, словоформ или лексем, словосочетаний, предложений. На этом материале изучается количественные характеристики лингвистических форм – их употребительность, совместная встречаемость, законы распределения в тексте, их физические размеры. На основе полученных данных описываются свойства текста, формулируются гипотезы о механизмах его образования и об устройстве системы языка. Основные понятия и категории в лингвистической статистике заимствуются у математической статистики. Такими понятиями являются понятия генеральной совокупности и выборки, частоты и вероятности, вероятностные распределения и статистические оценки. Однако применение этих понятий к лингвистическому материалу имеет ряд особенностей. В частности, в языкознании могут быть рассмотрены два принципиально разных вида генеральной совокупности: либо совокупность текстов (корпус текстов) одинакового жанра, заданного списка авторов или заданного временного интервала, либо совокупность единиц, принадлежащих одному лингвистическому уровню: фонем, морфем, слов или предложений.
  6. Лингвистическая статистика как научное направление возникла в связи со стремлением дополнить совокупность структурных характеристик лингвистических единиц характеристикой их употребительности. Это основано на предположении, что любая лингвистическая единица обладает априорно присущей ей вероятностью быть употребленной в тексте заданного класса. Основной теорией лингвистической статистики является теория частот слов. Основными предпосылками теории являются: во-первых, методологические, концептуальные суждения о мире; во-вторых, эмпирические наблюдения, как повседневные, так и специальные исследования; в-третьих, многочисленные измерения, которые многократно делались из «простого любопытства», а также для решения каких-либо практических задач; в-четвертых, конкретные практические задачи, возникающие перед людьми в процессе их коммуникативной деятельности с использованием естественного языка.
  7. Знания субъекта о реальном мире, некоторой его части – ПОРМ, будучи представленными в виде естественно-языкового описания, являются предметом анализа, результат которого оформляется (формализуется) в виде метазнаний. Это метазнание представляет собой количественные характеристики и логические суждения о пространственно-временной организации языковых единиц (синтагм). Основными языковыми единицами являются: морфемы, словоформы, словосочетания, предложения, тексты и др.
  8. Четыре основных результата эмпирических наблюдений естественно-языковых описаний знаний субъекта о реальном мире можно назвать в числе предпосылок возникновения теории частот слов: Во-первых, это значительные количественные (номенклатурные) и комбинаторные ограничения на использование языковых единиц. Для естественно-языкового описания своих знаний конкретный субъект использует ограниченное количество языковых единиц и их комбинаций. Это обусловлено с многими факторами, основными из которых носят характер ресурсных (энергетических и временных) ограничений на осуществление коммуникативной деятельности. Во-вторых, существенная избыточность некоторых типов языковых единиц, которая связана с языковыми возможностями и способностями субъекта. Избыточность обусловлена с одной стороны особенностями внутренней организации языка, а с другой – способностью субъекта освоить эти особенности. В-третьих, сложная иерархическая структура языковых единиц (синтагм), между которыми устанавливаются в общем случае отношения «многие ко многим». В-четвертых, последовательная во времени организация языковых единиц, соответствующая атрибутивным способностям субъекта мыслить и выражать результаты мышления последовательно во времени.
  9. Неоднократно проводились статистические подсчеты встречаемости языковых единиц в различных текстах и разговорной речи. «Словесная длина» всех произведений А.С.Пушкина составляет 545 000 словоупотреблений из них разных слов – 21 000. Для исследования языковой деятельности школьников был составлен корпус текстов, включающий 100 000 их писем, сочинений, заданий и т.п. Его общий объем составил 6 миллионов словоупотреблений, а разных словоформ было обнаружено всего 25 000, разных слов еще меньше – 2500. Исследования современных английских текстов на выборке 250 000 словоупотреблений показали, что разных словоформ в книжных текстах – 24 000, в записях разговоров – 10 000. Исследования французской разговорной речи показывают, что 50% словоупотреблений – это 37 самых частотных слов, 75% – 120 слов, 90% – 887 слов. В записях телефонных разговоров было обнаружено, что 95% словоупотреблений говорящих – это всего 737 наиболее часто используемых слов французского языка.
  10. Стремление людей повысить эффективность использования естественного языка в общении и коммуникации порождало множество технических проблем. Исторически наиболее известными являются проблемы криптографии и стенографирования, существо которых сводится к получению некоторой кодирующей (формальной) записи естественно-языкового сообщения (текста). Рассмотрим причины, из-за которых криптографы и стенографы занимаются специальными преобразованиями языковых единиц письменной и звучащей речи. Криптограф хочет получить код, лишенный какой-бы то ни было структуры, которая может быть использована для раскрытия тайны его сообщения. Напротив, для стенографиста целью является получение кода, который может быть раскодирован за кратчайшее время. Исследуем более подробно эти два типа кодов. Прежде всего мы будем игнорировать технологические проблемы, существующие, разумеется, в обоих случаях. Для этого допустим, что можно построить кодирующие и декодирующие устройства любой сложности и что человеческая память, в широком смысле слова, является неограниченной. При такой идеализации очевидно, что любое знание об используемых в языке синтагмах (их номенклатуре, частоте и комбинациях встречаемости) дает возможность усовершенствовать работу криптографов или стенографистов. Например, знание статистики речи подскажет нам, что часто используемые слова или словосочетания могут быть заменены их специальными короткими символами и в результате стенограмма будет короче, а криптограмма будет более ясной. В полиграфии первопечатникам важным было знать количество букв-литер, которые необходимо отлить для изготовления печатной матрицы, сколько потребуется краски для печати конкретных книг и другие сведения о текстах – их количественной спецификации. Практическими приложениями теории частот слов сегодня являются разработки, направленные на повышение эффективности: редакционно-издательских процедур и операций по подготовке рукописей к печати; распознавания рукописных текстов, звучащей и визуальной речи; формализации сложных синтагматических структур при автоматизированном создании баз данных; автоматического перевода; сжатие данных при передаче информации по электронным каналам связи и организации ее хранения, информационного поиска, автоматического индексирования и реферирования и др.
  11. Основной моделью теории частот слов является модель «ранг-частота», в которой связываются абсолютная частота слова с его рангом (порядковым номером в частотном словнике, упорядоченном по убыванию частоты). Данную модель впервые описал чиновник телеграфного ведомства, сам стенографист и руководитель департамента стенографирования французского парламента Жан.-Батист Эступ (Jеаn Bарtistе Estоuр). Его работа мотивировалась, по всей видимости, дискуссией относительно преимуществ нескольких систем французской стенографии. Им установлен научный факт, который подтвердил предложенную им систему. Аналогичные исследования неоднократно проводились ради здорового интеллектуального любопытства и другими исследователями. Однако их авторы работали разрозненно и их многочисленные результаты не идут ни в какое сравнение с результатами Джорджа Кингсли Зипфа (Gеоrgе Kingslеу Ziрf), посвятившего этому вопросу всю свою жизнь и написавшего в простой и строгой манере несколько книг. Чтобы характеризовать открытия этих авторов, следует предварительно дать несколько определений. Наиболее известны законы Ципфа и Мандельброта. Эти законы не являются статистическими, но характеризуют динамическую зависимость абсолютной частоты слова от его ранга.
  12. Возьмем текст и составим по нему частотный словник, т.е. проранжируем все слова в порядке убывания частоты их появления. Слово ранга 1 чаще всего встречается в последовательности букв, заключенных между двумя ближайшими пробелами, в английском языке таким словом является the. Слово ранга 2 чаще всего встречается в тексте, если исключить слова ранга 1. Слово ранга 3 чаще всего встречается, если исключить слова ранга 1 и 2 и так далее. Обозначим символом W(r) слово, которое в нашей последовательности имеет ранг r. Необходимо отметить, что существуют редкие слова, которые в данном куске текста встречаются 1 или 2 раза. Их ранг неопределенен и даже несуществен, и, таким образом, их можно ранжировать произвольно. При помощи данных определений можно следующим образом описать эмпирические результаты.
  13. Первым теоретическим результатом в области статистического анализа текста считается эмпирический закон установленный Дж.К.Ципфом, получивший название «закона частот слов». Закон связывает гиперболической зависимостью частоту встречаемости слова в тексте с рангом этого слова в списке, упорядоченном по убыванию частот: i(k, r)/k = 1/(10 r), (1.0) где i(k,r)/k – относительная частота слова в тексте, k – общее число слов в тексте, r – ранг слова, т.е. его порядковый номер в упорядоченном по убыванию частотной функции словнике. В первом приближении отношение i (r, k)/k, которое представляет собой относительное число повторений слова W(r) в выборке длины k, обратно пропорционально 10 r: Числовой множитель 1/10 получен эмпирически. Следует также подчеркнуть, что определение ранга подразумевает только, что r и i (r, k) изменяются в противоположных направлениях. Тот факт, что i (r, k) обратно пропорционально r, не очевиден и должен быть подтвержден эмпирически. Обычно для проверки связей такой формы применяется логарифмическая шкала; по оси абсцисс откладывается логарифм r, а по оси ординат —логарифм i(r, k). Первое приближение закона частот слов, выраженного графиком log [i (r, k)], как функция от log r, представляет прямую линию с угловым коэффициентом - 1. Прямая параллельна второй биссектрисе координатных осей, как будет показано далее.
  14. В настоящее время не существует убедительного обоснования данного закона. Ципф объяснял свой закон как следствие общего принципа «наименьшего усилия» — наиболее часто встречающиеся слова любого языка обычно являются короткими служебными словами, употребление и восприятие которых требует наименьших усилий (чем и объясняется их большая частота) [Солтон,1979. С.186–187]. Вместе с тем в литературе приводится косвенное обоснования необходимости такой зависимости, т.е. осуществляется «вывод» закона, исходя из различных предположений [Мандельброт,1973. С.330–336]. Анализ закона и его косвенных обоснований позволяет сделать вывод о том, что дело не в «наименьших усилиях», а в существовании единых системных правил построения языкового описания, вернее использования субъектом метода формализации своих знаний на основе естественно-языкового описания.
  15. Рассмотрим длинную случайную последовательность k слов-символов. Слово-тип W(r) ранга r имеет относительную частоту i (r, k)/k, которая может быть близко аппроксимирована вероятностью р (r). Частота слов в случае, когда текст является случайной последовательностью независимых символов — букв и пробелов, обозначающих границы между словами. На первом этапе предположим следующее: (а) вероятность появления пробела равна р0; (б) существует М &amp;gt; 1 типов букв, каждая из которых имеет одинаковую вероятность появления (1 — ро)/М; (в) текст представляет собой случайную последовательность независимых букв и пробелов. Таким образом, если слово содержит m букв, его вероятность будет равна произведению вероятностей составляющих букв и пробела, то есть: Это может быть записано как p0exp{-m}, где =log (M/(1-p0) положительная величина, зависящая от ро и М.
  16. Теперь необходимо установить зависимость между числом букв m и рангом слова из m букв при упорядочении всех слов по мере возрастания частот. Необходимо заметить, что два пробела могут следовать друг за другом в независимой последовательности букв и пробелов. Таким образом, имеется слово, состоящее из 0 букв, более того, имеется М слов из 1 буквы, М2слов из 2 букв и т. д., Мm- слов из m букв. Самым частым словом является слово с рангом 1, следующее за ним слово имеет ранг 2 и т. д.
  17. Если, однако, два слова имеют одинаковую вероятность или частоту появления, они могут быть ранжированы произвольно. Если слово имеет m букв, его ранг r находится в следующих границах: r больше, чем общее число различных слов, содержащих m— 1 или меньшее число букв, то есть: r также ,больше общего числа различных слов, содержащих m или меньшее число букв, то есть:
  18. Из этого следует, что зависимость между рангом и вероятностью дается ступенчатой функцией, которая постоянна, когда r изменяется между двумя (М — 1)/(М — 1), соответствуя последовательным значениям m. Такая зависимость не может быть представлена простым аналитическим выражением. Впрочем, если m достаточно велико, то вышеуказанная граница для m различается незначительно в относительных величинах и можно написать:
  19. При этих условиях вероятность слова из m букв может быть представлена в следующей форме, в которой B=/logM и Р = p0 (М—1): Эта связь между вероятностью слова и его рангом почти идентична закону Ципфа при значениях B =-1 и P = 0.1
  20. Исследования текстов в различных естественно-языковых системах (разных языках), не подтвердили точного выполнения соотношения (1.0) для найденных Ципфом коэффициентов. Согласно некоторым авторам, закон i (r, k) = k (1/10) (l/r) должен быть справедливым для любого текста независимо от того, на каком языке он написан. Фактически установлено, что большинство эмпирических графиков существенно отличается от прямой с угловым коэффициентом —1. Не соответствует данному закону «поведение» наиболее часто употребляющихся слов, а также редких, которые характеризуют «богатство словарного состава» текста. Б.Мандельброт (Bеnоit Mаndеlbrоt) предложил иную формулу для описания «закона частот слов», в которой были учтены названные несоответствия: i(k,r) = рk (r+v)-b (1.1) Общий вид зависимостей (1.0) и (1.1) представлен на рисунках.
  21. Легче всего измерить параметр В, который является абсолютной величиной наклона дважды логарифмического графика log [i (r, k)]как функция от log r (исключая наиболее частые слова). Закон первой аппроксимации — частный случай закона второй аппроксимации: написав его как i (r, k) = (1/10) kr, легко видеть, что ему соответствуют следующие значения параметров: В = 1, V = О, Р =1/10. Можно считать, что закон i (r, k) = Pk (r + V) — один из наиболее установленных результатов в этой области и фактически является одним из немногих законов, которые постоянно подтверждаются на практике. То, что этот закон наблюдается, означает, что не было ничего абсурдного в предположениях о существовании обобщенного закона частот слов.
  22. Получим выражения для приближенной оценки параметров закона Мандельброта. Для этого выполним следующие преобразования: , где – относительная частота встречаемости слова. Таким образом, имеем: , где (1.2)
  23. Представим формулу (1.2) в виде степенного многочлена Тейлора:
  24. Если коэффициенты в многочлене Тейлора обозначить через С0,C1,...,Cn, то будем иметь:
  25. Получим коэффициенты степенного ряда методом наименьших квадратов по имеющимся значениям частотной функции. Имеем S(T) = (&amp;lt;w, N(w,T)&amp;gt;).
  26. Будем искать аппроксимирующую функцию в виде многочлена:
  27. Получаем систему линейный уравнений, относительно С0,..,Cn: Решая эту систему (например, методом Гаусса [Ракитин, 1998]), можно получить вектор коэффициентов C0...Cn. Используя полученные значения, можно вычислить коэффициенты закона Мандельброта. Полученные формулы дают приближенные значения параметров закона Мандельброта и позволяют описать характер изменения частот слов для малых значений ранга.
  28. Более точные значения оценок параметров могут быть получены для закона Ципфа. В этом случае, имеет место линейная зависимость логарифма относительной частоты слова от логарифма его ранга:
  29. Используя предложенную Мандельбротом зависимость, получим статистический закон распределения слов по частоте. Во-первых, необходимо, чтобы закон удовлетворял условию нормировки, а именно требуется выполнение равенства: Вычислим интеграл и найдем нормировочное выражение: Таким образом, закон распределения слов по частоте можно записать в виде:(1.3)
  30. Вычислим основные характеристики распределения: математическое ожидание и дисперсию. По определению математического ожидания имеем: Вычислим начальный момент второго порядка: Воспользуемся формулой для вычисления дисперсии:
  31. Итак, в результате имеем выражения для математического ожидания и дисперсии: Используя метод моментов, легко получить значения параметров статистического распределения (1.3) Из формул (1.4) имеем: Здесь, E и D – математическое ожидание и дисперсия в генеральной совокупности.
  32. Спецификация ЕЯ описания ПОРМ это не только выявление основных соотношений в его лексическом составе, но и соотнесение его с другими описаниями. Выделение конкретной предметной области из их множества, или разделение всего естественно-языкового описания на некоторые частичные подобласти, соответствующих подобластям ПОРМ также является задачей спецификации. Фактически спецификация ЕЯ описания ПОРМ сводится к задаче формирования корпуса текстов, релевантных по отношению к изучаемой предметной области. Формирование ядра релевантных текстов может быть построено на методе, суть которого сводится к использованию некоторого статистического критерия согласия для сравнения количественных спецификаций текстов. В конкретном случае можно сравнить частотные словники текстов. Главной идеей, лежащей в основе этого подхода, является гипотеза о том, что в текстах, «принадлежащих» одной предметной области, значения частотных функций слов приблизительно совпадают. Иными словами, эмпирические функции распределения слов по частоте близки друг другу. В общем случае для сравнения двух упорядоченных последовательностей значений частотной функции текстов могут использоваться различные коэффициенты корреляции, например: Пирсона (E.S.Pеаrsоn), Спирмена (C.Sреаrmаn), Кендалла (M.G.Kеndаll), дихотомический (в случае преобразования ранговых шкал) [Гласс,1976. С.142–165]. Могут использоваться при соответствующих преобразованиях и статистики для проверки значимости разностей пар [Закс,1976. С.286–287]. Для сравнения эмпирических частотных функций распределения можно использовать критерий согласия Вилкоксона (F.Wilсохоn) [Закс,1976. С.288; Гмурман, 1998], в котором не требуется знание ни функции распределения, ни каких-либо параметров распределения.
  33. В качестве примера рассмотрим использование критерия Вилкоксона для проверки однородности двух независимых вербальных выборок. Под вербальной выборкой будем понимать совокупности исследуемых ЕЯ-единиц, т.е. слов, которые принадлежат некоторому тексту, входящему в корпус текстов G. Другими словами, выборкой из генеральной совокупности G будет являться один из его элементов, т.е. текст Ti. Поскольку задачей и является правомерность внесения текста в генеральную совокупность, то выборкой может являться в принципе любой текст, но в генеральную совокупность попадут только те, для которых функции распределения слов по частоте будут одинаковы. Построим алгоритм определения однородности двух текстов, а затем опишем процесс формирования ядра. Пусть имеются два текста T1 и Т2, для которых построены частотные словники S(T1) и S(T2). 1. На основании словников построим два упорядоченных множества слов: S1 = ( w11, w12, w13,...,w1N ) S2 = ( w21, w22, w23,...,w2M ) 2. Порядок, в котором расположены слова, зависит от значения их частотных функций и противоположен порядку в соответствующих частотных словниках. Пронумеруем все элементы множества S1: S1 = (1,2,3,4,5,6...N), а затем, используя числа для нумерации слов в S1 пронумеруем элементы множества S2. Словам, которые встречались в S1 присваиваются номера из S1, всем остальным словам присваиваются порядковые значения: меньшие номера, словам с меньшей частотой. Так, S2 может иметь следующий вид: S2 = (1,3,2,5,N,4, N+1,N+2,...). Чтобы исключить совпадения в S1 и S2, ко всем их элементам добавляется относительная частота встречаемости слов, для слов словников S(T1) и S(T2) соответственно. Относительная частота &amp;lt;1, поэтому она не может повлиять на соотношения между элементами множеств S1 и S2. Полученные значения являются исходным данными для их использования в критерии согласия Вилкоксона. Объединим теперь оба множества в одно, расположив элементы в порядке возрастания, пронумеруем их и просуммируем индексы тех элементов, которые принадлежат S1. Полученное число обозначим как Wнабл.
  34. Будем считать, что размеры обоих выборок (N и M) больше 25. Тогда, при справедливости гипотезы об однородности выборок и заданном уровне доверия, должно выполняться неравенство: Wнижн. кр.  Wнабл  Wверхн. кр. , где Q – половина уровня доверия = /2; zкр находится по таблице функции Лапласа по равенству , В зависимости от способа применения изложенного метода можно получать различные формы ядра ЕЯ описания ПОРМ, поскольку метод предполагает наличие минимум двух текстов. Можно рассмотреть некоторые варианты:
  35. Построение ядра ЕЯ описания ПО на основе эталонного текста. Этот способ предполагает наличие эталонного текста, для которого установлена его релевантность к изучаемой предметной области (в случае, если текст является одним из выпусков журнала, то сделать это можно, например, по заголовку). Затем, выполняется проверка гипотезы об однородности текстов для каких-либо еще текстов и принимается решение о включении или не включении текста в исследуемый корпус текстов. Условно, эту методику можно изобразить в виде звезды: Звездообразная топология ядра ЕЯ описания ПО.
  36. Линейная схема построения ядра ЕЯ описания ПО. Суть этого подхода в том, что в нем нет заранее определенного эталонного текста. Эталонный текст существует только на время сравнения. После принятия гипотезы об однородности, роль эталонного текста начинает выполнять новый включенный в корпус текст. Графически этот процесс можно представит в следующем виде: Линейная топология ядра ЕЯ описания ПО. Результат такого метода может оказаться сомнительным, во всяком случае, когда исходный (начальный текст) оказался недостаточно релевантным или вовсе нерелевантным ПОРМ. Данный метод может быть реализован и путем накопления частот, т.е. использования в качестве характеристик эталонного текста результат сложения частотных словников.
  37. Полносвязная схема построения ядра ЕЯ описания ПО. В полносвязной схеме также не существует выделенного эталонного текста. Но, в отличие от линейной схемы, для включения некоторого текста в корпус необходимо подтверждения гипотез однородности от всех имеющихся к данному моменту в ядре текстов. Иными словами, чтобы включить в корпус новый текст, необходимо подтвердить гипотезу об однородности между ним и всеми текстами уже включенными в корпус. Графически это выглядит следующим образом: Полносвязная сетевая структура ядра ЕЯ описания ПО. В самом общем случае способ построения ядра может оказаться более сложной процедурой и представлять собой реализацию задачи кластерного анализа. Как и в классической постановки задачи кластеризации здесь будут стоять два вопроса: выбор центра (центров) кластеризации и определения границ кластеров.
  38. Для самоконтроля усвоения материала лекции попытайтесь ответить на следующие вопросы: Опишите модель текста «ранг-частота». Сформулируйте закон частот слов Ципфа. «Выведите» закон Ципфа. Напишите формулу Мандельброта для закона частот слов. Определите значения коэффициентов в формуле Мандельброта. Получите (выведите) статистическое распределение «ранг-частота». Перечислите методы построения ядра ЕЯ описания ПОРМ. Перечислите этапы построения ядра ЕЯ описания ПОРМ на основе эталонного текста. Опишите линейную схему построения ядра ЕЯ описания ПОРМ. Опишите полносвязную схему построения ядра ЕЯ описания ПОРМ.