SlideShare a Scribd company logo
1-се тема
Т БИ И ТЕЛ ТАМ АЛАРӘ Ғ Ғ
СИСТЕМА ЫҺ
ТЕМАНЫҢ ТӨП ӨЛӨШТӨРЕ
1.1. Белем биреү е ойоштороу ың моделдары и методтарыҙ ҙ
—1-се-2-се лекциялар .
1.2. ТӘБИҒИ ТЕЛ системаларының нисбәт спецификацияһы
—
3-сө-4-се, 8-се лекциялар .
1.3. Белем э тәү ең логик-статистик методтары —ҫ ҙ
5-се-7-се лекциялар .
Ү АЛЛЫ ӨЙРӘНЕЛӘСӘК ТЕМАЛАР ЫҢ ФАКУЛЬТАТИВҘ Ҙ
ӨЛӨШТӘРЕ
1.4. Тезаурус һү лек тө өү ең автоматлаштырылғанҙ ҙ ҙ
технологияһы .
1.5. Телдең тәбиғи байлығын өйрәнеү ми алы.ҫ
6-сы лекция
ТЕКСТЫҢ СИНТАГМАТИК МОДЕЛЫ
 Төп синтагмалар ыҙ фформаль
тасуирлау
 Яһалма синтагмалар ы һәмҙ
синтагматик конструктивтар ыҙ
фформаль тасуирлау
 Синтагматик конструктивтар ыңҙ
сстатистик анализы
Ә әбиәтҙ
Материал лекции представлен в
книге:
Ю.Н.Филиппович, А.В.Прохоров.
Семантика
информационных
технологий:
опыты словарно-тезаурусного
описания. /
Серия «Компьютерная лингвистика».
Вступ. Статья А.И.Новикова.
М.: МГУП, 2002.
— книга в комплекте с CD ROM
— С. 54–64.
Т п синтагмалар ыө ҙ фформаль
тасуирлау
Конструктив тәбиғи тел берәмектәре :
текстар корпусы, текст, контекст, фразанан тыш бер әмлек , һөйләм,ҙ
һү бәйләнеш, һү , морфема, квази-морфема, ижек, алфавит символыҙ ҙ
(хәреф).
Синтагма — а ы кимәл тел берәмектәренең (символдар ың) ирекһеҫҡ ҙ ҙ
те мәһе .Һәр ө кө кимәл синтагмаһы ү эсенә а ы кимәлҙ ҫ ҙ ҫҡ
синтагмаларын ала.
 
төп :
символ, һү , һөйләм, текстҙ
яһалма :
морфема, квази-морфема, ижек,
һү бәйләнеш, , фразанан тышҙ
бер әмлек , контекст һәм текстарҙ
корпусы
Төп синтагмалар ы айырыу ың ма сатыҙ ҙ ҡ
1. Тексты формаль телдәр теорияһы ниге ендә тасуирлау.ҙ
2. Текстың тәү анализының эштәр комплексын айырып билдәләү.
Ә әбиәтҙ
Филиппович Ю.Н., Родионов Е.В., Черкасова Г.А.
Языковые средства диалога человека с ЭВМ.
Практическое пособие /
Серия «Организация взаимодействия человека с
техническими средствами АСУ». В 7 кн. Кн.2.
Под ред. Четверикова В.Н.
М.: Высш. шк., 1990. – 159 с.
ТЕКСТЫҢ СИНТАГМАТИК СТРУКТУРАҺЫ
ТЕКСТЫҢ СИНТАГМАТИК СТРУКТУРАҺЫ
— төп һәм яһалма синтагмалар ниге ендә тө өлгән синтагматикҙ ҙ
конструктивтар комплексы.
Төп синтагматик конструктивтар:
 текстар,
 һү йыйлмаларыҙ (өлөшләтә һәм тулы, тура һәм кире,
йышлы лы) — тәртипкә һалынған синтагмалар те мәһеҡ ҙ
 Һү эйәркестәрҙ —тәртипкә һалынған түбәнге кимәл синтагмалар
те мәһенең ө кө кимәлсинтагмалары буйлап, йә билдәле берҙ ҫ
тупланған берәмекбуйлап эйәртеүсе индекстар.
ТӨП СИНТАГМАЛАР (1)
 SDlLrR ABABABABABABAB =
},...,{ ЯАABR =},...,{ яаABr = },...,{ ZAABL = },...,{ zaABl =
}9,...,0{=DAB
@}~,_,*,,^,,,,/,,$,%,&,{# =><=SAB
Предмет өлкәһенең тәбиғи тел тасуирламаһы
алфавиты булып AB күплеге торһа:
ABх
— хәзерге тәби и тел алфавиттарыҙ (я ма,ба маҙ ҫ
хәрефтәре менән айырыла )
,
,
бында:
ABD —цифр ар күплегеҙ
ABS — һү хәрефтәре сифатында хе мәт иткән айырымҙ ҙ
символдар.
ТӨП СИНТАГМАЛАР (2)
Һү ең стоп-тамғаһыҙҙ — текста һү әр е бер-береһенән айырырғаҙҙ ҙ
мөмкинлек биреүсе тамғалар күплеге элементы. W һү енең стоп –ҙ
тамғаһы stW стоптамғалар күплегенең трнзитив йөпләүсеһе
булып тора:
+
∈ WW STst 
∞
=
+
=
1n
n
WW STST, где











































><><><
><
><
><
><
><><
><><
><><
><><
><><><
=
файлаконецсимволнультабуляция
кареткивозврат
строкуследнаперевоход
знакьныйвопросител
знакльныйвосклицате
скобкаквправаяскобкаквлевая
скобкакрправаяскобкакрлевая
кавычкадефисминустире
запятойсточказапятая
двоеточиеточкапробел
W
ST
_,_,
,_
,___
,_
,_
,__,__
,__,__
,,//
,__,
,,,
ТӨП СИНТАГМАЛАР (3)
Предметлы даирәне (ПО) тәбиғи тел тасуирламаһында
һүҙ тип АВ күплегенең транзитив йөпләүсе
элементтың һәм стоп тамғаның конкатенацияһын
(йәғни ике һәм унан күберәк тамғалар ың билдәле берҙ
тәртиптә эйәреп килеүе) атайбы .ҙ
)( ++
×=∈ WSTABWw
ТӨП СИНТАГМАЛАР (4)
.
Һөйләмде STS һөйләмдең стоп-тамғаһы һәм һү әр ең транзитивҙҙ ҙ
йөпләүсе элементының.улар ы айырыусылар ың конкатенацияһыҙ ҙ
итеп арайбыҡ ҙ:
;)(
1

∞
=
+++
×=
n
n
WSTABW;++
×= SSTWS














><
><><><
><><
=⊂
абзацаконец
файлаконецсимволнульзнакьныйвопросител
знакльныйвосклицатеточка
S
ST
W
ST
S
ST
_
,_,_,_
,_,
;
2
}____{_ >><<>=< кореткивозвратстрокуследнапереходабзацаконец
ТӨП СИНТАГМАЛАР (5)
Тексты ,һөйләм һыма у стоп-тамға ның һәмҡ ҡ һү әр еңҙҙ ҙ
транзитив йөпләүсе элементының.улар ы айырыусылар ыңҙ ҙ
конкатенацияһы итеп арайбы .ҡ ҙ

∞
=
+++
×=
1
)(
n
n
WSTABW;)_( ><×= +
файлаконецWT
ГРАММАТИКАНЫ ТЫУ ЫРЫУСЫ ТӘБИҒИҘ
ТЕЛ ПОРМ ТАСУИРЛАМАҺЫ (1)
GT –текст тыу ырыусы грамматикаҙ
GS – һөйләм тыу ырыусы грамматикаҙ
GW – һү тыу ырыусы грамматикаҙ ҙ
N – йөпләүсе символдар күплеге
T = AB ∪ STW – – йөпләүсе символдар күплеге ю.
S – баштағы йөпләмәүсе символ.
EOF = <файл а ағы>ҙ
EOL = (<икенсе _ һы ы а_күсеү> <кареткны_киреҙ ҡҡ
айтарыу >)ҡ
ГРАММАТИКАНЫ ТЫУ ЫРЫУСЫ ТӘБИҒИҘ
ТЕЛ ПОРМ ТАСУИРЛАМАҺЫ (2)
ТЕКСТ ТЫУ ЫРЫУСЫ ГРАММАТИКАНЫҢҘ
ТАСУИРЛАМАҺЫ
GT = (N, T, P, S0)
N = { S0,S1,S2,S3,S4}
T = AB ∪ STW
P = { S0 → S1 EOF | EOF,
S1 → S2 S1 | S2,
S2 → S3 S4 | S3 | S4,
S3 → w S3 | w w ∈AB ∈ T
S4 → s S4 | s s ∈ (STW  EOF) ∈ T
ГРАММАТИКАНЫ ТЫУ ЫРЫУСЫ ТӘБИҒИ ТЕЛҘ
ПОРМ ТАСУИРЛАМАҺЫ (3)
ҺӨЙЛӘМ ТЫУ ЫРЫУСЫ ГРАММАТИКАНЫҢҘ
ТАСУИРЛАМАҺЫ
GS = (N, T, P, S0)
N = { S0,S1,S2,S3,S4}
T = AB ∪ STW
P = { S0 → S1 е | е , е ∈ STS ∈ T
S1 → S2 S1 | S2,
S2 → S3 S4 | S3 | S4,
S3 → w S3 | w w ∈AB ∈ T
S4 → s S4 | s s ∈ (STW  STS) ∈
T
ГРАММАТИКАНЫ ТЫУ ЫРЫУСЫ ТӘБИҒИҘ
ТЕЛ ПОРМ ТАСУИРЛАМАҺЫ (4)
ҺҮ ТЫУ ЫРЫУСЫ ГРАММАТИКАНЫҢҘ Ҙ
ТАСУИРЛАМАҺЫ.
GW = (N, T, P, S0)
N = { S0,S1,S2,S3 }
T = AB ∪ STW
P = { S0 → S1 е | е , е ∈ STW ∈ T
S1 → S2 S1 | S2
S2 → w S3 | w w ∈AB ∈ T
S3 → s S3 | s s ∈ (STW  EOF) ∈ T
}
ЯҺАЛМА СИНТАГМАЛАР Ы ҺӘМҘ
СИНТАГМАТИК КОНСТРУКТИВТАР ЫҘ
ФОРМАЛЬ ТАСУИРЛАУ
Генераль тулайымлыҡ = ПОРМ тәбиғи тел тасуирламаһы
текстар корпусы

Э ләнеү объекттарыҙ — текстар корпусы ның элеменнттары булып
торған айырым синтагмалар.

Төп ылы һырламаларҡ ҡ — синтагмалар ың текстар корпусындаҙ
һәм уның өлөштәрендә абсолют осрау йышлығы.
ЯҺАЛМА СИНТАГМАЛАР (1)
Текстар корпусы G — ул ПОРМ тәбиғи тел тасуирламаһы
текстары күмәклеге :
G = { T1, T2, ..., TN }, бында N – корпустағы текстар нисбәте , Ti –
i-се текст.
Һү бәйләнешҙ wk
— GT. – нан сығарыла, ул k-һү ән тора,ҙҙ
улар ың араһындағы стоп- тамалар булмай:ҙ
wk
= w1w2w3..wk. Ниндәй ә булһа айырым һү w = wҙ ҙ 1
.
Һәр wk
аңлатмаһына GT и конкрет текста уның осрау йышлығын
күрһәткән һан уябы һәм килеп сыға F: wҡ ҙ k
⇒ E, бында E – теүәл
һандар күплеге.
Йышлы функцияһыҡ — F = N(wk
, T), бында :
T – конкрет текст, wk
– һү бәйләнеш.ҙ
Йышлы функцияһының ү енсәлектәреҡ ҙ :
N(wk
,T)>0, әгәр wk
∈ T, һәм N(wk
,T)=0, әгәр wk
∉T.
Бынан w = w1
килеп сыға N(w,T) = N(w1
,T).
ЯҺАЛМА СИНТАГМАЛАР (2)
Т3 тексы стоп-тамғапары аппып ташланған T1 тексы менән T2
тексының ушылдығы булып тора.ҡ
T3 – GT. –нан сығарылған текст булып тора.
И батлауҫ
1. Әгәр GT –нан сығарылған T1 һәм T2, бар икән, S0. аксиомаһынан
сығарылған T1 һәм T2 бар.
2. T1 и Т2 –GT сикле алфавитының йөпләүсе эйәрсен символдары ,
3. Ә грамматика ү е теләһә ниндәй о онло та эйәрсендәр йыяҙ ҙ ҡ
ала.
4. Тимәк, T1 бөтә символдарын сығарғандан һуң , ө тәмә рәүештәҫ
бөтә T2. символдарын сығарырға мөмкин.
5. Шулай итеп T3 GT.-нан сығарылған текст.
Я абы : Tҙ ҙ 3 = T1 + T2, T1+T2 ≠ T2+T1.
ЯҺАЛМА СИНТАГМАЛАР (3)
Контекст С(T) — T тексының ө лөкһө фрагменты , йәғни GT-нанҙ ҙ
сығарылған фрагмент
Контекстың ү енсәлектәре:ҙ
N(wk
, T1) + N (wk
, T2) = N(wk
, T1+T2)
N(wk
, C(T)) ≤ N(wk
, T)
T = C1(T)+...+Cq(T), где Сi(T)∩ Cj(T)=∅, i,j (i≠j) ∈[0,q]
Σ N(wk
,Сi(T)) ≤ N(wk
, T), где Сi(T)∩ Cj(T)=∅
Аңғартма:
• N(wk
, T1) + N (wk
, T2) ≤ N(wk
, T1+T2),
• Текстар һөйләмдаең стоп- тамғалары менән тамамлана.
• T1 һәм T2 сиктәрендә wk
һү бәйләнеше мөмкин түгел.ҙ
• Былай и әпләйбеҫ ҙ N(wk, T1) + N (wk, T2) = N(wk, T1+T2).
ЯҺАЛМА СИНТАГМАЛАР (4)
,
Йышлы лы һү йыйлмаларыҡ ҙ — текстағы һү әр ең ( йәкиҙҙ ҙ
һү бәйләнештәр) тәртипкә һалынған күмәклеге һәм улар ыңҙ ҙ
йышлы функцияларының аңлатмаларыҡ
S(T) = ( <wk, N(wk,T)>).
Һү йыйылмалары ө төндә эшҙ ҫ
Һү йыйылмаларын берләштереүҙ . S(T1) һәм S(T2) һүҙ
йыйылмаларын берләштереү тип S(T1+T2) һү йыйылмаһынҙ
әйтәбе . Берләштерелгән һү йыйылмаһына ү әренең йышлыҙ ҙ ҙҙ ҡ
функциялары менән ике текстың барлы һү әреҡ ҙҙ һәм
һү бәйләнештәре инә.Бер иш һү әр йәки һү бәйләнештәр өсөнҙ ҙҙ ҙ
ушма йышлы лы функция тө өлә.ҡ ҡ ҙ
Һү йыйылмаларын тар атыу.ҙ ҡ S(T1)-S(T2) һү йыйылмаларынҙ
тар атыу типҡ S(T*) һү йыйылмаһын әйтәбе .Ундаҙ ҙ T1-ән
N(wk,T1) > N(wk,T2) тиге ләмә даирәһенә ингән һү әр һәмҙ ҙҙ
һү бәйләнештәр генә инә. T*-ны S(T*) һҙ ү йыйылмаһынҙ
тө өүгә ниге була алғанҙ ҙ бер гипотетик текст тип алабы .ҙ
ЯҺАЛМА СИНТАГМАЛАР (5)
Синтагматик структураның сикләү әре:ҙ
• Һү әр ә дефисты айырып булмау,ҙҙ ҙ
• Тик һү әр е һәм һөйләмдәр е генә таный алыу,ҙҙ ҙ ҙ
• Ө тәлмә структуралар ы танымау (тырна лы я ыу ар,тураҫ ҙ ҡ ҙ ҙ
телмәр ,баш а формаль-синтаксик конструкциялллллллар).ҡ
Яралтыусы синтагматик структура

Таныусы модель = «тапшырыусы программа-транслятор»

Тәбиғи тел ПОРМ тасуирламаһы синтагматик кодын тыу ырыусыҙ

синтагматик конструктивтар комплексы:
Һү йыйылмалары,һү гәйүнәлтеүселәр е,һү бәйләнештәр те мәһе,ҙ ҙ ҙ ҙ ҙ
контекстар, индекстар һ.б.
ЯҺАЛМА СИНТАГМАЛАР 6)
ТЕКСТЫҢ СИНТАГМАТИК МОДЕЛЫ
— ул тексты уның формаль-тел теоретик-күмәклекле
тасуирламаһы ниге ендә тексты ү гәртеү юлы менәнҙ ҙ
табылған төп синтагматик конструктивтар күплеге
рәүешендә кү аллана.ҙ
.
( )GStgKKG
STG
i
STG
i
STG
=⇒ :где,}{
СИНТАГМАТИК КОНСТРУКТИВТАР ЫҢҘ
СТАТИСТИК АНАЛИЗЫ
Текстың йышлы лы анализыҡ
— текстың параметрик профилен яһау.
Йышлы лы анализдың бурыстарыҡ
• Текстар өсөн «Дәрәжә-йышлы » моделында һү әр ең бүленешҡ ҙҙ ҙ
параметр арын и әпләп сығарыу.ҙ ҫ
• Текста өсөн һү әр ең һәм парлы һү бәйләнештәр ең йышлыҙҙ ҙ ҙ ҙ ҡ
функцияларын тө өү:ҙ N(wij, Tj), N(wij
2
, Tj)}, где wij,wij
2
∈Tj, j =1,N.
• Йышлы лы һү йыйылмалары тө өү.ҡ ҙ ҙ
{ S(Tj) }, бында j=1,N.
• һү йыйылмалары элементтарының дөйөм һанын и әпләп сығарыу.ҙ ҫ
∑=
=
jR
i
jijj TwNN
0
),( , бында Rj –һү йыйылмаларыҙ
элементтарының һаны S(Tj).
• Генераль күмәклек өсөн «Дәрәжә-йышлы » моделында һү әр еңҡ ҙҙ ҙ
бүленеш параметр арын и әпләп сығарыу.ҙ ҫ
• Генераль күмәклек өсөн Мандельброт законы параметр арын табыу.ҙ
ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (1)
Текстың динамик анализы
— ∆t. ва ыт арауығында асы ланған тәбиғи тел ПОРМҡ ҡ
тасуирламаһы структураһында нисбәт
ылы һырламаларының ү гәреш заңын табыу.ҡ ҡ ҙ
Динамик анализдың бурыстары:
• Текст структураһын асы лау ;ҡ
• Һү йыйылмалары структураһын асы лау,ҙ ҡ
• Һү йыйылмалары йөкмәткеһен асы лау,ҙ ҡ
• Һү йыйылмаларының тулыланыуын асы лау,ҙ ҡ
Динамик анализдың төп идеяһы
Йышлы арауы тарының ү гәреш ылы һырламаларынҡ ҡ ҙ ҡ ҡ
кү әтеү.ҙ
ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (2)
Йышлыҡ F1 F2 F 3 F 4 .... F N
1
1 - р1
р2 - р3
...
рk - рk+1
> рk+1
Бөтәһе :
Дөйөм алғанда ошондай таблица килеп сыға:
Бында: [Pk,Pk+1] – йышлы арауы тарының сиктәре.ҡ ҡ
∑=
=
j
k
kj TF
1
–кү әтеү а тындағы текстар йәки һү йыйылмалары.ҙ ҫ ҙ
ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (3)
Һү йыйылмаларының структураһыҙ
билдәле бер ва ыт арауығында текстар а йышлыҡ ҙ ҡ
группаларының күләменең сағыштырмаса ү гәреүен күрһәтә.ҙ
,
),(
),,,(
),,(
1 1
1
21
21
∑∑
∑
= =
=
=
N
j
M
i
jij
R
i
j
t
TwN
pptiP
pptφ Бында
( )


 ≤≤=
=
0
,),(
),,,(
bcaеслиFwNc
batiP tit
Бында: Mj – Tj, тексындағы һү әр һаныҙҙ
Rt –Ft тексындағы һү әр һаныҙҙ
ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (4)
Һө өмтәләр таблицаға тултырыла :ҙ
Йышлыҡ F 1
F2
F 3
F 4
.... F N
1 ϕ(1,0,1) ϕ(N,0,1)
1- р1 ϕ(1,1,р1
) ϕ(N,1,р1
)
р2
- р3 ϕ(2,р2
,р3
)
...
рk
- рk+1
> рk+1
Бөтәһе: ϕ(1,0,∞) ϕ(1,0,∞) 1
«Бөтәһе» юлына үр ә торған бағана суммаһы я ыла , йәғниҙ ҙ
ϕ(1,0,∞). Күренеүенсә ϕ(N,0,∞) = 1
ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (5)
Һү йыйылмаларының структураһыҙ
билдәле бер ва ыт арауығында йышлы группаларыныңҡ ҡ
күләменең сағыштырмаса ү гәреүен күрһәтә.ҙ
,
),,,(
),,( 1
21
21
N
R
i
R
pptiP
ppt
t
∑=
=φ Бында
( )


 ≤≤
=
0
),(,1
),,,(
bFwNaесли
batiP tit
ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (6)
Һү йыйылмаларының йөкмәтке динамикаһыҙ
билдәле бер ва ыт арауығында йышлы группаларының күләмҡ ҡ
сағыштырмаһын күрһәтә .
Бында
Бында : Rt – Ft. . һү йыйылмаһындағы һү әр һаны.ҙ ҙҙ
,
),0,,(
),,,(
),,(
1
1
21
21
∑
∑
=
=
∞
=
t
t
R
i
R
i
itP
pptiP
pptφ
( )


 ≤≤
=
0
),(,1
),,,(
bFwNaесли
batiP tit
ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (7)
Һө өмтәләр таблицаға тултырыла :ҙ
Йышлыҡ F1 F2 F 3 F 4 .... F N
1 ϕ(1,0,1) ϕ(N,0,1)
1 - р1 ϕ(1,1,р1) ϕ(N,1,р1)
р2 - р3 ϕ(2,р2,р3)
...
рk - рk+1
> рk+1
Бөтәһе: 1 1 1 1 1 1
ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (8)
Һү йыйылмаларының тулыланыу динамикаһыҙ
билдәле бер ва ыт арауығында йышлы группаларына яңыҡ ҡ
һү әр «үрсем биреүе» менән ылы һырлана.ҙҙ ҡ ҡ
где
Бында: RN – FN. һү йыйылмаһындағы һү әр һаны.ҙ ҙҙ
Rt – Ft. һү йыйылмаһындағы һү әр һаныҙ ҙҙ
,
),,,(
),,,(
),,(
1
21
1
21
21
∑
∑
=
=
= N
t
R
i
R
i
ppiNP
pptiP
pptφ
( )


 ≤≤≤≤
=
0
))((&),(,1
),,,( , bFwNabFwNaесли
batiP NiNtit
ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (9)
Һө өмтәләр таблицаға тултырыла :ҙ
Йышлыҡ F 1 F2 F 3 F 4 .... F N
1 ϕ(1, 0, 1) 1
1 - р1 ϕ(1, 1, р1) 1
р2 - р3 ϕ(2, р2, р3) 1
... 1
рk - рk+1 1
> рk+1 1
Бөтәһе: ϕ(1, 0, ∞) ϕ(1, 0, ∞) 1
Ү ЕҢДЕ – Ү ЕҢ ТИКШЕРЕҮ ӨСӨНҘ Ҙ
ҺОРАУ АРҘ
 Текстың синтагматик моделы нимә ул?
 Төп синтагмалар ың формаль тасуирламаларын биреге .ҙ ҙ
 Яһалма синтагмалар ың формаль тасуирламаларынҙ
биреге .ҙ
 Ми алға синтагматик конструктивтар килтереге .ҫ ҙ
 Синтагма и синтагматик конструктивр ы статистикҙ
анализының төп этаптарын һанап сығығы .ҙ

More Related Content

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
Christy Abraham Joy
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
Vit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
MindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

лекция 6 тема 1

  • 1. 1-се тема Т БИ И ТЕЛ ТАМ АЛАРӘ Ғ Ғ СИСТЕМА ЫҺ ТЕМАНЫҢ ТӨП ӨЛӨШТӨРЕ 1.1. Белем биреү е ойоштороу ың моделдары и методтарыҙ ҙ —1-се-2-се лекциялар . 1.2. ТӘБИҒИ ТЕЛ системаларының нисбәт спецификацияһы — 3-сө-4-се, 8-се лекциялар . 1.3. Белем э тәү ең логик-статистик методтары —ҫ ҙ 5-се-7-се лекциялар . Ү АЛЛЫ ӨЙРӘНЕЛӘСӘК ТЕМАЛАР ЫҢ ФАКУЛЬТАТИВҘ Ҙ ӨЛӨШТӘРЕ 1.4. Тезаурус һү лек тө өү ең автоматлаштырылғанҙ ҙ ҙ технологияһы . 1.5. Телдең тәбиғи байлығын өйрәнеү ми алы.ҫ
  • 2. 6-сы лекция ТЕКСТЫҢ СИНТАГМАТИК МОДЕЛЫ  Төп синтагмалар ыҙ фформаль тасуирлау  Яһалма синтагмалар ы һәмҙ синтагматик конструктивтар ыҙ фформаль тасуирлау  Синтагматик конструктивтар ыңҙ сстатистик анализы
  • 3. Ә әбиәтҙ Материал лекции представлен в книге: Ю.Н.Филиппович, А.В.Прохоров. Семантика информационных технологий: опыты словарно-тезаурусного описания. / Серия «Компьютерная лингвистика». Вступ. Статья А.И.Новикова. М.: МГУП, 2002. — книга в комплекте с CD ROM — С. 54–64.
  • 4. Т п синтагмалар ыө ҙ фформаль тасуирлау Конструктив тәбиғи тел берәмектәре : текстар корпусы, текст, контекст, фразанан тыш бер әмлек , һөйләм,ҙ һү бәйләнеш, һү , морфема, квази-морфема, ижек, алфавит символыҙ ҙ (хәреф). Синтагма — а ы кимәл тел берәмектәренең (символдар ың) ирекһеҫҡ ҙ ҙ те мәһе .Һәр ө кө кимәл синтагмаһы ү эсенә а ы кимәлҙ ҫ ҙ ҫҡ синтагмаларын ала.   төп : символ, һү , һөйләм, текстҙ яһалма : морфема, квази-морфема, ижек, һү бәйләнеш, , фразанан тышҙ бер әмлек , контекст һәм текстарҙ корпусы Төп синтагмалар ы айырыу ың ма сатыҙ ҙ ҡ 1. Тексты формаль телдәр теорияһы ниге ендә тасуирлау.ҙ 2. Текстың тәү анализының эштәр комплексын айырып билдәләү.
  • 5. Ә әбиәтҙ Филиппович Ю.Н., Родионов Е.В., Черкасова Г.А. Языковые средства диалога человека с ЭВМ. Практическое пособие / Серия «Организация взаимодействия человека с техническими средствами АСУ». В 7 кн. Кн.2. Под ред. Четверикова В.Н. М.: Высш. шк., 1990. – 159 с.
  • 6. ТЕКСТЫҢ СИНТАГМАТИК СТРУКТУРАҺЫ ТЕКСТЫҢ СИНТАГМАТИК СТРУКТУРАҺЫ — төп һәм яһалма синтагмалар ниге ендә тө өлгән синтагматикҙ ҙ конструктивтар комплексы. Төп синтагматик конструктивтар:  текстар,  һү йыйлмаларыҙ (өлөшләтә һәм тулы, тура һәм кире, йышлы лы) — тәртипкә һалынған синтагмалар те мәһеҡ ҙ  Һү эйәркестәрҙ —тәртипкә һалынған түбәнге кимәл синтагмалар те мәһенең ө кө кимәлсинтагмалары буйлап, йә билдәле берҙ ҫ тупланған берәмекбуйлап эйәртеүсе индекстар.
  • 7. ТӨП СИНТАГМАЛАР (1)  SDlLrR ABABABABABABAB = },...,{ ЯАABR =},...,{ яаABr = },...,{ ZAABL = },...,{ zaABl = }9,...,0{=DAB @}~,_,*,,^,,,,/,,$,%,&,{# =><=SAB Предмет өлкәһенең тәбиғи тел тасуирламаһы алфавиты булып AB күплеге торһа: ABх — хәзерге тәби и тел алфавиттарыҙ (я ма,ба маҙ ҫ хәрефтәре менән айырыла ) , , бында: ABD —цифр ар күплегеҙ ABS — һү хәрефтәре сифатында хе мәт иткән айырымҙ ҙ символдар.
  • 8. ТӨП СИНТАГМАЛАР (2) Һү ең стоп-тамғаһыҙҙ — текста һү әр е бер-береһенән айырырғаҙҙ ҙ мөмкинлек биреүсе тамғалар күплеге элементы. W һү енең стоп –ҙ тамғаһы stW стоптамғалар күплегенең трнзитив йөпләүсеһе булып тора: + ∈ WW STst  ∞ = + = 1n n WW STST, где                                            ><><>< >< >< >< >< ><>< ><>< ><>< ><>< ><><>< = файлаконецсимволнультабуляция кареткивозврат строкуследнаперевоход знакьныйвопросител знакльныйвосклицате скобкаквправаяскобкаквлевая скобкакрправаяскобкакрлевая кавычкадефисминустире запятойсточказапятая двоеточиеточкапробел W ST _,_, ,_ ,___ ,_ ,_ ,__,__ ,__,__ ,,// ,__, ,,,
  • 9. ТӨП СИНТАГМАЛАР (3) Предметлы даирәне (ПО) тәбиғи тел тасуирламаһында һүҙ тип АВ күплегенең транзитив йөпләүсе элементтың һәм стоп тамғаның конкатенацияһын (йәғни ике һәм унан күберәк тамғалар ың билдәле берҙ тәртиптә эйәреп килеүе) атайбы .ҙ )( ++ ×=∈ WSTABWw
  • 10. ТӨП СИНТАГМАЛАР (4) . Һөйләмде STS һөйләмдең стоп-тамғаһы һәм һү әр ең транзитивҙҙ ҙ йөпләүсе элементының.улар ы айырыусылар ың конкатенацияһыҙ ҙ итеп арайбыҡ ҙ: ;)( 1  ∞ = +++ ×= n n WSTABW;++ ×= SSTWS               >< ><><>< ><>< =⊂ абзацаконец файлаконецсимволнульзнакьныйвопросител знакльныйвосклицатеточка S ST W ST S ST _ ,_,_,_ ,_, ; 2 }____{_ >><<>=< кореткивозвратстрокуследнапереходабзацаконец
  • 11. ТӨП СИНТАГМАЛАР (5) Тексты ,һөйләм һыма у стоп-тамға ның һәмҡ ҡ һү әр еңҙҙ ҙ транзитив йөпләүсе элементының.улар ы айырыусылар ыңҙ ҙ конкатенацияһы итеп арайбы .ҡ ҙ  ∞ = +++ ×= 1 )( n n WSTABW;)_( ><×= + файлаконецWT
  • 12. ГРАММАТИКАНЫ ТЫУ ЫРЫУСЫ ТӘБИҒИҘ ТЕЛ ПОРМ ТАСУИРЛАМАҺЫ (1) GT –текст тыу ырыусы грамматикаҙ GS – һөйләм тыу ырыусы грамматикаҙ GW – һү тыу ырыусы грамматикаҙ ҙ N – йөпләүсе символдар күплеге T = AB ∪ STW – – йөпләүсе символдар күплеге ю. S – баштағы йөпләмәүсе символ. EOF = <файл а ағы>ҙ EOL = (<икенсе _ һы ы а_күсеү> <кареткны_киреҙ ҡҡ айтарыу >)ҡ
  • 13. ГРАММАТИКАНЫ ТЫУ ЫРЫУСЫ ТӘБИҒИҘ ТЕЛ ПОРМ ТАСУИРЛАМАҺЫ (2) ТЕКСТ ТЫУ ЫРЫУСЫ ГРАММАТИКАНЫҢҘ ТАСУИРЛАМАҺЫ GT = (N, T, P, S0) N = { S0,S1,S2,S3,S4} T = AB ∪ STW P = { S0 → S1 EOF | EOF, S1 → S2 S1 | S2, S2 → S3 S4 | S3 | S4, S3 → w S3 | w w ∈AB ∈ T S4 → s S4 | s s ∈ (STW EOF) ∈ T
  • 14. ГРАММАТИКАНЫ ТЫУ ЫРЫУСЫ ТӘБИҒИ ТЕЛҘ ПОРМ ТАСУИРЛАМАҺЫ (3) ҺӨЙЛӘМ ТЫУ ЫРЫУСЫ ГРАММАТИКАНЫҢҘ ТАСУИРЛАМАҺЫ GS = (N, T, P, S0) N = { S0,S1,S2,S3,S4} T = AB ∪ STW P = { S0 → S1 е | е , е ∈ STS ∈ T S1 → S2 S1 | S2, S2 → S3 S4 | S3 | S4, S3 → w S3 | w w ∈AB ∈ T S4 → s S4 | s s ∈ (STW STS) ∈ T
  • 15. ГРАММАТИКАНЫ ТЫУ ЫРЫУСЫ ТӘБИҒИҘ ТЕЛ ПОРМ ТАСУИРЛАМАҺЫ (4) ҺҮ ТЫУ ЫРЫУСЫ ГРАММАТИКАНЫҢҘ Ҙ ТАСУИРЛАМАҺЫ. GW = (N, T, P, S0) N = { S0,S1,S2,S3 } T = AB ∪ STW P = { S0 → S1 е | е , е ∈ STW ∈ T S1 → S2 S1 | S2 S2 → w S3 | w w ∈AB ∈ T S3 → s S3 | s s ∈ (STW EOF) ∈ T }
  • 16. ЯҺАЛМА СИНТАГМАЛАР Ы ҺӘМҘ СИНТАГМАТИК КОНСТРУКТИВТАР ЫҘ ФОРМАЛЬ ТАСУИРЛАУ Генераль тулайымлыҡ = ПОРМ тәбиғи тел тасуирламаһы текстар корпусы  Э ләнеү объекттарыҙ — текстар корпусы ның элеменнттары булып торған айырым синтагмалар.  Төп ылы һырламаларҡ ҡ — синтагмалар ың текстар корпусындаҙ һәм уның өлөштәрендә абсолют осрау йышлығы.
  • 17. ЯҺАЛМА СИНТАГМАЛАР (1) Текстар корпусы G — ул ПОРМ тәбиғи тел тасуирламаһы текстары күмәклеге : G = { T1, T2, ..., TN }, бында N – корпустағы текстар нисбәте , Ti – i-се текст. Һү бәйләнешҙ wk — GT. – нан сығарыла, ул k-һү ән тора,ҙҙ улар ың араһындағы стоп- тамалар булмай:ҙ wk = w1w2w3..wk. Ниндәй ә булһа айырым һү w = wҙ ҙ 1 . Һәр wk аңлатмаһына GT и конкрет текста уның осрау йышлығын күрһәткән һан уябы һәм килеп сыға F: wҡ ҙ k ⇒ E, бында E – теүәл һандар күплеге. Йышлы функцияһыҡ — F = N(wk , T), бында : T – конкрет текст, wk – һү бәйләнеш.ҙ Йышлы функцияһының ү енсәлектәреҡ ҙ : N(wk ,T)>0, әгәр wk ∈ T, һәм N(wk ,T)=0, әгәр wk ∉T. Бынан w = w1 килеп сыға N(w,T) = N(w1 ,T).
  • 18. ЯҺАЛМА СИНТАГМАЛАР (2) Т3 тексы стоп-тамғапары аппып ташланған T1 тексы менән T2 тексының ушылдығы булып тора.ҡ T3 – GT. –нан сығарылған текст булып тора. И батлауҫ 1. Әгәр GT –нан сығарылған T1 һәм T2, бар икән, S0. аксиомаһынан сығарылған T1 һәм T2 бар. 2. T1 и Т2 –GT сикле алфавитының йөпләүсе эйәрсен символдары , 3. Ә грамматика ү е теләһә ниндәй о онло та эйәрсендәр йыяҙ ҙ ҡ ала. 4. Тимәк, T1 бөтә символдарын сығарғандан һуң , ө тәмә рәүештәҫ бөтә T2. символдарын сығарырға мөмкин. 5. Шулай итеп T3 GT.-нан сығарылған текст. Я абы : Tҙ ҙ 3 = T1 + T2, T1+T2 ≠ T2+T1.
  • 19. ЯҺАЛМА СИНТАГМАЛАР (3) Контекст С(T) — T тексының ө лөкһө фрагменты , йәғни GT-нанҙ ҙ сығарылған фрагмент Контекстың ү енсәлектәре:ҙ N(wk , T1) + N (wk , T2) = N(wk , T1+T2) N(wk , C(T)) ≤ N(wk , T) T = C1(T)+...+Cq(T), где Сi(T)∩ Cj(T)=∅, i,j (i≠j) ∈[0,q] Σ N(wk ,Сi(T)) ≤ N(wk , T), где Сi(T)∩ Cj(T)=∅ Аңғартма: • N(wk , T1) + N (wk , T2) ≤ N(wk , T1+T2), • Текстар һөйләмдаең стоп- тамғалары менән тамамлана. • T1 һәм T2 сиктәрендә wk һү бәйләнеше мөмкин түгел.ҙ • Былай и әпләйбеҫ ҙ N(wk, T1) + N (wk, T2) = N(wk, T1+T2).
  • 20. ЯҺАЛМА СИНТАГМАЛАР (4) , Йышлы лы һү йыйлмаларыҡ ҙ — текстағы һү әр ең ( йәкиҙҙ ҙ һү бәйләнештәр) тәртипкә һалынған күмәклеге һәм улар ыңҙ ҙ йышлы функцияларының аңлатмаларыҡ S(T) = ( <wk, N(wk,T)>). Һү йыйылмалары ө төндә эшҙ ҫ Һү йыйылмаларын берләштереүҙ . S(T1) һәм S(T2) һүҙ йыйылмаларын берләштереү тип S(T1+T2) һү йыйылмаһынҙ әйтәбе . Берләштерелгән һү йыйылмаһына ү әренең йышлыҙ ҙ ҙҙ ҡ функциялары менән ике текстың барлы һү әреҡ ҙҙ һәм һү бәйләнештәре инә.Бер иш һү әр йәки һү бәйләнештәр өсөнҙ ҙҙ ҙ ушма йышлы лы функция тө өлә.ҡ ҡ ҙ Һү йыйылмаларын тар атыу.ҙ ҡ S(T1)-S(T2) һү йыйылмаларынҙ тар атыу типҡ S(T*) һү йыйылмаһын әйтәбе .Ундаҙ ҙ T1-ән N(wk,T1) > N(wk,T2) тиге ләмә даирәһенә ингән һү әр һәмҙ ҙҙ һү бәйләнештәр генә инә. T*-ны S(T*) һҙ ү йыйылмаһынҙ тө өүгә ниге була алғанҙ ҙ бер гипотетик текст тип алабы .ҙ
  • 21. ЯҺАЛМА СИНТАГМАЛАР (5) Синтагматик структураның сикләү әре:ҙ • Һү әр ә дефисты айырып булмау,ҙҙ ҙ • Тик һү әр е һәм һөйләмдәр е генә таный алыу,ҙҙ ҙ ҙ • Ө тәлмә структуралар ы танымау (тырна лы я ыу ар,тураҫ ҙ ҡ ҙ ҙ телмәр ,баш а формаль-синтаксик конструкциялллллллар).ҡ Яралтыусы синтагматик структура  Таныусы модель = «тапшырыусы программа-транслятор»  Тәбиғи тел ПОРМ тасуирламаһы синтагматик кодын тыу ырыусыҙ  синтагматик конструктивтар комплексы: Һү йыйылмалары,һү гәйүнәлтеүселәр е,һү бәйләнештәр те мәһе,ҙ ҙ ҙ ҙ ҙ контекстар, индекстар һ.б.
  • 22. ЯҺАЛМА СИНТАГМАЛАР 6) ТЕКСТЫҢ СИНТАГМАТИК МОДЕЛЫ — ул тексты уның формаль-тел теоретик-күмәклекле тасуирламаһы ниге ендә тексты ү гәртеү юлы менәнҙ ҙ табылған төп синтагматик конструктивтар күплеге рәүешендә кү аллана.ҙ . ( )GStgKKG STG i STG i STG =⇒ :где,}{
  • 23. СИНТАГМАТИК КОНСТРУКТИВТАР ЫҢҘ СТАТИСТИК АНАЛИЗЫ Текстың йышлы лы анализыҡ — текстың параметрик профилен яһау. Йышлы лы анализдың бурыстарыҡ • Текстар өсөн «Дәрәжә-йышлы » моделында һү әр ең бүленешҡ ҙҙ ҙ параметр арын и әпләп сығарыу.ҙ ҫ • Текста өсөн һү әр ең һәм парлы һү бәйләнештәр ең йышлыҙҙ ҙ ҙ ҙ ҡ функцияларын тө өү:ҙ N(wij, Tj), N(wij 2 , Tj)}, где wij,wij 2 ∈Tj, j =1,N. • Йышлы лы һү йыйылмалары тө өү.ҡ ҙ ҙ { S(Tj) }, бында j=1,N. • һү йыйылмалары элементтарының дөйөм һанын и әпләп сығарыу.ҙ ҫ ∑= = jR i jijj TwNN 0 ),( , бында Rj –һү йыйылмаларыҙ элементтарының һаны S(Tj). • Генераль күмәклек өсөн «Дәрәжә-йышлы » моделында һү әр еңҡ ҙҙ ҙ бүленеш параметр арын и әпләп сығарыу.ҙ ҫ • Генераль күмәклек өсөн Мандельброт законы параметр арын табыу.ҙ
  • 24. ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (1) Текстың динамик анализы — ∆t. ва ыт арауығында асы ланған тәбиғи тел ПОРМҡ ҡ тасуирламаһы структураһында нисбәт ылы һырламаларының ү гәреш заңын табыу.ҡ ҡ ҙ Динамик анализдың бурыстары: • Текст структураһын асы лау ;ҡ • Һү йыйылмалары структураһын асы лау,ҙ ҡ • Һү йыйылмалары йөкмәткеһен асы лау,ҙ ҡ • Һү йыйылмаларының тулыланыуын асы лау,ҙ ҡ Динамик анализдың төп идеяһы Йышлы арауы тарының ү гәреш ылы һырламаларынҡ ҡ ҙ ҡ ҡ кү әтеү.ҙ
  • 25. ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (2) Йышлыҡ F1 F2 F 3 F 4 .... F N 1 1 - р1 р2 - р3 ... рk - рk+1 > рk+1 Бөтәһе : Дөйөм алғанда ошондай таблица килеп сыға: Бында: [Pk,Pk+1] – йышлы арауы тарының сиктәре.ҡ ҡ ∑= = j k kj TF 1 –кү әтеү а тындағы текстар йәки һү йыйылмалары.ҙ ҫ ҙ
  • 26. ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (3) Һү йыйылмаларының структураһыҙ билдәле бер ва ыт арауығында текстар а йышлыҡ ҙ ҡ группаларының күләменең сағыштырмаса ү гәреүен күрһәтә.ҙ , ),( ),,,( ),,( 1 1 1 21 21 ∑∑ ∑ = = = = N j M i jij R i j t TwN pptiP pptφ Бында ( )    ≤≤= = 0 ,),( ),,,( bcaеслиFwNc batiP tit Бында: Mj – Tj, тексындағы һү әр һаныҙҙ Rt –Ft тексындағы һү әр һаныҙҙ
  • 27. ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (4) Һө өмтәләр таблицаға тултырыла :ҙ Йышлыҡ F 1 F2 F 3 F 4 .... F N 1 ϕ(1,0,1) ϕ(N,0,1) 1- р1 ϕ(1,1,р1 ) ϕ(N,1,р1 ) р2 - р3 ϕ(2,р2 ,р3 ) ... рk - рk+1 > рk+1 Бөтәһе: ϕ(1,0,∞) ϕ(1,0,∞) 1 «Бөтәһе» юлына үр ә торған бағана суммаһы я ыла , йәғниҙ ҙ ϕ(1,0,∞). Күренеүенсә ϕ(N,0,∞) = 1
  • 28. ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (5) Һү йыйылмаларының структураһыҙ билдәле бер ва ыт арауығында йышлы группаларыныңҡ ҡ күләменең сағыштырмаса ү гәреүен күрһәтә.ҙ , ),,,( ),,( 1 21 21 N R i R pptiP ppt t ∑= =φ Бында ( )    ≤≤ = 0 ),(,1 ),,,( bFwNaесли batiP tit
  • 29. ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (6) Һү йыйылмаларының йөкмәтке динамикаһыҙ билдәле бер ва ыт арауығында йышлы группаларының күләмҡ ҡ сағыштырмаһын күрһәтә . Бында Бында : Rt – Ft. . һү йыйылмаһындағы һү әр һаны.ҙ ҙҙ , ),0,,( ),,,( ),,( 1 1 21 21 ∑ ∑ = = ∞ = t t R i R i itP pptiP pptφ ( )    ≤≤ = 0 ),(,1 ),,,( bFwNaесли batiP tit
  • 30. ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (7) Һө өмтәләр таблицаға тултырыла :ҙ Йышлыҡ F1 F2 F 3 F 4 .... F N 1 ϕ(1,0,1) ϕ(N,0,1) 1 - р1 ϕ(1,1,р1) ϕ(N,1,р1) р2 - р3 ϕ(2,р2,р3) ... рk - рk+1 > рk+1 Бөтәһе: 1 1 1 1 1 1
  • 31. ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (8) Һү йыйылмаларының тулыланыу динамикаһыҙ билдәле бер ва ыт арауығында йышлы группаларына яңыҡ ҡ һү әр «үрсем биреүе» менән ылы һырлана.ҙҙ ҡ ҡ где Бында: RN – FN. һү йыйылмаһындағы һү әр һаны.ҙ ҙҙ Rt – Ft. һү йыйылмаһындағы һү әр һаныҙ ҙҙ , ),,,( ),,,( ),,( 1 21 1 21 21 ∑ ∑ = = = N t R i R i ppiNP pptiP pptφ ( )    ≤≤≤≤ = 0 ))((&),(,1 ),,,( , bFwNabFwNaесли batiP NiNtit
  • 32. ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (9) Һө өмтәләр таблицаға тултырыла :ҙ Йышлыҡ F 1 F2 F 3 F 4 .... F N 1 ϕ(1, 0, 1) 1 1 - р1 ϕ(1, 1, р1) 1 р2 - р3 ϕ(2, р2, р3) 1 ... 1 рk - рk+1 1 > рk+1 1 Бөтәһе: ϕ(1, 0, ∞) ϕ(1, 0, ∞) 1
  • 33. Ү ЕҢДЕ – Ү ЕҢ ТИКШЕРЕҮ ӨСӨНҘ Ҙ ҺОРАУ АРҘ  Текстың синтагматик моделы нимә ул?  Төп синтагмалар ың формаль тасуирламаларын биреге .ҙ ҙ  Яһалма синтагмалар ың формаль тасуирламаларынҙ биреге .ҙ  Ми алға синтагматик конструктивтар килтереге .ҫ ҙ  Синтагма и синтагматик конструктивр ы статистикҙ анализының төп этаптарын һанап сығығы .ҙ

Editor's Notes

  1. Тема 1 «Естественно-языковые знаковые системы» включает шесть разделов, первые три из которых являются основными. 1.1. Модели и методы представления и организации знаний — лекции 1-2. 1.2. Спецификация ЕЯ систем — лекция 3. 1.3. Логико-статистические методы извлечения знаний — лекции 4–5. Материал этих разделов представлен в лекциях. Е Три других раздела предназначены для самостоятельного изучения, а его материал представлен в рекомендованной литературе. 2.4. Технология автоматизированного построения словаря-тезауруса. 2.5. Пример исследования ЕЯ ресурса.
  2. Четвертая лекция посвящена синтагматической модели текста. В ней рассматриваются три вопроса: Формальное описание основных синтагм. Формальное описание производных синтагм и синтагматических конструктивов. Статистический анализ синтагматических конструктивов.
  3. Материал лекции представлен в книге: Ю.Н.Филиппович, А.В.Прохоров. Семантика информационных технологий: опыты словарно- тезаурусного описания. / Серия «Компьютерная лингвистика». Вступ. Статья Анатолия Ивановича Новикова. М.: МГУП, 2002.— книга в комплекте с CD ROM — С. 46–54.
  4. Для построения алгоритмов и программ, выполняющих статистический анализ, необходимо задать правила работы с ЕЯ единицами различных уровней. Конструктивными единицами отдельных уровней, непосредственно связанных с анализом естественно-языковых текстов, являются: корпус текстов, текст, контекст, сверхфразовое единство, предложение, словосочетание, слово, морфема, квази-морфема, слог, символ алфавита (буква). Анализ текста может осуществляться как на отдельном языковом уровне, так и на нескольких. Глубина анализа определяется количеством уровней, единицы которых в нем участвуют. Обобщим названные языковые единицы понятием синтагма, под которым в пределах данной работы будем понимать непроизвольную цепочку языковых единиц нижнего уровня (символов). Синтагмы каждого верхнего уровня состоят из синтагм нижних уровней. Выделим основные синтагмы наших построений: символ, слово, предложение, текст. Производными синтагмами будут являться: морфема, квази-морфема, слог, словосочетание, сверхфразовое единство, контекст и корпус текстов. Подобное деление позволяет: во-первых, построить формальное описание текста на основе теории формальных языков нечувствительно к морфологическим, синтаксическим и семантическим аномалиям ЕЯ представления ПОРМ; во-вторых, осуществлять обработку текстов ЕЯ описания ПОРМ, содержащих произвольный набор символов. Фактически это является выделением в отдельный блок комплекса задач так называемого предварительного анализа текста (структурного анализа, предредактора), являющегося предшественником блоков морфологического, синтаксического, семантического и прагматического анализа.
  5. Более подробно информационные технологии описаны в практических пособиях серии книг под редакцией Четверикова Владимира Николаевича, вышедших в начале 90-х годов [Филиппович, 1990-а].
  6. Статистические методы анализа позволяют выявить синтагматическую структуру текста под которой будем понимать комплекс синтагматических конструктивов, построенных на основе основных и производных синтагм. Основными синтагматическими конструктивами являются: тексты, различные словники (частичные и полные, прямые и обратные, частотные) и словоуказатели. В самом общем случае словник представляет собой упорядоченный список синтагм, а словоуказатель — индекс упорядоченного списка синтагм нижнего уровня по синтагмам верхнего уровня, а также по организационным единицам (том, часть, глава, страница, строка, и т.д.). В качестве примера построим формальные модели для следующих синтагм и синтагматических конструктивов: символа, слова, словосочетания, предложения, контекста, текста, корпуса текстов, частотного словника.
  7. Алфавитом естественно-языкового описания предметной области будем называть множество AB, такое что: , где ABх — алфавиты современных естественных языков (различаются множества прописных и строчных букв), ABD – множество цифр, ABS – множество специальных символов, которые могут выступать в качестве букв слов: , , , , , Стоп-знак слова — элемент множества знаков, которые позволяют отделять в тексте слова друг от друга. Стоп-знак stW слова W является элементом транзитивного замыкания множества стоп-знаков: , где ; Как видно из определения, каждому слову ставится в соответствие некоторая цепочка стоп-знаков.
  8. Словом в ЕЯ описании ПО будем называть конкатенацию элемента транзитивного замыкания множества AB и стоп-знака: . Предложение будем рассматривать как конкатенация элемента транзитивного замыкание слов и их разделителей и стоп-знака предложения STS : , где
  9. Конкатенация Конкатенация - операция соединения нескольких строк символов в одну. Конкатенация — в информатике - объединение двух или более объектов счётного вида с сохранением порядка следования элементов. (Списков, строк, массивов, кортежей). Словом в ЕЯ описании ПО будем называть конкатенацию элемента транзитивного замыкания множества AB и стоп-знака: . Предложение будем рассматривать как конкатенация элемента транзитивного замыкание слов и их разделителей и стоп-знака предложения STS : , где
  10. Словом в ЕЯ описании ПО будем называть конкатенацию элемента транзитивного замыкания множества AB и стоп-знака: . Предложение будем рассматривать как конкатенация элемента транзитивного замыкание слов и их разделителей и стоп-знака предложения STS : , где
  11. Текст определяется аналогично предложению как конкатенация элемента транзитивного замыкания слов и их разделителей и стоп-знака текста: . Определим контекстно-свободные грамматики (КС-грамматика), которые порождает ЕЯ описание ПО. Введем обозначения: GT – грамматика, порождающая текст. GS – грамматика, порождающая предложение. GW – грамматика, порождающая слово. N – множество нетерминальных символов T = AB  STW – множество терминальных символов. S – начальный нетерминальный символ. EOF = &amp;lt;конец_файла&amp;gt; EOL = (&amp;lt;переход_на_след_строку&amp;gt; &amp;lt;возврат_каретки&amp;gt;)2
  12. Определим контекстно-свободные грамматики (КС-грамматика), которые порождает ЕЯ описание ПО. Введем обозначения: GT – грамматика, порождающая текст. GS – грамматика, порождающая предложение. GW – грамматика, порождающая слово. N – множество нетерминальных символов T = AB  STW – множество терминальных символов. S – начальный нетерминальный символ. EOF = &amp;lt;конец_файла&amp;gt; EOL = (&amp;lt;переход_на_след_строку&amp;gt; &amp;lt;возврат_каретки&amp;gt;)2
  13. Описание грамматики, порождающей текст. GT = (N, T, P, S0) N = { S0,S1,S2,S3,S4} T = AB  STW P = {S0  S1 EOF | EOF, S1  S2 S1 | S2, S2  S3 S4 | S3 | S4, S3  w S3 | ww AB  T S4  s S4 | ss  (STW \ EOF)  T }
  14. Описание грамматики, порождающей предложения. GS = (N, T, P, S0) N = { S0,S1,S2,S3,S4} T = AB  STW P = {S0  S1 е | е ,е  STS  T S1  S2 S1 | S2, S2  S3 S4 | S3 | S4, S3  w S3 | ww AB  T S4  s S4 | ss  (STW \ STS)  T }
  15. Описание грамматики, порождающей слова. GW = (N, T, P, S0) N = { S0,S1,S2,S3 } T = AB  STW P = {S0  S1 е | е ,е  STW  T S1  S2 S1 | S2 S2  w S3 | ww AB  T S3  s S3 | ss  (STW \ EOF)  T } Из сравнения грамматик GT и GW следует, что грамматика GT может порождать, в том числе, и отдельные слова, т.е. любое w, выводимое из GW, выводимо также из GT. Иными словами, w T, где Т – текст, w – отдельное слово. Приведенные грамматики основных синтагм позволяют построить алгоритмы их извлечения из ЕЯ описания ПОРМ и вычислить все необходимые количественные атрибуты. Статистические методы обработки ЕЯ-информации будут оперировать с формальными объектами, в частности, со словами и предложениями.
  16. Формальное описание производных синтагм и синтагматических конструктивов Одним из основных понятий статистических методов анализа является понятие генеральной совокупности. В качестве генеральной совокупности будем рассматривать корпус текстов ЕЯ описания ПОРМ, подлежащий исследованию. Объектом исследования являются отдельные синтагмы, являющиеся элементами этого корпуса текстов. Их основной и первичной характеристикой будет являться абсолютная частота встречаемости синтагмы в тексте (или корпусе текстов). Будем различать абсолютные частоты синтагм, как для всего корпуса текстов, так и для отдельных его составляющих. Приведем формальное описание производных синтагм и синтагматических конструктивов: Рассмотрим эти варианты.
  17. Корпус текстов G — это множество текстов ЕЯ описания ПОРМ: G = { T1, T2, ..., TN }, где N – число текстов в корпусе, Ti – i-ый текст. Словосочетанием будем называть wk , которое выводится из GT., состоящее ровно из k-слов, между которыми отсутствуют стоп-знаки предложения или текста (разделители между словами, всегда присутствующие в тексте, будут подразумеваться, но не записываться): wk = w1w2w3..wk Очевидно, что любое отдельное слово w = w1. Поставим в соответствие каждому выражению wk число, характеризующее частоту его встречаемости в конкретном выводе GT (т.е. в конкретном тексте). Таким образом, имеем отображение: F: wk  E, здесь E – множество целых чисел. Это отображение будем называть частотной функцией и будем обозначать: N(wk, T), где T – конкретный текст, а wk – словосочетание. Очевидно, что N(wk,T)&amp;gt;0, если wk  T, и N(wk,T)=0, если wk T. Из w = w1 следует, что N(w,T) = N(w1,T).
  18. Пусть T1 и Т2 – тексты, выводимые из GT. Тогда будем называть суммой текстов T1 и Т2 объект Т3, который будет получаться удалением из текста T1 стоп-знаков текста и обычным присоединением текста T2 к тексту T1. Можно доказать, что T3 – тоже является текстом, выводимым из GT: Если существуют T1 и T2, выводимые из GT, то существует конкретный вывод T1 и T2 из аксиомы S0. Очевидно, что T1 и Т2 – это конечные последовательности символов терминального алфавита GT, а сама грамматика может порождать последовательности любой длины. Следовательно, после вывода всех символов T1 можно осуществить вывод дополнительно всех символов T2. Таким образом, T3 есть текст, также порождаемый GT. Будем записывать: T3 = T1 + T2. Очевидно, что T1+T2T2+T1, т.е. сложение текстов не коммутативно.
  19. Введем понятие контекста С(T). Контекстом в тексте T будем называть непрерывный фрагмент текста T, т.е. фрагмент вывода в GT. Контекст также можно считать текстом и ввести для него аналогичные операции. Свойствами контекста являются: N(wk, T1) + N (wk, T2) = N(wk, T1+T2)[1] N(wk, C(T))  N(wk, T) T = C1(T)+...+Cq(T), где Сi(T) Cj(T)=, i,j (ij) [0,q]  N(wk,Сi(T))  N(wk, T), где Сi(T) Cj(T)= [1] Если строго, то N(wk, T1) + N (wk, T2)  N(wk, T1+T2), но тексты как правило завершаются стоп-знаками предложения, а значит в этом случае возможность формирования словосочетания wk на границе T1 и T2 практически отсутствует. Ввиду малой вероятности такого события будем считать, что N(wk, T1) + N (wk, T2) = N(wk, T1+T2).
  20. Введем понятие частотного словника. Частотным словником текста T будем называть упорядоченную совокупность следующих пар: слов (или словосочетаний) текста и значений их частотной функции. S(T) = ( &amp;lt;wk, N(wk,T)&amp;gt;) Как правило, частотный словник упорядочен по убыванию частотного признака. Частотный словник является основным объектом, который несет информацию о частотных характеристиках изучаемых языковых единицах. Введем операции над словниками: Объединение словников. Объединением словников S(T1) и S(T2) будем называть словник S(T1+T2). В объединенный словник войдут все слова и словосочетания из обоих текстов со своими частотными функциями, а для одинаковых слов (или словосочетаний) строиться суммарная частотная функция. Вычитание словников. Вычитанием словников S(T1)-S(T2) будем называть словник S(T*), в который войдут только те слова (или словосочетания) из T1, для которых N(wk,T1) &amp;gt; N(wk,T2). Под T* понимается гипотетический текст, по которому мог бы быть построен словник S(T*).
  21. Представленный пример является формальным описанием или синтагматической моделью естественно-языкового описания ПОРМ. Данная модель является порождающей. В зависимости от примененных формальных грамматик и теоретико-множественных определений в самом общем случае возможно множество различных синтагматических структур. Вполне понятно, что полученные таким образом синтагматические описания могут отражать ту или иную специфику исследования и обладать некоторыми ограничениями. Так в рассматриваемом примере ограничениями являются: невозможность различения в словах дефиса, фактическое распознавание только двух синтагм (слова и предложения), невозможность распознавания вложенных структур (скобочных записей, прямой речи, других формально-синтаксических конструкций). По каждой порождающей синтагматической структуре возможно построение распознающей модели и реализация ее в виде «программ-трансляторов». Генерирующая часть этих программ формирует синтагматический код естественно-языкового описания ПОРМ в виде комплекса конструктивов — словников и словоуказателей. Приведенный пример позволяет говорить о преобразовании корпуса текстов G в частотный словник слов S(T). Однако, потенциально описанная порождающая модель может использоваться для получения других синтагматических конструктивов: списков словосочетаний, контекстов, различных индексов и т.п.
  22. В общем случае можно сформулировать следующее определение: синтагматической моделью текста является представление его в виде множества основных синтагматических конструктивов, полученных путем преобразования текста на основе его формально-языкового теоретико-множественного описания: На основе синтагматических конструктивов могут быть построены и более сложные модели, форма которых позволяет интерпретировать их как словарно-тезаурусное описание ПОРМ.
  23. Статистический анализ синтагматических конструктивов Частотный. Одной из задач исследования ЕЯ описания ПОРМ является получение параметрического профиля, т.е. совокупности числовых параметров генеральной совокупности. Методика проведения частотного анализа в принципе проработана и отображена в литературе. В задачи частотного анализа входит вычисление параметров распределения слов по частоте в законе Мандельброта, а также получение количественных характеристик частотных словников. Эти параметры определяют структуру текстов, представляющих ЕЯ описания ПОРМ. Построение для текстов Ti генеральной совокупности G = (T1, T2, ..., TN) частотных функций для всех слов и парных словосочетаний. Таким образом, необходимо получить величины: {N(wij, Tj), N(wij2, Tj)}, где wij,wij2 Tj, j =1,N. Построение частотных словников { S(Tj) }, где j=1,N. Вычисление общего числа элементов словника: , где Rj – число элементов в словнике S(Tj). Вычисление математического ожидания и дисперсии в модели «ранг-частота» для генеральной совокупности и ее элементов (текстов). Нахождение параметров закона Мандельброта для генеральной совокупности. В результате исследований должны быть получены в табличной и графической формах функции распределения и частотные словники.
  24. Задача динамического анализа состоит в выявлении закономерностей изменения количественных характеристик структуры ЕЯ описания ПОРМ в течение времени t. В рамках динамического анализа рассматриваются характеристики: структуры текста; структуры, содержания и наполнения словников. Основная идея динамического анализа заключается в наблюдении за характером изменения частотных интервалов.
  25. В общем случае имеет место следующая таблица: ЧастотаF 1F2F 3F 4 ....F N11 - р1р2 - р3...рk - рk+1&amp;gt; рk+1Итого:Здесь [Pk,Pk+1] – границы частотных интервалов, выбранных для наблюдения. В общем случае они могут пересекаться. Fj – тексты или словники, по которым проводится наблюдение. Тогда под Fj, будем понимать следующее: Необходимо отметить, что динамический анализ имеет смысл, если Tk являются ЕЯ представлением, характеризующие ПО в динамике. Так, в качестве Tk могут выступать номера журналов научного или научно-популярного еженедельника.
  26. Динамика структуры текста показывает относительное изменение объемов частотных групп в текстах в течение некоторого интервала времени. Введем следующие обозначения: где Здесь: Mj – число слов в тексте Tj, Rt – число слов в тексте Ft
  27. Результаты могут быть сведены в таблицу: ЧастотаF 1F2F 3F 4 ....F N1(1,0,1)(N,0,1)1 - р1(1,1,р1)(N,1,р1)р2 - р3(2,р2,р3)...рk - рk+1&amp;gt; рk+1Итого:(1,0,)(1,0,)1 В строке «итого», записывается сумма вышестоящего столбца, т.е. (1,0,). Очевидно, что (N,0,) = 1
  28. Динамика структуры словников показывает относительное изменение объемов частотных групп в словниках в течение некоторого интервала времени. Введем следующие. Основное отличие от предыдущей характеристики заключается в том, что рассматриваются слова не в тексте, а в словнике, т.е. количество разных слов в частотных группах. Введем следующие обозначения: где
  29. Динамика содержания словников показывает соотношение объемов частотных групп в течение некоторого интервала времени. Иными словами, дает возможность выявлять закономерности распределения слов по частотным группам. Введем следующие обозначения: где Здесь: Rt – число слов в словнике Ft.
  30. Результаты могут быть сведены в таблицу: ЧастотаF 1F2F 3F 4 ....F N1(1,0,1)(N,0,1)1 - р1(1,1,р1)(N,1,р1)р2 - р3(2,р2,р3)...рk - рk+1&amp;gt; рk+1Итого:111111
  31. Динамика наполнения словников характеризует «прирост» новых слов в частотные группы в течение некоторого временного интервала, т.е. характеристика позволяет оценить объемы, которые добавляются в каждый момент времени. Введем следующие обозначения: где Здесь: RN – число слов в словнике FN. Rt – число слов в словнике Ft.
  32. Результаты могут быть сведены в таблицу: ЧастотаF 1F2F 3F 4 ....F N1(1, 0, 1)11 - р1(1, 1, р1)1р2 - р3(2, р2, р3)1...1рk - рk+11&amp;gt; рk+11Итого:(1, 0, )(1, 0, )1
  33. Для самоконтроля усвоения материала лекции попытайтесь ответить на следующие вопросы: Что такое синтагматическая модель текста? Приведите формальное описание основных синтагм. Приведите формальное описание производных синтагм. Приведите примеры синтагматических конструктивов. Перечислите основные этапы статистического анализа синтагм и синтагматических конструктивов.