лекция 5 тема 1

ТЕМАНЫҢ ТӨП ӨЛӨШТӨРЕ
1.1. Белем биреү е ойоштороу ың моделдары и методтарыҙ ҙ
—1-се-2-се лекциялар .
1.2. ТӘБИҒИ ТЕЛ системаларының нисбәт спецификацияһы
—
3-сө-4-се, 8-се лекциялар .
1.3. Белем э тәү ең логик-статистик методтары —ҫ ҙ
5-се-7-се лекциялар .
Ү АЛЛЫ ӨЙРӘНЕЛӘСӘК ТЕМАЛАР ЫҢ ФАКУЛЬТАТИВҘ Ҙ
ӨЛӨШТӘРЕ
1.4. Тезаурус һү лек тө өү ең автоматлаштырылғанҙ ҙ ҙ
технологияһы .
1.5. Телдең тәбиғи байлығын өйрәнеү ми алы.ҫ
Беренсе тема
Т БИ И ТЕЛ ТАМ АЛАРӘ Ғ Ғ
СИСТЕМА ЫҺ

5-се лекция.
БЕЛЕМ Э ТӘҮ ЕҢ ЛОГИК-СТАТИСТИКҪ Ҙ
ЫСУЛДАРЫ
 Дистрибутив-статистик ысул
 Компонентлы (өлөшләп) анализлау
 Йышлы -мәғнәүи (семантик) ысулҡ

Ә әбиәтҙ
Материал лекции представлен в
книге:
Ю.Н.Филиппович, А.В.Прохоров.
Семантика
информационных
технологий:
опыты словарно-тезаурусного
описания. /
Серия «Компьютерная лингвистика».
Вступ. Статья А.И.Новикова.
М.: МГУП, 2002.
— книга в комплекте с CD ROM
— С. 46–54.

ДИСТРИБУТИВ-СТАТИСТИК ЫСУЛ
төп гипотеза:
Билдәле бер текст арауығында бергә тура килгән
телдең (һү ең) мәғәнәле элементтары бер –береһеҙҙ
менән семантик (мәғнәүи) бәйләнештә тора.

Телдең мәғәнәле элементтарының яңғы һәм бергәҙ
осрауының нисбәт (йышлы ) ылы һырламаһыҡ ҡ ҡ

«бәйләнеш көсө» коэффициенты формулаһы

Телдең мәғәнәле элементтарының семантик
(мәғнәүи) классификацияһы

КОНТЕКСТАР ЫҢ ЙЫШЛЫҘ Ҡ
ЫЛЫ ҺРЛАМАҺЫҠ Ҡ
Контекст Сi(T) — текст ө өгө, синтагмалар ың э мә-э леклелеге (сынйыр).ҙ ҙ ҙ ҙ
T = C1(T)+...+Cq(T), где Сi(T)∩ Cj(T)=∅, i,j (i≠j) ∈[1,q]
Әгәр синтагма телдең мәғәнәле элементы (һү ) булһа :ҙ
NA, fA=NA/N — А һү е генә тап булған контекстар нисбәте һәм йышлығыҙ ;
NB , fB=NB/N — В һү е генә тап булған контекстар нисбәте һәм йышлығыҙ
NAB , fAB=NAB/N — А менән В һү әре бергә тап килеүе кү әтелгән контекстарҙҙ ҙ
нисбәте һәм йышлығы .

«БӘЙЛӘНЕШ КӨСӨ» КОЭФФИЦИЕНТТАР
ФОРМУЛАҺЫ (1)
K f
N
NAB AB
AB
= =
K f f
N N N
NAB AB AB
A B
= + =
− −
f
N N N N
NAB
AB A B
=
− − −
K
N
N N NAB
AB
A B AB
=
+ −
— Т.Танимото (T.T.Tаnimоtо),
Л.Дойл (L.B.Dоуlе).
N
ffN
K BAAB
AB
⋅−
= — М.Мэйрон (M.E.Mаrоn),
Дж.Кунс (J.Kuhns).

ФОРМУЛАҺЫ (2)
K
f N
f fAB
AB
A B
=
⋅
⋅
— А.Я.Шайкевич, Дж.Солтон (G.Sаltоn),
Р.Куртис (R.M.Curtiсе).
K
f N f f
f f N f N f
AB
AB A B
A B A B
=
⋅ − ⋅
⋅ ⋅ − ⋅ −( ) ( )
K
N N N
N N
AB
AB A B
A B
=
− ⋅
⋅
— С.Деннис (S.Dеnnis).
K
f N f f
N
N
f f N f N fAB
AB A B
A B A B
=
⋅ − ⋅ − ⋅
⋅ ⋅ − ⋅ −
log
[( ) ]
( ) ( )10
2
2 — Х.Е. Стайлз (H.E.Stilеs)

ФОРМУЛАҺЫН АНАЛИЗЛАУ (1)
«Бәйләнеш көсө» коэффициенттарының бөтә
формулаларын да осра лы күренеш системаһы булара Аҡ ҡ
һәм В һү әре тап килгән ва иғалар ы арау берләштерә.ҙҙ ҡ ҙ ҡ
Ысул процедураһы түбәндәге фактты ра ларға яр ам итәҫ ҙ :
әгәр A һәм B – рекле ва иға булһа, P(AB)=P(A)P(B).ҡ
«Бәйләнеш көсө» коэффициентының и әп аңлатмаһыҫ
интерпретация (аңлатыу) талап итә.
Контекст дәүмәле ( күрше һү әр нисбәте) түбәндәгеләр еҙҙ ҙ
асы ларға мөмкинлек бирә:ҡ
а) 1–2 һүҙ — һү бәйләнештәр еңҙ ҙ контактлы синтагматик
бәйләнештәрен.
б) 5–10 һүҙ — дистант синтагматик бәйләнештәр һәм
парадигматик мөнәсәбәттәр
в) 50–100 һү — һү әр араһындаҙ ҙҙ тематик бәйләнештәр

ФОРМУЛАҺЫН АНАЛИЗЛАУ (2)
Тел берәмектәренең (һү әр ең) бәйлелек матрицаһыҙҙ ҙ
Йәки ассоциатив матрица
һүҙ ... аi ...
һүҙ йышлыҡ fа
...
bj fb ... fаb ...
...
• тематик бәйләнешле текстар ың ү әген тө өү;ҙ ҙ ҙ
• тезаурусты автоматлаштырып тө өү;ҙ
•Мәғлүмәт э ләү һәм тамғалау;ҙ
• автоматлаштырып текстар ы ү гәртеү.ҙ ҙ
Ысулды улланыу йүнәлештәре:ҡ

ДИСТРИБУТИВ-СТАТИСТИК ЫСУЛ НИГЕ ЕНДӘҘ
ТЕЗАУРУС ЭШЛӘҮ МЕТОДИКАҺЫ
 Йышлы лы һү йыйлмаларын һәм контекстаҡ ҙ
фай аланылған һү әр (конкорданс) е мәһен тө өү.ҙ ҙҙ ҙ ҙ
 Һү әр ең (тел берәмектәренең) тап килеү осрағтарынҙҙ ҙ
анализлау һәм уның ниге ендә ассоциатив бәйләнештәрҙ
матрицаһы тө өү.ҙ
 Ассоциатив бәйләнештәр матрицаһын субъектлы
интерпретациялау һәм бәйләнеш (мөнәсәбәт) кластары
ороу.ҡ
 Айырым мөнәсәбәт типтарын ( енес,зат,каузаль һ.б.)
группалау (айырыу).
 Һү әр ең айырым бәйләнештәрен интерпретациялау.ҙҙ ҙ
 Семантик май андар ы группалау.ҙ ҙ

КОМПОНЕНТЛЫ АНАЛИЗЛАУ
Компонентлы анализлау ысулы ике төшөнсәнең
икәү –ара бәйләнешен , улар ың аңлатмаларынҙ
анализлау ниге ендә табырға яр ам итә.ҙ ҙ
A
төшөсәһе
нең
аңлатмаһы
 A
төшөнсәһе
fAB B
төшөнсәһе

B
төшөнсәһе
нең
Ысулдың төп модификациялары :
• Бәйләнештең нисбәт спецификацияһы .
• Гипертекст һылтанмаһы . Берәй текст йә
һүрәткә ба ып икенсе биткә,файлға сығаһыңҫ .

КОЛИЧЕСТВЕННАЯ СПЕЦИФИКАЦИЯ СВЯЗИ
Два слова А и В считаются связанными силой связи
fаb = k,
если в дефинициях каждого из них есть k общих слов
— множество одинаковых слов,
используемых в дефинициях слов A и B;
}{x
AB
i
— количество одинаковых слов.x
AB
i
k = , где = k >1
Кластеры слов, связанных между собой силой связи
f = k , k = 1, 2, 3, ..., K.

ГИПЕРТЕКСТ ҺЫЛТАНМАҺЫ
Әгәр аңлатмаларында дөйөм һү булһаҙ А һәм В
һү әре бер-береһенә бәйле һанала,ҙҙ
fаb = k =1.
Гиертекст һылтанмаларын улланыу :ҡ
• лексикографик системалар
(электрон һү лектәр һәм энциклопедиялар),ҙ
• электрон текстар,
• мәғлүмәт – белешмә системалары һ.б.
Белем анлизлау ма сатында фай аланыу мөмкинлектәреҡ ҙ
• аңлатмалар системаһын анализлау , йәки аңлатмалар
һү леген ;ҙ
• һү лек мә әләләренең сифатын баһалау ( баш а һү лекҙ ҡ ҡ ҙ
мә әләләре менән бәйләнеш нисбәте буйынса, те мәҡ ҙ
ст арап );ҡ
• аңлатмалар һү легендә эксцерпциялар ы тикшереү;ҙ ҙ
• текстар һү леген анализлау;ҙ
• Яр амсы системалар ы (hеlр-систем) тикшереү.ҙ ҙ

ЙЫШЛЫ ЛЫ-СЕМАНТИК (МӘҒНӘҮИ)Ҡ
ЫСУЛ
Йышлы лы-семантик ысулда «бәйләнеш көсөн»ҡ
баһалау критерийы сифатында һү ең икеҙҙ
аңлатма ылы һырламаһы улланыла:ҡ ҡ ҡ
Элеменнтар дөйөмлөгө һәм йышлыҡ.
Ысулдың идеяһы:
«...кү алдына килтереге : бөтә тел май анында йәшәүсе,биләп алыусы семантикҙ ҙ ҙ
тартыу көсөнә телдең лексик берәмектәре тултырылған. . Был май анда төрлөҙ
берәмектәр бер-береһе менән аралаша - атомдар, молекулалар , макротәнсәләр,
планеталар, и космичк объекттар — бер кимәлдә , йәғни бер төрлө берәмектәр
булара һәм төрлө кимәлдәр араһында .»ҡ
Сығана биремдәр :ҡ
• идеографик һү лектәрҙ .
• сит ил кешеләре өсөн рус теленең ы аса аңлатмалыҡ ҫҡ
һү легеҙ
• С.И. Ожегов һәм Д.Н.Ушаковтың аңлатма һү лектәреҙ

Ә әбиәтҙ
Караулов Ю.Н.
Частотный словарь
семантических множителей
русского языка.
– М.: Наука, 1980.
Караулов Ю.Н., В.И.Молчанов,
В.А.Афанасьев, Н.В.Михалев.
Анализ метаязыка словаря с
использованием ЭВМ.
– М.: Наука, 1982. – 96 с.

СЕМАНТИК МАЙ АНДАР ТӨ ӨҮҘ Ҙ (1)
Aa
k
DWwd ij
∈ Dw ji
∈
a ij wd
A
k
DW
,
әгәр булһа була , бында :
— wi һү е һәмҙ dj дескрипторы араһындағы семантик
көс аңлатмаһы
— һү һәм дескриптор араһындағы семантикҙ
бәйләнештәр көсөнөң абул ителгән аңлатмалар күмәклегеҡ
;
Dj = {wij} —дескриптор ың һү күмәклеге ;ҙ ҙ
wi — һү ,ҙ i = 1...|W|, W = {wi} — һү әр күмәклеге ;ҙҙ
dj — дескриптор, j = 1...|D|, D = {dj} —дескриптор ар күмәклеге.ҙ
Практик эш :
9000 һү е 1600 дескрипторға таратырғаҙҙ

СЕМАНТИК МАЙ АНДАР ТӨ ӨҮҘ Ҙ (2)
ПРАКТИК МӘСЬӘЛӘЛӘР СИСЕҮ ӨСӨН ҺОРАУ АРҘ
1.Һү әр е сағыштырыу ысулын билдәләүҙҙ ҙ
Семантик абатлаусыны табыу юлын һайлау (тамғалауҡ )
(лемматизация, ы артыу, тамыр табыу,,ҡ ҫҡ
һү ең ниге ен айырыу,, һү ең квазиниге ен айырыу)ҙҙ ҙ ҙҙ ҙ
• Һү ең семантик кодын табыу ысулын эшләүҙҙ
2. Семантик абатлаусылар ың йышлы параметр арынҡ ҙ ҡ ҙ
асы лау .ҡ
3. Һү әр ең һәм дескриптор ар ың семантик бәйләнешҙҙ ҙ ҙ ҙ
критерий арын табыу.ҙ
• Бәйләнгәнлектең тик бер осрағының феноменологик моделы
• K бәйләнгәнлектең феноменологик моделы
• Бәйләнгәнлектең абатлаусылар йышлығын и әпкә алыусыҡ ҫ
моделы.

ҺҮ ӘР Е САҒЫШТЫРЫУ САРАҺЫНҘҘ Ҙ
ТАБЫУ
Һү еңҙҙ /дескриптор ың аңлатмаһыҙ — ~10 һү алыбы ,ҙ ҡ
экспериментта бөтәһе — ~110000 10 һү алыбы.ҙ ҡ
Семантик абатлаусыҡ — йөкмәтке планында
элементар берәмек.
Төп фекер әр :ҙ
а) телдең семантик киңлеге дискретлы;
б) киңлектең элементтар йыйылмаһы сикле һәм кү күремендә;ҙ
в) комбинациялар һаны ысынында сикһе ;ҙ
г) семантик киңлек тар алма элементтар ан тора;ҡ ҫ ҙ
д) семантик элементтар бер планлы , йәғни йөкмәткегә арай ар (аңҡ ҙ
һәм танып-белеү берәмектәре булып торалар );
е) семантик элементтар ниверсаль йыйылманы тәшкил итәләр , йәғни
дөйөм эйәлек (общесубъектный) менән ылы һырлана һәм улар ыңҡ ҡ ҙ
нисбәте менән йыйылмаһы бар телдәр өсөн дә бер үк.

СЕМАНТИК АБАТЛАУСЫНЫҠ
(КҮБӘЙТЕҮСЕНЕ) ТАБЫУ (ТАМҒАЛАУ )
САРАЛАРЫ
Лемматизация — һү ең каноник алыбын табыу .ҙҙ ҡ
Свертка —һү әр е йомоу, йәғни тәүге ижектең һу ың ыларынанҙҙ ҙ ҙ ҡ
баш а һу ың ылар ы алып ташлау.ҡ ҙ ҡ ҙ
Выделение корня —тамыр морфемалы һү әр.ҙҙ
Выделение основы слова — һү күп морфеманан тора –ҙ
префикстан һәм тамыр ан.ҙ
Выделение квазиосновы слова — һү ең ирекле башына һү еңҙҙ ҙҙ
төп мәғәнәһе ята .

ҺҮ ЕҢ СЕМАНТИК КОДЫН ТАБЫУ ЫСУЛЫҘҘ
ПРОЦЕДУР ЫСУЛДАР
1. Иң еңел кодлана торған һү е уның кодына индерергәҙҙ
2. Семантик абатлаусының абатланыуын булдырмау .ҡ ҡ
3. Фильтрация : «нулле » семантик абатлаусылар ы алыпҡ ҙ
ташлау (мә әлән , күренеш, күмәклек, система, һ.б.),ҫ
грамматик һү әр еҙҙ ҙ
(мә әлән повести, поискать, придержать һ.б.),ҫ
предлогтар, союздар һ.б..
4. атып алған һү бәйләнештәр е лексикализацияларғаҠ ҡ ҙ ҙ
(мә әлән ,ҫ железная дорога — желдор).
5. Һү әр ең квазиниге әрен тө өргә .ҙҙ ҙ ҙҙ ҙ
ЫСУЛДЫ ТОРМОШ А АШЫРЫУ ЙОМҒА ТАРЫҠ Ҡ
}{s
jd
x
а) дескриптор ар —ҙ dj = б) һү әр —ҙҙ wi = }{s
iw
x

СЕМАНТИК АБАТЛАУСЫДАР ЫҢҠ Ҙ
ЙЫШЛЫ ПАРАМЕТР АРЫН ТАБЫУҠ Ҙ
Семантик абатлаусыҡ х - аҡ ике йышлы ылы һырламаһыҡ ҡ ҡ
тап килтерелә :
||
|,}{|
W
f wsw ixiW
x
 ∈
=
||
|,}{|
D
f
dsw jxiD
x
 ∈
=
— семантик абатлаусыныңҡ
дескриптор ар ың аңлатмаларындаҙ ҙ
осрау йышлығы
— семантик абатлаусының һү әр еңҡ ҙҙ ҙ
аңлатмаларында осрау йышлығы
Семантик абатлаусылар ың йышлы анализы ысулыҡ ҙ ҡ
а) йышлы ты и әпләп сығарыу;ҡ ҫ
б) абатлаусылар ы аңлатмалар буйынса дәрәжәләре артыу ю ығындаҡ ҙ ҫ
рәтләү һәм тәртипкә килтереү.

ҺҮ ӘР ЕҢ ҺӘМҘҘ Ҙ ДЕСКРИПТОР АР ЫҢҘ Ҙ
СЕМАНТИК БӘЙЛӘНЕШ КРИТЕРИЙ АРЫНҘ
АСЫ ЛАУҠ
Семантик бәйләнеш критерий арын эшләү этаптарыҙ
1. Бәйләнгәнлектең тик бер осрағының феноменологик
моделы бар,әгәр һү әр ең һәм дескриптор ар ыңҙҙ ҙ ҙ ҙ
аңлатмаһында бер генә дәйәм семантик абатлаусы булһаҡ
| dj ∩ wi | = 1; 1}{}{ =ss
ij w
x
d
x

2. K бәйләнгәнлектең феноменологик моделы бар,әгәр
һү әр ең һәм дескриптор ар ың аңлатмаһында К дөйөмҙҙ ҙ ҙ ҙ семантик
абатлаусы булһа :ҡ
| dj ∩ wi | = K; K}{}{ =ss
ij w
x
d
x

3. Бәйләнгәнлектең абатлаусылар йышлығын и әпкә алыусы моделы.ҡ ҫ
( Карауловтың селектив критерийы ).
;2≥K f
D
x .6≤

КАРАУЛОВТЫҢ СЕЛЕКТИВ КРИТЕРИЙЫ
( )
(( ) )( )61}{}{
2}{}{
≤∧==∨
≥==
fK
K
D
x
iw
x
jd
x
w
x
d
xwd
ss
ssa
ij
ij


Әгәр һү һәм дескриптор ү аңлатмаһында икенән күп семантикҙ ҙ
абатлаусы тотһа,йәки улар ың аңлатмаһында бер генә уртаҡ ҙ ҡ
семантик абатлаусы булып һәм уның йышлығы дескриптор арҡ ҙ
күмәклегендә алтынан артһа улар бер-береһе менән семантик
бәйләнештә тора.
Семантик май андар тө өү процедураларыҙ ҙ
1. Бәйләнгәнлектең тик бер осрағының моделы буйынса май ан тө өү.ҙ ҙ
2. Тап килеүсе абатлаусылар ы и әпкә алыу юлы менән май андыҡ ҙ ҫ ҙ
тарайтыу.
3. Семантик абатлаусылар ы и әпкә алыу юлы менән май андыҡ ҙ ҫ ҙ
тарайтыу.
Dw ji
∈
Әгәр
, була

Ү -Ү ЕҢДЕ ТИКШЕРЕҮ ӨСӨНҘ Ҙ
ҺОРАУ АРҘ
 Текстар ан белем э тәү ең логик-статистик ысулдарынҙ ҫ ҙ
һанап биреге .ҙ
 Тексты анализлау ың дистрибутив-статистик ысулынҙ
аңлатығыҙ
 Тексты анализлау ың йышлы - семантик ысулынҙ ҡ
аңлатығы .ҙ
 Тексты анализлау ың компонентлы ысулын аңлатығы .ҙ ҙ

лекция 5 тема 1

Recommended

Recommended

More Related Content

Featured

Featured (20)

лекция 5 тема 1

Editor's Notes