лекция 6 тема 1

Тема 1.
ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ
ЗНАКОВЫЕ СИСТЕМЫ
ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ
1.1. Модели и методы представления и организации знаний —
лекции 1-2.
1.2. Количественная спецификация ЕЯ систем —
лекции 3-4, 8.
1.3. Логико-статистические методы извлечения знаний —
лекция 5-7.
ФАКУЛЬТАТИВНЫЕ РАЗДЕЛЫ ТЕМЫ ДЛЯ
САМОСТОЯТЕЛЬНОГО ИЗУЧЕНИЯ
1.4. Технология автоматизированного построения словаря-
тезауруса.
1.5. Пример исследования ЕЯ ресурса.

Лекция 6.
СИНТАГМАТИЧЕСКАЯ МОДЕЛЬ ТЕКСТА
 Формальное описание основных
синтагм
 Формальное описание
производных синтагм и
синтагматических конструктивов
 Статистический анализ
синтагматических конструктивов

Литература
Материал лекции представлен в
книге:
Ю.Н.Филиппович, А.В.Прохоров.
Семантика
информационных
технологий:
опыты словарно-тезаурусного
описания. /
Серия «Компьютерная лингвистика».
Вступ. Статья А.И.Новикова.
М.: МГУП, 2002.
— книга в комплекте с CD ROM
— С. 54–64.

ФОРМАЛЬНОЕ ОПИСАНИЕ
ОСНОВНЫХ СИНТАГМ
Конструктивные ЕЯ единицы:
корпус текстов, текст, контекст, сверхфразовое единство, предложение,
словосочетание, слово, морфема, квази-морфема, слог, символ
алфавита (буква).
Синтагма — непроизвольная цепочка языковых единиц нижнего уровня
(символов). Синтагмы каждого верхнего уровня состоят из синтагм
нижних уровней.
 
основные :
символ, слово, предложение, текст
производные :
морфема, квази-морфема, слог,
словосочетание, сверхфразовое
единство, контекст и корпус текстов.
Цели выделения основных синтагм
1. Описание текста на основе теории формальных языков.
2. Выделение комплекса задач предварительного анализа текста.

Литература
Филиппович Ю.Н., Родионов Е.В., Черкасова Г.А.
Языковые средства диалога человека с ЭВМ.
Практическое пособие /
Серия «Организация взаимодействия человека с
техническими средствами АСУ». В 7 кн. Кн.2.
Под ред. Четверикова В.Н.
М.: Высш. шк., 1990. – 159 с.

СИНТАГМАТИЧЕСКАЯ СТРУКТУРА ТЕКСТА
СИНТАГМАТИЧЕСКАЯ СТРУКТУРА ТЕКСТА
— комплекс синтагматических конструктивов, построенных на
основе основных и производных синтагм.
Основные синтагматические конструктивы:
 тексты,
 словники (частичные и полные, прямые и обратные, частотные)
— упорядоченные списки синтагм
 словоуказатели.— индексы упорядоченных списков синтагм
нижнего уровня по синтагмам верхнего уровня, а также по
организационным единицам (том, часть, глава, страница, строка,
и т.д.).

ОСНОВНЫЕ СИНТАГМЫ (1)
 SDlLrR ABABABABABABAB =
},...,{ ЯАABR =},...,{ яаABr = },...,{ ZAABL = },...,{ zaABl =
}9,...,0{=DAB
@}~,_,*,,^,,,,/,,$,%,&,{# =><=SAB
Алфавитом естественно-языкового описания предметной
области будем называть множество AB, такое что:
ABх
— алфавиты современных естественных языков
(различаются множества прописных и строчных букв)
,
,
где:
ABD — множество цифр
ABS — множество специальных символов, которые могут выступать
в качестве букв слов

Стоп-знак слова — элемент множества знаков, которые позволяют
отделять в тексте слова друг от друга. Стоп-знак stW слова W является
элементом транзитивного замыкания множества стоп-знаков:
+
∈ WW STst 
∞
=
+
=
1n
n
WW STST, где











































><><><
><
><
><
><
><><
><><
><><
><><
><><><
=
файлаконецсимволнультабуляция
кареткивозврат
строкуследнаперевоход
знакьныйвопросител
знакльныйвосклицате
скобкаквправаяскобкаквлевая
скобкакрправаяскобкакрлевая
кавычкадефисминустире
запятойсточказапятая
двоеточиеточкапробел
W
ST
_,_,
,_
,___
,_
,_
,__,__
,__,__
,,//
,__,
,,,

Словом в ЕЯ описании ПО будем называть конкатенацию
элемента транзитивного замыкания множества AB и стоп-
знака:
)( ++
×=∈ WSTABWw

.
Предложение будем рассматривать как конкатенация стоп-знака
предложения STS и элемента транзитивного замыкание слов и их
разделителей:
;)(
1

∞
=
+++
×=
n
n
WSTABW;++
×= SSTWS














><
><><><
><><
=⊂
абзацаконец
файлаконецсимволнульзнакьныйвопросител
знакльныйвосклицатеточка
S
ST
W
ST
S
ST
_
,_,_,_
,_,
;
2
}____{_ >><<>=< кореткивозвратстрокуследнапереходабзацаконец

Текст определяется аналогично предложению как
конкатенация стоп-знака и элемента транзитивного
замыкания слов и их разделителей:

∞
=
+++
×=
1
)(
n
n
WSTABW;)_( ><×= +
файлаконецWT

ПОРОЖДАЮЩИЕ ГРАММАТИКИ
ЕЯ ОПИСАНИЯ ПОРМ (1)
GT – грамматика, порождающая текст.
GS – грамматика, порождающая предложение.
GW – грамматика, порождающая слово.
N – множество нетерминальных символов
T = AB ∪ STW – множество терминальных символов.
S – начальный нетерминальный символ.
EOF = <конец_файла>
EOL = (<переход_на_след_строку> <возврат_каретки>)

ОПИСАНИЕ ГРАММАТИКИ,
ПОРОЖДАЮЩЕЙ ТЕКСТ
GT = (N, T, P, S0)
N = { S0,S1,S2,S3,S4}
T = AB ∪ STW
P = { S0 → S1 EOF | EOF,
S1 → S2 S1 | S2,
S2 → S3 S4 | S3 | S4,
S3 → w S3 | w w ∈AB ∈ T
S4 → s S4 | s s ∈ (STW EOF) ∈ T

ПОРОЖДАЮЩЕЙ ПРЕДЛОЖЕНИЯ
GS = (N, T, P, S0)
N = { S0,S1,S2,S3,S4}
T = AB ∪ STW
P = { S0 → S1 е | е , е ∈ STS ∈ T
S1 → S2 S1 | S2,
S2 → S3 S4 | S3 | S4,
S3 → w S3 | w w ∈AB ∈ T
S4 → s S4 | s s ∈ (STW STS) ∈ T
}

ПОРОЖДАЮЩЕЙ СЛОВА.
GW = (N, T, P, S0)
N = { S0,S1,S2,S3 }
T = AB ∪ STW
P = { S0 → S1 е | е , е ∈ STW ∈ T
S1 → S2 S1 | S2
S2 → w S3 | w w ∈AB ∈ T
S3 → s S3 | s s ∈ (STW EOF) ∈ T
}

ФОРМАЛЬНОЕ ОПИСАНИЕ
ПРОИЗВОДНЫХ СИНТАГМ И
СИНТАГМАТИЧЕСКИХ КОНСТРУКТИВОВ
Генеральная совокупность = корпус текстов ЕЯ описания ПОРМ

Объект исследования — отдельные синтагмы,
являющиеся элементами этого корпуса текстов

Основные характеристики — абсолютные частоты
встречаемости синтагм в корпусе текстов и
составляющих его частях

ПРОИЗВОДНЫЕ СИНТАГМЫ (1)
Корпус текстов G — это множество текстов ЕЯ описания ПОРМ:
G = { T1, T2, ..., TN }, где N – число текстов в корпусе, Ti – i-ый текст.
Словосочетание wk
— выводится из GT., состоит ровно из k-слов,
между которыми отсутствуют стоп-знаки предложения или текста:
wk
= w1w2w3..wk. Любое отдельное слово w = w1
.
Поставим в соответствие каждому выражению wk
число, характери-
зующее частоту его встречаемости в конкретном выводе GT и
получим отображение F: wk
⇒ E, где E – множество целых чисел.
Частотная функция — F = N(wk
, T), где:
T – конкретный текст, wk
– словосочетание.
Свойства частотной функции:
N(wk
,T)>0, если wk
∈ T, и N(wk
,T)=0, если wk
∉T.
Из w = w1
следует, что N(w,T) = N(w1
,T).

Суммой текстов T1 и Т2 называется текст Т3, получаемый удалением
из текста T1 стоп-знаков текста и присоединением к нему текста T2
T3 – является текстом, выводимым из GT.
Доказательство
1. Если существуют T1 и T2, выводимые из GT, то существует
конкретный вывод T1 и T2 из аксиомы S0.
2. T1 и Т2 – конечные последовательности символов терминального
алфавита GT, а сама грамматика может порождать
последовательности любой длины.
3. Следовательно, после вывода всех символов T1 можно
осуществить вывод дополнительно всех символов T2.
4. Таким образом, T3 есть текст, порождаемый GT.

Контекст С(T) — непрерывный фрагмент текста T, т.е.
фрагмент вывода в GT.
Свойства контекста:
N(wk
, T1) + N (wk
, T2) = N(wk
, T1+T2)
N(wk
, C(T)) ≤ N(wk
, T)
T = C1(T)+...+Cq(T), где Сi(T)∩ Cj(T)=∅, i,j (i≠j) ∈[0,q]
Σ N(wk
,Сi(T)) ≤ N(wk
, T), где Сi(T)∩ Cj(T)=∅
Замечание.
• N(wk
, T1) + N (wk
, T2) ≤ N(wk
, T1+T2),
• Тексты завершаются стоп-знаками предложения,
• Возможность словосочетания wk
на границе T1 и T2 практически
отсутствует.
• Будем считать, что N(wk, T1) + N (wk, T2) = N(wk, T1+T2).

,
Частотный словник — упорядоченная совокупность слов
(или словосочетаний) текста и значений их частотной функции
S(T) = ( <wk, N(wk,T)>).
Операции над словниками
Объединение словников. Объединением словников S(T1) и
S(T2) будем называть словник S(T1+T2). В объединенный
словник войдут все слова и словосочетания из обоих текстов со
своими частотными функциями, а для одинаковых слов (или
словосочетаний) строится суммарная частотная функция.
Вычитание словников. Вычитанием словников S(T1)-S(T2)
будем называть словник S(T*), в который войдут только те
слова (или словосочетания) из T1, для которых N(wk,T1) >
N(wk,T2). Под T* понимается гипотетический текст, по которому
мог бы быть построен словник S(T*).

Ограничения синтагматической структуры:
• невозможность различения в словах дефиса,
• распознавание только слова и предложения,
• невозможность распознавания вложенных структур
(скобочных записей, прямой речи, других формально-
синтаксических конструкций).
порождающая синтагматическая структура

распознающая модель = «программа-транслятор»

генератор синтагматического кода ЕЯ описания ПОРМ

комплекс синтагматических конструктивов:
словники, словоуказатели, списки словосочетаний, контексты,
индексы и т.п.

СИНТАГМАТИЧЕСКАЯ МОДЕЛЬ ТЕКСТА
— это представление его в виде множества основных
синтагматических конструктивов, полученных путем
преобразования текста на основе его формально-
языкового теоретико-множественного описания:
.
( )GStgKKG
STG
i
STG
i
STG
=⇒ :где,}{

СТАТИСТИЧЕСКИЙ АНАЛИЗ
СИНТАГМАТИЧЕСКИХ КОНСТРУКТИВОВ
Частотный анализ текста
— формирование параметрического профиля текста.
Задачи частотного анализа
• Вычисление параметров распределения слов в модели «ранг-частота»
для текстов.
• Построение для текстов частотных функций для слов и парных
словосочетаний: N(wij, Tj), N(wij
2
, Tj)}, где wij,wij
2
∈Tj, j =1,N.
• Построение частотных словников { S(Tj) }, где j=1,N.
• Вычисление общего числа элементов словника:
∑=
=
jR
i
jijj TwNN
0
),( , где Rj – число элементов в словнике S(Tj).
• Вычисление параметров распределения слов в модели «ранг-частота»
для генеральной совокупности.
• Нахождение параметров закона Мандельброта для генеральной
совокупности.

ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (1)
Динамический анализ текста
— выявление закономерностей изменения количественных
характеристик структуры ЕЯ описания ПОРМ в течение
времени ∆t.
Задачи динамического анализа
• Определение структуры текста;
• Определение структуры словников,
• Определение содержания словников
• Определение наполнения словников.
Основная идея динамического анализа
заключается в наблюдении за характером изменения
частотных интервалов.

Частота F1 F2 F 3 F 4 .... F N
1
1 - р1
р2 - р3
...
рk - рk+1
> рk+1
Итого:
В общем случае имеет место следующая таблица:
Здесь: [Pk,Pk+1] – границы частотных интервалов.
∑=
=
j
k
kj TF
1
– тексты или словники, по которым проводится
наблюдение.

Динамика структуры текста
показывает относительное изменение объемов частотных
групп в текстах в течение некоторого интервала времени.
,
),(
),,,(
),,(
1 1
1
21
21
∑∑
∑
= =
=
=
N
j
M
i
jij
R
i
j
t
TwN
pptiP
pptφ где
( )


 ≤≤=
=
0
,),(
),,,(
bcaеслиFwNc
batiP tit
Здесь: Mj – число слов в тексте Tj, Rt – число слов в тексте Ft

Результаты могут быть сведены в
таблицу:
Частота F 1
F2
F 3
F 4
.... F N
1 ϕ(1,0,1) ϕ(N,0,1)
1- р1 ϕ(1,1,р1
) ϕ(N,1,р1
)
р2
- р3 ϕ(2,р2
,р3
)
...
рk
- рk+1
> рk+1
Итого: ϕ(1,0,∞) ϕ(1,0,∞) 1
В строке «итого», записывается сумма вышестоящего столбца,
т.е. ϕ(1,0,∞). Очевидно, что ϕ(N,0,∞) = 1

Динамика структуры словников
показывает относительное изменение объемов частотных групп в
словниках в течение некоторого интервала времени.
,
),,,(
),,( 1
21
21
N
R
i
R
pptiP
ppt
t
∑=
=φ где
( )


 ≤≤
=
0
),(,1
),,,(
bFwNaесли
batiP tit

Динамика содержания словников
показывает соотношение объемов частотных групп в течение
некоторого интервала времени.
где
Здесь: Rt – число слов в словнике Ft.
,
),0,,(
),,,(
),,(
1
1
21
21
∑
∑
=
=
∞
=
t
t
R
i
R
i
itP
pptiP
pptφ
( )


 ≤≤
=
0
),(,1
),,,(
bFwNaесли
batiP tit

Результаты могут быть сведены в таблицу:
Частота F1 F2 F 3 F 4 .... F N
1 ϕ(1,0,1) ϕ(N,0,1)
1 - р1 ϕ(1,1,р1) ϕ(N,1,р1)
р2 - р3 ϕ(2,р2,р3)
...
рk - рk+1
> рk+1
Итого: 1 1 1 1 1 1

Динамика наполнения словников
характеризует «прирост» новых слов в частотные группы в
течение некоторого временного интервала.
где
Здесь: RN – число слов в словнике FN.
Rt – число слов в словнике Ft.
,
),,,(
),,,(
),,(
1
21
1
21
21
∑
∑
=
=
= N
t
R
i
R
i
ppiNP
pptiP
pptφ
( )


 ≤≤≤≤
=
0
))((&),(,1
),,,( , bFwNabFwNaесли
batiP NiNtit

Результаты могут быть сведены в таблицу:
Частота F 1 F2 F 3 F 4 .... F N
1 ϕ(1, 0, 1) 1
1 - р1 ϕ(1, 1, р1) 1
р2 - р3 ϕ(2, р2, р3) 1
... 1
рk - рk+1 1
> рk+1 1
Итого: ϕ(1, 0, ∞) ϕ(1, 0, ∞) 1

ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ
 Что такое синтагматическая модель текста?
 Приведите формальное описание основных синтагм.
 Приведите формальное описание производных синтагм.
 Приведите примеры синтагматических конструктивов.
 Перечислите основные этапы статистического анализа
синтагм и синтагматических конструктивов.

лекция 6 тема 1

Recommended

Recommended

More Related Content

What's hot

What's hot (12)

Viewers also liked

Viewers also liked (16)

Similar to лекция 6 тема 1

Similar to лекция 6 тема 1 (20)

More from Noobie312

More from Noobie312 (8)

лекция 6 тема 1

Editor's Notes