1. Тема 1.
ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ
ЗНАКОВЫЕ СИСТЕМЫ
ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ
1.1. Модели и методы представления и организации знаний —
лекции 1-2.
1.2. Количественная спецификация ЕЯ систем —
лекции 3-4, 8.
1.3. Логико-статистические методы извлечения знаний —
лекция 5-7.
ФАКУЛЬТАТИВНЫЕ РАЗДЕЛЫ ТЕМЫ ДЛЯ
САМОСТОЯТЕЛЬНОГО ИЗУЧЕНИЯ
1.4. Технология автоматизированного построения словаря-
тезауруса.
1.5. Пример исследования ЕЯ ресурса.
2. Лекция 6.
СИНТАГМАТИЧЕСКАЯ МОДЕЛЬ ТЕКСТА
Формальное описание основных
синтагм
Формальное описание
производных синтагм и
синтагматических конструктивов
Статистический анализ
синтагматических конструктивов
3. Литература
Материал лекции представлен в
книге:
Ю.Н.Филиппович, А.В.Прохоров.
Семантика
информационных
технологий:
опыты словарно-тезаурусного
описания. /
Серия «Компьютерная лингвистика».
Вступ. Статья А.И.Новикова.
М.: МГУП, 2002.
— книга в комплекте с CD ROM
— С. 54–64.
4. ФОРМАЛЬНОЕ ОПИСАНИЕ
ОСНОВНЫХ СИНТАГМ
Конструктивные ЕЯ единицы:
корпус текстов, текст, контекст, сверхфразовое единство, предложение,
словосочетание, слово, морфема, квази-морфема, слог, символ
алфавита (буква).
Синтагма — непроизвольная цепочка языковых единиц нижнего уровня
(символов). Синтагмы каждого верхнего уровня состоят из синтагм
нижних уровней.
основные :
символ, слово, предложение, текст
производные :
морфема, квази-морфема, слог,
словосочетание, сверхфразовое
единство, контекст и корпус текстов.
Цели выделения основных синтагм
1. Описание текста на основе теории формальных языков.
2. Выделение комплекса задач предварительного анализа текста.
5. Литература
Филиппович Ю.Н., Родионов Е.В., Черкасова Г.А.
Языковые средства диалога человека с ЭВМ.
Практическое пособие /
Серия «Организация взаимодействия человека с
техническими средствами АСУ». В 7 кн. Кн.2.
Под ред. Четверикова В.Н.
М.: Высш. шк., 1990. – 159 с.
6. СИНТАГМАТИЧЕСКАЯ СТРУКТУРА ТЕКСТА
СИНТАГМАТИЧЕСКАЯ СТРУКТУРА ТЕКСТА
— комплекс синтагматических конструктивов, построенных на
основе основных и производных синтагм.
Основные синтагматические конструктивы:
тексты,
словники (частичные и полные, прямые и обратные, частотные)
— упорядоченные списки синтагм
словоуказатели.— индексы упорядоченных списков синтагм
нижнего уровня по синтагмам верхнего уровня, а также по
организационным единицам (том, часть, глава, страница, строка,
и т.д.).
7. ОСНОВНЫЕ СИНТАГМЫ (1)
SDlLrR ABABABABABABAB =
},...,{ ЯАABR =},...,{ яаABr = },...,{ ZAABL = },...,{ zaABl =
}9,...,0{=DAB
@}~,_,*,,^,,,,/,,$,%,&,{# =><=SAB
Алфавитом естественно-языкового описания предметной
области будем называть множество AB, такое что:
ABх
— алфавиты современных естественных языков
(различаются множества прописных и строчных букв)
,
,
где:
ABD — множество цифр
ABS — множество специальных символов, которые могут выступать
в качестве букв слов
8. ОСНОВНЫЕ СИНТАГМЫ (2)
Стоп-знак слова — элемент множества знаков, которые позволяют
отделять в тексте слова друг от друга. Стоп-знак stW слова W является
элементом транзитивного замыкания множества стоп-знаков:
+
∈ WW STst
∞
=
+
=
1n
n
WW STST, где
><><><
><
><
><
><
><><
><><
><><
><><
><><><
=
файлаконецсимволнультабуляция
кареткивозврат
строкуследнаперевоход
знакьныйвопросител
знакльныйвосклицате
скобкаквправаяскобкаквлевая
скобкакрправаяскобкакрлевая
кавычкадефисминустире
запятойсточказапятая
двоеточиеточкапробел
W
ST
_,_,
,_
,___
,_
,_
,__,__
,__,__
,,//
,__,
,,,
9. ОСНОВНЫЕ СИНТАГМЫ (3)
Словом в ЕЯ описании ПО будем называть конкатенацию
элемента транзитивного замыкания множества AB и стоп-
знака:
)( ++
×=∈ WSTABWw
10. ОСНОВНЫЕ СИНТАГМЫ (4)
.
Предложение будем рассматривать как конкатенация стоп-знака
предложения STS и элемента транзитивного замыкание слов и их
разделителей:
;)(
1
∞
=
+++
×=
n
n
WSTABW;++
×= SSTWS
><
><><><
><><
=⊂
абзацаконец
файлаконецсимволнульзнакьныйвопросител
знакльныйвосклицатеточка
S
ST
W
ST
S
ST
_
,_,_,_
,_,
;
2
}____{_ >><<>=< кореткивозвратстрокуследнапереходабзацаконец
11. ОСНОВНЫЕ СИНТАГМЫ (5)
Текст определяется аналогично предложению как
конкатенация стоп-знака и элемента транзитивного
замыкания слов и их разделителей:
∞
=
+++
×=
1
)(
n
n
WSTABW;)_( ><×= +
файлаконецWT
12. ПОРОЖДАЮЩИЕ ГРАММАТИКИ
ЕЯ ОПИСАНИЯ ПОРМ (1)
GT – грамматика, порождающая текст.
GS – грамматика, порождающая предложение.
GW – грамматика, порождающая слово.
N – множество нетерминальных символов
T = AB ∪ STW – множество терминальных символов.
S – начальный нетерминальный символ.
EOF = <конец_файла>
EOL = (<переход_на_след_строку> <возврат_каретки>)
13. ПОРОЖДАЮЩИЕ ГРАММАТИКИ
ЕЯ ОПИСАНИЯ ПОРМ (2)
ОПИСАНИЕ ГРАММАТИКИ,
ПОРОЖДАЮЩЕЙ ТЕКСТ
GT = (N, T, P, S0)
N = { S0,S1,S2,S3,S4}
T = AB ∪ STW
P = { S0 → S1 EOF | EOF,
S1 → S2 S1 | S2,
S2 → S3 S4 | S3 | S4,
S3 → w S3 | w w ∈AB ∈ T
S4 → s S4 | s s ∈ (STW EOF) ∈ T
14. ПОРОЖДАЮЩИЕ ГРАММАТИКИ
ЕЯ ОПИСАНИЯ ПОРМ (3)
ОПИСАНИЕ ГРАММАТИКИ,
ПОРОЖДАЮЩЕЙ ПРЕДЛОЖЕНИЯ
GS = (N, T, P, S0)
N = { S0,S1,S2,S3,S4}
T = AB ∪ STW
P = { S0 → S1 е | е , е ∈ STS ∈ T
S1 → S2 S1 | S2,
S2 → S3 S4 | S3 | S4,
S3 → w S3 | w w ∈AB ∈ T
S4 → s S4 | s s ∈ (STW STS) ∈ T
}
15. ПОРОЖДАЮЩИЕ ГРАММАТИКИ
ЕЯ ОПИСАНИЯ ПОРМ (4)
ОПИСАНИЕ ГРАММАТИКИ,
ПОРОЖДАЮЩЕЙ СЛОВА.
GW = (N, T, P, S0)
N = { S0,S1,S2,S3 }
T = AB ∪ STW
P = { S0 → S1 е | е , е ∈ STW ∈ T
S1 → S2 S1 | S2
S2 → w S3 | w w ∈AB ∈ T
S3 → s S3 | s s ∈ (STW EOF) ∈ T
}
16. ФОРМАЛЬНОЕ ОПИСАНИЕ
ПРОИЗВОДНЫХ СИНТАГМ И
СИНТАГМАТИЧЕСКИХ КОНСТРУКТИВОВ
Генеральная совокупность = корпус текстов ЕЯ описания ПОРМ
Объект исследования — отдельные синтагмы,
являющиеся элементами этого корпуса текстов
Основные характеристики — абсолютные частоты
встречаемости синтагм в корпусе текстов и
составляющих его частях
17. ПРОИЗВОДНЫЕ СИНТАГМЫ (1)
Корпус текстов G — это множество текстов ЕЯ описания ПОРМ:
G = { T1, T2, ..., TN }, где N – число текстов в корпусе, Ti – i-ый текст.
Словосочетание wk
— выводится из GT., состоит ровно из k-слов,
между которыми отсутствуют стоп-знаки предложения или текста:
wk
= w1w2w3..wk. Любое отдельное слово w = w1
.
Поставим в соответствие каждому выражению wk
число, характери-
зующее частоту его встречаемости в конкретном выводе GT и
получим отображение F: wk
⇒ E, где E – множество целых чисел.
Частотная функция — F = N(wk
, T), где:
T – конкретный текст, wk
– словосочетание.
Свойства частотной функции:
N(wk
,T)>0, если wk
∈ T, и N(wk
,T)=0, если wk
∉T.
Из w = w1
следует, что N(w,T) = N(w1
,T).
18. ПРОИЗВОДНЫЕ СИНТАГМЫ (2)
Суммой текстов T1 и Т2 называется текст Т3, получаемый удалением
из текста T1 стоп-знаков текста и присоединением к нему текста T2
T3 – является текстом, выводимым из GT.
Доказательство
1. Если существуют T1 и T2, выводимые из GT, то существует
конкретный вывод T1 и T2 из аксиомы S0.
2. T1 и Т2 – конечные последовательности символов терминального
алфавита GT, а сама грамматика может порождать
последовательности любой длины.
3. Следовательно, после вывода всех символов T1 можно
осуществить вывод дополнительно всех символов T2.
4. Таким образом, T3 есть текст, порождаемый GT.
19. ПРОИЗВОДНЫЕ СИНТАГМЫ (3)
Контекст С(T) — непрерывный фрагмент текста T, т.е.
фрагмент вывода в GT.
Свойства контекста:
N(wk
, T1) + N (wk
, T2) = N(wk
, T1+T2)
N(wk
, C(T)) ≤ N(wk
, T)
T = C1(T)+...+Cq(T), где Сi(T)∩ Cj(T)=∅, i,j (i≠j) ∈[0,q]
Σ N(wk
,Сi(T)) ≤ N(wk
, T), где Сi(T)∩ Cj(T)=∅
Замечание.
• N(wk
, T1) + N (wk
, T2) ≤ N(wk
, T1+T2),
• Тексты завершаются стоп-знаками предложения,
• Возможность словосочетания wk
на границе T1 и T2 практически
отсутствует.
• Будем считать, что N(wk, T1) + N (wk, T2) = N(wk, T1+T2).
20. ПРОИЗВОДНЫЕ СИНТАГМЫ (4)
,
Частотный словник — упорядоченная совокупность слов
(или словосочетаний) текста и значений их частотной функции
S(T) = ( <wk, N(wk,T)>).
Операции над словниками
Объединение словников. Объединением словников S(T1) и
S(T2) будем называть словник S(T1+T2). В объединенный
словник войдут все слова и словосочетания из обоих текстов со
своими частотными функциями, а для одинаковых слов (или
словосочетаний) строится суммарная частотная функция.
Вычитание словников. Вычитанием словников S(T1)-S(T2)
будем называть словник S(T*), в который войдут только те
слова (или словосочетания) из T1, для которых N(wk,T1) >
N(wk,T2). Под T* понимается гипотетический текст, по которому
мог бы быть построен словник S(T*).
21. ПРОИЗВОДНЫЕ СИНТАГМЫ (5)
Ограничения синтагматической структуры:
• невозможность различения в словах дефиса,
• распознавание только слова и предложения,
• невозможность распознавания вложенных структур
(скобочных записей, прямой речи, других формально-
синтаксических конструкций).
порождающая синтагматическая структура
распознающая модель = «программа-транслятор»
генератор синтагматического кода ЕЯ описания ПОРМ
комплекс синтагматических конструктивов:
словники, словоуказатели, списки словосочетаний, контексты,
индексы и т.п.
22. ПРОИЗВОДНЫЕ СИНТАГМЫ (6)
СИНТАГМАТИЧЕСКАЯ МОДЕЛЬ ТЕКСТА
— это представление его в виде множества основных
синтагматических конструктивов, полученных путем
преобразования текста на основе его формально-
языкового теоретико-множественного описания:
.
( )GStgKKG
STG
i
STG
i
STG
=⇒ :где,}{
23. СТАТИСТИЧЕСКИЙ АНАЛИЗ
СИНТАГМАТИЧЕСКИХ КОНСТРУКТИВОВ
Частотный анализ текста
— формирование параметрического профиля текста.
Задачи частотного анализа
• Вычисление параметров распределения слов в модели «ранг-частота»
для текстов.
• Построение для текстов частотных функций для слов и парных
словосочетаний: N(wij, Tj), N(wij
2
, Tj)}, где wij,wij
2
∈Tj, j =1,N.
• Построение частотных словников { S(Tj) }, где j=1,N.
• Вычисление общего числа элементов словника:
∑=
=
jR
i
jijj TwNN
0
),( , где Rj – число элементов в словнике S(Tj).
• Вычисление параметров распределения слов в модели «ранг-частота»
для генеральной совокупности.
• Нахождение параметров закона Мандельброта для генеральной
совокупности.
24. ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (1)
Динамический анализ текста
— выявление закономерностей изменения количественных
характеристик структуры ЕЯ описания ПОРМ в течение
времени ∆t.
Задачи динамического анализа
• Определение структуры текста;
• Определение структуры словников,
• Определение содержания словников
• Определение наполнения словников.
Основная идея динамического анализа
заключается в наблюдении за характером изменения
частотных интервалов.
25. ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (2)
Частота F1 F2 F 3 F 4 .... F N
1
1 - р1
р2 - р3
...
рk - рk+1
> рk+1
Итого:
В общем случае имеет место следующая таблица:
Здесь: [Pk,Pk+1] – границы частотных интервалов.
∑=
=
j
k
kj TF
1
– тексты или словники, по которым проводится
наблюдение.
26. ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (3)
Динамика структуры текста
показывает относительное изменение объемов частотных
групп в текстах в течение некоторого интервала времени.
,
),(
),,,(
),,(
1 1
1
21
21
∑∑
∑
= =
=
=
N
j
M
i
jij
R
i
j
t
TwN
pptiP
pptφ где
( )
≤≤=
=
0
,),(
),,,(
bcaеслиFwNc
batiP tit
Здесь: Mj – число слов в тексте Tj, Rt – число слов в тексте Ft
27. ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (4)
Результаты могут быть сведены в
таблицу:
Частота F 1
F2
F 3
F 4
.... F N
1 ϕ(1,0,1) ϕ(N,0,1)
1- р1 ϕ(1,1,р1
) ϕ(N,1,р1
)
р2
- р3 ϕ(2,р2
,р3
)
...
рk
- рk+1
> рk+1
Итого: ϕ(1,0,∞) ϕ(1,0,∞) 1
В строке «итого», записывается сумма вышестоящего столбца,
т.е. ϕ(1,0,∞). Очевидно, что ϕ(N,0,∞) = 1
28. ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (5)
Динамика структуры словников
показывает относительное изменение объемов частотных групп в
словниках в течение некоторого интервала времени.
,
),,,(
),,( 1
21
21
N
R
i
R
pptiP
ppt
t
∑=
=φ где
( )
≤≤
=
0
),(,1
),,,(
bFwNaесли
batiP tit
29. ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (6)
Динамика содержания словников
показывает соотношение объемов частотных групп в течение
некоторого интервала времени.
где
Здесь: Rt – число слов в словнике Ft.
,
),0,,(
),,,(
),,(
1
1
21
21
∑
∑
=
=
∞
=
t
t
R
i
R
i
itP
pptiP
pptφ
( )
≤≤
=
0
),(,1
),,,(
bFwNaесли
batiP tit
30. ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (7)
Результаты могут быть сведены в таблицу:
Частота F1 F2 F 3 F 4 .... F N
1 ϕ(1,0,1) ϕ(N,0,1)
1 - р1 ϕ(1,1,р1) ϕ(N,1,р1)
р2 - р3 ϕ(2,р2,р3)
...
рk - рk+1
> рk+1
Итого: 1 1 1 1 1 1
31. ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (8)
Динамика наполнения словников
характеризует «прирост» новых слов в частотные группы в
течение некоторого временного интервала.
где
Здесь: RN – число слов в словнике FN.
Rt – число слов в словнике Ft.
,
),,,(
),,,(
),,(
1
21
1
21
21
∑
∑
=
=
= N
t
R
i
R
i
ppiNP
pptiP
pptφ
( )
≤≤≤≤
=
0
))((&),(,1
),,,( , bFwNabFwNaесли
batiP NiNtit
32. ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (9)
Результаты могут быть сведены в таблицу:
Частота F 1 F2 F 3 F 4 .... F N
1 ϕ(1, 0, 1) 1
1 - р1 ϕ(1, 1, р1) 1
р2 - р3 ϕ(2, р2, р3) 1
... 1
рk - рk+1 1
> рk+1 1
Итого: ϕ(1, 0, ∞) ϕ(1, 0, ∞) 1
33. ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ
Что такое синтагматическая модель текста?
Приведите формальное описание основных синтагм.
Приведите формальное описание производных синтагм.
Приведите примеры синтагматических конструктивов.
Перечислите основные этапы статистического анализа
синтагм и синтагматических конструктивов.
Editor's Notes
Тема 1 «Естественно-языковые знаковые системы» включает шесть разделов, первые три из которых являются основными.
1.1. Модели и методы представления и организации знаний — лекции 1-2.
1.2. Спецификация ЕЯ систем — лекция 3.
1.3. Логико-статистические методы извлечения знаний — лекции 4–5.
Материал этих разделов представлен в лекциях.
Три других раздела предназначены для самостоятельного изучения, а его материал представлен в рекомендованной литературе.
2.4. Технология автоматизированного построения словаря-тезауруса.
2.5. Пример исследования ЕЯ ресурса.
Четвертая лекция посвящена синтагматической модели текста. В ней рассматриваются три вопроса:
Формальное описание основных синтагм.
Формальное описание производных синтагм и синтагматических конструктивов.
Статистический анализ синтагматических конструктивов.
Материал лекции представлен в книге:
Ю.Н.Филиппович, А.В.Прохоров. Семантика информационных технологий: опыты словарно- тезаурусного описания. / Серия «Компьютерная лингвистика». Вступ. Статья Анатолия Ивановича Новикова. М.: МГУП, 2002.— книга в комплекте с CD ROM — С. 46–54.
Для построения алгоритмов и программ, выполняющих статистический анализ, необходимо задать правила работы с ЕЯ единицами различных уровней. Конструктивными единицами отдельных уровней, непосредственно связанных с анализом естественно-языковых текстов, являются: корпус текстов, текст, контекст, сверхфразовое единство, предложение, словосочетание, слово, морфема, квази-морфема, слог, символ алфавита (буква). Анализ текста может осуществляться как на отдельном языковом уровне, так и на нескольких. Глубина анализа определяется количеством уровней, единицы которых в нем участвуют. Обобщим названные языковые единицы понятием синтагма, под которым в пределах данной работы будем понимать непроизвольную цепочку языковых единиц нижнего уровня (символов). Синтагмы каждого верхнего уровня состоят из синтагм нижних уровней. Выделим основные синтагмы наших построений: символ, слово, предложение, текст. Производными синтагмами будут являться: морфема, квази-морфема, слог, словосочетание, сверхфразовое единство, контекст и корпус текстов. Подобное деление позволяет: во-первых, построить формальное описание текста на основе теории формальных языков нечувствительно к морфологическим, синтаксическим и семантическим аномалиям ЕЯ представления ПОРМ; во-вторых, осуществлять обработку текстов ЕЯ описания ПОРМ, содержащих произвольный набор символов. Фактически это является выделением в отдельный блок комплекса задач так называемого предварительного анализа текста (структурного анализа, предредактора), являющегося предшественником блоков морфологического, синтаксического, семантического и прагматического анализа.
Более подробно информационные технологии описаны в практических пособиях серии книг под редакцией Четверикова Владимира Николаевича, вышедших в начале 90-х годов [Филиппович, 1990-а].
Статистические методы анализа позволяют выявить синтагматическую структуру текста под которой будем понимать комплекс синтагматических конструктивов, построенных на основе основных и производных синтагм. Основными синтагматическими конструктивами являются: тексты, различные словники (частичные и полные, прямые и обратные, частотные) и словоуказатели. В самом общем случае словник представляет собой упорядоченный список синтагм, а словоуказатель — индекс упорядоченного списка синтагм нижнего уровня по синтагмам верхнего уровня, а также по организационным единицам (том, часть, глава, страница, строка, и т.д.).
В качестве примера построим формальные модели для следующих синтагм и синтагматических конструктивов: символа, слова, словосочетания, предложения, контекста, текста, корпуса текстов, частотного словника.
Алфавитом естественно-языкового описания предметной области будем называть множество AB, такое что:
, где ABх — алфавиты современных естественных языков (различаются множества прописных и строчных букв), ABD – множество цифр, ABS – множество специальных символов, которые могут выступать в качестве букв слов:
, , , , , Стоп-знак слова — элемент множества знаков, которые позволяют отделять в тексте слова друг от друга. Стоп-знак stW слова W является элементом транзитивного замыкания множества стоп-знаков:
, где ;
Как видно из определения, каждому слову ставится в соответствие некоторая цепочка стоп-знаков.
Словом в ЕЯ описании ПО будем называть конкатенацию элемента транзитивного замыкания множества AB и стоп-знака: .
Предложение будем рассматривать как конкатенация элемента транзитивного замыкание слов и их разделителей и стоп-знака предложения STS : , где
Словом в ЕЯ описании ПО будем называть конкатенацию элемента транзитивного замыкания множества AB и стоп-знака: .
Предложение будем рассматривать как конкатенация элемента транзитивного замыкание слов и их разделителей и стоп-знака предложения STS : , где
Словом в ЕЯ описании ПО будем называть конкатенацию элемента транзитивного замыкания множества AB и стоп-знака: .
Предложение будем рассматривать как конкатенация элемента транзитивного замыкание слов и их разделителей и стоп-знака предложения STS : , где
Текст определяется аналогично предложению как конкатенация элемента транзитивного замыкания слов и их разделителей и стоп-знака текста: .
Определим контекстно-свободные грамматики (КС-грамматика), которые порождает ЕЯ описание ПО. Введем обозначения:
GT – грамматика, порождающая текст.
GS – грамматика, порождающая предложение.
GW – грамматика, порождающая слово.
N – множество нетерминальных символов
T = AB STW – множество терминальных символов.
S – начальный нетерминальный символ.
EOF = &lt;конец_файла&gt;
EOL = (&lt;переход_на_след_строку&gt; &lt;возврат_каретки&gt;)2
Определим контекстно-свободные грамматики (КС-грамматика), которые порождает ЕЯ описание ПО. Введем обозначения:
GT – грамматика, порождающая текст.
GS – грамматика, порождающая предложение.
GW – грамматика, порождающая слово.
N – множество нетерминальных символов
T = AB STW – множество терминальных символов.
S – начальный нетерминальный символ.
EOF = &lt;конец_файла&gt;
EOL = (&lt;переход_на_след_строку&gt; &lt;возврат_каретки&gt;)2
Описание грамматики, порождающей текст.
GT = (N, T, P, S0)
N = { S0,S1,S2,S3,S4}
T = AB STW
P = {S0 S1 EOF | EOF,
S1 S2 S1 | S2,
S2 S3 S4 | S3 | S4,
S3 w S3 | ww AB T
S4 s S4 | ss (STW \ EOF) T
}
Описание грамматики, порождающей предложения.
GS = (N, T, P, S0)
N = { S0,S1,S2,S3,S4}
T = AB STW
P = {S0 S1 е | е ,е STS T
S1 S2 S1 | S2,
S2 S3 S4 | S3 | S4,
S3 w S3 | ww AB T
S4 s S4 | ss (STW \ STS) T
}
Описание грамматики, порождающей слова.
GW = (N, T, P, S0)
N = { S0,S1,S2,S3 }
T = AB STW
P = {S0 S1 е | е ,е STW T
S1 S2 S1 | S2
S2 w S3 | ww AB T
S3 s S3 | ss (STW \ EOF) T
}
Из сравнения грамматик GT и GW следует, что грамматика GT может порождать, в том числе, и отдельные слова, т.е. любое w, выводимое из GW, выводимо также из GT. Иными словами, w T, где Т – текст, w – отдельное слово.
Приведенные грамматики основных синтагм позволяют построить алгоритмы их извлечения из ЕЯ описания ПОРМ и вычислить все необходимые количественные атрибуты. Статистические методы обработки ЕЯ-информации будут оперировать с формальными объектами, в частности, со словами и предложениями.
Формальное описание производных синтагм и синтагматических конструктивов
Одним из основных понятий статистических методов анализа является понятие генеральной совокупности. В качестве генеральной совокупности будем рассматривать корпус текстов ЕЯ описания ПОРМ, подлежащий исследованию. Объектом исследования являются отдельные синтагмы, являющиеся элементами этого корпуса текстов. Их основной и первичной характеристикой будет являться абсолютная частота встречаемости синтагмы в тексте (или корпусе текстов). Будем различать абсолютные частоты синтагм, как для всего корпуса текстов, так и для отдельных его составляющих. Приведем формальное описание производных синтагм и синтагматических конструктивов:
Рассмотрим эти варианты.
Корпус текстов G — это множество текстов ЕЯ описания ПОРМ:
G = { T1, T2, ..., TN }, где N – число текстов в корпусе, Ti – i-ый текст.
Словосочетанием будем называть wk , которое выводится из GT., состоящее ровно из k-слов, между которыми отсутствуют стоп-знаки предложения или текста (разделители между словами, всегда присутствующие в тексте, будут подразумеваться, но не записываться):
wk = w1w2w3..wk
Очевидно, что любое отдельное слово w = w1.
Поставим в соответствие каждому выражению wk число, характеризующее частоту его встречаемости в конкретном выводе GT (т.е. в конкретном тексте). Таким образом, имеем отображение: F: wk E, здесь E – множество целых чисел. Это отображение будем называть частотной функцией и будем обозначать:
N(wk, T), где T – конкретный текст, а wk – словосочетание.
Очевидно, что N(wk,T)&gt;0, если wk T, и N(wk,T)=0, если wk T. Из w = w1 следует, что N(w,T) = N(w1,T).
Пусть T1 и Т2 – тексты, выводимые из GT. Тогда будем называть суммой текстов T1 и Т2 объект Т3, который будет получаться удалением из текста T1 стоп-знаков текста и обычным присоединением текста T2 к тексту T1. Можно доказать, что T3 – тоже является текстом, выводимым из GT: Если существуют T1 и T2, выводимые из GT, то существует конкретный вывод T1 и T2 из аксиомы S0. Очевидно, что T1 и Т2 – это конечные последовательности символов терминального алфавита GT, а сама грамматика может порождать последовательности любой длины. Следовательно, после вывода всех символов T1 можно осуществить вывод дополнительно всех символов T2. Таким образом, T3 есть текст, также порождаемый GT. Будем записывать: T3 = T1 + T2. Очевидно, что T1+T2T2+T1, т.е. сложение текстов не коммутативно.
Введем понятие контекста С(T). Контекстом в тексте T будем называть непрерывный фрагмент текста T, т.е. фрагмент вывода в GT. Контекст также можно считать текстом и ввести для него аналогичные операции. Свойствами контекста являются:
N(wk, T1) + N (wk, T2) = N(wk, T1+T2)[1]
N(wk, C(T)) N(wk, T)
T = C1(T)+...+Cq(T), где Сi(T) Cj(T)=, i,j (ij) [0,q]
N(wk,Сi(T)) N(wk, T), где Сi(T) Cj(T)=
[1] Если строго, то N(wk, T1) + N (wk, T2) N(wk, T1+T2), но тексты как правило завершаются стоп-знаками предложения, а значит в этом случае возможность формирования словосочетания wk на границе T1 и T2 практически отсутствует. Ввиду малой вероятности такого события будем считать, что N(wk, T1) + N (wk, T2) = N(wk, T1+T2).
Введем понятие частотного словника. Частотным словником текста T будем называть упорядоченную совокупность следующих пар: слов (или словосочетаний) текста и значений их частотной функции.
S(T) = ( &lt;wk, N(wk,T)&gt;)
Как правило, частотный словник упорядочен по убыванию частотного признака. Частотный словник является основным объектом, который несет информацию о частотных характеристиках изучаемых языковых единицах.
Введем операции над словниками:
Объединение словников. Объединением словников S(T1) и S(T2) будем называть словник S(T1+T2). В объединенный словник войдут все слова и словосочетания из обоих текстов со своими частотными функциями, а для одинаковых слов (или словосочетаний) строиться суммарная частотная функция.
Вычитание словников. Вычитанием словников S(T1)-S(T2) будем называть словник S(T*), в который войдут только те слова (или словосочетания) из T1, для которых N(wk,T1) &gt; N(wk,T2). Под T* понимается гипотетический текст, по которому мог бы быть построен словник S(T*).
Представленный пример является формальным описанием или синтагматической моделью естественно-языкового описания ПОРМ. Данная модель является порождающей. В зависимости от примененных формальных грамматик и теоретико-множественных определений в самом общем случае возможно множество различных синтагматических структур. Вполне понятно, что полученные таким образом синтагматические описания могут отражать ту или иную специфику исследования и обладать некоторыми ограничениями. Так в рассматриваемом примере ограничениями являются: невозможность различения в словах дефиса, фактическое распознавание только двух синтагм (слова и предложения), невозможность распознавания вложенных структур (скобочных записей, прямой речи, других формально-синтаксических конструкций). По каждой порождающей синтагматической структуре возможно построение распознающей модели и реализация ее в виде «программ-трансляторов». Генерирующая часть этих программ формирует синтагматический код естественно-языкового описания ПОРМ в виде комплекса конструктивов — словников и словоуказателей.
Приведенный пример позволяет говорить о преобразовании корпуса текстов G в частотный словник слов S(T). Однако, потенциально описанная порождающая модель может использоваться для получения других синтагматических конструктивов: списков словосочетаний, контекстов, различных индексов и т.п.
В общем случае можно сформулировать следующее определение:
синтагматической моделью текста является представление его в виде множества основных синтагматических конструктивов, полученных путем преобразования текста на основе его формально-языкового теоретико-множественного описания:
На основе синтагматических конструктивов могут быть построены и более сложные модели, форма которых позволяет интерпретировать их как словарно-тезаурусное описание ПОРМ.
Статистический анализ синтагматических конструктивов
Частотный. Одной из задач исследования ЕЯ описания ПОРМ является получение параметрического профиля, т.е. совокупности числовых параметров генеральной совокупности. Методика проведения частотного анализа в принципе проработана и отображена в литературе.
В задачи частотного анализа входит вычисление параметров распределения слов по частоте в законе Мандельброта, а также получение количественных характеристик частотных словников. Эти параметры определяют структуру текстов, представляющих ЕЯ описания ПОРМ.
Построение для текстов Ti генеральной совокупности G = (T1, T2, ..., TN) частотных функций для всех слов и парных словосочетаний. Таким образом, необходимо получить величины: {N(wij, Tj), N(wij2, Tj)}, где wij,wij2 Tj, j =1,N.
Построение частотных словников { S(Tj) }, где j=1,N.
Вычисление общего числа элементов словника: , где Rj – число элементов в словнике S(Tj).
Вычисление математического ожидания и дисперсии в модели «ранг-частота» для генеральной совокупности и ее элементов (текстов).
Нахождение параметров закона Мандельброта для генеральной совокупности.
В результате исследований должны быть получены в табличной и графической формах функции распределения и частотные словники.
Задача динамического анализа состоит в выявлении закономерностей изменения количественных характеристик структуры ЕЯ описания ПОРМ в течение времени t. В рамках динамического анализа рассматриваются характеристики: структуры текста; структуры, содержания и наполнения словников.
Основная идея динамического анализа заключается в наблюдении за характером изменения частотных интервалов.
В общем случае имеет место следующая таблица:
ЧастотаF 1F2F 3F 4 ....F N11 - р1р2 - р3...рk - рk+1&gt; рk+1Итого:Здесь [Pk,Pk+1] – границы частотных интервалов, выбранных для наблюдения. В общем случае они могут пересекаться.
Fj – тексты или словники, по которым проводится наблюдение.
Тогда под Fj, будем понимать следующее:
Необходимо отметить, что динамический анализ имеет смысл, если Tk являются ЕЯ представлением, характеризующие ПО в динамике. Так, в качестве Tk могут выступать номера журналов научного или научно-популярного еженедельника.
Динамика структуры текста показывает относительное изменение объемов частотных групп в текстах в течение некоторого интервала времени. Введем следующие обозначения:
где Здесь: Mj – число слов в тексте Tj, Rt – число слов в тексте Ft
Результаты могут быть сведены в таблицу:
ЧастотаF 1F2F 3F 4 ....F N1(1,0,1)(N,0,1)1 - р1(1,1,р1)(N,1,р1)р2 - р3(2,р2,р3)...рk - рk+1&gt; рk+1Итого:(1,0,)(1,0,)1
В строке «итого», записывается сумма вышестоящего столбца,
т.е. (1,0,). Очевидно, что (N,0,) = 1
Динамика структуры словников показывает относительное изменение объемов частотных групп в словниках в течение некоторого интервала времени. Введем следующие. Основное отличие от предыдущей характеристики заключается в том, что рассматриваются слова не в тексте, а в словнике, т.е. количество разных слов в частотных группах. Введем следующие обозначения:
где
Динамика содержания словников показывает соотношение объемов частотных групп в течение некоторого интервала времени.
Иными словами, дает возможность выявлять закономерности распределения слов по частотным группам. Введем следующие обозначения:
где
Здесь: Rt – число слов в словнике Ft.
Результаты могут быть сведены в таблицу:
ЧастотаF 1F2F 3F 4 ....F N1(1,0,1)(N,0,1)1 - р1(1,1,р1)(N,1,р1)р2 - р3(2,р2,р3)...рk - рk+1&gt; рk+1Итого:111111
Динамика наполнения словников характеризует «прирост» новых слов в частотные группы в течение некоторого временного интервала, т.е. характеристика позволяет оценить объемы, которые добавляются в каждый момент времени. Введем следующие обозначения:
где
Здесь: RN – число слов в словнике FN.
Rt – число слов в словнике Ft.
Результаты могут быть сведены в таблицу:
ЧастотаF 1F2F 3F 4 ....F N1(1, 0, 1)11 - р1(1, 1, р1)1р2 - р3(2, р2, р3)1...1рk - рk+11&gt; рk+11Итого:(1, 0, )(1, 0, )1
Для самоконтроля усвоения материала лекции попытайтесь ответить на следующие вопросы:
Что такое синтагматическая модель текста?
Приведите формальное описание основных синтагм.
Приведите формальное описание производных синтагм.
Приведите примеры синтагматических конструктивов.
Перечислите основные этапы статистического анализа синтагм и синтагматических конструктивов.