SlideShare a Scribd company logo
1 of 33
Тема 1.
ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ
ЗНАКОВЫЕ СИСТЕМЫ
ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ
1.1. Модели и методы представления и организации знаний —
лекции 1-2.
1.2. Количественная спецификация ЕЯ систем —
лекции 3-4, 8.
1.3. Логико-статистические методы извлечения знаний —
лекция 5-7.
ФАКУЛЬТАТИВНЫЕ РАЗДЕЛЫ ТЕМЫ ДЛЯ
САМОСТОЯТЕЛЬНОГО ИЗУЧЕНИЯ
1.4. Технология автоматизированного построения словаря-
тезауруса.
1.5. Пример исследования ЕЯ ресурса.
Лекция 6.
СИНТАГМАТИЧЕСКАЯ МОДЕЛЬ ТЕКСТА
 Формальное описание основных
синтагм
 Формальное описание
производных синтагм и
синтагматических конструктивов
 Статистический анализ
синтагматических конструктивов
Литература
Материал лекции представлен в
книге:
Ю.Н.Филиппович, А.В.Прохоров.
Семантика
информационных
технологий:
опыты словарно-тезаурусного
описания. /
Серия «Компьютерная лингвистика».
Вступ. Статья А.И.Новикова.
М.: МГУП, 2002.
— книга в комплекте с CD ROM
— С. 54–64.
ФОРМАЛЬНОЕ ОПИСАНИЕ
ОСНОВНЫХ СИНТАГМ
Конструктивные ЕЯ единицы:
корпус текстов, текст, контекст, сверхфразовое единство, предложение,
словосочетание, слово, морфема, квази-морфема, слог, символ
алфавита (буква).
Синтагма — непроизвольная цепочка языковых единиц нижнего уровня
(символов). Синтагмы каждого верхнего уровня состоят из синтагм
нижних уровней.
 
основные :
символ, слово, предложение, текст
производные :
морфема, квази-морфема, слог,
словосочетание, сверхфразовое
единство, контекст и корпус текстов.
Цели выделения основных синтагм
1. Описание текста на основе теории формальных языков.
2. Выделение комплекса задач предварительного анализа текста.
Литература
Филиппович Ю.Н., Родионов Е.В., Черкасова Г.А.
Языковые средства диалога человека с ЭВМ.
Практическое пособие /
Серия «Организация взаимодействия человека с
техническими средствами АСУ». В 7 кн. Кн.2.
Под ред. Четверикова В.Н.
М.: Высш. шк., 1990. – 159 с.
СИНТАГМАТИЧЕСКАЯ СТРУКТУРА ТЕКСТА
СИНТАГМАТИЧЕСКАЯ СТРУКТУРА ТЕКСТА
— комплекс синтагматических конструктивов, построенных на
основе основных и производных синтагм.
Основные синтагматические конструктивы:
 тексты,
 словники (частичные и полные, прямые и обратные, частотные)
— упорядоченные списки синтагм
 словоуказатели.— индексы упорядоченных списков синтагм
нижнего уровня по синтагмам верхнего уровня, а также по
организационным единицам (том, часть, глава, страница, строка,
и т.д.).
ОСНОВНЫЕ СИНТАГМЫ (1)
 SDlLrR ABABABABABABAB =
},...,{ ЯАABR =},...,{ яаABr = },...,{ ZAABL = },...,{ zaABl =
}9,...,0{=DAB
@}~,_,*,,^,,,,/,,$,%,&,{# =><=SAB
Алфавитом естественно-языкового описания предметной
области будем называть множество AB, такое что:
ABх
— алфавиты современных естественных языков
(различаются множества прописных и строчных букв)
,
,
где:
ABD — множество цифр
ABS — множество специальных символов, которые могут выступать
в качестве букв слов
ОСНОВНЫЕ СИНТАГМЫ (2)
Стоп-знак слова — элемент множества знаков, которые позволяют
отделять в тексте слова друг от друга. Стоп-знак stW слова W является
элементом транзитивного замыкания множества стоп-знаков:
+
∈ WW STst 
∞
=
+
=
1n
n
WW STST, где











































><><><
><
><
><
><
><><
><><
><><
><><
><><><
=
файлаконецсимволнультабуляция
кареткивозврат
строкуследнаперевоход
знакьныйвопросител
знакльныйвосклицате
скобкаквправаяскобкаквлевая
скобкакрправаяскобкакрлевая
кавычкадефисминустире
запятойсточказапятая
двоеточиеточкапробел
W
ST
_,_,
,_
,___
,_
,_
,__,__
,__,__
,,//
,__,
,,,
ОСНОВНЫЕ СИНТАГМЫ (3)
Словом в ЕЯ описании ПО будем называть конкатенацию
элемента транзитивного замыкания множества AB и стоп-
знака:
)( ++
×=∈ WSTABWw
ОСНОВНЫЕ СИНТАГМЫ (4)
.
Предложение будем рассматривать как конкатенация стоп-знака
предложения STS и элемента транзитивного замыкание слов и их
разделителей:
;)(
1

∞
=
+++
×=
n
n
WSTABW;++
×= SSTWS














><
><><><
><><
=⊂
абзацаконец
файлаконецсимволнульзнакьныйвопросител
знакльныйвосклицатеточка
S
ST
W
ST
S
ST
_
,_,_,_
,_,
;
2
}____{_ >><<>=< кореткивозвратстрокуследнапереходабзацаконец
ОСНОВНЫЕ СИНТАГМЫ (5)
Текст определяется аналогично предложению как
конкатенация стоп-знака и элемента транзитивного
замыкания слов и их разделителей:

∞
=
+++
×=
1
)(
n
n
WSTABW;)_( ><×= +
файлаконецWT
ПОРОЖДАЮЩИЕ ГРАММАТИКИ
ЕЯ ОПИСАНИЯ ПОРМ (1)
GT – грамматика, порождающая текст.
GS – грамматика, порождающая предложение.
GW – грамматика, порождающая слово.
N – множество нетерминальных символов
T = AB ∪ STW – множество терминальных символов.
S – начальный нетерминальный символ.
EOF = <конец_файла>
EOL = (<переход_на_след_строку> <возврат_каретки>)
ПОРОЖДАЮЩИЕ ГРАММАТИКИ
ЕЯ ОПИСАНИЯ ПОРМ (2)
ОПИСАНИЕ ГРАММАТИКИ,
ПОРОЖДАЮЩЕЙ ТЕКСТ
GT = (N, T, P, S0)
N = { S0,S1,S2,S3,S4}
T = AB ∪ STW
P = { S0 → S1 EOF | EOF,
S1 → S2 S1 | S2,
S2 → S3 S4 | S3 | S4,
S3 → w S3 | w w ∈AB ∈ T
S4 → s S4 | s s ∈ (STW  EOF) ∈ T
ПОРОЖДАЮЩИЕ ГРАММАТИКИ
ЕЯ ОПИСАНИЯ ПОРМ (3)
ОПИСАНИЕ ГРАММАТИКИ,
ПОРОЖДАЮЩЕЙ ПРЕДЛОЖЕНИЯ
GS = (N, T, P, S0)
N = { S0,S1,S2,S3,S4}
T = AB ∪ STW
P = { S0 → S1 е | е , е ∈ STS ∈ T
S1 → S2 S1 | S2,
S2 → S3 S4 | S3 | S4,
S3 → w S3 | w w ∈AB ∈ T
S4 → s S4 | s s ∈ (STW  STS) ∈ T
}
ПОРОЖДАЮЩИЕ ГРАММАТИКИ
ЕЯ ОПИСАНИЯ ПОРМ (4)
ОПИСАНИЕ ГРАММАТИКИ,
ПОРОЖДАЮЩЕЙ СЛОВА.
GW = (N, T, P, S0)
N = { S0,S1,S2,S3 }
T = AB ∪ STW
P = { S0 → S1 е | е , е ∈ STW ∈ T
S1 → S2 S1 | S2
S2 → w S3 | w w ∈AB ∈ T
S3 → s S3 | s s ∈ (STW  EOF) ∈ T
}
ФОРМАЛЬНОЕ ОПИСАНИЕ
ПРОИЗВОДНЫХ СИНТАГМ И
СИНТАГМАТИЧЕСКИХ КОНСТРУКТИВОВ
Генеральная совокупность = корпус текстов ЕЯ описания ПОРМ

Объект исследования — отдельные синтагмы,
являющиеся элементами этого корпуса текстов

Основные характеристики — абсолютные частоты
встречаемости синтагм в корпусе текстов и
составляющих его частях
ПРОИЗВОДНЫЕ СИНТАГМЫ (1)
Корпус текстов G — это множество текстов ЕЯ описания ПОРМ:
G = { T1, T2, ..., TN }, где N – число текстов в корпусе, Ti – i-ый текст.
Словосочетание wk
— выводится из GT., состоит ровно из k-слов,
между которыми отсутствуют стоп-знаки предложения или текста:
wk
= w1w2w3..wk. Любое отдельное слово w = w1
.
Поставим в соответствие каждому выражению wk
число, характери-
зующее частоту его встречаемости в конкретном выводе GT и
получим отображение F: wk
⇒ E, где E – множество целых чисел.
Частотная функция — F = N(wk
, T), где:
T – конкретный текст, wk
– словосочетание.
Свойства частотной функции:
N(wk
,T)>0, если wk
∈ T, и N(wk
,T)=0, если wk
∉T.
Из w = w1
следует, что N(w,T) = N(w1
,T).
ПРОИЗВОДНЫЕ СИНТАГМЫ (2)
Суммой текстов T1 и Т2 называется текст Т3, получаемый удалением
из текста T1 стоп-знаков текста и присоединением к нему текста T2
T3 – является текстом, выводимым из GT.
Доказательство
1. Если существуют T1 и T2, выводимые из GT, то существует
конкретный вывод T1 и T2 из аксиомы S0.
2. T1 и Т2 – конечные последовательности символов терминального
алфавита GT, а сама грамматика может порождать
последовательности любой длины.
3. Следовательно, после вывода всех символов T1 можно
осуществить вывод дополнительно всех символов T2.
4. Таким образом, T3 есть текст, порождаемый GT.
ПРОИЗВОДНЫЕ СИНТАГМЫ (3)
Контекст С(T) — непрерывный фрагмент текста T, т.е.
фрагмент вывода в GT.
Свойства контекста:
N(wk
, T1) + N (wk
, T2) = N(wk
, T1+T2)
N(wk
, C(T)) ≤ N(wk
, T)
T = C1(T)+...+Cq(T), где Сi(T)∩ Cj(T)=∅, i,j (i≠j) ∈[0,q]
Σ N(wk
,Сi(T)) ≤ N(wk
, T), где Сi(T)∩ Cj(T)=∅
Замечание.
• N(wk
, T1) + N (wk
, T2) ≤ N(wk
, T1+T2),
• Тексты завершаются стоп-знаками предложения,
• Возможность словосочетания wk
на границе T1 и T2 практически
отсутствует.
• Будем считать, что N(wk, T1) + N (wk, T2) = N(wk, T1+T2).
ПРОИЗВОДНЫЕ СИНТАГМЫ (4)
,
Частотный словник — упорядоченная совокупность слов
(или словосочетаний) текста и значений их частотной функции
S(T) = ( <wk, N(wk,T)>).
Операции над словниками
Объединение словников. Объединением словников S(T1) и
S(T2) будем называть словник S(T1+T2). В объединенный
словник войдут все слова и словосочетания из обоих текстов со
своими частотными функциями, а для одинаковых слов (или
словосочетаний) строится суммарная частотная функция.
Вычитание словников. Вычитанием словников S(T1)-S(T2)
будем называть словник S(T*), в который войдут только те
слова (или словосочетания) из T1, для которых N(wk,T1) >
N(wk,T2). Под T* понимается гипотетический текст, по которому
мог бы быть построен словник S(T*).
ПРОИЗВОДНЫЕ СИНТАГМЫ (5)
Ограничения синтагматической структуры:
• невозможность различения в словах дефиса,
• распознавание только слова и предложения,
• невозможность распознавания вложенных структур
(скобочных записей, прямой речи, других формально-
синтаксических конструкций).
порождающая синтагматическая структура

распознающая модель = «программа-транслятор»

генератор синтагматического кода ЕЯ описания ПОРМ

комплекс синтагматических конструктивов:
словники, словоуказатели, списки словосочетаний, контексты,
индексы и т.п.
ПРОИЗВОДНЫЕ СИНТАГМЫ (6)
СИНТАГМАТИЧЕСКАЯ МОДЕЛЬ ТЕКСТА
— это представление его в виде множества основных
синтагматических конструктивов, полученных путем
преобразования текста на основе его формально-
языкового теоретико-множественного описания:
.
( )GStgKKG
STG
i
STG
i
STG
=⇒ :где,}{
СТАТИСТИЧЕСКИЙ АНАЛИЗ
СИНТАГМАТИЧЕСКИХ КОНСТРУКТИВОВ
Частотный анализ текста
— формирование параметрического профиля текста.
Задачи частотного анализа
• Вычисление параметров распределения слов в модели «ранг-частота»
для текстов.
• Построение для текстов частотных функций для слов и парных
словосочетаний: N(wij, Tj), N(wij
2
, Tj)}, где wij,wij
2
∈Tj, j =1,N.
• Построение частотных словников { S(Tj) }, где j=1,N.
• Вычисление общего числа элементов словника:
∑=
=
jR
i
jijj TwNN
0
),( , где Rj – число элементов в словнике S(Tj).
• Вычисление параметров распределения слов в модели «ранг-частота»
для генеральной совокупности.
• Нахождение параметров закона Мандельброта для генеральной
совокупности.
ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (1)
Динамический анализ текста
— выявление закономерностей изменения количественных
характеристик структуры ЕЯ описания ПОРМ в течение
времени ∆t.
Задачи динамического анализа
• Определение структуры текста;
• Определение структуры словников,
• Определение содержания словников
• Определение наполнения словников.
Основная идея динамического анализа
заключается в наблюдении за характером изменения
частотных интервалов.
ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (2)
Частота F1 F2 F 3 F 4 .... F N
1
1 - р1
р2 - р3
...
рk - рk+1
> рk+1
Итого:
В общем случае имеет место следующая таблица:
Здесь: [Pk,Pk+1] – границы частотных интервалов.
∑=
=
j
k
kj TF
1
– тексты или словники, по которым проводится
наблюдение.
ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (3)
Динамика структуры текста
показывает относительное изменение объемов частотных
групп в текстах в течение некоторого интервала времени.
,
),(
),,,(
),,(
1 1
1
21
21
∑∑
∑
= =
=
=
N
j
M
i
jij
R
i
j
t
TwN
pptiP
pptφ где
( )


 ≤≤=
=
0
,),(
),,,(
bcaеслиFwNc
batiP tit
Здесь: Mj – число слов в тексте Tj, Rt – число слов в тексте Ft
ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (4)
Результаты могут быть сведены в
таблицу:
Частота F 1
F2
F 3
F 4
.... F N
1 ϕ(1,0,1) ϕ(N,0,1)
1- р1 ϕ(1,1,р1
) ϕ(N,1,р1
)
р2
- р3 ϕ(2,р2
,р3
)
...
рk
- рk+1
> рk+1
Итого: ϕ(1,0,∞) ϕ(1,0,∞) 1
В строке «итого», записывается сумма вышестоящего столбца,
т.е. ϕ(1,0,∞). Очевидно, что ϕ(N,0,∞) = 1
ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (5)
Динамика структуры словников
показывает относительное изменение объемов частотных групп в
словниках в течение некоторого интервала времени.
,
),,,(
),,( 1
21
21
N
R
i
R
pptiP
ppt
t
∑=
=φ где
( )


 ≤≤
=
0
),(,1
),,,(
bFwNaесли
batiP tit
ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (6)
Динамика содержания словников
показывает соотношение объемов частотных групп в течение
некоторого интервала времени.
где
Здесь: Rt – число слов в словнике Ft.
,
),0,,(
),,,(
),,(
1
1
21
21
∑
∑
=
=
∞
=
t
t
R
i
R
i
itP
pptiP
pptφ
( )


 ≤≤
=
0
),(,1
),,,(
bFwNaесли
batiP tit
ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (7)
Результаты могут быть сведены в таблицу:
Частота F1 F2 F 3 F 4 .... F N
1 ϕ(1,0,1) ϕ(N,0,1)
1 - р1 ϕ(1,1,р1) ϕ(N,1,р1)
р2 - р3 ϕ(2,р2,р3)
...
рk - рk+1
> рk+1
Итого: 1 1 1 1 1 1
ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (8)
Динамика наполнения словников
характеризует «прирост» новых слов в частотные группы в
течение некоторого временного интервала.
где
Здесь: RN – число слов в словнике FN.
Rt – число слов в словнике Ft.
,
),,,(
),,,(
),,(
1
21
1
21
21
∑
∑
=
=
= N
t
R
i
R
i
ppiNP
pptiP
pptφ
( )


 ≤≤≤≤
=
0
))((&),(,1
),,,( , bFwNabFwNaесли
batiP NiNtit
ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (9)
Результаты могут быть сведены в таблицу:
Частота F 1 F2 F 3 F 4 .... F N
1 ϕ(1, 0, 1) 1
1 - р1 ϕ(1, 1, р1) 1
р2 - р3 ϕ(2, р2, р3) 1
... 1
рk - рk+1 1
> рk+1 1
Итого: ϕ(1, 0, ∞) ϕ(1, 0, ∞) 1
ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ
 Что такое синтагматическая модель текста?
 Приведите формальное описание основных синтагм.
 Приведите формальное описание производных синтагм.
 Приведите примеры синтагматических конструктивов.
 Перечислите основные этапы статистического анализа
синтагм и синтагматических конструктивов.

More Related Content

What's hot

Предикаты. Основные понятия, связанные с предикатами
Предикаты. Основные понятия, связанные с предикатамиПредикаты. Основные понятия, связанные с предикатами
Предикаты. Основные понятия, связанные с предикатамиИльдус Ситдиков
 
Работа с текстом на уроках математики
Работа с текстом на уроках математикиРабота с текстом на уроках математики
Работа с текстом на уроках математикиKirrrr123
 
Кванторы. Квантор всеобщности. Квантор существования.Равносильные формулы лог...
Кванторы. Квантор всеобщности. Квантор существования.Равносильные формулы лог...Кванторы. Квантор всеобщности. Квантор существования.Равносильные формулы лог...
Кванторы. Квантор всеобщности. Квантор существования.Равносильные формулы лог...aleksashka3
 
основы логики
основы логикиосновы логики
основы логикиRushitech
 
математик анализ лекц№3
математик анализ лекц№3математик анализ лекц№3
математик анализ лекц№3narangerelodon
 
20110925 csseminar formal_grammars_complexity
20110925 csseminar formal_grammars_complexity20110925 csseminar formal_grammars_complexity
20110925 csseminar formal_grammars_complexityComputer Science Club
 
Логарифмические уравнения
Логарифмические уравненияЛогарифмические уравнения
Логарифмические уравненияFormula.co.ua
 
Формы мышления, алгебра высказываний
Формы мышления, алгебра высказыванийФормы мышления, алгебра высказываний
Формы мышления, алгебра высказыванийserge_luch
 
4. Законы логики. Упрощение формул
4. Законы логики. Упрощение формул4. Законы логики. Упрощение формул
4. Законы логики. Упрощение формулaleksashka3
 

What's hot (12)

Предикаты. Основные понятия, связанные с предикатами
Предикаты. Основные понятия, связанные с предикатамиПредикаты. Основные понятия, связанные с предикатами
Предикаты. Основные понятия, связанные с предикатами
 
Работа с текстом на уроках математики
Работа с текстом на уроках математикиРабота с текстом на уроках математики
Работа с текстом на уроках математики
 
Основы логики
Основы логикиОсновы логики
Основы логики
 
Кванторы. Квантор всеобщности. Квантор существования.Равносильные формулы лог...
Кванторы. Квантор всеобщности. Квантор существования.Равносильные формулы лог...Кванторы. Квантор всеобщности. Квантор существования.Равносильные формулы лог...
Кванторы. Квантор всеобщности. Квантор существования.Равносильные формулы лог...
 
л 2 14
л 2 14л 2 14
л 2 14
 
основы логики
основы логикиосновы логики
основы логики
 
математик анализ лекц№3
математик анализ лекц№3математик анализ лекц№3
математик анализ лекц№3
 
20110925 csseminar formal_grammars_complexity
20110925 csseminar formal_grammars_complexity20110925 csseminar formal_grammars_complexity
20110925 csseminar formal_grammars_complexity
 
Логарифмические уравнения
Логарифмические уравненияЛогарифмические уравнения
Логарифмические уравнения
 
Logika
LogikaLogika
Logika
 
Формы мышления, алгебра высказываний
Формы мышления, алгебра высказыванийФормы мышления, алгебра высказываний
Формы мышления, алгебра высказываний
 
4. Законы логики. Упрощение формул
4. Законы логики. Упрощение формул4. Законы логики. Упрощение формул
4. Законы логики. Упрощение формул
 

Viewers also liked

Instructivo para evaluacion_estudiantil
Instructivo para evaluacion_estudiantilInstructivo para evaluacion_estudiantil
Instructivo para evaluacion_estudiantilCesar Yupa
 
январь зимой на лыжах
январь зимой на лыжахянварь зимой на лыжах
январь зимой на лыжахura-ptichka
 
маршрут заповедные тропы приазовья
маршрут   заповедные тропы приазовьямаршрут   заповедные тропы приазовья
маршрут заповедные тропы приазовьяЦБ М. Маріуполя
 
Circular 7. actividades extraescolares ampa 1
Circular 7. actividades extraescolares ampa 1Circular 7. actividades extraescolares ampa 1
Circular 7. actividades extraescolares ampa 1adrianoloras
 
Clases de apoyo primaria secundaria y facultad
Clases de apoyo primaria secundaria y facultadClases de apoyo primaria secundaria y facultad
Clases de apoyo primaria secundaria y facultadMaría Beatriz Juzviachik
 
El pollet que estava sol 2
El pollet que estava sol 2El pollet que estava sol 2
El pollet que estava sol 2wanxerf
 
Boxoffice analysis using SAS
Boxoffice analysis using SASBoxoffice analysis using SAS
Boxoffice analysis using SASvignesh mohanmani
 
Cristina garcia act. 1
Cristina garcia act. 1  Cristina garcia act. 1
Cristina garcia act. 1 Chris Garcia
 

Viewers also liked (16)

Ar revolution
Ar revolutionAr revolution
Ar revolution
 
Oficio asodegua
Oficio asodeguaOficio asodegua
Oficio asodegua
 
Jjjjjjjjjjjjj
JjjjjjjjjjjjjJjjjjjjjjjjjj
Jjjjjjjjjjjjj
 
Instructivo para evaluacion_estudiantil
Instructivo para evaluacion_estudiantilInstructivo para evaluacion_estudiantil
Instructivo para evaluacion_estudiantil
 
январь зимой на лыжах
январь зимой на лыжахянварь зимой на лыжах
январь зимой на лыжах
 
Tema 5.
Tema 5. Tema 5.
Tema 5.
 
Cuestionario cop
Cuestionario copCuestionario cop
Cuestionario cop
 
What parents should know about good oral care?
What parents should know about good oral care?What parents should know about good oral care?
What parents should know about good oral care?
 
маршрут заповедные тропы приазовья
маршрут   заповедные тропы приазовьямаршрут   заповедные тропы приазовья
маршрут заповедные тропы приазовья
 
Circular 7. actividades extraescolares ampa 1
Circular 7. actividades extraescolares ampa 1Circular 7. actividades extraescolares ampa 1
Circular 7. actividades extraescolares ampa 1
 
Clases de apoyo primaria secundaria y facultad
Clases de apoyo primaria secundaria y facultadClases de apoyo primaria secundaria y facultad
Clases de apoyo primaria secundaria y facultad
 
портфоліо - Товт Неоніли Володимирівни
портфоліо - Товт Неоніли Володимирівнипортфоліо - Товт Неоніли Володимирівни
портфоліо - Товт Неоніли Володимирівни
 
Ntics
NticsNtics
Ntics
 
El pollet que estava sol 2
El pollet que estava sol 2El pollet que estava sol 2
El pollet que estava sol 2
 
Boxoffice analysis using SAS
Boxoffice analysis using SASBoxoffice analysis using SAS
Boxoffice analysis using SAS
 
Cristina garcia act. 1
Cristina garcia act. 1  Cristina garcia act. 1
Cristina garcia act. 1
 

Similar to лекция 6 тема 1

АОТ - Предсинтаксис
АОТ - ПредсинтаксисАОТ - Предсинтаксис
АОТ - Предсинтаксисeibolshakova
 
лекция 5 тема 1
лекция 5 тема 1лекция 5 тема 1
лекция 5 тема 1Noobie312
 
лекции 3 4 тема 1
лекции 3 4 тема 1лекции 3 4 тема 1
лекции 3 4 тема 1Noobie312
 
Алгоритмы и структуры данных осень 2013 лекция 1
Алгоритмы и структуры данных осень 2013 лекция 1Алгоритмы и структуры данных осень 2013 лекция 1
Алгоритмы и структуры данных осень 2013 лекция 1Technopark
 
практика 17
практика 17практика 17
практика 17student_kai
 
7 алг мерзляк_полонский_2016_рус
7 алг мерзляк_полонский_2016_рус7 алг мерзляк_полонский_2016_рус
7 алг мерзляк_полонский_2016_русAira_Roo
 
Построение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаПостроение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаIrene Pochinok
 
построение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстапостроение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстаYury Katkov
 
558 1 математика. 9кл.-латотин, чеботаревский_минск, 2014 -397с
558 1  математика. 9кл.-латотин, чеботаревский_минск, 2014 -397с558 1  математика. 9кл.-латотин, чеботаревский_минск, 2014 -397с
558 1 математика. 9кл.-латотин, чеботаревский_минск, 2014 -397сdfdkfjs
 
17.03 большакова
17.03 большакова17.03 большакова
17.03 большаковаNatalia Ostapuk
 
2016-12-03 03 Евгений Тюменцев. DSL на коленке
2016-12-03 03 Евгений Тюменцев. DSL на коленке2016-12-03 03 Евгений Тюменцев. DSL на коленке
2016-12-03 03 Евгений Тюменцев. DSL на коленкеОмские ИТ-субботники
 
Russian text book 5
Russian text book 5Russian text book 5
Russian text book 5Skypestudy
 
русский язык, 5 класс, часть 2, ладыженская т.а., баранов м.т., тростенцова л.а
русский язык, 5 класс, часть 2, ладыженская т.а., баранов м.т., тростенцова л.арусский язык, 5 класс, часть 2, ладыженская т.а., баранов м.т., тростенцова л.а
русский язык, 5 класс, часть 2, ладыженская т.а., баранов м.т., тростенцова л.аkov89
 

Similar to лекция 6 тема 1 (20)

АОТ - Предсинтаксис
АОТ - ПредсинтаксисАОТ - Предсинтаксис
АОТ - Предсинтаксис
 
Объектная модель многофункциональных словарей
Объектная модель многофункциональных словарейОбъектная модель многофункциональных словарей
Объектная модель многофункциональных словарей
 
лекция 5 тема 1
лекция 5 тема 1лекция 5 тема 1
лекция 5 тема 1
 
формальные языки и грамматики
формальные языки и грамматикиформальные языки и грамматики
формальные языки и грамматики
 
лекции 3 4 тема 1
лекции 3 4 тема 1лекции 3 4 тема 1
лекции 3 4 тема 1
 
Алгоритмы и структуры данных осень 2013 лекция 1
Алгоритмы и структуры данных осень 2013 лекция 1Алгоритмы и структуры данных осень 2013 лекция 1
Алгоритмы и структуры данных осень 2013 лекция 1
 
Slovar pr. metodol
Slovar pr. metodolSlovar pr. metodol
Slovar pr. metodol
 
практика 17
практика 17практика 17
практика 17
 
7
77
7
 
7 алг мерзляк_полонский_2016_рус
7 алг мерзляк_полонский_2016_рус7 алг мерзляк_полонский_2016_рус
7 алг мерзляк_полонский_2016_рус
 
7 a m_2015_ru
7 a m_2015_ru7 a m_2015_ru
7 a m_2015_ru
 
Построение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаПостроение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текста
 
построение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстапостроение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текста
 
127_1
127_1127_1
127_1
 
558 1 математика. 9кл.-латотин, чеботаревский_минск, 2014 -397с
558 1  математика. 9кл.-латотин, чеботаревский_минск, 2014 -397с558 1  математика. 9кл.-латотин, чеботаревский_минск, 2014 -397с
558 1 математика. 9кл.-латотин, чеботаревский_минск, 2014 -397с
 
clasification
clasificationclasification
clasification
 
17.03 большакова
17.03 большакова17.03 большакова
17.03 большакова
 
2016-12-03 03 Евгений Тюменцев. DSL на коленке
2016-12-03 03 Евгений Тюменцев. DSL на коленке2016-12-03 03 Евгений Тюменцев. DSL на коленке
2016-12-03 03 Евгений Тюменцев. DSL на коленке
 
Russian text book 5
Russian text book 5Russian text book 5
Russian text book 5
 
русский язык, 5 класс, часть 2, ладыженская т.а., баранов м.т., тростенцова л.а
русский язык, 5 класс, часть 2, ладыженская т.а., баранов м.т., тростенцова л.арусский язык, 5 класс, часть 2, ладыженская т.а., баранов м.т., тростенцова л.а
русский язык, 5 класс, часть 2, ладыженская т.а., баранов м.т., тростенцова л.а
 

More from Noobie312

презентация
презентацияпрезентация
презентацияNoobie312
 
введение
введениевведение
введениеNoobie312
 
лекция 7 тема 1
лекция 7 тема 1лекция 7 тема 1
лекция 7 тема 1Noobie312
 
лекция 6 тема 1
лекция 6 тема 1лекция 6 тема 1
лекция 6 тема 1Noobie312
 
лекция 5 тема 1
лекция 5 тема 1лекция 5 тема 1
лекция 5 тема 1Noobie312
 
лекции 3 4 тема 1
лекции 3 4 тема 1лекции 3 4 тема 1
лекции 3 4 тема 1Noobie312
 
введение
введениевведение
введениеNoobie312
 

More from Noobie312 (8)

презентация
презентацияпрезентация
презентация
 
введение
введениевведение
введение
 
1 l5eng
1 l5eng1 l5eng
1 l5eng
 
лекция 7 тема 1
лекция 7 тема 1лекция 7 тема 1
лекция 7 тема 1
 
лекция 6 тема 1
лекция 6 тема 1лекция 6 тема 1
лекция 6 тема 1
 
лекция 5 тема 1
лекция 5 тема 1лекция 5 тема 1
лекция 5 тема 1
 
лекции 3 4 тема 1
лекции 3 4 тема 1лекции 3 4 тема 1
лекции 3 4 тема 1
 
введение
введениевведение
введение
 

лекция 6 тема 1

  • 1. Тема 1. ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ ЗНАКОВЫЕ СИСТЕМЫ ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ 1.1. Модели и методы представления и организации знаний — лекции 1-2. 1.2. Количественная спецификация ЕЯ систем — лекции 3-4, 8. 1.3. Логико-статистические методы извлечения знаний — лекция 5-7. ФАКУЛЬТАТИВНЫЕ РАЗДЕЛЫ ТЕМЫ ДЛЯ САМОСТОЯТЕЛЬНОГО ИЗУЧЕНИЯ 1.4. Технология автоматизированного построения словаря- тезауруса. 1.5. Пример исследования ЕЯ ресурса.
  • 2. Лекция 6. СИНТАГМАТИЧЕСКАЯ МОДЕЛЬ ТЕКСТА  Формальное описание основных синтагм  Формальное описание производных синтагм и синтагматических конструктивов  Статистический анализ синтагматических конструктивов
  • 3. Литература Материал лекции представлен в книге: Ю.Н.Филиппович, А.В.Прохоров. Семантика информационных технологий: опыты словарно-тезаурусного описания. / Серия «Компьютерная лингвистика». Вступ. Статья А.И.Новикова. М.: МГУП, 2002. — книга в комплекте с CD ROM — С. 54–64.
  • 4. ФОРМАЛЬНОЕ ОПИСАНИЕ ОСНОВНЫХ СИНТАГМ Конструктивные ЕЯ единицы: корпус текстов, текст, контекст, сверхфразовое единство, предложение, словосочетание, слово, морфема, квази-морфема, слог, символ алфавита (буква). Синтагма — непроизвольная цепочка языковых единиц нижнего уровня (символов). Синтагмы каждого верхнего уровня состоят из синтагм нижних уровней.   основные : символ, слово, предложение, текст производные : морфема, квази-морфема, слог, словосочетание, сверхфразовое единство, контекст и корпус текстов. Цели выделения основных синтагм 1. Описание текста на основе теории формальных языков. 2. Выделение комплекса задач предварительного анализа текста.
  • 5. Литература Филиппович Ю.Н., Родионов Е.В., Черкасова Г.А. Языковые средства диалога человека с ЭВМ. Практическое пособие / Серия «Организация взаимодействия человека с техническими средствами АСУ». В 7 кн. Кн.2. Под ред. Четверикова В.Н. М.: Высш. шк., 1990. – 159 с.
  • 6. СИНТАГМАТИЧЕСКАЯ СТРУКТУРА ТЕКСТА СИНТАГМАТИЧЕСКАЯ СТРУКТУРА ТЕКСТА — комплекс синтагматических конструктивов, построенных на основе основных и производных синтагм. Основные синтагматические конструктивы:  тексты,  словники (частичные и полные, прямые и обратные, частотные) — упорядоченные списки синтагм  словоуказатели.— индексы упорядоченных списков синтагм нижнего уровня по синтагмам верхнего уровня, а также по организационным единицам (том, часть, глава, страница, строка, и т.д.).
  • 7. ОСНОВНЫЕ СИНТАГМЫ (1)  SDlLrR ABABABABABABAB = },...,{ ЯАABR =},...,{ яаABr = },...,{ ZAABL = },...,{ zaABl = }9,...,0{=DAB @}~,_,*,,^,,,,/,,$,%,&,{# =><=SAB Алфавитом естественно-языкового описания предметной области будем называть множество AB, такое что: ABх — алфавиты современных естественных языков (различаются множества прописных и строчных букв) , , где: ABD — множество цифр ABS — множество специальных символов, которые могут выступать в качестве букв слов
  • 8. ОСНОВНЫЕ СИНТАГМЫ (2) Стоп-знак слова — элемент множества знаков, которые позволяют отделять в тексте слова друг от друга. Стоп-знак stW слова W является элементом транзитивного замыкания множества стоп-знаков: + ∈ WW STst  ∞ = + = 1n n WW STST, где                                            ><><>< >< >< >< >< ><>< ><>< ><>< ><>< ><><>< = файлаконецсимволнультабуляция кареткивозврат строкуследнаперевоход знакьныйвопросител знакльныйвосклицате скобкаквправаяскобкаквлевая скобкакрправаяскобкакрлевая кавычкадефисминустире запятойсточказапятая двоеточиеточкапробел W ST _,_, ,_ ,___ ,_ ,_ ,__,__ ,__,__ ,,// ,__, ,,,
  • 9. ОСНОВНЫЕ СИНТАГМЫ (3) Словом в ЕЯ описании ПО будем называть конкатенацию элемента транзитивного замыкания множества AB и стоп- знака: )( ++ ×=∈ WSTABWw
  • 10. ОСНОВНЫЕ СИНТАГМЫ (4) . Предложение будем рассматривать как конкатенация стоп-знака предложения STS и элемента транзитивного замыкание слов и их разделителей: ;)( 1  ∞ = +++ ×= n n WSTABW;++ ×= SSTWS               >< ><><>< ><>< =⊂ абзацаконец файлаконецсимволнульзнакьныйвопросител знакльныйвосклицатеточка S ST W ST S ST _ ,_,_,_ ,_, ; 2 }____{_ >><<>=< кореткивозвратстрокуследнапереходабзацаконец
  • 11. ОСНОВНЫЕ СИНТАГМЫ (5) Текст определяется аналогично предложению как конкатенация стоп-знака и элемента транзитивного замыкания слов и их разделителей:  ∞ = +++ ×= 1 )( n n WSTABW;)_( ><×= + файлаконецWT
  • 12. ПОРОЖДАЮЩИЕ ГРАММАТИКИ ЕЯ ОПИСАНИЯ ПОРМ (1) GT – грамматика, порождающая текст. GS – грамматика, порождающая предложение. GW – грамматика, порождающая слово. N – множество нетерминальных символов T = AB ∪ STW – множество терминальных символов. S – начальный нетерминальный символ. EOF = <конец_файла> EOL = (<переход_на_след_строку> <возврат_каретки>)
  • 13. ПОРОЖДАЮЩИЕ ГРАММАТИКИ ЕЯ ОПИСАНИЯ ПОРМ (2) ОПИСАНИЕ ГРАММАТИКИ, ПОРОЖДАЮЩЕЙ ТЕКСТ GT = (N, T, P, S0) N = { S0,S1,S2,S3,S4} T = AB ∪ STW P = { S0 → S1 EOF | EOF, S1 → S2 S1 | S2, S2 → S3 S4 | S3 | S4, S3 → w S3 | w w ∈AB ∈ T S4 → s S4 | s s ∈ (STW EOF) ∈ T
  • 14. ПОРОЖДАЮЩИЕ ГРАММАТИКИ ЕЯ ОПИСАНИЯ ПОРМ (3) ОПИСАНИЕ ГРАММАТИКИ, ПОРОЖДАЮЩЕЙ ПРЕДЛОЖЕНИЯ GS = (N, T, P, S0) N = { S0,S1,S2,S3,S4} T = AB ∪ STW P = { S0 → S1 е | е , е ∈ STS ∈ T S1 → S2 S1 | S2, S2 → S3 S4 | S3 | S4, S3 → w S3 | w w ∈AB ∈ T S4 → s S4 | s s ∈ (STW STS) ∈ T }
  • 15. ПОРОЖДАЮЩИЕ ГРАММАТИКИ ЕЯ ОПИСАНИЯ ПОРМ (4) ОПИСАНИЕ ГРАММАТИКИ, ПОРОЖДАЮЩЕЙ СЛОВА. GW = (N, T, P, S0) N = { S0,S1,S2,S3 } T = AB ∪ STW P = { S0 → S1 е | е , е ∈ STW ∈ T S1 → S2 S1 | S2 S2 → w S3 | w w ∈AB ∈ T S3 → s S3 | s s ∈ (STW EOF) ∈ T }
  • 16. ФОРМАЛЬНОЕ ОПИСАНИЕ ПРОИЗВОДНЫХ СИНТАГМ И СИНТАГМАТИЧЕСКИХ КОНСТРУКТИВОВ Генеральная совокупность = корпус текстов ЕЯ описания ПОРМ  Объект исследования — отдельные синтагмы, являющиеся элементами этого корпуса текстов  Основные характеристики — абсолютные частоты встречаемости синтагм в корпусе текстов и составляющих его частях
  • 17. ПРОИЗВОДНЫЕ СИНТАГМЫ (1) Корпус текстов G — это множество текстов ЕЯ описания ПОРМ: G = { T1, T2, ..., TN }, где N – число текстов в корпусе, Ti – i-ый текст. Словосочетание wk — выводится из GT., состоит ровно из k-слов, между которыми отсутствуют стоп-знаки предложения или текста: wk = w1w2w3..wk. Любое отдельное слово w = w1 . Поставим в соответствие каждому выражению wk число, характери- зующее частоту его встречаемости в конкретном выводе GT и получим отображение F: wk ⇒ E, где E – множество целых чисел. Частотная функция — F = N(wk , T), где: T – конкретный текст, wk – словосочетание. Свойства частотной функции: N(wk ,T)>0, если wk ∈ T, и N(wk ,T)=0, если wk ∉T. Из w = w1 следует, что N(w,T) = N(w1 ,T).
  • 18. ПРОИЗВОДНЫЕ СИНТАГМЫ (2) Суммой текстов T1 и Т2 называется текст Т3, получаемый удалением из текста T1 стоп-знаков текста и присоединением к нему текста T2 T3 – является текстом, выводимым из GT. Доказательство 1. Если существуют T1 и T2, выводимые из GT, то существует конкретный вывод T1 и T2 из аксиомы S0. 2. T1 и Т2 – конечные последовательности символов терминального алфавита GT, а сама грамматика может порождать последовательности любой длины. 3. Следовательно, после вывода всех символов T1 можно осуществить вывод дополнительно всех символов T2. 4. Таким образом, T3 есть текст, порождаемый GT.
  • 19. ПРОИЗВОДНЫЕ СИНТАГМЫ (3) Контекст С(T) — непрерывный фрагмент текста T, т.е. фрагмент вывода в GT. Свойства контекста: N(wk , T1) + N (wk , T2) = N(wk , T1+T2) N(wk , C(T)) ≤ N(wk , T) T = C1(T)+...+Cq(T), где Сi(T)∩ Cj(T)=∅, i,j (i≠j) ∈[0,q] Σ N(wk ,Сi(T)) ≤ N(wk , T), где Сi(T)∩ Cj(T)=∅ Замечание. • N(wk , T1) + N (wk , T2) ≤ N(wk , T1+T2), • Тексты завершаются стоп-знаками предложения, • Возможность словосочетания wk на границе T1 и T2 практически отсутствует. • Будем считать, что N(wk, T1) + N (wk, T2) = N(wk, T1+T2).
  • 20. ПРОИЗВОДНЫЕ СИНТАГМЫ (4) , Частотный словник — упорядоченная совокупность слов (или словосочетаний) текста и значений их частотной функции S(T) = ( <wk, N(wk,T)>). Операции над словниками Объединение словников. Объединением словников S(T1) и S(T2) будем называть словник S(T1+T2). В объединенный словник войдут все слова и словосочетания из обоих текстов со своими частотными функциями, а для одинаковых слов (или словосочетаний) строится суммарная частотная функция. Вычитание словников. Вычитанием словников S(T1)-S(T2) будем называть словник S(T*), в который войдут только те слова (или словосочетания) из T1, для которых N(wk,T1) > N(wk,T2). Под T* понимается гипотетический текст, по которому мог бы быть построен словник S(T*).
  • 21. ПРОИЗВОДНЫЕ СИНТАГМЫ (5) Ограничения синтагматической структуры: • невозможность различения в словах дефиса, • распознавание только слова и предложения, • невозможность распознавания вложенных структур (скобочных записей, прямой речи, других формально- синтаксических конструкций). порождающая синтагматическая структура  распознающая модель = «программа-транслятор»  генератор синтагматического кода ЕЯ описания ПОРМ  комплекс синтагматических конструктивов: словники, словоуказатели, списки словосочетаний, контексты, индексы и т.п.
  • 22. ПРОИЗВОДНЫЕ СИНТАГМЫ (6) СИНТАГМАТИЧЕСКАЯ МОДЕЛЬ ТЕКСТА — это представление его в виде множества основных синтагматических конструктивов, полученных путем преобразования текста на основе его формально- языкового теоретико-множественного описания: . ( )GStgKKG STG i STG i STG =⇒ :где,}{
  • 23. СТАТИСТИЧЕСКИЙ АНАЛИЗ СИНТАГМАТИЧЕСКИХ КОНСТРУКТИВОВ Частотный анализ текста — формирование параметрического профиля текста. Задачи частотного анализа • Вычисление параметров распределения слов в модели «ранг-частота» для текстов. • Построение для текстов частотных функций для слов и парных словосочетаний: N(wij, Tj), N(wij 2 , Tj)}, где wij,wij 2 ∈Tj, j =1,N. • Построение частотных словников { S(Tj) }, где j=1,N. • Вычисление общего числа элементов словника: ∑= = jR i jijj TwNN 0 ),( , где Rj – число элементов в словнике S(Tj). • Вычисление параметров распределения слов в модели «ранг-частота» для генеральной совокупности. • Нахождение параметров закона Мандельброта для генеральной совокупности.
  • 24. ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (1) Динамический анализ текста — выявление закономерностей изменения количественных характеристик структуры ЕЯ описания ПОРМ в течение времени ∆t. Задачи динамического анализа • Определение структуры текста; • Определение структуры словников, • Определение содержания словников • Определение наполнения словников. Основная идея динамического анализа заключается в наблюдении за характером изменения частотных интервалов.
  • 25. ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (2) Частота F1 F2 F 3 F 4 .... F N 1 1 - р1 р2 - р3 ... рk - рk+1 > рk+1 Итого: В общем случае имеет место следующая таблица: Здесь: [Pk,Pk+1] – границы частотных интервалов. ∑= = j k kj TF 1 – тексты или словники, по которым проводится наблюдение.
  • 26. ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (3) Динамика структуры текста показывает относительное изменение объемов частотных групп в текстах в течение некоторого интервала времени. , ),( ),,,( ),,( 1 1 1 21 21 ∑∑ ∑ = = = = N j M i jij R i j t TwN pptiP pptφ где ( )    ≤≤= = 0 ,),( ),,,( bcaеслиFwNc batiP tit Здесь: Mj – число слов в тексте Tj, Rt – число слов в тексте Ft
  • 27. ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (4) Результаты могут быть сведены в таблицу: Частота F 1 F2 F 3 F 4 .... F N 1 ϕ(1,0,1) ϕ(N,0,1) 1- р1 ϕ(1,1,р1 ) ϕ(N,1,р1 ) р2 - р3 ϕ(2,р2 ,р3 ) ... рk - рk+1 > рk+1 Итого: ϕ(1,0,∞) ϕ(1,0,∞) 1 В строке «итого», записывается сумма вышестоящего столбца, т.е. ϕ(1,0,∞). Очевидно, что ϕ(N,0,∞) = 1
  • 28. ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (5) Динамика структуры словников показывает относительное изменение объемов частотных групп в словниках в течение некоторого интервала времени. , ),,,( ),,( 1 21 21 N R i R pptiP ppt t ∑= =φ где ( )    ≤≤ = 0 ),(,1 ),,,( bFwNaесли batiP tit
  • 29. ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (6) Динамика содержания словников показывает соотношение объемов частотных групп в течение некоторого интервала времени. где Здесь: Rt – число слов в словнике Ft. , ),0,,( ),,,( ),,( 1 1 21 21 ∑ ∑ = = ∞ = t t R i R i itP pptiP pptφ ( )    ≤≤ = 0 ),(,1 ),,,( bFwNaесли batiP tit
  • 30. ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (7) Результаты могут быть сведены в таблицу: Частота F1 F2 F 3 F 4 .... F N 1 ϕ(1,0,1) ϕ(N,0,1) 1 - р1 ϕ(1,1,р1) ϕ(N,1,р1) р2 - р3 ϕ(2,р2,р3) ... рk - рk+1 > рk+1 Итого: 1 1 1 1 1 1
  • 31. ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (8) Динамика наполнения словников характеризует «прирост» новых слов в частотные группы в течение некоторого временного интервала. где Здесь: RN – число слов в словнике FN. Rt – число слов в словнике Ft. , ),,,( ),,,( ),,( 1 21 1 21 21 ∑ ∑ = = = N t R i R i ppiNP pptiP pptφ ( )    ≤≤≤≤ = 0 ))((&),(,1 ),,,( , bFwNabFwNaесли batiP NiNtit
  • 32. ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (9) Результаты могут быть сведены в таблицу: Частота F 1 F2 F 3 F 4 .... F N 1 ϕ(1, 0, 1) 1 1 - р1 ϕ(1, 1, р1) 1 р2 - р3 ϕ(2, р2, р3) 1 ... 1 рk - рk+1 1 > рk+1 1 Итого: ϕ(1, 0, ∞) ϕ(1, 0, ∞) 1
  • 33. ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ  Что такое синтагматическая модель текста?  Приведите формальное описание основных синтагм.  Приведите формальное описание производных синтагм.  Приведите примеры синтагматических конструктивов.  Перечислите основные этапы статистического анализа синтагм и синтагматических конструктивов.

Editor's Notes

  1. Тема 1 «Естественно-языковые знаковые системы» включает шесть разделов, первые три из которых являются основными. 1.1. Модели и методы представления и организации знаний — лекции 1-2. 1.2. Спецификация ЕЯ систем — лекция 3. 1.3. Логико-статистические методы извлечения знаний — лекции 4–5. Материал этих разделов представлен в лекциях. Три других раздела предназначены для самостоятельного изучения, а его материал представлен в рекомендованной литературе. 2.4. Технология автоматизированного построения словаря-тезауруса. 2.5. Пример исследования ЕЯ ресурса.
  2. Четвертая лекция посвящена синтагматической модели текста. В ней рассматриваются три вопроса: Формальное описание основных синтагм. Формальное описание производных синтагм и синтагматических конструктивов. Статистический анализ синтагматических конструктивов.
  3. Материал лекции представлен в книге: Ю.Н.Филиппович, А.В.Прохоров. Семантика информационных технологий: опыты словарно- тезаурусного описания. / Серия «Компьютерная лингвистика». Вступ. Статья Анатолия Ивановича Новикова. М.: МГУП, 2002.— книга в комплекте с CD ROM — С. 46–54.
  4. Для построения алгоритмов и программ, выполняющих статистический анализ, необходимо задать правила работы с ЕЯ единицами различных уровней. Конструктивными единицами отдельных уровней, непосредственно связанных с анализом естественно-языковых текстов, являются: корпус текстов, текст, контекст, сверхфразовое единство, предложение, словосочетание, слово, морфема, квази-морфема, слог, символ алфавита (буква). Анализ текста может осуществляться как на отдельном языковом уровне, так и на нескольких. Глубина анализа определяется количеством уровней, единицы которых в нем участвуют. Обобщим названные языковые единицы понятием синтагма, под которым в пределах данной работы будем понимать непроизвольную цепочку языковых единиц нижнего уровня (символов). Синтагмы каждого верхнего уровня состоят из синтагм нижних уровней. Выделим основные синтагмы наших построений: символ, слово, предложение, текст. Производными синтагмами будут являться: морфема, квази-морфема, слог, словосочетание, сверхфразовое единство, контекст и корпус текстов. Подобное деление позволяет: во-первых, построить формальное описание текста на основе теории формальных языков нечувствительно к морфологическим, синтаксическим и семантическим аномалиям ЕЯ представления ПОРМ; во-вторых, осуществлять обработку текстов ЕЯ описания ПОРМ, содержащих произвольный набор символов. Фактически это является выделением в отдельный блок комплекса задач так называемого предварительного анализа текста (структурного анализа, предредактора), являющегося предшественником блоков морфологического, синтаксического, семантического и прагматического анализа.
  5. Более подробно информационные технологии описаны в практических пособиях серии книг под редакцией Четверикова Владимира Николаевича, вышедших в начале 90-х годов [Филиппович, 1990-а].
  6. Статистические методы анализа позволяют выявить синтагматическую структуру текста под которой будем понимать комплекс синтагматических конструктивов, построенных на основе основных и производных синтагм. Основными синтагматическими конструктивами являются: тексты, различные словники (частичные и полные, прямые и обратные, частотные) и словоуказатели. В самом общем случае словник представляет собой упорядоченный список синтагм, а словоуказатель — индекс упорядоченного списка синтагм нижнего уровня по синтагмам верхнего уровня, а также по организационным единицам (том, часть, глава, страница, строка, и т.д.). В качестве примера построим формальные модели для следующих синтагм и синтагматических конструктивов: символа, слова, словосочетания, предложения, контекста, текста, корпуса текстов, частотного словника.
  7. Алфавитом естественно-языкового описания предметной области будем называть множество AB, такое что: , где ABх — алфавиты современных естественных языков (различаются множества прописных и строчных букв), ABD – множество цифр, ABS – множество специальных символов, которые могут выступать в качестве букв слов: , , , , , Стоп-знак слова — элемент множества знаков, которые позволяют отделять в тексте слова друг от друга. Стоп-знак stW слова W является элементом транзитивного замыкания множества стоп-знаков: , где ; Как видно из определения, каждому слову ставится в соответствие некоторая цепочка стоп-знаков.
  8. Словом в ЕЯ описании ПО будем называть конкатенацию элемента транзитивного замыкания множества AB и стоп-знака: . Предложение будем рассматривать как конкатенация элемента транзитивного замыкание слов и их разделителей и стоп-знака предложения STS : , где
  9. Словом в ЕЯ описании ПО будем называть конкатенацию элемента транзитивного замыкания множества AB и стоп-знака: . Предложение будем рассматривать как конкатенация элемента транзитивного замыкание слов и их разделителей и стоп-знака предложения STS : , где
  10. Словом в ЕЯ описании ПО будем называть конкатенацию элемента транзитивного замыкания множества AB и стоп-знака: . Предложение будем рассматривать как конкатенация элемента транзитивного замыкание слов и их разделителей и стоп-знака предложения STS : , где
  11. Текст определяется аналогично предложению как конкатенация элемента транзитивного замыкания слов и их разделителей и стоп-знака текста: . Определим контекстно-свободные грамматики (КС-грамматика), которые порождает ЕЯ описание ПО. Введем обозначения: GT – грамматика, порождающая текст. GS – грамматика, порождающая предложение. GW – грамматика, порождающая слово. N – множество нетерминальных символов T = AB  STW – множество терминальных символов. S – начальный нетерминальный символ. EOF = &amp;lt;конец_файла&amp;gt; EOL = (&amp;lt;переход_на_след_строку&amp;gt; &amp;lt;возврат_каретки&amp;gt;)2
  12. Определим контекстно-свободные грамматики (КС-грамматика), которые порождает ЕЯ описание ПО. Введем обозначения: GT – грамматика, порождающая текст. GS – грамматика, порождающая предложение. GW – грамматика, порождающая слово. N – множество нетерминальных символов T = AB  STW – множество терминальных символов. S – начальный нетерминальный символ. EOF = &amp;lt;конец_файла&amp;gt; EOL = (&amp;lt;переход_на_след_строку&amp;gt; &amp;lt;возврат_каретки&amp;gt;)2
  13. Описание грамматики, порождающей текст. GT = (N, T, P, S0) N = { S0,S1,S2,S3,S4} T = AB  STW P = {S0  S1 EOF | EOF, S1  S2 S1 | S2, S2  S3 S4 | S3 | S4, S3  w S3 | ww AB  T S4  s S4 | ss  (STW \ EOF)  T }
  14. Описание грамматики, порождающей предложения. GS = (N, T, P, S0) N = { S0,S1,S2,S3,S4} T = AB  STW P = {S0  S1 е | е ,е  STS  T S1  S2 S1 | S2, S2  S3 S4 | S3 | S4, S3  w S3 | ww AB  T S4  s S4 | ss  (STW \ STS)  T }
  15. Описание грамматики, порождающей слова. GW = (N, T, P, S0) N = { S0,S1,S2,S3 } T = AB  STW P = {S0  S1 е | е ,е  STW  T S1  S2 S1 | S2 S2  w S3 | ww AB  T S3  s S3 | ss  (STW \ EOF)  T } Из сравнения грамматик GT и GW следует, что грамматика GT может порождать, в том числе, и отдельные слова, т.е. любое w, выводимое из GW, выводимо также из GT. Иными словами, w T, где Т – текст, w – отдельное слово. Приведенные грамматики основных синтагм позволяют построить алгоритмы их извлечения из ЕЯ описания ПОРМ и вычислить все необходимые количественные атрибуты. Статистические методы обработки ЕЯ-информации будут оперировать с формальными объектами, в частности, со словами и предложениями.
  16. Формальное описание производных синтагм и синтагматических конструктивов Одним из основных понятий статистических методов анализа является понятие генеральной совокупности. В качестве генеральной совокупности будем рассматривать корпус текстов ЕЯ описания ПОРМ, подлежащий исследованию. Объектом исследования являются отдельные синтагмы, являющиеся элементами этого корпуса текстов. Их основной и первичной характеристикой будет являться абсолютная частота встречаемости синтагмы в тексте (или корпусе текстов). Будем различать абсолютные частоты синтагм, как для всего корпуса текстов, так и для отдельных его составляющих. Приведем формальное описание производных синтагм и синтагматических конструктивов: Рассмотрим эти варианты.
  17. Корпус текстов G — это множество текстов ЕЯ описания ПОРМ: G = { T1, T2, ..., TN }, где N – число текстов в корпусе, Ti – i-ый текст. Словосочетанием будем называть wk , которое выводится из GT., состоящее ровно из k-слов, между которыми отсутствуют стоп-знаки предложения или текста (разделители между словами, всегда присутствующие в тексте, будут подразумеваться, но не записываться): wk = w1w2w3..wk Очевидно, что любое отдельное слово w = w1. Поставим в соответствие каждому выражению wk число, характеризующее частоту его встречаемости в конкретном выводе GT (т.е. в конкретном тексте). Таким образом, имеем отображение: F: wk  E, здесь E – множество целых чисел. Это отображение будем называть частотной функцией и будем обозначать: N(wk, T), где T – конкретный текст, а wk – словосочетание. Очевидно, что N(wk,T)&amp;gt;0, если wk  T, и N(wk,T)=0, если wk T. Из w = w1 следует, что N(w,T) = N(w1,T).
  18. Пусть T1 и Т2 – тексты, выводимые из GT. Тогда будем называть суммой текстов T1 и Т2 объект Т3, который будет получаться удалением из текста T1 стоп-знаков текста и обычным присоединением текста T2 к тексту T1. Можно доказать, что T3 – тоже является текстом, выводимым из GT: Если существуют T1 и T2, выводимые из GT, то существует конкретный вывод T1 и T2 из аксиомы S0. Очевидно, что T1 и Т2 – это конечные последовательности символов терминального алфавита GT, а сама грамматика может порождать последовательности любой длины. Следовательно, после вывода всех символов T1 можно осуществить вывод дополнительно всех символов T2. Таким образом, T3 есть текст, также порождаемый GT. Будем записывать: T3 = T1 + T2. Очевидно, что T1+T2T2+T1, т.е. сложение текстов не коммутативно.
  19. Введем понятие контекста С(T). Контекстом в тексте T будем называть непрерывный фрагмент текста T, т.е. фрагмент вывода в GT. Контекст также можно считать текстом и ввести для него аналогичные операции. Свойствами контекста являются: N(wk, T1) + N (wk, T2) = N(wk, T1+T2)[1] N(wk, C(T))  N(wk, T) T = C1(T)+...+Cq(T), где Сi(T) Cj(T)=, i,j (ij) [0,q]  N(wk,Сi(T))  N(wk, T), где Сi(T) Cj(T)= [1] Если строго, то N(wk, T1) + N (wk, T2)  N(wk, T1+T2), но тексты как правило завершаются стоп-знаками предложения, а значит в этом случае возможность формирования словосочетания wk на границе T1 и T2 практически отсутствует. Ввиду малой вероятности такого события будем считать, что N(wk, T1) + N (wk, T2) = N(wk, T1+T2).
  20. Введем понятие частотного словника. Частотным словником текста T будем называть упорядоченную совокупность следующих пар: слов (или словосочетаний) текста и значений их частотной функции. S(T) = ( &amp;lt;wk, N(wk,T)&amp;gt;) Как правило, частотный словник упорядочен по убыванию частотного признака. Частотный словник является основным объектом, который несет информацию о частотных характеристиках изучаемых языковых единицах. Введем операции над словниками: Объединение словников. Объединением словников S(T1) и S(T2) будем называть словник S(T1+T2). В объединенный словник войдут все слова и словосочетания из обоих текстов со своими частотными функциями, а для одинаковых слов (или словосочетаний) строиться суммарная частотная функция. Вычитание словников. Вычитанием словников S(T1)-S(T2) будем называть словник S(T*), в который войдут только те слова (или словосочетания) из T1, для которых N(wk,T1) &amp;gt; N(wk,T2). Под T* понимается гипотетический текст, по которому мог бы быть построен словник S(T*).
  21. Представленный пример является формальным описанием или синтагматической моделью естественно-языкового описания ПОРМ. Данная модель является порождающей. В зависимости от примененных формальных грамматик и теоретико-множественных определений в самом общем случае возможно множество различных синтагматических структур. Вполне понятно, что полученные таким образом синтагматические описания могут отражать ту или иную специфику исследования и обладать некоторыми ограничениями. Так в рассматриваемом примере ограничениями являются: невозможность различения в словах дефиса, фактическое распознавание только двух синтагм (слова и предложения), невозможность распознавания вложенных структур (скобочных записей, прямой речи, других формально-синтаксических конструкций). По каждой порождающей синтагматической структуре возможно построение распознающей модели и реализация ее в виде «программ-трансляторов». Генерирующая часть этих программ формирует синтагматический код естественно-языкового описания ПОРМ в виде комплекса конструктивов — словников и словоуказателей. Приведенный пример позволяет говорить о преобразовании корпуса текстов G в частотный словник слов S(T). Однако, потенциально описанная порождающая модель может использоваться для получения других синтагматических конструктивов: списков словосочетаний, контекстов, различных индексов и т.п.
  22. В общем случае можно сформулировать следующее определение: синтагматической моделью текста является представление его в виде множества основных синтагматических конструктивов, полученных путем преобразования текста на основе его формально-языкового теоретико-множественного описания: На основе синтагматических конструктивов могут быть построены и более сложные модели, форма которых позволяет интерпретировать их как словарно-тезаурусное описание ПОРМ.
  23. Статистический анализ синтагматических конструктивов Частотный. Одной из задач исследования ЕЯ описания ПОРМ является получение параметрического профиля, т.е. совокупности числовых параметров генеральной совокупности. Методика проведения частотного анализа в принципе проработана и отображена в литературе. В задачи частотного анализа входит вычисление параметров распределения слов по частоте в законе Мандельброта, а также получение количественных характеристик частотных словников. Эти параметры определяют структуру текстов, представляющих ЕЯ описания ПОРМ. Построение для текстов Ti генеральной совокупности G = (T1, T2, ..., TN) частотных функций для всех слов и парных словосочетаний. Таким образом, необходимо получить величины: {N(wij, Tj), N(wij2, Tj)}, где wij,wij2 Tj, j =1,N. Построение частотных словников { S(Tj) }, где j=1,N. Вычисление общего числа элементов словника: , где Rj – число элементов в словнике S(Tj). Вычисление математического ожидания и дисперсии в модели «ранг-частота» для генеральной совокупности и ее элементов (текстов). Нахождение параметров закона Мандельброта для генеральной совокупности. В результате исследований должны быть получены в табличной и графической формах функции распределения и частотные словники.
  24. Задача динамического анализа состоит в выявлении закономерностей изменения количественных характеристик структуры ЕЯ описания ПОРМ в течение времени t. В рамках динамического анализа рассматриваются характеристики: структуры текста; структуры, содержания и наполнения словников. Основная идея динамического анализа заключается в наблюдении за характером изменения частотных интервалов.
  25. В общем случае имеет место следующая таблица: ЧастотаF 1F2F 3F 4 ....F N11 - р1р2 - р3...рk - рk+1&amp;gt; рk+1Итого:Здесь [Pk,Pk+1] – границы частотных интервалов, выбранных для наблюдения. В общем случае они могут пересекаться. Fj – тексты или словники, по которым проводится наблюдение. Тогда под Fj, будем понимать следующее: Необходимо отметить, что динамический анализ имеет смысл, если Tk являются ЕЯ представлением, характеризующие ПО в динамике. Так, в качестве Tk могут выступать номера журналов научного или научно-популярного еженедельника.
  26. Динамика структуры текста показывает относительное изменение объемов частотных групп в текстах в течение некоторого интервала времени. Введем следующие обозначения: где Здесь: Mj – число слов в тексте Tj, Rt – число слов в тексте Ft
  27. Результаты могут быть сведены в таблицу: ЧастотаF 1F2F 3F 4 ....F N1(1,0,1)(N,0,1)1 - р1(1,1,р1)(N,1,р1)р2 - р3(2,р2,р3)...рk - рk+1&amp;gt; рk+1Итого:(1,0,)(1,0,)1 В строке «итого», записывается сумма вышестоящего столбца, т.е. (1,0,). Очевидно, что (N,0,) = 1
  28. Динамика структуры словников показывает относительное изменение объемов частотных групп в словниках в течение некоторого интервала времени. Введем следующие. Основное отличие от предыдущей характеристики заключается в том, что рассматриваются слова не в тексте, а в словнике, т.е. количество разных слов в частотных группах. Введем следующие обозначения: где
  29. Динамика содержания словников показывает соотношение объемов частотных групп в течение некоторого интервала времени. Иными словами, дает возможность выявлять закономерности распределения слов по частотным группам. Введем следующие обозначения: где Здесь: Rt – число слов в словнике Ft.
  30. Результаты могут быть сведены в таблицу: ЧастотаF 1F2F 3F 4 ....F N1(1,0,1)(N,0,1)1 - р1(1,1,р1)(N,1,р1)р2 - р3(2,р2,р3)...рk - рk+1&amp;gt; рk+1Итого:111111
  31. Динамика наполнения словников характеризует «прирост» новых слов в частотные группы в течение некоторого временного интервала, т.е. характеристика позволяет оценить объемы, которые добавляются в каждый момент времени. Введем следующие обозначения: где Здесь: RN – число слов в словнике FN. Rt – число слов в словнике Ft.
  32. Результаты могут быть сведены в таблицу: ЧастотаF 1F2F 3F 4 ....F N1(1, 0, 1)11 - р1(1, 1, р1)1р2 - р3(2, р2, р3)1...1рk - рk+11&amp;gt; рk+11Итого:(1, 0, )(1, 0, )1
  33. Для самоконтроля усвоения материала лекции попытайтесь ответить на следующие вопросы: Что такое синтагматическая модель текста? Приведите формальное описание основных синтагм. Приведите формальное описание производных синтагм. Приведите примеры синтагматических конструктивов. Перечислите основные этапы статистического анализа синтагм и синтагматических конструктивов.