лекция 7 тема 1

Тема 1.
ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ
ЗНАКОВЫЕ СИСТЕМЫ
ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ
1.1. Модели и методы представления и организации знаний —
лекции 1-2.
1.2. Количественная спецификация ЕЯ систем —
лекции 3-4, 8.
1.3. Логико-статистические методы извлечения знаний —
лекция 5-7.
ФАКУЛЬТАТИВНЫЕ РАЗДЕЛЫ ТЕМЫ ДЛЯ
САМОСТОЯТЕЛЬНОГО ИЗУЧЕНИЯ
1.4. Технология автоматизированного построения словаря-
тезауруса.
1.5. Пример исследования ЕЯ ресурса.

Лекция 7.
ПАРАДИГМАТИЧЕСКАЯ МОДЕЛЬ
ТЕКСТА
 Парадигматическая модель
ЕЯ описания ПОРМ
 Производные парадигматические
конструктивы

Литература
Материал лекции представлен в
книге:
Ю.Н.Филиппович, А.В.Прохоров.
Семантика
информационных
технологий:
опыты словарно-тезаурусного
описания. /
Серия «Компьютерная лингвистика».
Вступ. Статья А.И.Новикова.
М.: МГУП, 2002.
— книга в комплекте с CD ROM
— С. 64–73.

ПАРАДИГМАТИЧЕСКАЯ МОДЕЛЬ
ЕЯ ОПИСАНИЯ ПОРМ
}{KG
PRD
i
⇒
ПАРАДИГМАТИЧЕСКАЯ МОДЕЛЬ ТЕКСТА
представление его в виде множества основных
парадигматических конструктивов, или интерпретированных
синтагматических конструктивов, полученных путем
преобразования текста на основе его формально-языкового
теоретико-множественного описания:
( )GStgK
STG
=
( ) ( ) }{}{Pr ,, IGStgIKGdK
STGPRD
i
===
IСТОG ≡
ЕЯО ПОРМ 

СТО ПОРМ 

СИНТАГМАТИЧЕСКАЯ
МОДЕЛЬ СТО ПОРМ



СТРУКТУРА ПАРАДИГМАТИЧЕСКОГО
КОНСТРУКТИВА
KI
PRD
i
1−
⇒ ( ) ( ) }{Pr 11
, IIStgIdK
PRD
i
==
−
( ) ( ) ( ) ( ) }{ ,1,...,2,1, IIStgIStgIStgGStgG
X
PRD
X −⇒
( ) ( ) }}{{ 1
,, IIStgGStgG
x
PRD
x +
⇒
ЧАСТИ ПАРАДИГМАТИЧЕСКОГО КОНСТРУКТИВА
Синтагматическая — формально-языковое описание.
Парадигматическая — естественно-языковое описание,
формально-языковое описание,
словарно-тезаурусное описание.
парадигматическая модель
— множество синтагматических моделей текста и его
интерпретаций

Ю.Н.Филиппович
Интеграция предмета, образа и субъекта в
концептуальном проектировании
информационных технологий и систем
// Интеллектуальные технологии и системы.
Сборник статей аспирантов, стажеров и
студентов. Вып. 1.
– М.: Изд-во МГТУ им Н.Э.Баумана,1998.
С. 9–33.
Ю.Н. Филиппович
Семиотическая концепция интеграции
информационных технологий
// Sсriрtа linguistiсае аррliсаtае. Проблемы
прикладной линг-вистики – 2001. Сб.ст.
/ Отв. ред. А.И. Новиков.
– М.: «Азбуковник», 2001.
С. 319–342.

ПАРАДИГМАТИЧЕСКИЕ
КОНСТРУКТИВЫ
ПАРАДИГМАТИЧЕСКАЯ СТРУКТУРА ТЕКСТА
— комплекс основных и производных
парадигматических конструктивов.
Основные парадигматические конструктивы:
 словарные статьи,
 парадигматические отношения.
Производные парадигматические конструктивы:
 частичные словники
(ограниченные неформальным признаком),
 словоуказатели (предметные, именные, и т.п.),
 конкордансы,
 словари,
 ареалы,
 тезаурусы и др.

ПРЕДМЕТНЫЙ (ТЕРМИНОЛОГИЧЕСКИЙ)
УКАЗАТЕЛЬ
,
,
( ) ( ) },{Pr , IGStgGdK
ПУПУPRD УПУ ==
−
( )GStgУ
I
ПУ
— указатель слов, — выбор слов, обозначающих
предметы реального
мира.
где:
Предметный указатель получается путем интерпретации указателя
слов, образованного на основе формально-языкового преобразования
текста.
Интерпретация состоит в выделении в нем «слов-предметов».
В предметный (терминологический) указатель могут быть
включены основные термины и понятия ПОРМ, выраженные
словами, словосочетаниями (2-х и 3-х словными). Отдельно могут
быть представлены аббревиатуры.

ИМЕННОЙ УКАЗАТЕЛЬ
( )GStgУ
— указатель слов, — выбор слов, являющихся
именами.
где:
I
УИ
( ) ( ) },{Pr ,
И
IGStgGdK
ИУУPRD УИУ ==
−
Именной указатель получается путем интерпретации указателя слов,
образованного на основе формально-языкового преобразования текста.
Интерпретация состоит в выделении в нем «слов-имен».
В именной указатель могут быть включены все имена собственные,
в т.ч. и представленные словосочетаниями. Отдельно могут быть
представлены различные их типы:
аббревиатуры, персоналии, организации,топонимы и др.

ГРАММАТИЧЕСКИЙ СЛОВАРЬ
Грамматический словарь ЕЯ описания ПОРМ может включать:
существительные, прилагательные, глаголы, наречия, числительные,
предлоги, междометия, союзы, частицы и местоимения.
Структура словарной статьи грамматического словаря
<ЛЕММА> <МИ> {S} [S]
<СЛОВОФОРМА1> <МИ1> [i1]
<СЛОВОФОРМА2> <МИ2> [i2]
...
<СЛОВОФОРМАk> <МИk> [ik]
ЛЕММА — слово в основной форме; МИ — морфологическая
информация о слове; МИj — подробная грамматическая информация;
s — количество словоформ в тексте; S — общее количество
словоформ в тексте; ij — частота j-ой словоформы.
Интерпретация состоит в лемматизации путем формального
морфологического анализа с последующим разрешением
проблем омонимии субъектом.

Г.О.Сидоров.
Лемматизация в автоматизированной
системе построения словарей языка
писателей
// Слово Достоевского. Сб. ст.
/ Под ред. Ю.Н.Караулова.
– М.: Инт.Русск. яз. РАН, 1996.
С.266–300.

СЛОВАРЬ СЛОВОСОЧЕТАНИЙ
.
Структура словарной статьи словаря словосочетаний
<ЛЕММА>
(СЛОВОСОЧЕТАНИЕ1),
(СЛОВОСОЧЕТАНИЕ2),
...
(СЛОВОСОЧЕТАНИЕk).
Здесь:
ЛЕММА — слово в основной форме из грамматического
словаря; СЛОВОСОЧЕТАНИЕ — двух-, трехсловное
словосочетание из предметного указателя, являющееся
термином или основным понятием ЕЯ описания ПО.
Интерпретация состоит в выборе
устойчивых словосочетаний.

КОНКОРДАНС (СЛОВАРЬ КОНТЕКСТОВ)
Структура словарной статьи конкорданса (словаря контекстов)
<ЛЕММА/ СЛОВОСОЧЕТАНИЕ> <КОНТЕКСТ> <АДРЕС>.
Здесь:
КОНТЕКСТ — ближайшее “окружение” словоформы или
словосочетания, размер которого может быть выбран
произвольно, однако в большинстве случаев его следует
ограничить предложением (количество контекстов для одной
леммы должно быть от трех до пяти, а для словосочетания
достаточно одного – двух);
АДРЕС — указание на источник контекста.
Интерпретация состоит в выборе контекстов,
их величины и количества.

СЛОВАРЬ ОПРЕДЕЛЕНИЙ (1)
Словарь определений может включать описание основных
понятий ПОРМ, взятых из предметного указателя.
Словарная статья может включать следующие сведения:
•заголовочное слово (понятие из предметного указателя),
•варианты определений (толкований) из других словарей
определений,
•устойчивые словосочетания (из словаря словосочетаний)
•эксцерпции (примеры контекстов из текстов ЕЯ описания ПО)
•указания источников контекстов из конкорданса
•и др.
Интерпретация состоит в определении состава и
структуры словарной статьи

СЛОВАРЬ РУССКОГО ЯЗЫКА XI–XVII ВВ.
, .ИСКУССТВО с
1. , , .Умение знание искусство Како не зримъ прилежно
мысленнымъ своимъ окомъ древняго дракона, врага нашего
бодрого, и никогда же спящаго, и множаишими л#ты
искуство злобы имущаго.
Курб. Пис., 387. XVII в. ∝ XVI в.
4 ч<еловека> бомбардировъ, немецкой породы, которые бы
им#ли въ своей наук# и въ воинскихъ д#л#хъ доброе и
свид#телствованное искуство.
ДАИ XII, 383. 1695 г.
2. ; - . , .Опыт способ к узнаванию чего л эксперимент Искусством
бо сие разум#хомъ.
М. Гр. I, 300. XVI—XVII вв. ∝ XVI в.
Т#мъ искусствомъ опознаваемъ.
Травник Любч., 407. XVII в. ∝ 1534 г.

ВОКАБУЛА морф. призн.
I.
II. Толкование.
А.
Толкование. { Эксцерпция. Ук. источн. ДатаПагинация }
Толкование.
1. Толкование. { Эксцерпция. Ук. источн. ДатаПагинация }
Б. Толкование. { Эксцерпция. Ук. источн. ДатаПагинация }
III. Толкование.
ВОКАБУЛА морф. призн. Толкование. { Эксцерпция. Ук. источн. ДатаПагинация }
Структура словарной статьи Словаря русского языка XI-XVII вв.

ТЕЗАУРУС (1)
Парадигматический конструктив тезаурус
может быть представлен как тройка формальных объектов:
или
{<синтагма XI ><отношение R ><синтагма XJ >}.
Такое представление парадигматического
конструктива позволяет рассматривать его как
элемент формального языка RX-кодов:
X-термины; R-релатемы
}{ KKK STG
J
PRD
R
STG
I

Примерами парадигматических отношений являются
формальные модели оценки «силы связи» между языковыми
элементами — коэффициенты .
В частности можно представить конструктив
парадигматического отношения в следующем виде:
, где является
соответствующей интерпретацией R коэффициента.
K
R
AB
}{ , IKK
R
AB
R
AB
PRD
R
= I
R
AB
Парадигматическое отношение является элементом графа
одной из формальных моделей представления знаний,
(сетевых, фреймовых и т.п.).
}}{,}{{ KKVT
PRD
R
STG
I
=

Ui
Uj
R(u i ,u j )
<u i
,u j
>
L = (U, V), где:
U – множество вершин сети (лемм),
V – множество связей.
U = { u1, u2, ..., uK }, где:
k – число выделенных лемм.
V ⊂ U2
, V = { <ui,uj> }
R(ui,uj) – функция, определенная на
множестве U2
– количественная
мера связи между вершинами ui и uj.
Свойства:
R(ui,uj): R(ui,uj) = 0 ⇔ <ui,uj> ∉V;
если <ui, uj> ≠ <uj, ui>,
Описание тезауруса в виде простой семантической сети
<ui, uj> – ориентированная
связь от вершины ui к
вершине uj

Задача построения функции R(ui,uj)
на основе корпуса текстов
T = C1(T)+...+Cq(T), где Сi(T)∩ Cj(T)=∅, i,j (i≠j) ∈[1,q]
Введем характеристики:
|T| – число слов в тексте T,
|Сi(T)| – число слов в i-ом контексте текста T.
При условии, что Сi(T)∩ Cj(T)=∅, i,j (i≠j) ∈[1,q], имеем
, где q – гранулярность разбиения, т.е. число
непересекающихся контекстов, на которые разбивается текст T.
Будем считать, что |Ci(T)|=|Cj(T)|, для ∀ i,j ∈[1,q], тогда
|T| = q|C(T)|, где С(T) некоторый контекст из выбранных.
∑=
=
q
i
i TCT
1
|)(|||

Поскольку С(T) тоже является текстом, то для него можно
определить частотную функцию N(w,C(T)), значение которой
равно числу слов w в контексте С(T).
Такая частотная функция вводится на всех контекстах
N(w,C1(T)), N(w,C2(T)),..., N(w,Cq(T)).
Будем рассматривать два слова w1 и w2, принадлежащие тексту T.
Для них можно записать два ряда:
N(w1,C1(T)), N(w1,C2(T)),..., N(w1,Cq(T))
N(w2,C1(T)), N(w2,C2(T)),..., N(w2,Cq(T))
Обозначим:
N(w1,C(T)) – число слов w1 в некотором контексте из числа
выбранных;
N(w2,C(T)) – число слов w2 в некотором контексте из числа

N(w1,
C(T))=1 N(w1,
C(T))=2 ... N(w1,
C(T))=R nу
N(w2,
C(T))=1 n(1,1) n(1,2) n(1,R)
N(w2,
C(T))=2 n(2,1) n(2,2) n(2,R)
N(w2,
C(T))=3 n(3,1) n(3,2) n(3,R)
...
N(w2,
C(T))=R n(R,1) n(R,2) n(R,R)
nх
ух
Определим функцию n(х, у) числа контекстов,
в которых слово w1 имело частоту х, а слово w2 – частоту у.
n(х,у) = n(N(w1,C(T)), N(w2,C(T)))
R = |С(T)| – размер контекста, nх – суммы по столбцам, nу – суммы по строкам,
– средние значения по столбцам =xy ∑=
R
yx
yxyn
n 1
),(
1

Для построения семантической сети требуется построение
корреляционной матрицы для имеющихся в T пар слов <wi, wj>.
В качестве меры связи между словами w1 и w2 могут
использоваться значения коэффициентов корреляции или
корреляционного отношения.
Факторы построении семантической сети :
а) процедуру лемматизации исходного множества слов;
б) размерность корреляционной матрицы RхR, ее избыточность;
в) гранулярность разбиения q;
г) «направленность» связи.

А.В.Прохоров.
Методы исследования естественно-
языкового описания предметной
области «Информатика и
вычислительная техника»
// Интеллектуальные технологии и
системы. Сб. ст. аспирантов, стажеров и
студентов. Вып. 1.
– М.: Изд-во МГТУ им. Н.Э.Баумана, 1998.

АРЕАЛ (1)
Парадигматический конструктив ареал
— часть тезауруса, выделенная по значению селективного
критерия, например коэффициента «силы связи».
Построения парадигматических ареалов — задача кластерного
анализа.
В случае представления тезауруса в виде простой
семантической сети задача сводится к нахождению подграфа с
заданными свойствами вершин (лемм) или дуг (коэффициентов
«силы связи»).

АРЕАЛ (2)
,
u 1
u 2R(u 1 ,u 2 )
u 3
u 4
u NR(u 1
,u 3
)
R(u 3 ,u 4 )
R(u 4 ,u 2 )
R(u 4 ,u N )
R(u N
,u 3
)
u N-1
u 5
R(u 2 ,u 1 )
Тезаурус —
неполносвязанный
ориентированный
граф L = (U,V) :
U = { u1, u2, ..., uN },
V ⊂ U2 , V = { <ui,uj> },
R(ui,uj) = k(ui,uj)

АРЕАЛ (3)
Тезаурус в виде простой семантической сети
L = (U,V)

Удаление ребер <ui, uj>, для которых R(ui,uj)<R0 и Vij < V0.

Приведенная семантическая сеть
L(R0,V0)
Семантическим ареалом A в семантической сети L(R0,V0)
будем называть совокупность вершин A = { ui }, для которых
выполняются следующие условия:
Для ∀ ui, uj ∈A, Vij > V0;
Для ∀ ui, uj ∈A верно, что R(ui,uj) > R0
Для ∀ ui ∈A и uj ∉ A верно, что R(ui,uj) ≤ R0

ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ
1. Что такое парадигматическая модель текста?
2. Какую структуру имеет парадигматический конструктив?
3. Какую структуру имеют парадигматические конструктивы:
предметный и именной указатели, словарь?
4. Какую структуру имеют парадигматические конструктивы
словарей: грамматического, словосочетаний, текстов,
определений?
5. Какую структуру имеет парадигматический конструктив
тезаурус?
6. Какую структуру имеет парадигматический конструктив
ареал?

лекция 7 тема 1

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (14)

Similar to лекция 7 тема 1

Similar to лекция 7 тема 1 (20)

More from Noobie312

More from Noobie312 (7)

лекция 7 тема 1

Editor's Notes