Рассмотрены проблемы пополнения компьютерного семантического словаря новыми словами, встреченными в тексте при его анализе. Предлагаемая для этого система работает в полуавтоматическом диалоговом режиме. На первом этапе определяются морфологические характеристики нового слова, на втором – его синтактико-семантические параметры по аналогам, имеющимся в существующем словаре. Предлагаемые подходы обеспечивают высокий уровень точности. Впервые появилась возможность указания точной семантики новых слов с учетом не только семантических классов, но и аргументов, обеспечивающих связь с подсоединяемыми словами.
Рассмотрены проблемы пополнения компьютерного семантического словаря новыми словами, встреченными в тексте при его анализе. Предлагаемая для этого система работает в полуавтоматическом диалоговом режиме. На первом этапе определяются морфологические характеристики нового слова, на втором – его синтактико-семантические параметры по аналогам, имеющимся в существующем словаре. Предлагаемые подходы обеспечивают высокий уровень точности. Впервые появилась возможность указания точной семантики новых слов с учетом не только семантических классов, но и аргументов, обеспечивающих связь с подсоединяемыми словами.
ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...ITMO University
Описано решение задачи преобразования исходного кода на объектно-ориентированном языке в формат RDF средствами семантического анализа. Рассмотрены основные принципы семантического анализа объектноориентированного кода и предложен архитектурный прототип программного продукта, осуществляющего преобразование кода в RDF.
МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...ITMO University
Описывается подход, который может быть использован в качестве альтернативы автоматическому реферированию текста. Суть подхода заключается в формировании представлений исходного текста и возможности перемещаться по его содержанию с помощью этих представлений – от общего представления к более конкретному представлению и обратно. Представления формируются на основании методов автоматической обработки текста – статистических методов и поверхностного лингвистического анализа. В работе дано формализованное описание подхода, а также рассмотрена реализация на основе реляционной базы данных.
The document discusses logical-statistical methods for knowledge acquisition from texts, including distribution-statistical analysis, component analysis, and frequency-semantic analysis. Distribution-statistical analysis uses the frequency of words occurring together to determine their semantic relationship. Component analysis examines word definitions for common elements. Frequency-semantic analysis considers both the similarity and frequency of elements in word definitions. These methods are used to build semantic fields by grouping words into descriptive categories.
1. Тема 1.
ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ
ЗНАКОВЫЕ СИСТЕМЫ
ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ
1.1. Модели и методы представления и организации знаний —
лекции 1-2.
1.2. Количественная спецификация ЕЯ систем —
лекции 3-4, 8.
1.3. Логико-статистические методы извлечения знаний —
лекция 5-7.
ФАКУЛЬТАТИВНЫЕ РАЗДЕЛЫ ТЕМЫ ДЛЯ
САМОСТОЯТЕЛЬНОГО ИЗУЧЕНИЯ
1.4. Технология автоматизированного построения словаря-
тезауруса.
1.5. Пример исследования ЕЯ ресурса.
3. Литература
Материал лекции представлен в
книге:
Ю.Н.Филиппович, А.В.Прохоров.
Семантика
информационных
технологий:
опыты словарно-тезаурусного
описания. /
Серия «Компьютерная лингвистика».
Вступ. Статья А.И.Новикова.
М.: МГУП, 2002.
— книга в комплекте с CD ROM
— С. 64–73.
4. ПАРАДИГМАТИЧЕСКАЯ МОДЕЛЬ
ЕЯ ОПИСАНИЯ ПОРМ
}{KG
PRD
i
⇒
ПАРАДИГМАТИЧЕСКАЯ МОДЕЛЬ ТЕКСТА
представление его в виде множества основных
парадигматических конструктивов, или интерпретированных
синтагматических конструктивов, полученных путем
преобразования текста на основе его формально-языкового
теоретико-множественного описания:
( )GStgK
STG
=
( ) ( ) }{}{Pr ,, IGStgIKGdK
STGPRD
i
===
IСТОG ≡
ЕЯО ПОРМ
СТО ПОРМ
СИНТАГМАТИЧЕСКАЯ
МОДЕЛЬ СТО ПОРМ
5. СТРУКТУРА ПАРАДИГМАТИЧЕСКОГО
КОНСТРУКТИВА
KI
PRD
i
1−
⇒ ( ) ( ) }{Pr 11
, IIStgIdK
PRD
i
==
−
( ) ( ) ( ) ( ) }{ ,1,...,2,1, IIStgIStgIStgGStgG
X
PRD
X −⇒
( ) ( ) }}{{ 1
,, IIStgGStgG
x
PRD
x +
⇒
ЧАСТИ ПАРАДИГМАТИЧЕСКОГО КОНСТРУКТИВА
Синтагматическая — формально-языковое описание.
Парадигматическая — естественно-языковое описание,
формально-языковое описание,
словарно-тезаурусное описание.
парадигматическая модель
— множество синтагматических моделей текста и его
интерпретаций
6. Литература
Ю.Н.Филиппович
Интеграция предмета, образа и субъекта в
концептуальном проектировании
информационных технологий и систем
// Интеллектуальные технологии и системы.
Сборник статей аспирантов, стажеров и
студентов. Вып. 1.
– М.: Изд-во МГТУ им Н.Э.Баумана,1998.
С. 9–33.
Ю.Н. Филиппович
Семиотическая концепция интеграции
информационных технологий
// Sсriрtа linguistiсае аррliсаtае. Проблемы
прикладной линг-вистики – 2001. Сб.ст.
/ Отв. ред. А.И. Новиков.
– М.: «Азбуковник», 2001.
С. 319–342.
7. ПАРАДИГМАТИЧЕСКИЕ
КОНСТРУКТИВЫ
ПАРАДИГМАТИЧЕСКАЯ СТРУКТУРА ТЕКСТА
— комплекс основных и производных
парадигматических конструктивов.
Основные парадигматические конструктивы:
словарные статьи,
парадигматические отношения.
Производные парадигматические конструктивы:
частичные словники
(ограниченные неформальным признаком),
словоуказатели (предметные, именные, и т.п.),
конкордансы,
словари,
ареалы,
тезаурусы и др.
8. ПРЕДМЕТНЫЙ (ТЕРМИНОЛОГИЧЕСКИЙ)
УКАЗАТЕЛЬ
,
,
( ) ( ) },{Pr , IGStgGdK
ПУПУPRD УПУ ==
−
( )GStgУ
I
ПУ
— указатель слов, — выбор слов, обозначающих
предметы реального
мира.
где:
Предметный указатель получается путем интерпретации указателя
слов, образованного на основе формально-языкового преобразования
текста.
Интерпретация состоит в выделении в нем «слов-предметов».
В предметный (терминологический) указатель могут быть
включены основные термины и понятия ПОРМ, выраженные
словами, словосочетаниями (2-х и 3-х словными). Отдельно могут
быть представлены аббревиатуры.
9. ИМЕННОЙ УКАЗАТЕЛЬ
( )GStgУ
— указатель слов, — выбор слов, являющихся
именами.
где:
I
УИ
( ) ( ) },{Pr ,
И
IGStgGdK
ИУУPRD УИУ ==
−
Именной указатель получается путем интерпретации указателя слов,
образованного на основе формально-языкового преобразования текста.
Интерпретация состоит в выделении в нем «слов-имен».
В именной указатель могут быть включены все имена собственные,
в т.ч. и представленные словосочетаниями. Отдельно могут быть
представлены различные их типы:
аббревиатуры, персоналии, организации,топонимы и др.
10. ГРАММАТИЧЕСКИЙ СЛОВАРЬ
Грамматический словарь ЕЯ описания ПОРМ может включать:
существительные, прилагательные, глаголы, наречия, числительные,
предлоги, междометия, союзы, частицы и местоимения.
Структура словарной статьи грамматического словаря
<ЛЕММА> <МИ> {S} [S]
<СЛОВОФОРМА1> <МИ1> [i1]
<СЛОВОФОРМА2> <МИ2> [i2]
...
<СЛОВОФОРМАk> <МИk> [ik]
ЛЕММА — слово в основной форме; МИ — морфологическая
информация о слове; МИj — подробная грамматическая информация;
s — количество словоформ в тексте; S — общее количество
словоформ в тексте; ij — частота j-ой словоформы.
Интерпретация состоит в лемматизации путем формального
морфологического анализа с последующим разрешением
проблем омонимии субъектом.
12. СЛОВАРЬ СЛОВОСОЧЕТАНИЙ
.
Структура словарной статьи словаря словосочетаний
<ЛЕММА>
(СЛОВОСОЧЕТАНИЕ1),
(СЛОВОСОЧЕТАНИЕ2),
...
(СЛОВОСОЧЕТАНИЕk).
Здесь:
ЛЕММА — слово в основной форме из грамматического
словаря; СЛОВОСОЧЕТАНИЕ — двух-, трехсловное
словосочетание из предметного указателя, являющееся
термином или основным понятием ЕЯ описания ПО.
Интерпретация состоит в выборе
устойчивых словосочетаний.
13. КОНКОРДАНС (СЛОВАРЬ КОНТЕКСТОВ)
Структура словарной статьи конкорданса (словаря контекстов)
<ЛЕММА/ СЛОВОСОЧЕТАНИЕ> <КОНТЕКСТ> <АДРЕС>.
Здесь:
КОНТЕКСТ — ближайшее “окружение” словоформы или
словосочетания, размер которого может быть выбран
произвольно, однако в большинстве случаев его следует
ограничить предложением (количество контекстов для одной
леммы должно быть от трех до пяти, а для словосочетания
достаточно одного – двух);
АДРЕС — указание на источник контекста.
Интерпретация состоит в выборе контекстов,
их величины и количества.
14. СЛОВАРЬ ОПРЕДЕЛЕНИЙ (1)
Словарь определений может включать описание основных
понятий ПОРМ, взятых из предметного указателя.
Словарная статья может включать следующие сведения:
•заголовочное слово (понятие из предметного указателя),
•варианты определений (толкований) из других словарей
определений,
•устойчивые словосочетания (из словаря словосочетаний)
•эксцерпции (примеры контекстов из текстов ЕЯ описания ПО)
•указания источников контекстов из конкорданса
•и др.
Интерпретация состоит в определении состава и
структуры словарной статьи
15. СЛОВАРЬ ОПРЕДЕЛЕНИЙ (2)
СЛОВАРЬ РУССКОГО ЯЗЫКА XI–XVII ВВ.
, .ИСКУССТВО с
1. , , .Умение знание искусство Како не зримъ прилежно
мысленнымъ своимъ окомъ древняго дракона, врага нашего
бодрого, и никогда же спящаго, и множаишими л#ты
искуство злобы имущаго.
Курб. Пис., 387. XVII в. ∝ XVI в.
4 ч<еловека> бомбардировъ, немецкой породы, которые бы
им#ли въ своей наук# и въ воинскихъ д#л#хъ доброе и
свид#телствованное искуство.
ДАИ XII, 383. 1695 г.
2. ; - . , .Опыт способ к узнаванию чего л эксперимент Искусством
бо сие разум#хомъ.
М. Гр. I, 300. XVI—XVII вв. ∝ XVI в.
Т#мъ искусствомъ опознаваемъ.
Травник Любч., 407. XVII в. ∝ 1534 г.
16. СЛОВАРЬ ОПРЕДЕЛЕНИЙ (3)
ВОКАБУЛА морф. призн.
I.
II. Толкование.
А.
Толкование. { Эксцерпция. Ук. источн. ДатаПагинация }
Толкование.
1. Толкование. { Эксцерпция. Ук. источн. ДатаПагинация }
2. Толкование. { Эксцерпция. Ук. источн. ДатаПагинация }
Б. Толкование. { Эксцерпция. Ук. источн. ДатаПагинация }
III. Толкование.
1. Толкование. { Эксцерпция. Ук. источн. ДатаПагинация }
2. Толкование. { Эксцерпция. Ук. источн. ДатаПагинация }
ВОКАБУЛА морф. призн. Толкование. { Эксцерпция. Ук. источн. ДатаПагинация }
Структура словарной статьи Словаря русского языка XI-XVII вв.
17. ТЕЗАУРУС (1)
Парадигматический конструктив тезаурус
может быть представлен как тройка формальных объектов:
или
{<синтагма XI ><отношение R ><синтагма XJ >}.
Такое представление парадигматического
конструктива позволяет рассматривать его как
элемент формального языка RX-кодов:
X-термины; R-релатемы
}{ KKK STG
J
PRD
R
STG
I
18. ТЕЗАУРУС (2)
Примерами парадигматических отношений являются
формальные модели оценки «силы связи» между языковыми
элементами — коэффициенты .
В частности можно представить конструктив
парадигматического отношения в следующем виде:
, где является
соответствующей интерпретацией R коэффициента.
K
R
AB
}{ , IKK
R
AB
R
AB
PRD
R
= I
R
AB
Парадигматическое отношение является элементом графа
одной из формальных моделей представления знаний,
(сетевых, фреймовых и т.п.).
}}{,}{{ KKVT
PRD
R
STG
I
=
19. ТЕЗАУРУС (3)
Ui
Uj
R(u i ,u j )
<u i
,u j
>
L = (U, V), где:
U – множество вершин сети (лемм),
V – множество связей.
U = { u1, u2, ..., uK }, где:
k – число выделенных лемм.
V ⊂ U2
, V = { <ui,uj> }
R(ui,uj) – функция, определенная на
множестве U2
– количественная
мера связи между вершинами ui и uj.
Свойства:
R(ui,uj): R(ui,uj) = 0 ⇔ <ui,uj> ∉V;
если <ui, uj> ≠ <uj, ui>,
Описание тезауруса в виде простой семантической сети
<ui, uj> – ориентированная
связь от вершины ui к
вершине uj
20. ТЕЗАУРУС (4)
Задача построения функции R(ui,uj)
на основе корпуса текстов
T = C1(T)+...+Cq(T), где Сi(T)∩ Cj(T)=∅, i,j (i≠j) ∈[1,q]
Введем характеристики:
|T| – число слов в тексте T,
|Сi(T)| – число слов в i-ом контексте текста T.
При условии, что Сi(T)∩ Cj(T)=∅, i,j (i≠j) ∈[1,q], имеем
, где q – гранулярность разбиения, т.е. число
непересекающихся контекстов, на которые разбивается текст T.
Будем считать, что |Ci(T)|=|Cj(T)|, для ∀ i,j ∈[1,q], тогда
|T| = q|C(T)|, где С(T) некоторый контекст из выбранных.
∑=
=
q
i
i TCT
1
|)(|||
21. ТЕЗАУРУС (5)
Поскольку С(T) тоже является текстом, то для него можно
определить частотную функцию N(w,C(T)), значение которой
равно числу слов w в контексте С(T).
Такая частотная функция вводится на всех контекстах
N(w,C1(T)), N(w,C2(T)),..., N(w,Cq(T)).
Будем рассматривать два слова w1 и w2, принадлежащие тексту T.
Для них можно записать два ряда:
N(w1,C1(T)), N(w1,C2(T)),..., N(w1,Cq(T))
N(w2,C1(T)), N(w2,C2(T)),..., N(w2,Cq(T))
Обозначим:
N(w1,C(T)) – число слов w1 в некотором контексте из числа
выбранных;
N(w2,C(T)) – число слов w2 в некотором контексте из числа
22. ТЕЗАУРУС (6)
N(w1,
C(T))=1 N(w1,
C(T))=2 ... N(w1,
C(T))=R nу
N(w2,
C(T))=1 n(1,1) n(1,2) n(1,R)
N(w2,
C(T))=2 n(2,1) n(2,2) n(2,R)
N(w2,
C(T))=3 n(3,1) n(3,2) n(3,R)
...
N(w2,
C(T))=R n(R,1) n(R,2) n(R,R)
nх
ух
Определим функцию n(х, у) числа контекстов,
в которых слово w1 имело частоту х, а слово w2 – частоту у.
n(х,у) = n(N(w1,C(T)), N(w2,C(T)))
R = |С(T)| – размер контекста, nх – суммы по столбцам, nу – суммы по строкам,
– средние значения по столбцам =xy ∑=
R
yx
yxyn
n 1
),(
1
23. ТЕЗАУРУС (7)
Для построения семантической сети требуется построение
корреляционной матрицы для имеющихся в T пар слов <wi, wj>.
В качестве меры связи между словами w1 и w2 могут
использоваться значения коэффициентов корреляции или
корреляционного отношения.
Факторы построении семантической сети :
а) процедуру лемматизации исходного множества слов;
б) размерность корреляционной матрицы RхR, ее избыточность;
в) гранулярность разбиения q;
г) «направленность» связи.
25. АРЕАЛ (1)
Парадигматический конструктив ареал
— часть тезауруса, выделенная по значению селективного
критерия, например коэффициента «силы связи».
Построения парадигматических ареалов — задача кластерного
анализа.
В случае представления тезауруса в виде простой
семантической сети задача сводится к нахождению подграфа с
заданными свойствами вершин (лемм) или дуг (коэффициентов
«силы связи»).
26. АРЕАЛ (2)
,
u 1
u 2R(u 1 ,u 2 )
u 3
u 4
u NR(u 1
,u 3
)
R(u 3 ,u 4 )
R(u 4 ,u 2 )
R(u 4 ,u N )
R(u N
,u 3
)
u N-1
u 5
R(u 2 ,u 1 )
Тезаурус —
неполносвязанный
ориентированный
граф L = (U,V) :
U = { u1, u2, ..., uN },
V ⊂ U2 , V = { <ui,uj> },
R(ui,uj) = k(ui,uj)
27. АРЕАЛ (3)
Тезаурус в виде простой семантической сети
L = (U,V)
Удаление ребер <ui, uj>, для которых R(ui,uj)<R0 и Vij < V0.
Приведенная семантическая сеть
L(R0,V0)
Семантическим ареалом A в семантической сети L(R0,V0)
будем называть совокупность вершин A = { ui }, для которых
выполняются следующие условия:
Для ∀ ui, uj ∈A, Vij > V0;
Для ∀ ui, uj ∈A верно, что R(ui,uj) > R0
Для ∀ ui ∈A и uj ∉ A верно, что R(ui,uj) ≤ R0
28. ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ
1. Что такое парадигматическая модель текста?
2. Какую структуру имеет парадигматический конструктив?
3. Какую структуру имеют парадигматические конструктивы:
предметный и именной указатели, словарь?
4. Какую структуру имеют парадигматические конструктивы
словарей: грамматического, словосочетаний, текстов,
определений?
5. Какую структуру имеет парадигматический конструктив
тезаурус?
6. Какую структуру имеет парадигматический конструктив
ареал?
Editor's Notes
Тема 1 «Естественно-языковые знаковые системы» включает шесть разделов, первые три из которых являются основными.
1.1. Модели и методы представления и организации знаний — лекции 1-2.
1.2. Спецификация ЕЯ систем — лекция 3.
1.3. Логико-статистические методы извлечения знаний — лекции 4–5.
Материал этих разделов представлен в лекциях.
Три других раздела предназначены для самостоятельного изучения, а его материал представлен в рекомендованной литературе.
2.4. Технология автоматизированного построения словаря-тезауруса.
2.5. Пример исследования ЕЯ ресурса.
Пятая лекция посвящена рассмотрению парадигматической модели текста. В ней рассматриваются два вопроса:
Парадигматическая модель ЕЯ описания ПОРМ
Производные парадигматические конструктивы
Материал лекции представлен в книге:
Ю.Н.Филиппович, А.В.Прохоров. Семантика информационных технологий: опыты словарно- тезаурусного описания. / Серия «Компьютерная лингвистика». Вступ. Статья Анатолия Ивановича Новикова. М.: МГУП, 2002.— книга в комплекте с CD ROM — С. 64–73.
Словарно-тезаурусное описание ПОРМ является, прежде всего, результатом деятельности субъекта (субъектов). Причем эта деятельность носит упорядоченный и целенаправленный характер формализации знаний людей в форме словаря-тезауруса, она есть результат понимания реального мира. Внешняя форма словаря-тезауруса представляет собой организованный по некоторым правилам список языковых единиц различных уровней (синтагм).
Получается, что словарно-тезаурусное описание одновременно является и синтагматической моделью некоторого текста (естественно-языкового описания ПОРМ), и образом, носителем которого являются синтагмы.
Подобное представление приводит к построению синтагматической модели словарно-тезаурусного описания ПОРМ: есть естественно-языковое описание ПОРМ (G) и тождественное ему словарно-тезаурусное описание (СТО), и есть его синтагматическая модель, состоящая из синтагматических конструктивов — . которые имеют понимание и интерпретацию — .
В итоге получаем, что словарно-тезаурусное описание представляет собой конструкцию, которую назовем парадигматической моделью текста (естественно-языкового описания ПОРМ) и дадим ей следующее определение:
парадигматической моделью текста является представление его в виде множества основных парадигматических конструктивов, или интерпретированных синтагматических конструктивов, полученных путем преобразования текста на основе его формально-языкового теоретико-множественного описания:
, где .
Такое определение делит парадигматический конструктив на две части: синтагматическую, являющуюся формально-языковым преобразованием текста, и парадигматическую, которая может быть представлена в форме естественно-языкового или формально-языкового описаний. Интерпретация парадигматического конструктива может также быть представлена и в словарно-тезаурусной форме, тогда получим:
, где ;
;
.
Иначе парадигматическую модель текста можно определить как множество синтагматических моделей текста и его интерпретаций.
Парадигматические конструктивы
Основными парадигматическими конструктивами являются словарная статья и парадигматическое отношение, на основе которых формируются словарь и тезаурус. Примерами производных парадигматических конструктивов являются: частичные словники (ограниченные неформальным признаком, например, предметные), словоуказатели (предметные, именные, и т.п.), конкордансы, словари, ареалы, тезаурусы и др.
На основе одного корпуса текстов могут быть построены различные производные парадигматические конструктивы, например, словоуказатели, конкордансы, словари с отличающимися словарными статьями. В качестве примеров приведем несколько вариантов [Филиппович, 1998. С.315–319]:
В предметный (терминологический) указатель могут быть включены основные термины и понятия соответствующей ПОРМ, выраженные словами, словосочетаниями (2-х и 3-х словными). Отдельно могут быть представлены аббревиатуры. Указатель может содержать сведения об имени файла текста и номере строки от начала. При формировании предметного указателя могут использоваться другие СТО.
Парадигматический конструктив «Предметный указатель» получаются путем интерпретации указателя слов, являющегося синтагматическим конструктивом, образованным на основе формально-языкового преобразования текста . Интерпретация состоит в выделении в нем «слов-предметов». Упрощенно, т.е. без учета операций над указателем, состоящих в расширении его за счет включения словосочетаний, упомянутого выделения аббревиатур и т.д., это имеет вид:
где — указатель слов, — выбор всех слов, обозначающих предметы реального мира.
В именной указатель ЕЯ описания ПОРМ могут быть включены все имена собственные, встретившиеся в текстах. Указатель может содержать сведения об имени файла текста, номере страницы, номере абзаца от начала страницы и номере строки в абзаце.
Парадигматический конструктив «Именной указатель» получаются путем интерпретации указателя слов, являющегося синтагматическим конструктивом, образованным на основе формально-языкового преобразования текста . Интерпретация состоит в выделении в нем «имен». Упрощенно, т.е. без учета операций над указателем, состоящих в расширении его за счет включения словосочетаний, упомянутого выделения аббревиатур и т.д., это имеет вид:
где — указатель слов, — выбор всех слов, являющихся именами персоналий.
Грамматический словарь ЕЯ описания ПОРМ: а) может включать слова, встретившиеся в текстовых фрагментах и относящиеся к следующим грамматическим классам: существительные, прилагательные, глаголы; б) может включать слова — наречия, числительные; в) возможно также составление полного грамматического словаря, включающего слова не только перечисленных грамматических классов, но и предлоги, междометия, союзы, частицы и местоимения. В грамматический словарь не должны включаться имена собственные, аббревиатуры, идентификаторы (слова, содержащие буквы и цифры). Грамматический словарь может иметь следующую структуру словарной статьи:
&lt;ЛЕММА&gt; &lt;МИ&gt; {S} [S]
&lt;СЛОВОФОРМА1&gt; &lt;МИ1&gt; [i1]
&lt;СЛОВОФОРМА2&gt; &lt;МИ2&gt; [i2]
...
&lt;СЛОВОФОРМАk&gt; &lt;МИk&gt; [ik]
Здесь: ЛЕММА — слово в основной форме; МИ — морфологическая информация о слове (грамматический класс, подкласс); МИj — подробная грамматическая информация); s — количество словоформ в тексте; S — общее количество словоформ в тексте; ij — частота j-ой словоформы.
Интерпретация в грамматическом словаре представляет собой сложную процедуру лемматизации, которая может быть выполнена различными способами, в т.ч. и путем формального морфологического анализа с последующим разрешением проблем омонимии непосредственно субъектом.
В качестве примера можно сослаться на программное изделие Cоnсоrdаnsеs [Сидоров, 1996. С.266–300.], описанное в статье Г.О.Сидорова. Под названием LemmaLex оно рекомендовано для использования в курсовой работе.
Словарь словосочетаний ЕЯ описания ПОРМ может иметь следующую структуру словарной статьи:
&lt;ЛЕММА&gt;
(СЛОВОСОЧЕТАНИЕ1),
(СЛОВОСОЧЕТАНИЕ2),
...
(СЛОВОСОЧЕТАНИЕk).
Здесь: ЛЕММА — слово в основной форме из грамматического словаря; СЛОВОСОЧЕТАНИЕ — двух-, трехсловное словосочетание из предметного указателя, являющееся термином или основным понятием ЕЯ описания ПО.
Интерпретация состоит в выборе так называемых устойчивых словосочетаний, они как правило являются наиболее частотными.
Конкорданс (словарь контекстов) ЕЯ описания ПОРМ может быть составлен для понятий, например, предметного указателя и иметь следующую структуру словарной статьи:
&lt;ЛЕММА/ СЛОВОСОЧЕТАНИЕ&gt; &lt;КОНТЕКСТ&gt; &lt;АДРЕС&gt;.
Здесь: КОНТЕКСТ — ближайшее “окружение” словоформы или словосочетания, размер которого может быть выбран произвольно, однако в большинстве случаев его следует ограничить предложением (количество контекстов для одной леммы должно быть от трех до пяти, а для словосочетания достаточно одного – двух);
АДРЕС — указание на источник контекста — фрагмент текста.
Интерпретация состоит в выборе контекстов, их величины и количества.
Словарь определений ЕЯ описания ПОРМ может включать описание основных понятий ПОРМ, взятых из предметного указателя. Словарная статья может включать следующие сведения: заголовочное слово (понятие из предметного указателя), варианты определений (толкований) из других словарей определений, устойчивые словосочетания (из словаря словосочетаний) и 2–3 эксцерпции (примеры контекстов из текстов ЕЯ описания ПО с указанием их источника из конкорданса).
Словарная статья словаря определений включает компоненты указателя и нескольких словарей, в том числе полученных не на основе исходного текста.
Интерпретация состоит в определении состава и структуры словарной статьи
В качестве примера приведем словарную статью Словаря русского языка XI-XVII вв. Она представляет собой сплошной текст, разделенный знаками препинания, шрифтовыми различиями и иногда специальными символами [СЛРЯ, 1979. Т.6, с.266]:
ИСКУССТВО, с.
1. Умение, знание, искусство. Како не зримъ прилежно мысленнымъ своимъ окомъ древняго дракона, врага нашего бодрого, и никогда же спящаго, и множаишими л#ты искуство злобы имущаго? Курб. Пис., 387. XVII в. XVI в. 4 ч&lt;еловека&gt; бомбардировъ, немецкой породы, которые бы им#ли въ своей наук# и въ воинскихъ д#л#хъ доброе и свид#телствованное искуство. ДАИ XII, 383. 1695 г.
2. Опыт; способ к узнаванию чего-л., эксперимент. Искусством бо сие разум#хомъ. М. Гр. I, 300. XVI—XVII вв. XVI в. Т#мъ искусствомъ опознаваемъ. Травник Любч., 407. XVII в. 1534 г.
[1] В приводимых словарных статьях есть ссылки на источники в виде их сокращенных наименований: Курб. Пис., ДАЙ XII, М. Гр. I, Травник Любч. Полное описание наименования источника можно найти в нашей работе «Электронный указатель источников Рукописной древнерусской картотеки и Словаря русского языка XI–XVII вв.» [Филиппович, 2002а].
Ее основными составляющими являются:
заголовочное слово (вокабула – это слово или словосочетание),
фонетические варианты этого заголовочного слова, если таковые имеются,
морфологический признак (часть речи, число, род, падеж),
толкование (дефиниция),
название того языка, из которого заимствовано слово,
цитата (эксцерпция),
код источника, из которого взята цитата,
пагинация,
дата источника,
отсылочные пометы (смотри, сравни, то же что, прил. к, ...),
и другие.
Вокабула – это заглавное слово (или словосочетание),
Некоторые части словарной статьи отличаются друг от друга шрифтовой разметкой. К примеру, в СлРЯ XI-XVII вв. заголовочное слово всегда пишется жирным шрифтом и строчными буквами, толкование всегда пишется курсивом, а цитатный материал обычным шрифтом (под цитатным материалом понимается не только цитаты, но и поля, так или иначе, с ними связанные, а именно шифр источника, дата источника, пагинация, и т.д.).
Структура словарной статьи СлРЯ не постоянна и может отличаться от статьи к статье. Ее характерной особенностью является вложенность семантик (вложенность толкований). Обычно словарные статьи СлРЯ XI-XVII вв. имеют не более трех уровней вложенности семантик.
Цитатный материал, как правило, представлен в количестве не менее двух цитат на толкование: «каждая основная словарная позиция иллюстрируется двумя-тремя цитатами, представляющими наиболее раннюю и позднюю фиксации».
Парадигматический конструктив тезаурус в общем виде может быть представлен как тройка формальных объектов:
{&lt;&gt; &lt;&gt; &lt;&gt;} или {&lt;синтагма I&gt;&lt;отношение R&gt;&lt;синтагма J&gt;}.
Такое представление парадигматического конструктива позволяет рассматривать его как элемент формального языка (сравните, например, разработки языков RX-кодов [Белоногов, 1983. С.23], так называемые X-термины и R-релатемы).
Парадигматический конструктив по определению представляет собой конструкцию состоящую из некоторого синтагматического конструктива и интерпретации, которая может быть выполнена субъектом на основе формально языковой знаковой системы. Примерами парадигматических конструктивов отношений являются описанные ранее формальные модели оценки «силы связи» между языковыми элементами, коэффициенты . В частности можно представить конструктив парадигматического отношения в следующем виде: = {, }, где является соответствующей интерпретацией R коэффициента.
На основе одного корпуса текстов могут быть построены также различные тезаурусы, в основе которых будут лежать отличающиеся друг от друга парадигматические отношения.
Кроме этого парадигматическое отношение фактически является элементом графа = {{},{}} — одной из формальных моделей представления знаний, на основе которой строятся многие другие (сетевые, фреймовые и т.п.).
В качестве примера рассмотрим формальное описание тезауруса в виде простой семантической сети. Элементами сети являются леммы (канонические формы слов) и коэффициенты «силы связи», определяющие наличие связи и ее величину, измеренную в некоторой шкале.
L – простая семантическая сеть
L = (U, V), где U – множество вершин сети (лемм), V – множество связей.
U = { u1, u2, ..., uK }, где k – число выделенных лемм.
V U2 , V = { &lt;ui,uj&gt; }
R(ui,uj) – функция, определенная на множестве U2 – количественная мера связи между вершинами ui и uj.
Свойство R(ui,uj): R(ui,uj) = 0 &lt;ui,uj&gt; V
Будем считать, что запись &lt;ui, uj&gt; означает ориентированную связь от вершины ui к вершине uj:
Графическое представление связей между понятиями.
Аналогично, как &lt;ui, uj&gt; &lt;uj, ui&gt;, то в общем случае R(ui,uj) R(uj,ui)
Возникает задача построения функции R(ui,uj) на основе данных корпуса текстов. Уже было отмечено, что
T = C1(T)+...+Cq(T), где Сi(T) Cj(T)=, i,j (ij) [1,q]
Введем характеристику: |T| – число слов в тексте T, аналогично
|Сi(T)| – число слов в i-ом контексте текста T.
При условии, что Сi(T) Cj(T)=, i,j (ij) [1,q], имеем
, где q – гранулярность разбиения, т.е. число непересекающихся контекстов, на которые разбивается текст T.
Будем считать, что |Ci(T)|=|Cj(T)|, для i,j [1,q], тогда
|T| = q|C(T)|, где С(T) некоторый контекст из выбранных.
Поскольку С(T) тоже является текстом, то для него можно определить частотную функцию N(w,C(T)), значение которой равно числу слов w в контексте С(T). Такая частотная функция вводится на всех контекстах:
N(w,C1(T)), N(w,C2(T)),..., N(w,Cq(T))
Будем рассматривать два слова w1 и w2, принадлежащие тексту T. Следовательно для них можно записать два ряда:
N(w1,C1(T)), N(w1,C2(T)),..., N(w1,Cq(T))(3.16)
N(w2,C1(T)), N(w2,C2(T)),..., N(w2,Cq(T))(3.17)
Обозначим:
N(w1,C(T)) – число слов w1 в некотором контексте из числа выбранных;
N(w2,C(T)) – число слов w2 в некотором контексте из числа выбранных;
Определим функцию n(х, у), значения которой показывают число контекстов, в которых слово w1 имело частоту х, а слово w2 – частоту у.
Очевидно, что n(х,у) = n(N(w1,C(T)), N(w2,C(T)))
Представляя значения n(х,у) в табличной форме, имеем:
В таблице, через R обозначена величина R = |С(T)| – размер контекста, nх – суммы по столбцам, nу – суммы по строкам, – средние значения по столбцам =
Для построения семантической сети требуется построение корреляционной матрицы для всех имеющихся в T пар слов &lt;wi, wj&gt;.
В качестве меры связи между словами w1 и w2 могут, например, использоваться значение коэффициент корреляции или корреляционного отношения.
Необходимо отметить, что при построении семантической сети на основе данного ее описания нужно учесть: а) процедуру лемматизации исходного множества слов; б) размерность корреляционной матрицы RхR, точнее ее избыточность, поскольку в реальности частота слова в контексте никогда не бывает равна числу слов в этом контексте (в этом случае контекст должен был бы состоять только из одного слова), практически число R – возможных частот слов в контексте можно уменьшить в три раза по отношению к размеру контекста; в) гранулярность разбиения q; г) «направленность» связи.
В [Прохоров, 1999-а] описан алгоритм получения характеристик числовой связи между леммами ЕЯ описания ПОРМ, построенный на основе приведенного описания.
Парадигматический конструктив ареал представляет собой некоторую часть тезауруса, выделенную по какому-либо правилу — селективному критерию. В качестве критерия могут быть выбраны в том числе и коэффициенты «силы связи». Самая общая постановка задачи построения парадигматических ареалов сводится к задаче кластерного анализ. В простейшем случае на рассмотренном примере представления тезауруса в виде простой семантической сети задача сводится к нахождению подграфа с заданными свойствами вершин (лемм) или дуг (коэффициентов «силы связи»).
Тезаурус, представленный в виде простой семантической сети, в общем случае является неполносвязанным ориентированным графом L = (U,V) с заданными множествами U = { u1, u2, ..., uN } и V U2 , V = { &lt;ui,uj&gt; }, а также функцией R(ui,uj) = k(ui,uj)
Рисунок 4.7. Фрагмент семантической сети словаря-тезауруса.
Тезаурус, представленный в виде простой семантической сети, в общем случае является неполносвязанным ориентированным графом L = (U,V) с заданными множествами U = { u1, u2, ..., uN } и V U2 , V = { &lt;ui,uj&gt; }, а также функцией R(ui,uj) = k(ui,uj)
Выполним над графом L следующее преобразование: удалим из него все ребра &lt;ui, uj&gt; для которых R(ui,uj)&lt;R0 и Vij &lt; V0: Полученный граф обозначим L(R0,V0) и будем называть приведенной семантической сетью. Смысл этой операции состоит в том, что из всей семантической сети вычленяется сеть, в которой представлены наиболее выраженные и достоверные связи. R0 и V0 являются критическими (пороговыми) значениями силы связи и числа точек в корреляционной матрице соответственно.
Поставим задачу выявления семантических ареалов в приведенной семантической сети L(R0,V0). Семантическим ареалом A в семантической сети L будем называть совокупность вершин A = { ui }, для которых выполняются следующие условия:
Для ui, uj A, Vij &gt; V0.
Для ui, uj A верно, что R(ui,uj) &gt; R0
Для ui A и uj A верно, что R(ui,uj) R0
В итоге получаем, что в семантические ареалы входят вершины, связи между которыми «сильнее», чем с остальными вершинами сети. Если учесть, что в качестве вершин семантической сети выступают леммы, то возможно говорить о некотором кластере, которые образуют слова в ЕЯ представлении ПОРМ.
Для самоконтроля усвоения материала лекции попытайтесь ответить на следующие вопросы:
Что такое парадигматическая модель текста?
Какую структуру имеет парадигматический конструктив?
Какую структуру имеют парадигматические конструктивы: предметный и именной указатели, словарь?
Какую структуру имеют парадигматические конструктивы словарей: грамматического, словосочетаний, текстов, определений?
Какую структуру имеет парадигматический конструктив тезаурус?
Какую структуру имеет парадигматический конструктив ареал?