SlideShare a Scribd company logo
1 of 24
Тема 1.
ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ
ЗНАКОВЫЕ СИСТЕМЫ
ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ
1.1. Модели и методы представления и организации знаний —
лекции 1-2.
1.2. Количественная спецификация ЕЯ систем —
лекции 3-4, 8.
1.3. Логико-статистические методы извлечения знаний —
лекция 5-7.
ФАКУЛЬТАТИВНЫЕ РАЗДЕЛЫ ТЕМЫ ДЛЯ
САМОСТОЯТЕЛЬНОГО ИЗУЧЕНИЯ
1.4. Технология автоматизированного построения словаря-
тезауруса.
1.5. Пример исследования ЕЯ ресурса.
Лекция 5.
ЛОГИКО-СТАТИСТИЧЕСКИЕ МЕТОДЫ
ИЗВЛЕЧЕНИЯ ЗНАНИЙ
 Дистрибутивно-статистический метод
 Компонентный анализ
 Частотно-семантический метод
Литература
Материал лекции представлен в
книге:
Ю.Н.Филиппович, А.В.Прохоров.
Семантика
информационных
технологий:
опыты словарно-тезаурусного
описания. /
Серия «Компьютерная лингвистика».
Вступ. Статья А.И.Новикова.
М.: МГУП, 2002.
— книга в комплекте с CD ROM
— С. 46–54.
ДИСТРИБУТИВНО-СТАТИСТИЧЕСКИЙ
МЕТОД
Основная гипотеза:
Значимые элементы языка (слова), встречающиеся
вместе в пределах некоторого текстового
интервала, семантически связаны между собой

количественные (частотные) характеристики
одиночной и совместной встречаемости
значимых элементов языка

формула коэффициента «силы связи»

семантическая классификация
значимых элементов языка
ЧАСТОТНЫЕ ХАРАКТЕРИСТИКИ
КОНТЕКСТОВ
Контекст Сi(T) — отрезок текста, последовательность (цепочка) синтагм.
T = C1(T)+...+Cq(T), где Сi(T)∩ Cj(T)=∅, i,j (i≠j) ∈[1,q]
Если синтагма значимый элемент языка (слово), то:
NA, fA=NA/N — количество и частота контекстов, где встретилось только
слово A;
NB , fB=NB/N — количество и частота контекстов, где встретилось только
слово B;
NAB , fAB=NAB/N — количество и частота контекстов, в которых наблюдалась
совместная встречаемость слов A и B;
N — общее количество контекстов.
ФОРМУЛЫ
КОЭФФИЦИЕНТОВ «СИЛЫ СВЯЗИ» (1)
K f
N
NAB AB
AB
= =
K f f
N N N
NAB AB AB
A B
= + =
− −
f
N N N N
NAB
AB A B
=
− − −
K
N
N N NAB
AB
A B AB
=
+ −
— Т.Танимото (T.T.Tаnimоtо),
Л.Дойл (L.B.Dоуlе).
N
ffN
K BAAB
AB
⋅−
= — М.Мэйрон (M.E.Mаrоn),
Дж.Кунс (J.Kuhns).
ФОРМУЛЫ
КОЭФФИЦИЕНТОВ «СИЛЫ СВЯЗИ» (2)
K
f N
f fAB
AB
A B
=
⋅
⋅
— А.Я.Шайкевич, Дж.Солтон (G.Sаltоn),
Р.Куртис (R.M.Curtiсе).
K
f N f f
f f N f N f
AB
AB A B
A B A B
=
⋅ − ⋅
⋅ ⋅ − ⋅ −( ) ( )
K
N N N
N N
AB
AB A B
A B
=
− ⋅
⋅
— С.Деннис (S.Dеnnis).
K
f N f f
N
N
f f N f N fAB
AB A B
A B A B
=
⋅ − ⋅ − ⋅
⋅ ⋅ − ⋅ −
log
[( ) ]
( ) ( )10
2
2 — Х.Е. Стайлз (H.E.Stilеs)
АНАЛИЗ ФОРМУЛ
КОЭФФИЦИЕНТОВ «СИЛЫ СВЯЗИ» (1)
Все формулы коэффициентов «силы связи» объединяет
рассмотрение событий, связанных с появлением слов A и B
как системы случайных явлений.
Процедура метода позволяет установить факт:
если A и B – независимые события, то P(AB)=P(A)P(B).
Расчетное значение коэффициента «силы связи»
требует интерпретации (объяснения)
Величина контекста (количества соседних слов) позволяет
наиболее вероятно устанавливать:
а) 1–2 слова — контактные синтагматические связи
словосочетаний;
б) 5–10 слов — дистантные синтагматические связи и
парадигматические отношения;
в) 50–100 слов — тематические связи между словами.
АНАЛИЗ ФОРМУЛ
КОЭФФИЦИЕНТОВ «СИЛЫ СВЯЗИ» (2)
Матрица связности языковых единиц (слов)
или ассоциативная матрица
слово ... аi ...
слово частота fа
...
bj fb ... fаb ...
...
• формирование ядра тематически связанных текстов;
• автоматизированное составление тезауруса;
• информационный поиск и индексирование;
• автоматизированное реферирование.
Направления использования метода:
МЕТОДИКА
РАЗРАБОТКИ ТЕЗАУРУСА НА ОСНОВЕ
ДИСТРИБУТИВНО-СТАТИСТИЧЕСКОГО МЕТОДА
 Составление частотных словников и конкордансов.
 Анализ совместной встречаемости слов (языковых
единиц) и составление на его основе матрицы
ассоциативных связей.
 Субъектная интерпретация матрицы ассоциативных
связей и формирование классов типовых связей
(отношений).
 Группировка (выделение) отдельных типов отношений
(родовидовых, каузальных и др.).
 Интерпретация отдельных связей слов.
 Группировка семантических полей.
КОМПОНЕНТНЫЙ АНАЛИЗ
Метод компонентного анализа позволяет
установить связь между двумя понятиями на
основе анализа их дефиниций
Дефиници
я понятия
A
 Понятие A fAB Понятие B

Дефиниция
понятия B
Основные модификации метода:
• Количественная спецификация связи.
• Гипертекстовая ссылка.
КОЛИЧЕСТВЕННАЯ СПЕЦИФИКАЦИЯ СВЯЗИ
Два слова А и В считаются связанными силой связи
fаb = k,
если в дефинициях каждого из них есть k общих слов
— множество одинаковых слов,
используемых в дефинициях слов A и B;
}{x
AB
i
— количество одинаковых слов.x
AB
i
k = , где = k >1
Кластеры слов, связанных между собой силой связи
f = k , k = 1, 2, 3, ..., K.
ГИПЕРТЕКСТОВАЯ ССЫЛКА
Два слова А и В считаются связанными
если в дефиниции каждого из них есть общее слово,
fаb = k =1.
Использование гипертекстовых ссылок:
• лексикографические системы
(электронные словари и энциклопедии),
• электронные тексты,
• информационно-справочные системы и т.д.
Возможные применения для анализа знаний
• анализа системы определений, или словаря определений;
• оценка качества словарных статей (по числу связей с
другими словарными статьями, по длине цепочки);
• исследования эксцерпций в словарях определений;
• анализ словарей текстов;
• Исследование hеlр-систем.
ЧАСТОТНО-СЕМАНТИЧЕСКИЙ МЕТОД
В частотно-семантическом методе в качестве
критерия оценки «силы связи» используются две
характеристики дефиниций слов:
общность элементов и частота.
Идея метода:
«...представьте себе силы семантического притяжения в виде повсеместно
существующего, разлитого в языке поля, в которое помещены тела
— лексические единицы языка. Разные единицы в этом поле взаимодействуют
между собой также, как атомы, молекулы, макротела, планеты, и космические
объекты — и на одном уровне, т.е. с однородными единицами, и межуровнево.»
Исходные данные:
• идеографические словари.
• краткий толковый словарь русского языка для иностранцев.
• толковые словари С.И. Ожегова и Д.Н.Ушакова
Литература
Караулов Ю.Н.
Частотный словарь
семантических множителей
русского языка.
– М.: Наука, 1980.
Караулов Ю.Н., В.И.Молчанов,
В.А.Афанасьев, Н.В.Михалев.
Анализ метаязыка словаря с
использованием ЭВМ.
– М.: Наука, 1982. – 96 с.
ФОРМИРОВАНИЕ
СЕМАНТИЧЕСКИХ ПОЛЕЙ (1)
Aa
k
DWwd ij
∈ Dw ji
∈
a ij wd
A
k
DW
,
если , то , где:
— значение силы семантической связи между
словом wi и дескриптором dj ;
— множество допустимых значений силы
семантической связи дескрипторов и слов;
Dj = {wij} — множество слов дескриптора;
wi — слово, i = 1...|W|, W = {wi} — множество слов;
dj — дескриптор, j = 1...|D|, D = {dj} — множество дескрипторов.
Практическая задача:
распределить 9000 слов по 1600 дескрипторам
ФОРМИРОВАНИЕ
СЕМАНТИЧЕСКИХ ПОЛЕЙ (2)
ВОПРОСЫ РЕШЕНИЯ ПРАКТИЧЕСКОЙ ЗАДАЧИ
1. Установление способа сравнения слов
• Выбор способа получения (означивания) семантического
множителя (лемматизация, свертка, выделение корня,
выделение основы слова, выделение квазиосновы слова)
• Разработка методики получения семантического кода слова
2. Установление частотных параметров
семантических множителей.
3. Определение критерия семантической связи
слов и дескрипторов.
• Феноменологическая модель единичной связанности
• Феноменологическая модель связанности K
• Модель связанности с учетом частот множителей
УСТАНОВЛЕНИЕ СПОСОБА
СРАВНЕНИЯ СЛОВ
Дефиниция слова/дескриптора — ~10 словоформ,
всего в эксперименте — ~110000 словоформ.
семантический множитель — элементарная единица
содержательного плана.
Основные предположения :
а) семантическое пространство языка дискретно;
б) набор элементов пространства конечен и обозрим;
в) число комбинаций практически бесконечно;
г) семантическое пространство элементарно, т.е. состоит из
неразложимых элементов;
д) семантические элементы одноплановы, т.е относятся к содержанию
(являются единицами познания и мышления);
е) семантические элементы образуют универсальный набор, т.е. носят
общесубъектный характер и их число и набор одинаковы для
различных языков.
СПОСОБЫ ПОЛУЧЕНИЯ (ОЗНАЧИВАНИЯ)
СЕМАНТИЧЕСКОГО МНОЖИТЕЛЯ
Лемматизация — получение канонической формы слова.
Свертка — свертывание слова, т.е. удаление гласных, кроме
гласной первого слога.
Выделение корня — представление слова корневой морфемой.
Выделение основы слова — представление слова несколькими
морфемами, например, префиксом (приставкой) и корнем.
Выделение квазиосновы слова — произвольной начальной
части слова, на основании факта сдвига смысла слова (его
содержания) к его началу.
МЕТОДИКА ПОЛУЧЕНИЯ
СЕМАНТИЧЕСКОГО КОДА СЛОВА
ПРОЦЕДУРЫ МЕТОДИКИ
1. Внесение самого кодируемого слова в его код.
2. Исключение повторений семантического множителя.
3. Фильтрация (удаление):
«нулевых» семантических множителей
(например, явление, совокупность, система, и т.п.),
грамматических слов
(например, повести, поискать, придержать и т.п.),
предлогов, союзов и т.п.
4. Лексикализация устойчивых словосочетаний
(например, железная дорога — желдор).
5. Формирование квазиоснов слов.
РЕЗУЛЬТАТЫ РЕАЛИЗАЦИИ МЕТОДИКИ
}{s
jd
x
а) дескрипторы — dj = б) слова — wi = }{s
iw
x
УСТАНОВЛЕНИЕ ЧАСТОТНЫХ ПАРАМЕТРОВ
СЕМАНТИЧЕСКИХ МНОЖИТЕЛЕЙ
Семантическому множителю х ставится в соответствие
две частотные характеристики:
||
|,}{|
W
f wsw ixiW
x
 ∈
=
||
|,}{|
D
f
dsw jxiD
x
 ∈
=
— частота встречаемости семантического
множителя в дефинициях дескрипторов
— частота встречаемости семантического
множителя в дефинициях слов
Методика частотного анализа семантических множителей
а) вычисление частот;
б) ранжирование и упорядочение множителей
в дефинициях по возрастанию их ранга.
ОПРЕДЕЛЕНИЕ КРИТЕРИЯ СЕМАНТИЧЕСКОЙ
СВЯЗИ СЛОВ И ДЕСКРИПТОРОВ
Этапы разработки критерия семантической связи
1. Феноменологическая модель единичной связанности
есть хотя бы один общий семантический множитель в дефинициях
слов и дескрипторов:
| dj ∩ wi | = 1; 1}{}{ =ss
ij w
x
d
x

2. Феноменологическая модель связанности K
есть K общих семантических множителей в дефинициях
слов и дескрипторов:
| dj ∩ wi | = K; K}{}{ =ss
ij w
x
d
x

3. Модель связанности с учетом частот множителей
(селективный критерий Караулова).
;2≥K f
D
x .6≤
СЕЛЕКТИВНЫЙ КРИТЕРИЙ КАРАУЛОВА
( )
(( ) )( )61}{}{
2}{}{
≤∧==∨
≥==
fK
K
D
x
iw
x
jd
x
w
x
d
xwd
ss
ssa
ij
ij


Слово и дескриптор семантически связаны друг с другом, если
их дефиниции содержат более двух одинаковых семантических
множителя, или если их дефиниции содержат хотя бы один
общий семантический множитель и его частота на множестве
дескрипторов больше шести
Процедуры построения семантических полей
1. Построение поля по модели единичной связанности.
2. Сужение поля за счет учета числа совпадающих множителей.
3. Сужение поля за счет учета частоты семантических множителей.
Dw ji
∈
Если
, то
ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ
 Перечислите логико-статистические методы извлечения
знаний из текстов.
 Изложите методику дистрибутивно-статистического анализа
текста.
 Изложите частотно-семантический метод анализа текстов.
 Изложите метод компонентного анализа текста.

More Related Content

What's hot

Semantic feature machine translation system
Semantic feature machine translation systemSemantic feature machine translation system
Semantic feature machine translation systemDmitry Kan
 
SemanticAnalyzer
SemanticAnalyzerSemanticAnalyzer
SemanticAnalyzerNLPseminar
 
Introduction To Machine Translation 1
Introduction To Machine Translation 1Introduction To Machine Translation 1
Introduction To Machine Translation 1Dmitry Kan
 
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...Сергей Пономарев
 
Query expansion
Query expansionQuery expansion
Query expansionNLPseminar
 

What's hot (6)

Semantic feature machine translation system
Semantic feature machine translation systemSemantic feature machine translation system
Semantic feature machine translation system
 
Semantic evaluation on Dialog 2015
Semantic evaluation on Dialog 2015Semantic evaluation on Dialog 2015
Semantic evaluation on Dialog 2015
 
SemanticAnalyzer
SemanticAnalyzerSemanticAnalyzer
SemanticAnalyzer
 
Introduction To Machine Translation 1
Introduction To Machine Translation 1Introduction To Machine Translation 1
Introduction To Machine Translation 1
 
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
 
Query expansion
Query expansionQuery expansion
Query expansion
 

Viewers also liked

Viewers also liked (13)

Tech 15
Tech 15Tech 15
Tech 15
 
Jennifer higuera
Jennifer higueraJennifer higuera
Jennifer higuera
 
Experience Certificate SNC
Experience Certificate SNCExperience Certificate SNC
Experience Certificate SNC
 
Urus Pendirian PT (Perseroan Terbatas)
Urus Pendirian PT (Perseroan Terbatas)Urus Pendirian PT (Perseroan Terbatas)
Urus Pendirian PT (Perseroan Terbatas)
 
Gaudreau_Kyrke
Gaudreau_KyrkeGaudreau_Kyrke
Gaudreau_Kyrke
 
Twitter
TwitterTwitter
Twitter
 
15 07-13 mae-informe-diario
15 07-13 mae-informe-diario15 07-13 mae-informe-diario
15 07-13 mae-informe-diario
 
Info 2 (1)
Info 2 (1)Info 2 (1)
Info 2 (1)
 
Draft 2 script
Draft 2 scriptDraft 2 script
Draft 2 script
 
Cam 6 case
Cam 6 caseCam 6 case
Cam 6 case
 
TRAINING SOURCEBOOKweb2
TRAINING SOURCEBOOKweb2TRAINING SOURCEBOOKweb2
TRAINING SOURCEBOOKweb2
 
Tecnologia
TecnologiaTecnologia
Tecnologia
 
Total station corrections
Total station correctionsTotal station corrections
Total station corrections
 

Similar to лекция 5 тема 1

лекции 3 4 тема 1
лекции 3 4 тема 1лекции 3 4 тема 1
лекции 3 4 тема 1Noobie312
 
Ontology and Text Alalize
Ontology and Text AlalizeOntology and Text Alalize
Ontology and Text AlalizeOchirov Tsyren
 
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯITMO University
 
Максим Литвинов
Максим ЛитвиновМаксим Литвинов
Максим ЛитвиновLidia Pivovarova
 
лекция 7 тема 1
лекция 7 тема 1лекция 7 тема 1
лекция 7 тема 1Noobie312
 
TMPA-2013 Kompan and Bui: OOP Class Diagrams
TMPA-2013 Kompan and Bui: OOP Class DiagramsTMPA-2013 Kompan and Bui: OOP Class Diagrams
TMPA-2013 Kompan and Bui: OOP Class DiagramsIosif Itkin
 
«Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций. «Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций. Lidia Pivovarova
 
Компьютерная лексикография
Компьютерная лексикографияКомпьютерная лексикография
Компьютерная лексикографияArtem Lukanin
 
построение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстапостроение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстаYury Katkov
 
об альтернативах коллокациям
об альтернативах коллокациямоб альтернативах коллокациям
об альтернативах коллокациямLidia Pivovarova
 
лекция 6 тема 1
лекция 6 тема 1лекция 6 тема 1
лекция 6 тема 1Noobie312
 

Similar to лекция 5 тема 1 (20)

лекции 3 4 тема 1
лекции 3 4 тема 1лекции 3 4 тема 1
лекции 3 4 тема 1
 
Программные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстахПрограммные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстах
 
Ontology and Text Alalize
Ontology and Text AlalizeOntology and Text Alalize
Ontology and Text Alalize
 
презентация (Quasi synonyms, вмк 25.10.2011)
презентация (Quasi synonyms, вмк 25.10.2011)презентация (Quasi synonyms, вмк 25.10.2011)
презентация (Quasi synonyms, вмк 25.10.2011)
 
Masa
MasaMasa
Masa
 
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
 
Методы морфологического анализа текстов
Методы морфологического анализа текстовМетоды морфологического анализа текстов
Методы морфологического анализа текстов
 
Извлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстовИзвлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстов
 
Максим Литвинов
Максим ЛитвиновМаксим Литвинов
Максим Литвинов
 
лекция 7 тема 1
лекция 7 тема 1лекция 7 тема 1
лекция 7 тема 1
 
Автоматическая кластеризация близких по смыслу слов
Автоматическая кластеризация близких по смыслу словАвтоматическая кластеризация близких по смыслу слов
Автоматическая кластеризация близких по смыслу слов
 
TMPA-2013 Kompan and Bui: OOP Class Diagrams
TMPA-2013 Kompan and Bui: OOP Class DiagramsTMPA-2013 Kompan and Bui: OOP Class Diagrams
TMPA-2013 Kompan and Bui: OOP Class Diagrams
 
«Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций. «Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций.
 
Языковые корпуса
Языковые корпусаЯзыковые корпуса
Языковые корпуса
 
Компьютерная лексикография
Компьютерная лексикографияКомпьютерная лексикография
Компьютерная лексикография
 
построение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстапостроение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текста
 
об альтернативах коллокациям
об альтернативах коллокациямоб альтернативах коллокациям
об альтернативах коллокациям
 
Извлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстовИзвлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстов
 
лекция 6 тема 1
лекция 6 тема 1лекция 6 тема 1
лекция 6 тема 1
 
презентация1
презентация1презентация1
презентация1
 

More from Noobie312

презентация
презентацияпрезентация
презентацияNoobie312
 
введение
введениевведение
введениеNoobie312
 
лекция 7 тема 1
лекция 7 тема 1лекция 7 тема 1
лекция 7 тема 1Noobie312
 
лекция 6 тема 1
лекция 6 тема 1лекция 6 тема 1
лекция 6 тема 1Noobie312
 
лекция 5 тема 1
лекция 5 тема 1лекция 5 тема 1
лекция 5 тема 1Noobie312
 
лекции 3 4 тема 1
лекции 3 4 тема 1лекции 3 4 тема 1
лекции 3 4 тема 1Noobie312
 
введение
введениевведение
введениеNoobie312
 

More from Noobie312 (8)

презентация
презентацияпрезентация
презентация
 
введение
введениевведение
введение
 
1 l5eng
1 l5eng1 l5eng
1 l5eng
 
лекция 7 тема 1
лекция 7 тема 1лекция 7 тема 1
лекция 7 тема 1
 
лекция 6 тема 1
лекция 6 тема 1лекция 6 тема 1
лекция 6 тема 1
 
лекция 5 тема 1
лекция 5 тема 1лекция 5 тема 1
лекция 5 тема 1
 
лекции 3 4 тема 1
лекции 3 4 тема 1лекции 3 4 тема 1
лекции 3 4 тема 1
 
введение
введениевведение
введение
 

лекция 5 тема 1

  • 1. Тема 1. ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ ЗНАКОВЫЕ СИСТЕМЫ ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ 1.1. Модели и методы представления и организации знаний — лекции 1-2. 1.2. Количественная спецификация ЕЯ систем — лекции 3-4, 8. 1.3. Логико-статистические методы извлечения знаний — лекция 5-7. ФАКУЛЬТАТИВНЫЕ РАЗДЕЛЫ ТЕМЫ ДЛЯ САМОСТОЯТЕЛЬНОГО ИЗУЧЕНИЯ 1.4. Технология автоматизированного построения словаря- тезауруса. 1.5. Пример исследования ЕЯ ресурса.
  • 2. Лекция 5. ЛОГИКО-СТАТИСТИЧЕСКИЕ МЕТОДЫ ИЗВЛЕЧЕНИЯ ЗНАНИЙ  Дистрибутивно-статистический метод  Компонентный анализ  Частотно-семантический метод
  • 3. Литература Материал лекции представлен в книге: Ю.Н.Филиппович, А.В.Прохоров. Семантика информационных технологий: опыты словарно-тезаурусного описания. / Серия «Компьютерная лингвистика». Вступ. Статья А.И.Новикова. М.: МГУП, 2002. — книга в комплекте с CD ROM — С. 46–54.
  • 4. ДИСТРИБУТИВНО-СТАТИСТИЧЕСКИЙ МЕТОД Основная гипотеза: Значимые элементы языка (слова), встречающиеся вместе в пределах некоторого текстового интервала, семантически связаны между собой  количественные (частотные) характеристики одиночной и совместной встречаемости значимых элементов языка  формула коэффициента «силы связи»  семантическая классификация значимых элементов языка
  • 5. ЧАСТОТНЫЕ ХАРАКТЕРИСТИКИ КОНТЕКСТОВ Контекст Сi(T) — отрезок текста, последовательность (цепочка) синтагм. T = C1(T)+...+Cq(T), где Сi(T)∩ Cj(T)=∅, i,j (i≠j) ∈[1,q] Если синтагма значимый элемент языка (слово), то: NA, fA=NA/N — количество и частота контекстов, где встретилось только слово A; NB , fB=NB/N — количество и частота контекстов, где встретилось только слово B; NAB , fAB=NAB/N — количество и частота контекстов, в которых наблюдалась совместная встречаемость слов A и B; N — общее количество контекстов.
  • 6. ФОРМУЛЫ КОЭФФИЦИЕНТОВ «СИЛЫ СВЯЗИ» (1) K f N NAB AB AB = = K f f N N N NAB AB AB A B = + = − − f N N N N NAB AB A B = − − − K N N N NAB AB A B AB = + − — Т.Танимото (T.T.Tаnimоtо), Л.Дойл (L.B.Dоуlе). N ffN K BAAB AB ⋅− = — М.Мэйрон (M.E.Mаrоn), Дж.Кунс (J.Kuhns).
  • 7. ФОРМУЛЫ КОЭФФИЦИЕНТОВ «СИЛЫ СВЯЗИ» (2) K f N f fAB AB A B = ⋅ ⋅ — А.Я.Шайкевич, Дж.Солтон (G.Sаltоn), Р.Куртис (R.M.Curtiсе). K f N f f f f N f N f AB AB A B A B A B = ⋅ − ⋅ ⋅ ⋅ − ⋅ −( ) ( ) K N N N N N AB AB A B A B = − ⋅ ⋅ — С.Деннис (S.Dеnnis). K f N f f N N f f N f N fAB AB A B A B A B = ⋅ − ⋅ − ⋅ ⋅ ⋅ − ⋅ − log [( ) ] ( ) ( )10 2 2 — Х.Е. Стайлз (H.E.Stilеs)
  • 8. АНАЛИЗ ФОРМУЛ КОЭФФИЦИЕНТОВ «СИЛЫ СВЯЗИ» (1) Все формулы коэффициентов «силы связи» объединяет рассмотрение событий, связанных с появлением слов A и B как системы случайных явлений. Процедура метода позволяет установить факт: если A и B – независимые события, то P(AB)=P(A)P(B). Расчетное значение коэффициента «силы связи» требует интерпретации (объяснения) Величина контекста (количества соседних слов) позволяет наиболее вероятно устанавливать: а) 1–2 слова — контактные синтагматические связи словосочетаний; б) 5–10 слов — дистантные синтагматические связи и парадигматические отношения; в) 50–100 слов — тематические связи между словами.
  • 9. АНАЛИЗ ФОРМУЛ КОЭФФИЦИЕНТОВ «СИЛЫ СВЯЗИ» (2) Матрица связности языковых единиц (слов) или ассоциативная матрица слово ... аi ... слово частота fа ... bj fb ... fаb ... ... • формирование ядра тематически связанных текстов; • автоматизированное составление тезауруса; • информационный поиск и индексирование; • автоматизированное реферирование. Направления использования метода:
  • 10. МЕТОДИКА РАЗРАБОТКИ ТЕЗАУРУСА НА ОСНОВЕ ДИСТРИБУТИВНО-СТАТИСТИЧЕСКОГО МЕТОДА  Составление частотных словников и конкордансов.  Анализ совместной встречаемости слов (языковых единиц) и составление на его основе матрицы ассоциативных связей.  Субъектная интерпретация матрицы ассоциативных связей и формирование классов типовых связей (отношений).  Группировка (выделение) отдельных типов отношений (родовидовых, каузальных и др.).  Интерпретация отдельных связей слов.  Группировка семантических полей.
  • 11. КОМПОНЕНТНЫЙ АНАЛИЗ Метод компонентного анализа позволяет установить связь между двумя понятиями на основе анализа их дефиниций Дефиници я понятия A  Понятие A fAB Понятие B  Дефиниция понятия B Основные модификации метода: • Количественная спецификация связи. • Гипертекстовая ссылка.
  • 12. КОЛИЧЕСТВЕННАЯ СПЕЦИФИКАЦИЯ СВЯЗИ Два слова А и В считаются связанными силой связи fаb = k, если в дефинициях каждого из них есть k общих слов — множество одинаковых слов, используемых в дефинициях слов A и B; }{x AB i — количество одинаковых слов.x AB i k = , где = k >1 Кластеры слов, связанных между собой силой связи f = k , k = 1, 2, 3, ..., K.
  • 13. ГИПЕРТЕКСТОВАЯ ССЫЛКА Два слова А и В считаются связанными если в дефиниции каждого из них есть общее слово, fаb = k =1. Использование гипертекстовых ссылок: • лексикографические системы (электронные словари и энциклопедии), • электронные тексты, • информационно-справочные системы и т.д. Возможные применения для анализа знаний • анализа системы определений, или словаря определений; • оценка качества словарных статей (по числу связей с другими словарными статьями, по длине цепочки); • исследования эксцерпций в словарях определений; • анализ словарей текстов; • Исследование hеlр-систем.
  • 14. ЧАСТОТНО-СЕМАНТИЧЕСКИЙ МЕТОД В частотно-семантическом методе в качестве критерия оценки «силы связи» используются две характеристики дефиниций слов: общность элементов и частота. Идея метода: «...представьте себе силы семантического притяжения в виде повсеместно существующего, разлитого в языке поля, в которое помещены тела — лексические единицы языка. Разные единицы в этом поле взаимодействуют между собой также, как атомы, молекулы, макротела, планеты, и космические объекты — и на одном уровне, т.е. с однородными единицами, и межуровнево.» Исходные данные: • идеографические словари. • краткий толковый словарь русского языка для иностранцев. • толковые словари С.И. Ожегова и Д.Н.Ушакова
  • 15. Литература Караулов Ю.Н. Частотный словарь семантических множителей русского языка. – М.: Наука, 1980. Караулов Ю.Н., В.И.Молчанов, В.А.Афанасьев, Н.В.Михалев. Анализ метаязыка словаря с использованием ЭВМ. – М.: Наука, 1982. – 96 с.
  • 16. ФОРМИРОВАНИЕ СЕМАНТИЧЕСКИХ ПОЛЕЙ (1) Aa k DWwd ij ∈ Dw ji ∈ a ij wd A k DW , если , то , где: — значение силы семантической связи между словом wi и дескриптором dj ; — множество допустимых значений силы семантической связи дескрипторов и слов; Dj = {wij} — множество слов дескриптора; wi — слово, i = 1...|W|, W = {wi} — множество слов; dj — дескриптор, j = 1...|D|, D = {dj} — множество дескрипторов. Практическая задача: распределить 9000 слов по 1600 дескрипторам
  • 17. ФОРМИРОВАНИЕ СЕМАНТИЧЕСКИХ ПОЛЕЙ (2) ВОПРОСЫ РЕШЕНИЯ ПРАКТИЧЕСКОЙ ЗАДАЧИ 1. Установление способа сравнения слов • Выбор способа получения (означивания) семантического множителя (лемматизация, свертка, выделение корня, выделение основы слова, выделение квазиосновы слова) • Разработка методики получения семантического кода слова 2. Установление частотных параметров семантических множителей. 3. Определение критерия семантической связи слов и дескрипторов. • Феноменологическая модель единичной связанности • Феноменологическая модель связанности K • Модель связанности с учетом частот множителей
  • 18. УСТАНОВЛЕНИЕ СПОСОБА СРАВНЕНИЯ СЛОВ Дефиниция слова/дескриптора — ~10 словоформ, всего в эксперименте — ~110000 словоформ. семантический множитель — элементарная единица содержательного плана. Основные предположения : а) семантическое пространство языка дискретно; б) набор элементов пространства конечен и обозрим; в) число комбинаций практически бесконечно; г) семантическое пространство элементарно, т.е. состоит из неразложимых элементов; д) семантические элементы одноплановы, т.е относятся к содержанию (являются единицами познания и мышления); е) семантические элементы образуют универсальный набор, т.е. носят общесубъектный характер и их число и набор одинаковы для различных языков.
  • 19. СПОСОБЫ ПОЛУЧЕНИЯ (ОЗНАЧИВАНИЯ) СЕМАНТИЧЕСКОГО МНОЖИТЕЛЯ Лемматизация — получение канонической формы слова. Свертка — свертывание слова, т.е. удаление гласных, кроме гласной первого слога. Выделение корня — представление слова корневой морфемой. Выделение основы слова — представление слова несколькими морфемами, например, префиксом (приставкой) и корнем. Выделение квазиосновы слова — произвольной начальной части слова, на основании факта сдвига смысла слова (его содержания) к его началу.
  • 20. МЕТОДИКА ПОЛУЧЕНИЯ СЕМАНТИЧЕСКОГО КОДА СЛОВА ПРОЦЕДУРЫ МЕТОДИКИ 1. Внесение самого кодируемого слова в его код. 2. Исключение повторений семантического множителя. 3. Фильтрация (удаление): «нулевых» семантических множителей (например, явление, совокупность, система, и т.п.), грамматических слов (например, повести, поискать, придержать и т.п.), предлогов, союзов и т.п. 4. Лексикализация устойчивых словосочетаний (например, железная дорога — желдор). 5. Формирование квазиоснов слов. РЕЗУЛЬТАТЫ РЕАЛИЗАЦИИ МЕТОДИКИ }{s jd x а) дескрипторы — dj = б) слова — wi = }{s iw x
  • 21. УСТАНОВЛЕНИЕ ЧАСТОТНЫХ ПАРАМЕТРОВ СЕМАНТИЧЕСКИХ МНОЖИТЕЛЕЙ Семантическому множителю х ставится в соответствие две частотные характеристики: || |,}{| W f wsw ixiW x  ∈ = || |,}{| D f dsw jxiD x  ∈ = — частота встречаемости семантического множителя в дефинициях дескрипторов — частота встречаемости семантического множителя в дефинициях слов Методика частотного анализа семантических множителей а) вычисление частот; б) ранжирование и упорядочение множителей в дефинициях по возрастанию их ранга.
  • 22. ОПРЕДЕЛЕНИЕ КРИТЕРИЯ СЕМАНТИЧЕСКОЙ СВЯЗИ СЛОВ И ДЕСКРИПТОРОВ Этапы разработки критерия семантической связи 1. Феноменологическая модель единичной связанности есть хотя бы один общий семантический множитель в дефинициях слов и дескрипторов: | dj ∩ wi | = 1; 1}{}{ =ss ij w x d x  2. Феноменологическая модель связанности K есть K общих семантических множителей в дефинициях слов и дескрипторов: | dj ∩ wi | = K; K}{}{ =ss ij w x d x  3. Модель связанности с учетом частот множителей (селективный критерий Караулова). ;2≥K f D x .6≤
  • 23. СЕЛЕКТИВНЫЙ КРИТЕРИЙ КАРАУЛОВА ( ) (( ) )( )61}{}{ 2}{}{ ≤∧==∨ ≥== fK K D x iw x jd x w x d xwd ss ssa ij ij   Слово и дескриптор семантически связаны друг с другом, если их дефиниции содержат более двух одинаковых семантических множителя, или если их дефиниции содержат хотя бы один общий семантический множитель и его частота на множестве дескрипторов больше шести Процедуры построения семантических полей 1. Построение поля по модели единичной связанности. 2. Сужение поля за счет учета числа совпадающих множителей. 3. Сужение поля за счет учета частоты семантических множителей. Dw ji ∈ Если , то
  • 24. ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ  Перечислите логико-статистические методы извлечения знаний из текстов.  Изложите методику дистрибутивно-статистического анализа текста.  Изложите частотно-семантический метод анализа текстов.  Изложите метод компонентного анализа текста.

Editor's Notes

  1. Тема 1 «Естественно-языковые знаковые системы» включает шесть разделов, первые три из которых являются основными. 1.1. Модели и методы представления и организации знаний — лекции 1-2. 1.2. Спецификация ЕЯ систем — лекция 3. 1.3. Логико-статистические методы извлечения знаний — лекции 4–5. Материал этих разделов представлен в лекциях. Три других раздела предназначены для самостоятельного изучения, а его материал представлен в рекомендованной литературе. 2.4. Технология автоматизированного построения словаря-тезауруса. 2.5. Пример исследования ЕЯ ресурса.
  2. Третья лекция посвящена количественной спецификации естественно-языковых систем. В ней рассматриваются три метода: Дистрибутивно-статистический Компонентный анализ Частотно-семантический метод
  3. Материал лекции представлен в книге: Ю.Н.Филиппович, А.В.Прохоров. Семантика информационных технологий: опыты словарно- тезаурусного описания. / Серия «Компьютерная лингвистика». Вступ. Статья Анатолия Ивановича Новикова. М.: МГУП, 2002.— книга в комплекте с CD ROM — С. 46–54.
  4. Дистрибутивно-статический метод позволяет на основе частотной информации о ЕЯ единицах получать по некоторой заданной формуле количественную характеристику их связанности. Философия данного метода состоит в том, «что семантическую классификацию значимых элементов языка можно с большим основанием индуктивно извлечь из анализа текста, чем получить ее с некоторой точки зрения, внешней по отношению к структуре языка. Следует ожидать, что такая классификация даст более надежные ответы на проблемы синонимии и выражения смысла, чем существующие тезаурусы и списки синонимов, основанные главным образом на интуитивных ощущаемых сходствах без адекватной эмпирической проверки» [Москович,1971. С.115–116]. В основе всех вариантов метода лежат количественные оценки, которые характеризуют совместную встречаемость языковых единиц текста в контекстах определенной величины. Основная гипотеза метода состоит в том, что слова, встречающиеся вместе в пределах некоторого текстового интервала, как-то связаны между собой. Для оценки связанности вводится коэффициент «силы связи», который рассчитывается по некоторой формуле. Вне зависимости от вида формулы, в ней обычно используются характеристики совместной встречаемости пар слов и одиночной встречаемости каждого из слов.
  5. Применение дистрибутивно-статистического метода связано с использованием понятия контекста. Контекст это некоторый отрезок текста, выделенная последовательность синтагм, некоторая их цепочка. Любой текст можно представить как сумму (конкатенацию) непересекающихся контекстов: T = C1(T)+...+Cq(T), где Сi(T) Cj(T)=, i,j (ij) [1,q] В качестве синтагм могут рассматриваться элементы языка: значимые слова, словосочетания, в общем случае некоторые языковые единицы. Если в качестве значимых элементов языка рассматривать слова, то можно получить следующие частотные характеристики контекстов: NA, fA=NA/N — количество и частота контекстов, где встретилось только слово A; NB , fB=NB/N — количество и частота контекстов, где встретилось только слово B; NAB , fAB=NAB/N — количество и частота контекстов, в которых наблюдалась совместная встречаемость слов A и B; N — общее количество контекстов.
  6. Приведем несколько формул, по которым часто производится расчет «силы связи» в дистрибутивно-статистическом методе [Москович,1971]: — Т.Танимото (T.T.Tаnimоtо), Л.Дойл (L.B.Dоуlе). — М.Мэйрон (M.E.Mаrоn), Дж.Кунс (J.Kuhns).
  7. — А.Я.Шайкевич, Дж.Солтон (G.Sаltоn), Р.Куртис (R.M.Curtiсе). Количественная характеристика, используемая для вычисления «плотных групп» (сlumрs ... — в дословном переводе с англ. «плотные группы») [Nееdhаm, 1964; Dаlе, 1965]: — С.Деннис (S.Dеnnis). В качестве оценки степени близости слов использовал так называемый «ассоциативный фактор», который рассчитывается по формуле [Stуlеs, 1963]: — Х.Е. Стайлз (H.E.Stilеs)
  8. Все вышеприведенные формулы объединяет рассмотрение событий, связанных с появлением слов A и B как системы случайных явлений. А в качестве критерия, определяющего меру связи, используется следующий факт: если A и B – независимые события, то P(AB)=P(A)P(B). Однако такой подход позволяет определить только степень независимости событий, а не величину динамической (функциональной) связи. Все формулы, какими бы расчетами они не были получены, требуют интерпретации. Та ассоциация, которую они извлекают из текста, требует дальнейшего анализа. Важным является выяснение, насколько полученные формально значения связей соответствуют ожидаемым, или возможным объяснениям. Величина контекста, в рамках которого осуществляются подсчеты коэффициентов «силы связи», как показывают результаты исследований, позволяет наиболее вероятно устанавливать: а) при малых размерах контекста, ограниченного одним или двумя соседними словами — контактные синтагматические связи словосочетаний; б) при размере 5–10 слов — дистантные синтагматические связи и парадигматические отношения; в) дальнейшее увеличение ширины контекста до 50–100 слов (размер предложения, сверхфразового единства, абзаца) — тематические связи между словами. Тематические связи могут оказаться доминирующими, если принять размер контекста величиной с сам текст [Москович, 1971. С.120].
  9. В результате вычислений на всем массиве текста формируется матрица связности слов (языковых единиц) или ассоциативная матрица, внешний вид которой представлен на рисунке 4.5: слово...аi...слово частота fа...bj fb...fаb...... Матрица ассоциативных связей Дистрибутивно-статистический метод может использоваться как процедура формирования ядра тематически связанных между собой текстов. Кроме этого данный метод может использоваться и как технология автоматического составления тезауруса, и как следствие этого, в качестве формально-языковой системы для информационного поиска и индексирования.
  10. Обобщенная методика разработки тезауруса на основе дистрибутивно-статисти­ческого метода выглядит следующим образом: Составление частотных словников и конкордансов. Анализ совместной встречаемости слов (языковых единиц) и составление на его основе матрицы ассоциативных связей. Субъектная интерпретация матрицы ассоциативных связей и формирование классов типовых связей (отношений). Группировка (выделение) отдельных типов отношений (родовидовых, каузальных и др.). Интерпретация отдельных связей слов. Группировка семантических полей.
  11. Метод компонентного анализа позволяет установить связь между двумя понятиями на основе анализа их дефиниций. Для реализации метода необходимым является наличие словаря определений. Возможны несколько основных модификаций данного метода, которые условно назовем: Количественная спецификация связи. Гипертекстовая ссылка. Рассмотрим эти варианты.
  12. Количественная спецификация связи. В этом варианте два слова А и В считаются связанными силой связи fаb = k, если в дефиниции каждого из них есть k общих слов — {}, где = k >1. Данный вариант компонентного метода позволяет построить множество тезаурусов различной степени связности. В общей системе потенциально связанных между собой слов можно выделить подмножества слов, связанных между собой силой связи f = k , k = 1, 2, 3, ..., K. Данные подмножества можно рассматривать как некоторые кластеры слов, связанных между собой силой связи f = k .
  13. Гипертекстовая ссылка. В данном варианте два слова А и В считаются связанными если в дефиниции каждого из них есть хотя бы одно общее слово — хаb., т.е. k = 1. Кроме того, что это слово связывает слова А и В, оно еще является «отсылочным», по нему возможен «переход» от слова А к слову В и обратно. Следует заметить, что этот вариант достаточно активно используется в лексикографических системах (электронных словарях и энциклопедиях), текстовых редакторах, информационно-справочных системах и т.д. Несмотря на практическую распространенность работ посвященных количественному анализу использования данного метода и применение его для анализа знаний, представленных в естественно-языковой и лексикографической формах сравнительно мало. Данный метод может использоваться для анализа системы определений, или словаря определений. Можно оценить качество словарных статей по числу их связей с другими словарными статьями, или по длине цепочки, которая образуется при попытке понять то или иное слово. Потенциально цепочка не может быть неограниченной, кроме этого ее длина прерывается субъектом в тех случаях, когда он достигает понимания определения. Возможны исследования и эксцерпций в словарях определений, а также словарей текстов, которыми фактически являются hеlр-системы.
  14. Метод частотно-семантического анализа (ЧСА) является развитием метода компонентного анализа. Существо метода состоит в использовании в качестве критерия оценки семантической «силы связи» между словами одновременно двух характеристик дефиниций этих слов: общности дефинирующих элементов и частоты их встречаемости. Исходными данными для ЧСА являлись: некоторые идеографические словари — они использовались для составления списка дескрипторов, краткий толковый словарь русского языка для иностранцев — для составления списка слов, толковые словари С.И. Ожегова и Д.Н.Ушакова — для установки дефиниций слов и дескрипторов. В основе метода ЧСА лежит идея о целостности (интегрированности) ПОРМ и отражении этого в ООРМ и в частности в языке. Образное представление этой идеи выражается следующей цитатой: «...представьте себе силы семантического притяжения в виде повсеместно существующего, разлитого в языке поля, в которое помещены тела — лексические единицы языка. Разные единицы в этом поле взаимодействуют между собой также, как атомы, молекулы, макротела, планеты, и космические объекты — и на одном уровне, т.е. с однородными единицами, и межуровнево.» [Караулов,1981. С.76].
  15. Метод предложен Ю.Н.Карауловым и на его основе построен первый компьютерный семантический словарь русского языка [РСС,1982]. Словарь содержит 1600 понятий и 9000 слов, создан в 1980 году и издан в 1982. Еще в двух книгах представлены разработки метода: Караулов Ю.Н. Частотный словарь семантических множителей русского языка. – М.: Наука, 1980. Караулов Ю.Н., В.И.Молчанов, В.А.Афанасьев, Н.В.Михалев. Анализ метаязыка словаря с использованием ЭВМ. – М.: Наука, 1982. – 96 с.
  16. В рамках поставленного эксперимента по отработке данных методом ЧСА практическая задача состояла в том, чтобы распределить 9000 слов по 1600 дескрипторам, т.е. сформировать так называемые семантические поля (ареалы). Формально отнесение слова к дескриптору (включение его в семантическое поле дескриптора) можно представить следующим образом: если , то , где — значение силы семантической связи между словом wi и дескриптором dj ; — множество допустимых значений силы семантической связи дескрипторов и слов; Dj = {wij} — множество слов дескриптора; wi — слово, i = 1...|W|, W = {wi} — множество слов; dj — дескриптор, j = 1...|D|, D = {dj} — множество дескрипторов.
  17. ВОПРОСЫ РЕШЕНИЯ ПРАКТИЧЕСКОЙ ЗАДАЧИ 1. Установление способа сравнения слов Выбор способа получения (означивания) семантического множителя (лемматизация, свертка, выделение корня, выделение основы слова, выделение квазиосновы слова) Разработка методики получения семантического кода слова 2. Установление частотных параметров семантических множителей. 3. Определение критерия семантической связи слов и дескрипторов. Феноменологическая модель единичной связанности Феноменологическая модель связанности K Модель связанности с учетом частот множителей
  18. Первый вопрос практического решения задачи построения семантических полей состоит в установлении способа сравнения слов. В среднем каждое слово и дескриптор имеют дефиницию, состоящую из 10 слов, т.е. в случае эксперимента это составляет ~110000 словоформ. Для сравнимости слов было введено понятие семантического множителя — элементарной единицы содержательного плана. Это понятие объединяет ряд других ранее вводимых понятий: семантические компоненты, дифференциальные семантические признаки, семы, семантические маркеры, семантические классификаторы, лексические функции, элементарные значения и т.д. Основные предположения при этом введении состоят в следующем: а) семантическое пространство языка дискретно; б) набор элементов пространства конечен и обозрим; в) число комбинаций практически бесконечно; г) семантическое пространство элементарно, т.е. состоит из неразложимых элементов; д) семантические элементы одноплановы, т.е относятся к содержанию (являются единицами познания и мышления); е) Семантические элементы образуют универсальный набор, т.е. носят общесубъектный характер и их число и набор одинаковы для различных языков.
  19. Способы получения (означивания) семантического множителя. Семантические множители, которые используются для дефинирования других слов, являются полнозначными словами и представлены в различных словарных формах. Попытка формального сравнения словарных дефиниций вызывает явные сложности. Необходима предварительная процедура приведения форм семантического множителя к одной, или кодирования их неким единым знаком. Возможны несколько вариантов получения приведенной формы семантического множителя [Караулов, 1980]: Лемматизация — получение канонической формы слова, т.е. сведение словоизменительных форм слова к исходной (для существительных — именительный падеж, единственное число; для прилагательных — именительный падеж, единственное число, мужской род; для глаголов — инфинитив и т.д.).Фактически при лемматизации все слова разбиваются на грамматические классы. Свертка — свертывание слова, т.е. удаление гласных, кроме гласной первого слога, на основании статистической закономерности русского языка — наибольшей информативности согласных. Выделение корня — представление слова корневой морфемой. Выделение основы слова — представление слова несколькими морфемами, например, префиксом (приставкой) и корнем. Выделение квазиосновы слова — произвольной начальной части слова, на основании факта сдвига смысла слова (его содержания) к его началу.
  20. Методика получения семантического кода слова состоит в следующей последовательности процедур: Внесение самого кодируемого слова в его код. Исключение повторений семантического множителя. Фильтрация (удаление «нулевых» семантических множителей (например, явление, совокупность, система, и т.п.), грамматических слов (например, повести, поискать, придержать и т.п.), предлогов, союзов и т.п.) Дополнительные процедуры, например, лексикализация устойчивых словосочетаний: железная дорога — желдор. Формирование квазиоснов слов. После реализации методики получаются дескрипторные и словные множества семантических множителей, сопоставленные соответствующим дескрипторам и словам: а) дескрипторные множества — dj = {}; б) словные множества — wi = {}.
  21. Второй вопрос практического решения задачи построения семантических полей состоит в установлении частотных параметров семантических множителей. Каждому множителю х ставится в соответствие две частотные характеристики и — частоты встречаемости в дефинициях дескрипторов и слов соответственно. , , где в числителе формул количество слов (дескрипторов), в которых встретился множитель х, а в знаменателе общее количество слов (дескрипторов). Методика частотного анализа семантических множителей состоит из двух пунктов: а) вычисление частот и ; б) ранжирование и упорядочение множителей в дефинициях по возрастанию их ранга.
  22. Третий вопрос практического решения задачи построения семантических полей состоит в определении критерия семантической связи слов и дескрипторов. Разработка критерия связанности состоит из трех этапов: на первом этапе разрабатывается феноменологическая модель единичной связанности, на втором — связанности степени , на третьем — степени связанности с учетом частотных свойств семантических множителей. Феноменологическая модель единичной связанности состоит в том, что если есть хотя бы один общий семантический множитель в дефинициях слов и дескрипторов, то они считаются связанными: | dj  wi | = 1; |{} {}| = 1. Феноменологическая модель связанности K состоит в том, что если есть K общих семантических множителей в дефинициях слов и дескрипторов, то они считаются связанными: | dj  wi | = ; |{} {}| = . Модель связанности с учетом частот множителей (селективный критерий Караулова) для конкретного случая исследования была определена для степени связанности и пороговой частоты семантического множителя на множестве дескрипторов .
  23. Таким образом получаем, что слово и дескриптор семантически связаны друг с другом, если их дефиниции содержат более двух одинаковых семантических множителя, или если их дефиниции содержат хотя бы один общий семантический множитель и его частота на множестве дескрипторов больше шести, т.е.: если = (|{}{}| = )  ((|{}{}| = 1)  ()), то . Метод построения семантических полей состоит из следующих процедур: построение поля по феноменологической модели единичной связанности; сужение поля за счет учета числа совпадающих множителей; сужение поля за счет учета частоты семантических множителей. Данный метод является весьма продуктивным, и на его основе могут быть построены более сложные методики. Его развитие состоит в поиске и применении более сложного селективного критерия, а также их некоторого множества. Одним из направлений развития метода может быть нахождение более эффективных процедур получения семантического кода слова [Прохоров, 1999], при этом следует различать эффективность с точки зрения быстрого получения кода слова (квазиосновы) и эффективность последующего построения семантических полей.
  24. Для самоконтроля усвоения материала лекции попытайтесь ответить на следующие вопросы: Опишите модель текста «ранг-частота». Сформулируйте закон частот слов Ципфа. «Выведите» закон Ципфа. Напишите формулу Мандельброта для закона частот слов. Определите значения коэффициентов в формуле Мандельброта. Получите (выведите) статистическое распределение «ранг-частота». Перечислите методы построения ядра ЕЯ описания ПОРМ. Перечислите этапы построения ядра ЕЯ описания ПОРМ на основе эталонного текста. Опишите линейную схему построения ядра ЕЯ описания ПОРМ. Опишите полносвязную схему построения ядра ЕЯ описания ПОРМ.