Фвтоматическая кластеризация значений многозначных слов
1. Автоматическая кластеризация
значений
многозначных слов
Витвицкий С.В. (группа 525)
научный руководитель
к.ф.-м.н., в.н.с. НИВЦ МГУ
Лукашевич Н.В.
2. Постановка задачи - 1
Задача описания значений многозначных слов
Важна в приложениях автоматической обработки текстов
Использование словарей иногда проблематично
Существенный фактор проявления многозначности
Синтаксическое
Поведение
Слов
Направить Посадить
Нацелить Растить
3. Постановка задачи - 2
Цели и задачи дипломной работы
Произвести синтаксическую обработку большой
коллекции русскоязычных новостных текстов
На основе анализа синтаксического поведения слов
получить кластеры слов, сходных по значению
Описать различные значения слов, которые они
проявляют в текстовой коллекции, через сопоставление
каждому слову набора кластеров сходных по значению
слов, каждый из которых характеризует некоторое
значение этого слова
Предложить способ оценки качества полученного
описания значений для многозначных слов и получить
оценку качества
4. Синтаксический анализатор - 1
Требования к работе анализатора
Высокая точность – низкий процент ошибочно извлеченных отношений
Высокая скорость работы и возможность массовой обработки текстов
При этом максимально возможная полнота извлечения отношений
Типы синтаксических отношений
Важны типы отношений, ПРИЛ_СУЩ Проброс ПОДЛ
которые в предложении: (прекрасная погода) через формы
Называют участников БЫТЬ, СТАТЬ, МОЧЬ
действия и взаимосвязи ГЕНИТ_ИГ
между ними, (защита диплома) «ВВП будет расти»
наиболее точно
выделяются в тексте ПРЯМ_ДОП ПОДЛ (ВВП ← будет)
представлены в (написать диплом)
подавляющем
большинстве ПОДЛ
предложений
(погода мешает) ПОДЛ (ВВП ← расти)
5. Синтаксический анализатор - 2
Сравнение с анализатором Диалинг ® (АОТ)
Полнота (от найденных АОТ отношений) по типам: ПРИЛ_СУЩ – 89%,
ГЕНИТ_ИГ – 78%, ПОДЛ – 56%, ПРЯМ_ДОП – 88%, для всех типов – 79%
Скорость работы выше на два порядка
Обработанная текстовая коллекция
2 Гб, 2.6 млн. новостных документов, 172 млн. слов
Извлечено отношений (из них уникальных) по типам, млн.:
ПРИЛ_СУЩ – 32(1.5), ГЕНИТ_ИГ – 23(1.3), ПОДЛ – 13(1.3),
ПРЯМ_ДОП – 12(1.8). Проброс – для 12% отношений ПОДЛ.
Ручная оценка точности по типам: ПРИЛ_СУЩ – 99%, ГЕНИТ_ИГ –
99%, ПРЯМ_ДОП – 89%, ПОДЛ – 89%
Пример извлечения синтаксических отношений
ПОДЛ (корабли ← предотвратили),
ГЕНИТ_ИГ (корабли → коалиции)
ПРЯМ_ДОП (предотвратили → захват)
двух судов в океане
ПРИЛ_СУЩ (боевые ← корабли)
6. Описание значений слов - 1
Для каждого слова строится
Вектор синтаксических
контекстов слова как отражение
его синтаксического поведения
Для унификации берутся
нормальные формы слов
Введение меры сходства векторов
синтаксических контекстов
позволяет построить тезаурус:
7. Описание значений слов - 2
Алгоритм кластеризации комитетами
Построение набора комитетов – кластеров слов, каждый из
которых является описанием некоторого значения
Комитет представляется центроидом – вектором синтаксических
контекстов, который описывает наиболее типичное поведение
слов данного значения
Комитет, представляющий
значение города:
[ БАРНАУЛ│ КРАСНОДАР│
ВОРОНЕЖ │ МАХАЧКАЛА │ …]
Значения многозначного слова
описываются набором комитетов,
сопоставленных ему специальным
сравнением вектора синтаксических
контекстов с центроидами комитетов
9. Оценка качества
Критерии оценки качества описания значений слов
Точность – доля корректно назначенных слову значений от всех назначенных
ему значений
Полнота – доля корректно описанных значений слова от всех значений, которое
оно принимает в текстовой коллекции
Проблемы сравнения с эталонными словарями
Словари содержат устаревшие значения, не употребляющиеся в новостной
тематике
Словари не содержат ряд современных значений слов
Неизвестно, сколько значений слово принимает в большой текстовой коллекции
Учѐт повторных корректных значений – считать за корректно назначенное
значение или нет?
Оттенки значения (сеть Интернет и компьютерная сеть) – повтор?
Оценка качества для 100 самых частотных многозначных
слов по толковому словарю
Точность без учѐта (с учѐтом) повторных значений – 93% (67%)
Полнота – 72%
10. Схема программной системы
Инструментарий - C++, Embarcadero ® RAD Studio 2010
Значения Текстовая Синтаксический анализатор
слов коллекция
Сегментация Морфология
Кластеризатор
Соотнесение Анализ
значений
Коллекция
комитетов Коллекция
контекстов
Построение
комитетов
Тезаурус Хранилище
Построение
тезауруса Редактор
11. Заключение
Основные результаты дипломной работы
Разработан специальный синтаксический анализатор
С его помощью обработана большая текстовая коллекция
русскоязычных новостных документов (172 млн. слов)
Построена коллекция векторов синтаксических контекстов
слов
Построена коллекция комитетов
Проведено автоматическое описание значений слов
Проведена оценка качества описания значений для
многозначных слов
Реализована соответствующая программная система