SlideShare a Scribd company logo
1 of 11
Download to read offline
Автоматическая кластеризация
         значений
     многозначных слов

      Витвицкий С.В. (группа 525)


                         научный руководитель
                    к.ф.-м.н., в.н.с. НИВЦ МГУ
                                Лукашевич Н.В.
Постановка задачи - 1
  Задача описания значений многозначных слов
     Важна в приложениях автоматической обработки текстов
     Использование словарей иногда проблематично

Существенный фактор проявления многозначности
                    Синтаксическое
                      Поведение
                        Слов


 Направить                             Посадить
 Нацелить                              Растить
Постановка задачи - 2
        Цели и задачи дипломной работы
   Произвести синтаксическую обработку большой
    коллекции русскоязычных новостных текстов
   На основе анализа синтаксического поведения слов
    получить кластеры слов, сходных по значению
   Описать различные значения слов, которые они
    проявляют в текстовой коллекции, через сопоставление
    каждому слову набора кластеров сходных по значению
    слов, каждый из которых характеризует некоторое
    значение этого слова
   Предложить способ оценки качества полученного
    описания значений для многозначных слов и получить
    оценку качества
Синтаксический анализатор - 1
           Требования к работе анализатора
     Высокая точность – низкий процент ошибочно извлеченных отношений
     Высокая скорость работы и возможность массовой обработки текстов
     При этом максимально возможная полнота извлечения отношений

           Типы синтаксических отношений
Важны типы отношений,         ПРИЛ_СУЩ              Проброс ПОДЛ
которые в предложении:       (прекрасная погода)      через формы
 Называют участников                              БЫТЬ, СТАТЬ, МОЧЬ
    действия и взаимосвязи    ГЕНИТ_ИГ
    между ними,              (защита диплома)       «ВВП будет расти»
   наиболее точно
    выделяются в тексте       ПРЯМ_ДОП            ПОДЛ (ВВП ← будет)
 представлены в             (написать диплом)
    подавляющем
    большинстве               ПОДЛ
    предложений
                             (погода мешает)       ПОДЛ (ВВП ← расти)
Синтаксический анализатор - 2
     Сравнение с анализатором Диалинг ® (АОТ)
   Полнота (от найденных АОТ отношений) по типам: ПРИЛ_СУЩ – 89%,
    ГЕНИТ_ИГ – 78%, ПОДЛ – 56%, ПРЯМ_ДОП – 88%, для всех типов – 79%
   Скорость работы выше на два порядка

           Обработанная текстовая коллекция
   2 Гб, 2.6 млн. новостных документов, 172 млн. слов
   Извлечено отношений (из них уникальных) по типам, млн.:
    ПРИЛ_СУЩ – 32(1.5), ГЕНИТ_ИГ – 23(1.3), ПОДЛ – 13(1.3),
    ПРЯМ_ДОП – 12(1.8). Проброс – для 12% отношений ПОДЛ.
   Ручная оценка точности по типам: ПРИЛ_СУЩ – 99%, ГЕНИТ_ИГ –
    99%, ПРЯМ_ДОП – 89%, ПОДЛ – 89%

    Пример извлечения синтаксических отношений
                                 ПОДЛ (корабли ← предотвратили),
                                  ГЕНИТ_ИГ (корабли → коалиции)
                                ПРЯМ_ДОП (предотвратили → захват)
        двух судов в океане
                                   ПРИЛ_СУЩ (боевые ← корабли)
Описание значений слов - 1
    Для каждого слова строится
                 Вектор синтаксических
                  контекстов слова как отражение
                  его синтаксического поведения
                 Для унификации берутся
                  нормальные формы слов
                 Введение меры сходства векторов
                  синтаксических контекстов
                  позволяет построить тезаурус:
Описание значений слов - 2
     Алгоритм кластеризации комитетами
   Построение набора комитетов – кластеров слов, каждый из
    которых является описанием некоторого значения
   Комитет представляется центроидом – вектором синтаксических
    контекстов, который описывает наиболее типичное поведение
    слов данного значения
       Комитет, представляющий
           значение города:
     [ БАРНАУЛ│ КРАСНОДАР│
    ВОРОНЕЖ │ МАХАЧКАЛА │ …]

   Значения многозначного слова
    описываются набором комитетов,
    сопоставленных ему специальным
    сравнением вектора синтаксических
    контекстов с центроидами комитетов
Пример
                        НАРОД
   0,76 [ ОБЩЕСТВЕННОСТЬ │ СООБЩЕСТВО │ ЭЛЕКТОРАТ ]
   0,65 [ АЗЕРБАЙДЖАНЕЦ │ АРМЯНИН │ БЕЛОРУС ]
   0,34 [ КРЕСТЬЯНИН │ ФЕРМЕР │ СЕЛЬХОЗПРОИЗВОДИТЕЛЬ ]

                         СЕТЬ
   0,70 [ ВОДОПРОВОД │ АВТОМАГИСТРАЛЬ │ НЕФТЕПРОВОД ]
   0,55 [ СТРУКТУРА │ КЛАСТЕР │ ИНФРАСТРУКТУРА ]
   0,46 [ ИНТЕРНЕТ │ ПРОВАЙДЕР │ ДОСТУП ]
   0,41 [ ЗАВЕДЕНИЕ │ АПТЕКА │ КИНОТЕАТР ]
   0,31 [ НОМЕНКЛАТУРА │ ПЕРЕЧЕНЬ │ ГЕОГРАФИЯ ]
   0,29 [ КОМПЬЮТЕР │ СЕРВЕР │ СУПЕРКОМПЬЮТЕР ]

                       МУЗЫКА
   0,80 [ ДЖАЗ │ РОМАНС │ СИМФОНИЯ ]
   0,48 [ КОНТЕНТ │ ФАЙЛ │ ТРЕК ]
   0,38 [ ТВОРЧЕСТВО │ УЧЕБА │ УВЛЕЧЕНИЕ ]
Оценка качества
     Критерии оценки качества описания значений слов
     Точность – доля корректно назначенных слову значений от всех назначенных
      ему значений
     Полнота – доля корректно описанных значений слова от всех значений, которое
      оно принимает в текстовой коллекции

       Проблемы сравнения с эталонными словарями
     Словари содержат устаревшие значения, не употребляющиеся в новостной
      тематике
     Словари не содержат ряд современных значений слов
     Неизвестно, сколько значений слово принимает в большой текстовой коллекции
     Учѐт повторных корректных значений – считать за корректно назначенное
      значение или нет?
     Оттенки значения (сеть Интернет и компьютерная сеть) – повтор?

Оценка качества для 100 самых частотных многозначных
              слов по толковому словарю
     Точность без учѐта (с учѐтом) повторных значений – 93% (67%)
     Полнота – 72%
Схема программной системы
 Инструментарий - C++, Embarcadero ® RAD Studio 2010
   Значения         Текстовая     Синтаксический анализатор
     слов           коллекция
                                Сегментация   Морфология
Кластеризатор
                Соотнесение              Анализ
                 значений
   Коллекция
   комитетов                                      Коллекция
                                                  контекстов
                Построение
                комитетов
   Тезаурус                      Хранилище

                Построение
                 тезауруса                        Редактор
Заключение
       Основные результаты дипломной работы

   Разработан специальный синтаксический анализатор
   С его помощью обработана большая текстовая коллекция
    русскоязычных новостных документов (172 млн. слов)
   Построена коллекция векторов синтаксических контекстов
    слов
   Построена коллекция комитетов
   Проведено автоматическое описание значений слов
   Проведена оценка качества описания значений для
    многозначных слов
   Реализована соответствующая программная система

More Related Content

Viewers also liked

Viewers also liked (20)

Автоматическое обновление аннотации новостного кластера
Автоматическое обновление аннотации новостного кластераАвтоматическое обновление аннотации новостного кластера
Автоматическое обновление аннотации новостного кластера
 
Методы морфологического анализа текстов
Методы морфологического анализа текстовМетоды морфологического анализа текстов
Методы морфологического анализа текстов
 
Определение новизны информации в новостном кластере
Определение новизны информации в новостном кластереОпределение новизны информации в новостном кластере
Определение новизны информации в новостном кластере
 
Основные научные направления ИИ
Основные научные направления ИИОсновные научные направления ИИ
Основные научные направления ИИ
 
Автоматическое составление обзорного реферата на основе кластеризации предлож...
Автоматическое составление обзорного реферата на основе кластеризации предлож...Автоматическое составление обзорного реферата на основе кластеризации предлож...
Автоматическое составление обзорного реферата на основе кластеризации предлож...
 
Автоматическое разрешение референции в новостных текстах
Автоматическое разрешение референции в новостных текстахАвтоматическое разрешение референции в новостных текстах
Автоматическое разрешение референции в новостных текстах
 
Синтез функциональных программ при помощи метода дедуктивных таблиц
Синтез функциональных программ при помощи метода дедуктивных таблицСинтез функциональных программ при помощи метода дедуктивных таблиц
Синтез функциональных программ при помощи метода дедуктивных таблиц
 
Автоматическое формирование базы знаний для задачи анализа мнений
Автоматическое формирование базы знаний для задачи анализа мненийАвтоматическое формирование базы знаний для задачи анализа мнений
Автоматическое формирование базы знаний для задачи анализа мнений
 
Автоматическое обновление аннотации новостного кластера
Автоматическое обновление аннотации новостного кластераАвтоматическое обновление аннотации новостного кластера
Автоматическое обновление аннотации новостного кластера
 
Экспертная система по конструированию и моделированию швейных изделий
Экспертная система по конструированию и моделированию швейных изделийЭкспертная система по конструированию и моделированию швейных изделий
Экспертная система по конструированию и моделированию швейных изделий
 
Моделирование поведения взаимодействующих агентов в среде с ограничениями
Моделирование поведения взаимодействующих агентов в  среде с ограничениямиМоделирование поведения взаимодействующих агентов в  среде с ограничениями
Моделирование поведения взаимодействующих агентов в среде с ограничениями
 
Разработка системы вопросно-ответного поиска
Разработка системы вопросно-ответного поискаРазработка системы вопросно-ответного поиска
Разработка системы вопросно-ответного поиска
 
Вопросно-ответный поиск
Вопросно-ответный поискВопросно-ответный поиск
Вопросно-ответный поиск
 
Генерация программы поведения игрового персонажа по естественно-языковой спец...
Генерация программы поведения игрового персонажа по естественно-языковой спец...Генерация программы поведения игрового персонажа по естественно-языковой спец...
Генерация программы поведения игрового персонажа по естественно-языковой спец...
 
Анализ игры "Судоку"
Анализ игры "Судоку"Анализ игры "Судоку"
Анализ игры "Судоку"
 
Генерация программы поведения игрового персонажа по естественно-языковой спец...
Генерация программы поведения игрового персонажа по естественно-языковой спец...Генерация программы поведения игрового персонажа по естественно-языковой спец...
Генерация программы поведения игрового персонажа по естественно-языковой спец...
 
Системы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератовСистемы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератов
 
Автоматическое порождение тематических отчетов из потоков новостей
Автоматическое порождение тематических отчетов из потоков новостейАвтоматическое порождение тематических отчетов из потоков новостей
Автоматическое порождение тематических отчетов из потоков новостей
 
Автоматический анализ текста для аннотирования изображения
Автоматический анализ текста для аннотирования изображенияАвтоматический анализ текста для аннотирования изображения
Автоматический анализ текста для аннотирования изображения
 
Применение муравьиных алгоритмов
Применение муравьиных алгоритмовПрименение муравьиных алгоритмов
Применение муравьиных алгоритмов
 

Similar to Фвтоматическая кластеризация значений многозначных слов

Query expansion
Query expansionQuery expansion
Query expansionNLPseminar
 
гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4rit2011
 
Презентация PROMT для РИТ
Презентация PROMT для РИТПрезентация PROMT для РИТ
Презентация PROMT для РИТQPsoft
 
Сбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииСбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииIlia Karpov
 
лекции 3 4 тема 1
лекции 3 4 тема 1лекции 3 4 тема 1
лекции 3 4 тема 1Noobie312
 
Ontology and Text Alalize
Ontology and Text AlalizeOntology and Text Alalize
Ontology and Text AlalizeOchirov Tsyren
 
ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...
ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...
ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...ITMO University
 

Similar to Фвтоматическая кластеризация значений многозначных слов (20)

Ruwikt
RuwiktRuwikt
Ruwikt
 
Автоматическая кластеризация близких по смыслу слов
Автоматическая кластеризация близких по смыслу словАвтоматическая кластеризация близких по смыслу слов
Автоматическая кластеризация близких по смыслу слов
 
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
Автоматическое извлечение синтаксических контекстов из текстовой коллекцииАвтоматическое извлечение синтаксических контекстов из текстовой коллекции
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
 
Проблемы автоматической рубрикации текстов
Проблемы автоматической рубрикации текстовПроблемы автоматической рубрикации текстов
Проблемы автоматической рубрикации текстов
 
Query expansion
Query expansionQuery expansion
Query expansion
 
гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4
 
Презентация PROMT для РИТ
Презентация PROMT для РИТПрезентация PROMT для РИТ
Презентация PROMT для РИТ
 
Составные части объектного подхода
Составные части объектного подходаСоставные части объектного подхода
Составные части объектного подхода
 
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
 
Сбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииСбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информации
 
лекции 3 4 тема 1
лекции 3 4 тема 1лекции 3 4 тема 1
лекции 3 4 тема 1
 
Авиком
АвикомАвиком
Авиком
 
Word2vec для поискового движка
Word2vec для поискового движкаWord2vec для поискового движка
Word2vec для поискового движка
 
lexicon
lexiconlexicon
lexicon
 
Извлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстовИзвлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстов
 
Котиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератовКотиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератов
 
Ontology and Text Alalize
Ontology and Text AlalizeOntology and Text Alalize
Ontology and Text Alalize
 
Комбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоименийКомбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоимений
 
ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...
ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...
ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...
 
Реализация метода автоматического разрешения лексической многозначности
Реализация метода автоматического разрешения лексической многозначностиРеализация метода автоматического разрешения лексической многозначности
Реализация метода автоматического разрешения лексической многозначности
 

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (20)

Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
 
Муромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществМуромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществ
 
Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов
 
Лукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текстаЛукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текста
 
Иванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателейИванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателей
 
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
 
Сапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплениемСапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплением
 
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстовСмолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
 
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
 
Тодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAMLТодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAML
 
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
 
Савостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторингаСавостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторинга
 
Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.
 
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
 
Панфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их созданияПанфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их создания
 
Муромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеровМуромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеров
 
Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.
 
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
 
Баев Системы для обучения программированию
Баев Системы для обучения программированиюБаев Системы для обучения программированию
Баев Системы для обучения программированию
 
Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)
 

Фвтоматическая кластеризация значений многозначных слов

  • 1. Автоматическая кластеризация значений многозначных слов Витвицкий С.В. (группа 525) научный руководитель к.ф.-м.н., в.н.с. НИВЦ МГУ Лукашевич Н.В.
  • 2. Постановка задачи - 1 Задача описания значений многозначных слов  Важна в приложениях автоматической обработки текстов  Использование словарей иногда проблематично Существенный фактор проявления многозначности Синтаксическое Поведение Слов Направить Посадить Нацелить Растить
  • 3. Постановка задачи - 2 Цели и задачи дипломной работы  Произвести синтаксическую обработку большой коллекции русскоязычных новостных текстов  На основе анализа синтаксического поведения слов получить кластеры слов, сходных по значению  Описать различные значения слов, которые они проявляют в текстовой коллекции, через сопоставление каждому слову набора кластеров сходных по значению слов, каждый из которых характеризует некоторое значение этого слова  Предложить способ оценки качества полученного описания значений для многозначных слов и получить оценку качества
  • 4. Синтаксический анализатор - 1 Требования к работе анализатора  Высокая точность – низкий процент ошибочно извлеченных отношений  Высокая скорость работы и возможность массовой обработки текстов  При этом максимально возможная полнота извлечения отношений Типы синтаксических отношений Важны типы отношений,  ПРИЛ_СУЩ Проброс ПОДЛ которые в предложении: (прекрасная погода) через формы  Называют участников БЫТЬ, СТАТЬ, МОЧЬ действия и взаимосвязи  ГЕНИТ_ИГ между ними, (защита диплома) «ВВП будет расти»  наиболее точно выделяются в тексте  ПРЯМ_ДОП ПОДЛ (ВВП ← будет)  представлены в (написать диплом) подавляющем большинстве  ПОДЛ предложений (погода мешает) ПОДЛ (ВВП ← расти)
  • 5. Синтаксический анализатор - 2 Сравнение с анализатором Диалинг ® (АОТ)  Полнота (от найденных АОТ отношений) по типам: ПРИЛ_СУЩ – 89%, ГЕНИТ_ИГ – 78%, ПОДЛ – 56%, ПРЯМ_ДОП – 88%, для всех типов – 79%  Скорость работы выше на два порядка Обработанная текстовая коллекция  2 Гб, 2.6 млн. новостных документов, 172 млн. слов  Извлечено отношений (из них уникальных) по типам, млн.: ПРИЛ_СУЩ – 32(1.5), ГЕНИТ_ИГ – 23(1.3), ПОДЛ – 13(1.3), ПРЯМ_ДОП – 12(1.8). Проброс – для 12% отношений ПОДЛ.  Ручная оценка точности по типам: ПРИЛ_СУЩ – 99%, ГЕНИТ_ИГ – 99%, ПРЯМ_ДОП – 89%, ПОДЛ – 89% Пример извлечения синтаксических отношений ПОДЛ (корабли ← предотвратили), ГЕНИТ_ИГ (корабли → коалиции) ПРЯМ_ДОП (предотвратили → захват) двух судов в океане ПРИЛ_СУЩ (боевые ← корабли)
  • 6. Описание значений слов - 1 Для каждого слова строится  Вектор синтаксических контекстов слова как отражение его синтаксического поведения  Для унификации берутся нормальные формы слов  Введение меры сходства векторов синтаксических контекстов позволяет построить тезаурус:
  • 7. Описание значений слов - 2 Алгоритм кластеризации комитетами  Построение набора комитетов – кластеров слов, каждый из которых является описанием некоторого значения  Комитет представляется центроидом – вектором синтаксических контекстов, который описывает наиболее типичное поведение слов данного значения Комитет, представляющий значение города: [ БАРНАУЛ│ КРАСНОДАР│ ВОРОНЕЖ │ МАХАЧКАЛА │ …]  Значения многозначного слова описываются набором комитетов, сопоставленных ему специальным сравнением вектора синтаксических контекстов с центроидами комитетов
  • 8. Пример НАРОД  0,76 [ ОБЩЕСТВЕННОСТЬ │ СООБЩЕСТВО │ ЭЛЕКТОРАТ ]  0,65 [ АЗЕРБАЙДЖАНЕЦ │ АРМЯНИН │ БЕЛОРУС ]  0,34 [ КРЕСТЬЯНИН │ ФЕРМЕР │ СЕЛЬХОЗПРОИЗВОДИТЕЛЬ ] СЕТЬ  0,70 [ ВОДОПРОВОД │ АВТОМАГИСТРАЛЬ │ НЕФТЕПРОВОД ]  0,55 [ СТРУКТУРА │ КЛАСТЕР │ ИНФРАСТРУКТУРА ]  0,46 [ ИНТЕРНЕТ │ ПРОВАЙДЕР │ ДОСТУП ]  0,41 [ ЗАВЕДЕНИЕ │ АПТЕКА │ КИНОТЕАТР ]  0,31 [ НОМЕНКЛАТУРА │ ПЕРЕЧЕНЬ │ ГЕОГРАФИЯ ]  0,29 [ КОМПЬЮТЕР │ СЕРВЕР │ СУПЕРКОМПЬЮТЕР ] МУЗЫКА  0,80 [ ДЖАЗ │ РОМАНС │ СИМФОНИЯ ]  0,48 [ КОНТЕНТ │ ФАЙЛ │ ТРЕК ]  0,38 [ ТВОРЧЕСТВО │ УЧЕБА │ УВЛЕЧЕНИЕ ]
  • 9. Оценка качества Критерии оценки качества описания значений слов  Точность – доля корректно назначенных слову значений от всех назначенных ему значений  Полнота – доля корректно описанных значений слова от всех значений, которое оно принимает в текстовой коллекции Проблемы сравнения с эталонными словарями  Словари содержат устаревшие значения, не употребляющиеся в новостной тематике  Словари не содержат ряд современных значений слов  Неизвестно, сколько значений слово принимает в большой текстовой коллекции  Учѐт повторных корректных значений – считать за корректно назначенное значение или нет?  Оттенки значения (сеть Интернет и компьютерная сеть) – повтор? Оценка качества для 100 самых частотных многозначных слов по толковому словарю  Точность без учѐта (с учѐтом) повторных значений – 93% (67%)  Полнота – 72%
  • 10. Схема программной системы Инструментарий - C++, Embarcadero ® RAD Studio 2010 Значения Текстовая Синтаксический анализатор слов коллекция Сегментация Морфология Кластеризатор Соотнесение Анализ значений Коллекция комитетов Коллекция контекстов Построение комитетов Тезаурус Хранилище Построение тезауруса Редактор
  • 11. Заключение Основные результаты дипломной работы  Разработан специальный синтаксический анализатор  С его помощью обработана большая текстовая коллекция русскоязычных новостных документов (172 млн. слов)  Построена коллекция векторов синтаксических контекстов слов  Построена коллекция комитетов  Проведено автоматическое описание значений слов  Проведена оценка качества описания значений для многозначных слов  Реализована соответствующая программная система