SlideShare a Scribd company logo
Методы автоматического
определения наиболее
частотного значения слова
Автор: Мищенко Николай, 425 группа
Научный руководитель:
Лукашевич Наталья Валентиновна
Содержание
• Основная задача
• Последовательность разработки
• Базовая часть всех методов
• Тематическое моделирование
• Векторная модель
• Улучшения методов
• Результаты
• Заключение
2
Основная задача
• Семантический анализ текста требует выбора
правильного значения многозначного слова
• Может помочь знание о наиболее частотном
значении слова
– 85% существительных упоминается в наиболее
частотном значении
– Прилагательные и глаголы в 45% и 48%
соответственно
• Главная задача: определить по текстовой
коллекции наиболее частотное значение
заданного слова
3
Последовательность разработки
• Дана коллекция текстов
• Получение коллекции документов с
заданным словом
• Применение различных методов поиска
наиболее частотного слова:
– Используя вероятностную тематическую
модель для выбранной коллекции текстов
– Используя векторную модель
информационного поиска
4
Тезаурус
• Для того, чтобы найти частотное значение слова мы
должны знать все используемые значения этого слова.
• Тезаурус ― особая разновидность словарей, в которых
указаны семантические отношения между лексическими
единицами.
• Используется тезаурус русского языка "Тезаурус РуТез",
объем которого составляет 100 тысяч слов и выражений,
между которыми вручную установлено более 210 тысяч
отношений.
• Особенностью данного тезауруса является то, что в
течение многих лет он тестировался в реальных проектах.
5
Примеры экспертной разметки
• Авангардный
– Авангардизм, авангардное искусство
– Авангард (группа людей)
– Авангардные подразделения
• Автоматический
– Машинальный
– Автоматический режим
– Автоматическая система
• Авторитет
– влияние, авторитет
– авторитетный человек
– преступный авторитет
6
Получение коллекции для
заданного слова
• Есть большая коллекция новостных
документов, состоящая из 2169934 файлов
• Необходимо выбрать только те документы,
в которых хоть раз встречалось данное
многозначное слово
• Для удобства работы с документами нужно
привести все слова в единый формат
7
Морфологический анализатор
• Морфологический анализ
• Необходимо получение нормальной формы
слова
• Используется морфологический анализатор
для русского языка pymorphy2
8
Базовая часть всех методов-1
• Для всех методов поиска частотного значения
многозначного слова W необходимо
получение синонимов для каждого значения
(концепта) W, т.е. Wi
• Один шаг получения синонимов Wi :
– Поиск концептов, через “отношения” c концептом
Wi
– Получение синонимов для найденных концептов
– Разбиение синонимов на отдельные слова
• Два шага: проделать первый шаг для каждого
концепта, полученного через “отношения” с Wi
9
Базовая часть всех методов-2
• Проделав либо 1 шаг, либо 2 шага
получения синонимов, получаем вектор
синонимов данного значения Wi
• Используя данный вектор в каждом методе
поиска, находим наилучший результат
среди всех значений Wi
10
Пример 1 шага с разбиением
11
Пример 2-х шагов с разбиением
12
Пример 1 шага без разбиения
13
Пример 2-х шагов без разбиения
14
Тематическое моделирование-1
• Тематическая модель — модель коллекции
текстовых документов, которая определяет, к
каким темам относится каждый документ
коллекции.
• Тематическое моделирование используется
для нахождения скрытых тем встреченных в
коллекции документов.
• На выходе имеем числовой вектор,
cоставленный из оценок степени
принадлежности данного документа каждой
из тем.
15
Тематическое моделирование-2
• Используется вероятностная тематическая
модель, которая основана на следующий
предположениях:
– Порядок документов в коллекции, как и слов в
документе, не имеет значения
– Каждая тема описывается неизвестным
распределением на множестве слов
– Каждый документ описывается неизвестным
распределением на множества тем
16
Tt p(w|t)
Ww
Dd 
p(t|d) Tt 
Тематическое моделирование-3
• Используется модуль GibbsLDA++, реализованный на С++ и
использующий метод латентного размещения Дирихле,
который предложен Дэвидом Блеем в 2003 году
• Метод LDA основан на той же вероятностной
модели:
17
Тематическое моделирование-4
• Пример работы GibsLDA++
18
Тематическое моделирование-5
• Два варианта использования топиков
• Наивный вариант:
– Для каждого значения Wi находим
максимальное сопоставление частотного
вектора синонимов с каждым из топиков
– Частотным значением многозначного слова W
считается максимальное среди всех значений
Wi
19
Тематическое моделирование-6.
Новый метод:
где , f(t) - "частота топика", т.е.
это распределение слов данного топика, умноженного
на частоту слов в нашей выборке, JS(S||T) - это
расхождение Дженсена-Шеннона.
где D(P||M) - расхождение Кульбака-Лейблера.
После чего, среди всех найденных prevalence(si)
выбирается максимальное, т.е. является наиболее
частотным значением слова W
20
,-
,
,
Векторная модель-1
• Основная идея:
– Посчитать частотный вектор слов из коллекции
документов для заданного слова
• Наивный метод:
– Для каждого значения Wi найти косинус между
вектором синонимов и вектором коллекции
– Частотным значением считается то, у которого
максимальный косинус
21
Векторная модель-2
• Продвинутый метод:
– Использование модели tf.idf
– Предпосчет df для всех слова в большой
коллекции
– Подсчет tf для маленькой коллекции для
заданного многозначного слова
– Нахождения максимального косинуса между
вектором синонимов и улучшенного вектора
коллекции
22
Улучшения методов-1
• При получении вектора синонимов
использовать процентное отсечение
• Разбиение каждого синонима на отдельные
слова может давать побочные эффекты,
поэтому для каждого метода нужно
придумать как его преобразовать для
словосочетаний
23
Улучшения методов-2
24
Примеры работы
25
Результаты-1
• Есть набор из 330 многозначных слов, с
эталонным ответам для каждого
• У каждого слова в среднем 4.59 значения,
соответственно, стартовый результат
рандомного выбора значения: 21.7%
26
Результаты-2
27
Название метода 1 шаг синонимов 2 шага синонимов
Топики, Prevalence 0.5256 0.4833
Топики, жадность 0.4169 0.3836
Вектора, жадность 0.5135 0.5226
Вектора, tf.idf 0.5015 0.5287
Топики, замена
уник-х син-в, Pr-ce
0.5045 0.4259
Топики, замена
уник-х син-в, жад-ть
0.4773 0.4471
Отсечение синон-в,
вектора, 8%
0.5347
Отсечение синон-в,
вектора, 15%
0.5438
Отсечение синон-в,
вектора, 18%
0.5498
Отсечение синон-в,
Prev-ce, 18%
0.5105
Вектора, не разб-я 0.5558
Заключение
• Реализован метод получения наиболее
частотного значения многозначного слова,
который упрощает задачу семантического
анализа
• Для каждого метода написана программная
реализация, позволяющая получить
результаты каждого этапа по-отдельности
• Получены хорошие результаты относительно
стартового результата выбора значения
многозначного слова
28
Спасибо за внимание!
Вопросы?

More Related Content

What's hot

Методы морфологического анализа текстов
Методы морфологического анализа текстовМетоды морфологического анализа текстов
Методы морфологического анализа текстов
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
Извлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстовИзвлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстов
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
Konstantion Vorontsov - Additive regularization of matrix decompositons and p...
Konstantion Vorontsov - Additive regularization of matrix decompositons and p...Konstantion Vorontsov - Additive regularization of matrix decompositons and p...
Konstantion Vorontsov - Additive regularization of matrix decompositons and p...AIST
 
Query expansion
Query expansionQuery expansion
Query expansionNLPseminar
 
01 информационный поиск
01 информационный поиск01 информационный поиск
01 информационный поиск
Lidia Pivovarova
 
Word2vec для поискового движка
Word2vec для поискового движкаWord2vec для поискового движка
Word2vec для поискового движка
Сергей Пономарев
 
Андрей Плахов - Язык поисковых запросов как естественный язык
Андрей Плахов - Язык поисковых запросов как естественный языкАндрей Плахов - Язык поисковых запросов как естественный язык
Андрей Плахов - Язык поисковых запросов как естественный языкYandex
 
Относительная перплексия как мера качества тематических моделей
Относительная перплексия как мера качества тематических моделейОтносительная перплексия как мера качества тематических моделей
Относительная перплексия как мера качества тематических моделей
АНАЛИТИКА ПЛЮС
 
Технологический стек классификации текстов на естественных языках
Технологический стек классификации текстов на естественных языкахТехнологический стек классификации текстов на естественных языках
Технологический стек классификации текстов на естественных языках
Сергей Пономарев
 
Системы аннотирования и реферирования
Системы аннотирования и реферированияСистемы аннотирования и реферирования
Системы аннотирования и реферированияArtem Lukanin
 
07 автоматическое реферирование
07 автоматическое реферирование07 автоматическое реферирование
07 автоматическое реферирование
Lidia Pivovarova
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)NLPseminar
 
Алексей Колосов
Алексей Колосов Алексей Колосов
Алексей Колосов
Lidia Pivovarova
 
Машинное обучение (Открытый семинар по средам)
Машинное обучение (Открытый семинар по средам)Машинное обучение (Открытый семинар по средам)
Машинное обучение (Открытый семинар по средам)Pavel Egorov
 
08 машинный перевод
08 машинный перевод08 машинный перевод
08 машинный перевод
Lidia Pivovarova
 
Personilized search
Personilized searchPersonilized search
Personilized searchNLPseminar
 

What's hot (20)

Методы морфологического анализа текстов
Методы морфологического анализа текстовМетоды морфологического анализа текстов
Методы морфологического анализа текстов
 
Извлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстовИзвлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстов
 
Konstantion Vorontsov - Additive regularization of matrix decompositons and p...
Konstantion Vorontsov - Additive regularization of matrix decompositons and p...Konstantion Vorontsov - Additive regularization of matrix decompositons and p...
Konstantion Vorontsov - Additive regularization of matrix decompositons and p...
 
Query expansion
Query expansionQuery expansion
Query expansion
 
01 информационный поиск
01 информационный поиск01 информационный поиск
01 информационный поиск
 
л 2 7
л 2 7л 2 7
л 2 7
 
Word2vec для поискового движка
Word2vec для поискового движкаWord2vec для поискового движка
Word2vec для поискового движка
 
Андрей Плахов - Язык поисковых запросов как естественный язык
Андрей Плахов - Язык поисковых запросов как естественный языкАндрей Плахов - Язык поисковых запросов как естественный язык
Андрей Плахов - Язык поисковых запросов как естественный язык
 
Относительная перплексия как мера качества тематических моделей
Относительная перплексия как мера качества тематических моделейОтносительная перплексия как мера качества тематических моделей
Относительная перплексия как мера качества тематических моделей
 
Технологический стек классификации текстов на естественных языках
Технологический стек классификации текстов на естественных языкахТехнологический стек классификации текстов на естественных языках
Технологический стек классификации текстов на естественных языках
 
Системы аннотирования и реферирования
Системы аннотирования и реферированияСистемы аннотирования и реферирования
Системы аннотирования и реферирования
 
07 автоматическое реферирование
07 автоматическое реферирование07 автоматическое реферирование
07 автоматическое реферирование
 
clasification
clasificationclasification
clasification
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)
 
Алексей Колосов
Алексей Колосов Алексей Колосов
Алексей Колосов
 
Chernyak_defense
Chernyak_defenseChernyak_defense
Chernyak_defense
 
Машинное обучение (Открытый семинар по средам)
Машинное обучение (Открытый семинар по средам)Машинное обучение (Открытый семинар по средам)
Машинное обучение (Открытый семинар по средам)
 
PressPortrets
PressPortretsPressPortrets
PressPortrets
 
08 машинный перевод
08 машинный перевод08 машинный перевод
08 машинный перевод
 
Personilized search
Personilized searchPersonilized search
Personilized search
 

Viewers also liked

Классификация корпусов
Классификация корпусовКлассификация корпусов
Классификация корпусовArtem Lukanin
 
Проектирование корпусов
Проектирование корпусовПроектирование корпусов
Проектирование корпусовArtem Lukanin
 
Sketch engine presentation
Sketch engine presentationSketch engine presentation
Sketch engine presentation
iwan_rg
 

Viewers also liked (18)

Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
 
Баев Системы для обучения программированию
Баев Системы для обучения программированиюБаев Системы для обучения программированию
Баев Системы для обучения программированию
 
Тодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAMLТодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAML
 
Лукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текстаЛукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текста
 
Савостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторингаСавостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторинга
 
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
 
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстовСмолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
 
Сапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплениемСапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплением
 
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
 
Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов
 
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
 
Классификация корпусов
Классификация корпусовКлассификация корпусов
Классификация корпусов
 
Панфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их созданияПанфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их создания
 
Муромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеровМуромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеров
 
куликов Sketch engine ord
куликов Sketch engine ordкуликов Sketch engine ord
куликов Sketch engine ord
 
Проектирование корпусов
Проектирование корпусовПроектирование корпусов
Проектирование корпусов
 
Языковые корпуса
Языковые корпусаЯзыковые корпуса
Языковые корпуса
 
Sketch engine presentation
Sketch engine presentationSketch engine presentation
Sketch engine presentation
 

Similar to Мищенко. Методы автоматического определения наиболее частотного значения слова.

Методы обработки длинных запросов поисковыми системами
Методы обработки длинных запросов поисковыми системамиМетоды обработки длинных запросов поисковыми системами
Методы обработки длинных запросов поисковыми системами
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
Кластеризация русскоязычных текстов на основе латентно-семантического анализа
Кластеризация русскоязычных текстов на основе латентно-семантического анализаКластеризация русскоязычных текстов на основе латентно-семантического анализа
Кластеризация русскоязычных текстов на основе латентно-семантического анализа
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
Концепция поисковых расширений
Концепция поисковых расширенийКонцепция поисковых расширений
Концепция поисковых расширений
Сергей Пономарев
 
Автоматическая кластеризация близких по смыслу слов
Автоматическая кластеризация близких по смыслу словАвтоматическая кластеризация близких по смыслу слов
Автоматическая кластеризация близких по смыслу слов
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
лекция 5 тема 1
лекция 5 тема 1лекция 5 тема 1
лекция 5 тема 1Noobie312
 
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...
AINL Conferences
 
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
GeeksLab Odessa
 
isp_23_2012_215.pdf
isp_23_2012_215.pdfisp_23_2012_215.pdf
isp_23_2012_215.pdf
Grishan1
 

Similar to Мищенко. Методы автоматического определения наиболее частотного значения слова. (10)

Методы обработки длинных запросов поисковыми системами
Методы обработки длинных запросов поисковыми системамиМетоды обработки длинных запросов поисковыми системами
Методы обработки длинных запросов поисковыми системами
 
Кластеризация русскоязычных текстов на основе латентно-семантического анализа
Кластеризация русскоязычных текстов на основе латентно-семантического анализаКластеризация русскоязычных текстов на основе латентно-семантического анализа
Кластеризация русскоязычных текстов на основе латентно-семантического анализа
 
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
 
Концепция поисковых расширений
Концепция поисковых расширенийКонцепция поисковых расширений
Концепция поисковых расширений
 
Автоматическая кластеризация близких по смыслу слов
Автоматическая кластеризация близких по смыслу словАвтоматическая кластеризация близких по смыслу слов
Автоматическая кластеризация близких по смыслу слов
 
лекция 5 тема 1
лекция 5 тема 1лекция 5 тема 1
лекция 5 тема 1
 
Определение новизны информации в новостном кластере
Определение новизны информации в новостном кластереОпределение новизны информации в новостном кластере
Определение новизны информации в новостном кластере
 
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...
 
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
 
isp_23_2012_215.pdf
isp_23_2012_215.pdfisp_23_2012_215.pdf
isp_23_2012_215.pdf
 

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (10)

Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)
 
Тодуа. Методы разработки интерпретатора языка Рефал-2
Тодуа. Методы разработки интерпретатора языка Рефал-2Тодуа. Методы разработки интерпретатора языка Рефал-2
Тодуа. Методы разработки интерпретатора языка Рефал-2
 
смирнов Data mining
смирнов Data miningсмирнов Data mining
смирнов Data mining
 
рогова обзор средств поддержки обучения программированию
рогова обзор средств поддержки обучения программированиюрогова обзор средств поддержки обучения программированию
рогова обзор средств поддержки обучения программированию
 
курышев рекомендательные системы
курышев рекомендательные системыкурышев рекомендательные системы
курышев рекомендательные системы
 
кулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выраженийкулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выражений
 
иванов анализ речевых команд
иванов анализ речевых командиванов анализ речевых команд
иванов анализ речевых команд
 
борисенкова методы визуализации для анализа зависящих от времени данных
борисенкова методы визуализации для анализа зависящих от времени данныхборисенкова методы визуализации для анализа зависящих от времени данных
борисенкова методы визуализации для анализа зависящих от времени данных
 
бицоев сравнение систем анализа тональности на русском языке
бицоев сравнение систем анализа тональности на русском языкебицоев сравнение систем анализа тональности на русском языке
бицоев сравнение систем анализа тональности на русском языке
 
презентация (Quasi synonyms, вмк 25.10.2011)
презентация (Quasi synonyms, вмк 25.10.2011)презентация (Quasi synonyms, вмк 25.10.2011)
презентация (Quasi synonyms, вмк 25.10.2011)
 

Мищенко. Методы автоматического определения наиболее частотного значения слова.

  • 1. Методы автоматического определения наиболее частотного значения слова Автор: Мищенко Николай, 425 группа Научный руководитель: Лукашевич Наталья Валентиновна
  • 2. Содержание • Основная задача • Последовательность разработки • Базовая часть всех методов • Тематическое моделирование • Векторная модель • Улучшения методов • Результаты • Заключение 2
  • 3. Основная задача • Семантический анализ текста требует выбора правильного значения многозначного слова • Может помочь знание о наиболее частотном значении слова – 85% существительных упоминается в наиболее частотном значении – Прилагательные и глаголы в 45% и 48% соответственно • Главная задача: определить по текстовой коллекции наиболее частотное значение заданного слова 3
  • 4. Последовательность разработки • Дана коллекция текстов • Получение коллекции документов с заданным словом • Применение различных методов поиска наиболее частотного слова: – Используя вероятностную тематическую модель для выбранной коллекции текстов – Используя векторную модель информационного поиска 4
  • 5. Тезаурус • Для того, чтобы найти частотное значение слова мы должны знать все используемые значения этого слова. • Тезаурус ― особая разновидность словарей, в которых указаны семантические отношения между лексическими единицами. • Используется тезаурус русского языка "Тезаурус РуТез", объем которого составляет 100 тысяч слов и выражений, между которыми вручную установлено более 210 тысяч отношений. • Особенностью данного тезауруса является то, что в течение многих лет он тестировался в реальных проектах. 5
  • 6. Примеры экспертной разметки • Авангардный – Авангардизм, авангардное искусство – Авангард (группа людей) – Авангардные подразделения • Автоматический – Машинальный – Автоматический режим – Автоматическая система • Авторитет – влияние, авторитет – авторитетный человек – преступный авторитет 6
  • 7. Получение коллекции для заданного слова • Есть большая коллекция новостных документов, состоящая из 2169934 файлов • Необходимо выбрать только те документы, в которых хоть раз встречалось данное многозначное слово • Для удобства работы с документами нужно привести все слова в единый формат 7
  • 8. Морфологический анализатор • Морфологический анализ • Необходимо получение нормальной формы слова • Используется морфологический анализатор для русского языка pymorphy2 8
  • 9. Базовая часть всех методов-1 • Для всех методов поиска частотного значения многозначного слова W необходимо получение синонимов для каждого значения (концепта) W, т.е. Wi • Один шаг получения синонимов Wi : – Поиск концептов, через “отношения” c концептом Wi – Получение синонимов для найденных концептов – Разбиение синонимов на отдельные слова • Два шага: проделать первый шаг для каждого концепта, полученного через “отношения” с Wi 9
  • 10. Базовая часть всех методов-2 • Проделав либо 1 шаг, либо 2 шага получения синонимов, получаем вектор синонимов данного значения Wi • Используя данный вектор в каждом методе поиска, находим наилучший результат среди всех значений Wi 10
  • 11. Пример 1 шага с разбиением 11
  • 12. Пример 2-х шагов с разбиением 12
  • 13. Пример 1 шага без разбиения 13
  • 14. Пример 2-х шагов без разбиения 14
  • 15. Тематическое моделирование-1 • Тематическая модель — модель коллекции текстовых документов, которая определяет, к каким темам относится каждый документ коллекции. • Тематическое моделирование используется для нахождения скрытых тем встреченных в коллекции документов. • На выходе имеем числовой вектор, cоставленный из оценок степени принадлежности данного документа каждой из тем. 15
  • 16. Тематическое моделирование-2 • Используется вероятностная тематическая модель, которая основана на следующий предположениях: – Порядок документов в коллекции, как и слов в документе, не имеет значения – Каждая тема описывается неизвестным распределением на множестве слов – Каждый документ описывается неизвестным распределением на множества тем 16 Tt p(w|t) Ww Dd  p(t|d) Tt 
  • 17. Тематическое моделирование-3 • Используется модуль GibbsLDA++, реализованный на С++ и использующий метод латентного размещения Дирихле, который предложен Дэвидом Блеем в 2003 году • Метод LDA основан на той же вероятностной модели: 17
  • 19. Тематическое моделирование-5 • Два варианта использования топиков • Наивный вариант: – Для каждого значения Wi находим максимальное сопоставление частотного вектора синонимов с каждым из топиков – Частотным значением многозначного слова W считается максимальное среди всех значений Wi 19
  • 20. Тематическое моделирование-6. Новый метод: где , f(t) - "частота топика", т.е. это распределение слов данного топика, умноженного на частоту слов в нашей выборке, JS(S||T) - это расхождение Дженсена-Шеннона. где D(P||M) - расхождение Кульбака-Лейблера. После чего, среди всех найденных prevalence(si) выбирается максимальное, т.е. является наиболее частотным значением слова W 20 ,- , ,
  • 21. Векторная модель-1 • Основная идея: – Посчитать частотный вектор слов из коллекции документов для заданного слова • Наивный метод: – Для каждого значения Wi найти косинус между вектором синонимов и вектором коллекции – Частотным значением считается то, у которого максимальный косинус 21
  • 22. Векторная модель-2 • Продвинутый метод: – Использование модели tf.idf – Предпосчет df для всех слова в большой коллекции – Подсчет tf для маленькой коллекции для заданного многозначного слова – Нахождения максимального косинуса между вектором синонимов и улучшенного вектора коллекции 22
  • 23. Улучшения методов-1 • При получении вектора синонимов использовать процентное отсечение • Разбиение каждого синонима на отдельные слова может давать побочные эффекты, поэтому для каждого метода нужно придумать как его преобразовать для словосочетаний 23
  • 26. Результаты-1 • Есть набор из 330 многозначных слов, с эталонным ответам для каждого • У каждого слова в среднем 4.59 значения, соответственно, стартовый результат рандомного выбора значения: 21.7% 26
  • 27. Результаты-2 27 Название метода 1 шаг синонимов 2 шага синонимов Топики, Prevalence 0.5256 0.4833 Топики, жадность 0.4169 0.3836 Вектора, жадность 0.5135 0.5226 Вектора, tf.idf 0.5015 0.5287 Топики, замена уник-х син-в, Pr-ce 0.5045 0.4259 Топики, замена уник-х син-в, жад-ть 0.4773 0.4471 Отсечение синон-в, вектора, 8% 0.5347 Отсечение синон-в, вектора, 15% 0.5438 Отсечение синон-в, вектора, 18% 0.5498 Отсечение синон-в, Prev-ce, 18% 0.5105 Вектора, не разб-я 0.5558
  • 28. Заключение • Реализован метод получения наиболее частотного значения многозначного слова, который упрощает задачу семантического анализа • Для каждого метода написана программная реализация, позволяющая получить результаты каждого этапа по-отдельности • Получены хорошие результаты относительно стартового результата выбора значения многозначного слова 28