Автоматическое формирование базы знаний для задачи анализа мнений

Дипломная работа

Автоматизированное формирование
базы знаний для задачи анализа
мнений

Четвёркин И.И. 524 гр.

Научный руководитель:
к.ф.-м.н. Лукашевич Н.В.

Задача анализа мнений
• Огромное количество отзывов о товарах и услугах
в интернете

• Неожиданная развязка и новые герои делают
этот фильм непохожим на предшественника.

• Для решения задачи анализа мнений необходимы
дополнительные знания
– Объекты обзоров
– Атрибуты объекта
– Оценочные слова и выражения

• Совокупность оценочных слов и выражений –
важнейшая компонента базы знаний

Постановка задачи
• Выявить набор характеристик, позволяющих
выделять оценочные слова из текстов мнений
заданной предметной области

• Провести эксперименты по применению
методов машинного обучения, на основании
полученных характеристик, для
классификации слов предметной области на
оценочные и неоценочные слова

• Создать программную систему извлечения
оценочных слов, по заданной коллекции
мнений

Данные
• Для решения задачи выделения оценочных
слов было подготовлено 4 корпуса
– Корпус мнений (30 тысяч отзывов с
пользовательскими оценками от 1 до 10)
– Корпус описаний (20 тысяч описаний объектов)
– Новостной корпус (1 млн. документов)
– Малый корпус (составлен из частей корпуса
мнений)
• Предварительная морфологическая обработка
всех данных
• Слова разделяются на прилагательные и
неприлагательные

Малый корпус
• Составные части
– Предложения, заканчивающиеся на «!»
– Предложения, заканчивающиеся на «…»
– Короткие предложения не более, чем из 7 слов
– Предложения, содержащие слово «фильм», без
других существительных
– Короткие отзывы, состоящие из одного
предложения

• Размер малого корпуса примерно в 2.5 раза
меньше, чем у корпуса мнений

Характеристики
• Для каждого слова вычисляется 18
характеристик
– Частотные (6 характеристик)
• Частота слова во всем корпусе
• Количество документов (отзывов), в которых встречается слово
• Частота слов с большой буквы
– По парам корпусов (10 характеристик)
• TFIDF
• «Странность»
– Отклонение от средней оценки по корпусу
– Существительные, связанные с «оценочными»
прилагательными – потенциальные сущности и
атрибуты

Оценка характеристик
• Лучшие показатели по количеству оценочных
слов в первой тысяче по группам
– Прилагательные
• Частотные: 58.7%
• По двум корпусам: 64%
• Отклонение от средней оценки: 56.3%
– Неприлагательные
• Частотные: 21.4%
• По двум корпусам: 41.7%
• Отклонение от средней оценки: 30.6%

Машинное обучение
• Алгоритмы машинного обучения
– Метод k ближайших соседей
– «Наивный» Байесовский алгоритм
– Нейронные сети (1,2,3 слоя)
– Логистическая регрессия
– Метод опорных векторов (скалярное и радиальное
ядра)

• Оценка работы алгоритмов
– F-мера
– Количество оценочных слов, попавших в первую
1000 слов, упорядоченных по байесовской
«вероятности»

Сравнение методов
Алгоритм Прилагательные Неприлагательные
F P1000 F P1000
kNN 67.17 66.3 34.59 36.6
Наивный Байес 32.29 63.3 46.77 37.6
Неиронная сеть 71.08 67.9 50.83 50.9
Логистическая 68.09 69.1 49.58 49.6
SVM 67.54 67.6 43.04 37.5

• Рост качества для прилагательных – на 8.28%,
для неприлагательных – на 20.6%,по точности
на первой тысяче слов (по сравнению со
списками по характеристикам)

Архитектура системы

Выдача системы
добрый понравиться
замечательный пересматривать
великолепный зацепить
потрясающий однозначно
красивый смешно
смешной посмотреть
любимый досмотреть
отличный нравится
трогательный затянутый
прекрасный цеплять

Основные результаты
• Предложен набор из 18 характеристик,
позволяющий выделять оценочные слова из текстов
мнений заданной предметной области
• Проведены эксперименты по применению методов
машинного обучения и выбраны алгоритмы
логистической регрессии и нейронные сети для
классификации слов
• Реализована программная система извлечения
оценочных слов, по заданной коллекции мнений,
на языке Питон
• Публикации:
• Статья в Трудах Международной конференции по компьютерной
лингвистике
и интеллектуальным технологиям «Диалог-2010»
• Тезисы в Трудах Международной конференции «Ломоносов-2010»

Автоматическое формирование базы знаний для задачи анализа мнений

Recommended

Recommended

More Related Content

What's hot

What's hot (14)

Viewers also liked

Viewers also liked (20)

Similar to Автоматическое формирование базы знаний для задачи анализа мнений

Similar to Автоматическое формирование базы знаний для задачи анализа мнений (20)

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (19)

Автоматическое формирование базы знаний для задачи анализа мнений