2. Задача анализа мнений
• Огромное количество отзывов о товарах и услугах
в интернете
• Неожиданная развязка и новые герои делают
этот фильм непохожим на предшественника.
• Для решения задачи анализа мнений необходимы
дополнительные знания
– Объекты обзоров
– Атрибуты объекта
– Оценочные слова и выражения
• Совокупность оценочных слов и выражений –
важнейшая компонента базы знаний
3. Постановка задачи
• Выявить набор характеристик, позволяющих
выделять оценочные слова из текстов мнений
заданной предметной области
• Провести эксперименты по применению
методов машинного обучения, на основании
полученных характеристик, для
классификации слов предметной области на
оценочные и неоценочные слова
• Создать программную систему извлечения
оценочных слов, по заданной коллекции
мнений
4. Данные
• Для решения задачи выделения оценочных
слов было подготовлено 4 корпуса
– Корпус мнений (30 тысяч отзывов с
пользовательскими оценками от 1 до 10)
– Корпус описаний (20 тысяч описаний объектов)
– Новостной корпус (1 млн. документов)
– Малый корпус (составлен из частей корпуса
мнений)
• Предварительная морфологическая обработка
всех данных
• Слова разделяются на прилагательные и
неприлагательные
5. Малый корпус
• Составные части
– Предложения, заканчивающиеся на «!»
– Предложения, заканчивающиеся на «…»
– Короткие предложения не более, чем из 7 слов
– Предложения, содержащие слово «фильм», без
других существительных
– Короткие отзывы, состоящие из одного
предложения
• Размер малого корпуса примерно в 2.5 раза
меньше, чем у корпуса мнений
6. Характеристики
• Для каждого слова вычисляется 18
характеристик
– Частотные (6 характеристик)
• Частота слова во всем корпусе
• Количество документов (отзывов), в которых встречается слово
• Частота слов с большой буквы
– По парам корпусов (10 характеристик)
• TFIDF
• «Странность»
– Отклонение от средней оценки по корпусу
– Существительные, связанные с «оценочными»
прилагательными – потенциальные сущности и
атрибуты
7. Оценка характеристик
• Лучшие показатели по количеству оценочных
слов в первой тысяче по группам
– Прилагательные
• Частотные: 58.7%
• По двум корпусам: 64%
• Отклонение от средней оценки: 56.3%
– Неприлагательные
• Частотные: 21.4%
• По двум корпусам: 41.7%
• Отклонение от средней оценки: 30.6%
8. Машинное обучение
• Алгоритмы машинного обучения
– Метод k ближайших соседей
– «Наивный» Байесовский алгоритм
– Нейронные сети (1,2,3 слоя)
– Логистическая регрессия
– Метод опорных векторов (скалярное и радиальное
ядра)
• Оценка работы алгоритмов
– F-мера
– Количество оценочных слов, попавших в первую
1000 слов, упорядоченных по байесовской
«вероятности»
9. Сравнение методов
Алгоритм Прилагательные Неприлагательные
F P1000 F P1000
kNN 67.17 66.3 34.59 36.6
Наивный Байес 32.29 63.3 46.77 37.6
Неиронная сеть 71.08 67.9 50.83 50.9
Логистическая 68.09 69.1 49.58 49.6
SVM 67.54 67.6 43.04 37.5
• Рост качества для прилагательных – на 8.28%,
для неприлагательных – на 20.6%,по точности
на первой тысяче слов (по сравнению со
списками по характеристикам)
12. Основные результаты
• Предложен набор из 18 характеристик,
позволяющий выделять оценочные слова из текстов
мнений заданной предметной области
• Проведены эксперименты по применению методов
машинного обучения и выбраны алгоритмы
логистической регрессии и нейронные сети для
классификации слов
• Реализована программная система извлечения
оценочных слов, по заданной коллекции мнений,
на языке Питон
• Публикации:
• Статья в Трудах Международной конференции по компьютерной
лингвистике
и интеллектуальным технологиям «Диалог-2010»
• Тезисы в Трудах Международной конференции «Ломоносов-2010»