2. Анализ тональности текстов
• Тональность текста – эмоциональная оценка,
выраженная в тексте по отношению к некоторому
объекту в целом или его свойствам
• Неожиданная развязка и новые герои делают этот
фильм непохожим на предшественника.
• Переходи в Билайн. «Все за 300» — отличный тариф!
• Актуальность задачи
– Анализ мнений о политиках, партиях
– Извлечение и представление отзывов о товарах и услугах
– Имидж компании
3. Подходы к анализу тональности
• Лингвистико-инженерные подходы
– Словари (жалко, скучный, мало повидавший)
– Правила (не очень скучный)
– Проблемы: трудно все зафиксировать
• Подходы, основанные на машинном обучении
– Ручная разметка сообщений (+, -, 0)
– Выделение признаков сообщений
• слова, знаки препинания, смайлики, и др.
– Математические методы нахождения закономерностей
• нейронные сети, деревья решений, метод опорных векторов
– Проблемы: нужна ручная разметка,
– размеченная выборка недостаточной величины,
– драматические события в мире
4. Как извлекать оценочные выражения?
– Методы извлечения
• Вручную
• Корпусный подход
– На основе шаблонов и конструкций
– На основе статистики взаимной встречаемости
• На основе словарей
• Комбинация приведенных выше подходов
– В этом докладе: словарь оценочных слов
русского языка РуСентиЛекс
• Создан автоматизированно
– Автоматический подход – 3 разных источника
– Затем просмотр и разметка экспертом
• Применение в автоматическом анализе
5. РуСентиЛекс: источники-1
• Списки оценочных слов из нескольких
проектов по анализу тональности в конкретных
предметных областях (инженерный подход)
• Автоматическое сопоставление с тезаурусом
русского языка РуТез, нахождение
соответствующих понятий
– Возможность просмотра синонимов,
– родовых и видовых понятий
• Далее просмотр и внесение в словарь
экспертом
6. РуСентиЛекс: источники-2
• Извлечение слов с негативными и
позитивными ассоциациями (из новостей):
– безработица, инфляция, и др.
• Применение шаблонов (2 млн. документов)
– Позитивные (18 шаблонов)
• Защищать вин.
• Бороться за вин.
• Охранять вин.
• Ценить вин.
– Негативные (36 шаблонов)
• Противостоять вин.
• Бороться с творит.
• Обвинить в творит.
• Не допустить вин.
7. Извлеченные слова с коннотациями
• Список слов с негативными коннотациями
– коррупция 14869
– терроризм 6876
– преступность 2631
– преступление 2618
– экстремизм 2483
– оборот 2166
– распространение 1939
– последствие 1930
– экономический преступление 1791
– …
• Добавлены экспертом в словарь
8. РуСентиЛекс: источники-3
• Извлечение оценочных слов из Твиттера
• Модель извлечения оценочных слов,
– основана на машинном обучении
– несколько текстовых коллекций
• Слова с высоким содержанием оценочной
лексики
• Низким содержанием оценочной лексики
• Новости
• Просмотр и добавления в словарь
экспертом
9. Новые слова с высоким весом,
извлеченные из Твиттера (без мата)
• Офигенный
• Упоротый
• Афигенный
• Дибильный
• Дерьмовый
• Стремный
• Класный
• Халявный
• Симпотичный
• Бесбашенный
• Безбашенный
• Дебильный…
10. РуСентиЛекс: структура
• Текстовый файл
– слово или фраза,
– часть речи,
– слово или фраза, в которой каждое слово стоит в
лемматизированной форме (бросаться деньги)
– тональность: позитивная (positive), негативная
(negative), нейтральная (neutral) или двойная,
positive/negative (верноподанный).
– источник тональности (явно выраженная оценка,
эмоция, или факт);
– Для многозначных слов указание на понятия
тезауруса РуТез, если слово в разных значениях
имеет разные оценочные характеристике
12. Проверка употребления по корпусам
• аккуратист, Noun, аккуратист, positive,
opinion
• Примеры
– Страховщики заплатят штраф за отсутствие
скидок водителям-аккуратистам (Вести-ФМ
29.10.2015);
– Шамардин: Это интеллигентнейший человек,
который показал себя с первых дней своего
обучения. Аккуратист во всем, в одежде, в
поведении (Спорт FM, 13.10.2015).
14. SentiRuEval 2016
• Тестирование систем анализа тональности на
русском языке
• Объектно-ориентированный анализ твитов:
анализ репутации
– Область банков
– Область телекоммуникационных компаний
• «Репутационный» твит может выражать
– положительное или отрицательное отношение к компании
– сообщать положительный или отрицательный факт
• Обучающая коллекция
– 8.6 тысяч (телеком), 9.4 тысячи (банки)
• Тестовая коллекция
– 2.2 тысячи (телеком), 3.3.тысячи (банки)
15. Прошлый год: SentiRuEval-2015
Наиболее сложные твиты для участников
1. Обучающая коллекция не содержала оценочных
слов (30% твитов для банков, 15% для телеком)
– Самый безалаберный банк по отношению к клиентам - Сбербанк
– В столице произошло дерзкое ограбление Сбербанка
– Гребаный сбербанк
1. Реально сложные твиты: ирония и сарказм,
сравнения
– Сбербанк России – лучший в мире производитель пластиковых
карточек для отскабливания льда от автомобиля
– Нормально @sberbank зарабатывает - размен 5% от суммы
• Большое различие между обучающей и тестовой
выборкой=>
– События на Украине привели к резкой смене тематики
твитов в этих областях
16. Новые подходы:
комбинирование методов
• Предварительное создание оценочных
словарей
– Вручную
– Автоматически по большим текстовым
коллекциям
• Признаки для машинного обучения
– Позитивное слово из словаря
– Негативное слово из словаря
– Общая количество оценок в твите и др.
– => Снижение зависимости от обучающей выборки
17. Вклад словарных ресурсов в результаты
F-мера
• Лучший участник (участник 2)
– Кластеры слов, насчитанные на большой тестовой
коллекции постов социальных сетей и
комментариев к ним
• 0.657 (ТКК), 0.588 (Банки)
– Машинное обучение: нейронная сеть
• Второй участник (участник 9)
– Словарь РуСентиЛекс, автоматический словарь
слов с коннотациями
• 0.688 (ТКК), 0.55 (Банки)
– Машинное обучение: SVM
Участники с 3 и 4 лучшими результатами также
связаны со словарем РуСентиЛекс
18. Заключение
• В докладе описан новый лексикон оценочных слов и
выражений русского языка РуСентиЛекс. Данный
лексикон был автоматизированно собран из нескольких
источников
• Особенности словаря
• - для многозначных слов установлены отношения с понятиями
тезауруса РуТез
• - единицы лексикона расклассифицированы по четырем
категориям тональности и трем источникам тональности (мнение,
эмоция, факт)
• Новый словарь был применен участниками в
тестировании систем анализа тональности на русском
языке SentiRuEval-2016 в комбинации с системами
машинного обучения