SlideShare a Scribd company logo
1 of 19
Создание лексикона оценочных
слов русского языка
RuSentiLex
Лукашевич Н.,
МГУ им. М.В. Ломоносова
Левчик А.
RJ Games
Анализ тональности текстов
• Тональность текста – эмоциональная оценка,
выраженная в тексте по отношению к некоторому
объекту в целом или его свойствам
• Неожиданная развязка и новые герои делают этот
фильм непохожим на предшественника.
• Переходи в Билайн. «Все за 300» — отличный тариф!
• Актуальность задачи
– Анализ мнений о политиках, партиях
– Извлечение и представление отзывов о товарах и услугах
– Имидж компании
Подходы к анализу тональности
• Лингвистико-инженерные подходы
– Словари (жалко, скучный, мало повидавший)
– Правила (не очень скучный)
– Проблемы: трудно все зафиксировать
• Подходы, основанные на машинном обучении
– Ручная разметка сообщений (+, -, 0)
– Выделение признаков сообщений
• слова, знаки препинания, смайлики, и др.
– Математические методы нахождения закономерностей
• нейронные сети, деревья решений, метод опорных векторов
– Проблемы: нужна ручная разметка,
– размеченная выборка недостаточной величины,
– драматические события в мире
Как извлекать оценочные выражения?
– Методы извлечения
• Вручную
• Корпусный подход
– На основе шаблонов и конструкций
– На основе статистики взаимной встречаемости
• На основе словарей
• Комбинация приведенных выше подходов
– В этом докладе: словарь оценочных слов
русского языка РуСентиЛекс
• Создан автоматизированно
– Автоматический подход – 3 разных источника
– Затем просмотр и разметка экспертом
• Применение в автоматическом анализе
РуСентиЛекс: источники-1
• Списки оценочных слов из нескольких
проектов по анализу тональности в конкретных
предметных областях (инженерный подход)
• Автоматическое сопоставление с тезаурусом
русского языка РуТез, нахождение
соответствующих понятий
– Возможность просмотра синонимов,
– родовых и видовых понятий
• Далее просмотр и внесение в словарь
экспертом
РуСентиЛекс: источники-2
• Извлечение слов с негативными и
позитивными ассоциациями (из новостей):
– безработица, инфляция, и др.
• Применение шаблонов (2 млн. документов)
– Позитивные (18 шаблонов)
• Защищать вин.
• Бороться за вин.
• Охранять вин.
• Ценить вин.
– Негативные (36 шаблонов)
• Противостоять вин.
• Бороться с творит.
• Обвинить в творит.
• Не допустить вин.
Извлеченные слова с коннотациями
• Список слов с негативными коннотациями
– коррупция 14869
– терроризм 6876
– преступность 2631
– преступление 2618
– экстремизм 2483
– оборот 2166
– распространение 1939
– последствие 1930
– экономический преступление 1791
– …
• Добавлены экспертом в словарь
РуСентиЛекс: источники-3
• Извлечение оценочных слов из Твиттера
• Модель извлечения оценочных слов,
– основана на машинном обучении
– несколько текстовых коллекций
• Слова с высоким содержанием оценочной
лексики
• Низким содержанием оценочной лексики
• Новости
• Просмотр и добавления в словарь
экспертом
Новые слова с высоким весом,
извлеченные из Твиттера (без мата)
• Офигенный
• Упоротый
• Афигенный
• Дибильный
• Дерьмовый
• Стремный
• Класный
• Халявный
• Симпотичный
• Бесбашенный
• Безбашенный
• Дебильный…
РуСентиЛекс: структура
• Текстовый файл
– слово или фраза,
– часть речи,
– слово или фраза, в которой каждое слово стоит в
лемматизированной форме (бросаться деньги)
– тональность: позитивная (positive), негативная
(negative), нейтральная (neutral) или двойная,
positive/negative (верноподанный).
– источник тональности (явно выраженная оценка,
эмоция, или факт);
– Для многозначных слов указание на понятия
тезауруса РуТез, если слово в разных значениях
имеет разные оценочные характеристике
Примеры описания в РуСентиЛекс
• Пресный
• пресный, Adj, пресный, negative, feeling, "НЕВКУСНЫЙ"
• пресный, Adj, пресный, negative, opinion,
"НЕИНТЕРЕСНЫЙ"
• пресный, Adj, пресный, positive, fact, "ПРЕСНАЯ ВОДА"
• Грязный, грязь
• грязный, Adj, грязный, negative, opinion
• грязь, Noun, грязь, negative, opinion
Проверка употребления по корпусам
• аккуратист, Noun, аккуратист, positive,
opinion
• Примеры
– Страховщики заплатят штраф за отсутствие
скидок водителям-аккуратистам (Вести-ФМ
29.10.2015);
– Шамардин: Это интеллигентнейший человек,
который показал себя с первых дней своего
обучения. Аккуратист во всем, в одежде, в
поведении (Спорт FM, 13.10.2015).
РуСентиЛекс: количественные
характеристики
Категория Количество
Негативные 9744
Positive/negative 241
Позитивные 3585
Нейтральные 1394
Слова из Твиттера,
отсутствующие в РуТез
798
Всего разных текстовых
входов
10467
Всего значений 14492
SentiRuEval 2016
• Тестирование систем анализа тональности на
русском языке
• Объектно-ориентированный анализ твитов:
анализ репутации
– Область банков
– Область телекоммуникационных компаний
• «Репутационный» твит может выражать
– положительное или отрицательное отношение к компании
– сообщать положительный или отрицательный факт
• Обучающая коллекция
– 8.6 тысяч (телеком), 9.4 тысячи (банки)
• Тестовая коллекция
– 2.2 тысячи (телеком), 3.3.тысячи (банки)
Прошлый год: SentiRuEval-2015
Наиболее сложные твиты для участников
1. Обучающая коллекция не содержала оценочных
слов (30% твитов для банков, 15% для телеком)
– Самый безалаберный банк по отношению к клиентам - Сбербанк
– В столице произошло дерзкое ограбление Сбербанка
– Гребаный сбербанк
1. Реально сложные твиты: ирония и сарказм,
сравнения
– Сбербанк России – лучший в мире производитель пластиковых
карточек для отскабливания льда от автомобиля
– Нормально @sberbank зарабатывает - размен 5% от суммы
• Большое различие между обучающей и тестовой
выборкой=>
– События на Украине привели к резкой смене тематики
твитов в этих областях
Новые подходы:
комбинирование методов
• Предварительное создание оценочных
словарей
– Вручную
– Автоматически по большим текстовым
коллекциям
• Признаки для машинного обучения
– Позитивное слово из словаря
– Негативное слово из словаря
– Общая количество оценок в твите и др.
– => Снижение зависимости от обучающей выборки
Вклад словарных ресурсов в результаты
F-мера
• Лучший участник (участник 2)
– Кластеры слов, насчитанные на большой тестовой
коллекции постов социальных сетей и
комментариев к ним
• 0.657 (ТКК), 0.588 (Банки)
– Машинное обучение: нейронная сеть
• Второй участник (участник 9)
– Словарь РуСентиЛекс, автоматический словарь
слов с коннотациями
• 0.688 (ТКК), 0.55 (Банки)
– Машинное обучение: SVM
Участники с 3 и 4 лучшими результатами также
связаны со словарем РуСентиЛекс
Заключение
• В докладе описан новый лексикон оценочных слов и
выражений русского языка РуСентиЛекс. Данный
лексикон был автоматизированно собран из нескольких
источников
• Особенности словаря
• - для многозначных слов установлены отношения с понятиями
тезауруса РуТез
• - единицы лексикона расклассифицированы по четырем
категориям тональности и трем источникам тональности (мнение,
эмоция, факт)
• Новый словарь был применен участниками в
тестировании систем анализа тональности на русском
языке SentiRuEval-2016 в комбинации с системами
машинного обучения
Адреса упомянутых ресурсов
• Тезаурус РуТез
– http://www.labinform.ru/pub/ruthes/index.htm
• Словарь РуСентиЛекс
– http://www.labinform.ru/pub/rusentilex/index.htm

More Related Content

Similar to Creating a General Russian Sentiment Lexicon

Russir 2010 final
Russir 2010 finalRussir 2010 final
Russir 2010 finalyaevents
 
извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовYandex
 
Текстовое ранжирование и тз на копирайтинг
Текстовое ранжирование и тз на копирайтингТекстовое ранжирование и тз на копирайтинг
Текстовое ранжирование и тз на копирайтингSergey Yurkov
 
SentiScan: система автоматической разметки тональности в social media
SentiScan: система автоматической разметки тональности в social mediaSentiScan: система автоматической разметки тональности в social media
SentiScan: система автоматической разметки тональности в social mediaDmitry Kan
 
Неологизмы в социальной сети Фейсбук
Неологизмы в социальной сети ФейсбукНеологизмы в социальной сети Фейсбук
Неологизмы в социальной сети ФейсбукAlexander Panchenko
 

Similar to Creating a General Russian Sentiment Lexicon (7)

Russir 2010 final
Russir 2010 finalRussir 2010 final
Russir 2010 final
 
Автоматическое формирование базы знаний для задачи анализа мнений
Автоматическое формирование базы знаний для задачи анализа мненийАвтоматическое формирование базы знаний для задачи анализа мнений
Автоматическое формирование базы знаний для задачи анализа мнений
 
извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстов
 
Текстовое ранжирование и тз на копирайтинг
Текстовое ранжирование и тз на копирайтингТекстовое ранжирование и тз на копирайтинг
Текстовое ранжирование и тз на копирайтинг
 
SentiScan: система автоматической разметки тональности в social media
SentiScan: система автоматической разметки тональности в social mediaSentiScan: система автоматической разметки тональности в social media
SentiScan: система автоматической разметки тональности в social media
 
Khomitsevich
Khomitsevich Khomitsevich
Khomitsevich
 
Неологизмы в социальной сети Фейсбук
Неологизмы в социальной сети ФейсбукНеологизмы в социальной сети Фейсбук
Неологизмы в социальной сети Фейсбук
 

Creating a General Russian Sentiment Lexicon

  • 1. Создание лексикона оценочных слов русского языка RuSentiLex Лукашевич Н., МГУ им. М.В. Ломоносова Левчик А. RJ Games
  • 2. Анализ тональности текстов • Тональность текста – эмоциональная оценка, выраженная в тексте по отношению к некоторому объекту в целом или его свойствам • Неожиданная развязка и новые герои делают этот фильм непохожим на предшественника. • Переходи в Билайн. «Все за 300» — отличный тариф! • Актуальность задачи – Анализ мнений о политиках, партиях – Извлечение и представление отзывов о товарах и услугах – Имидж компании
  • 3. Подходы к анализу тональности • Лингвистико-инженерные подходы – Словари (жалко, скучный, мало повидавший) – Правила (не очень скучный) – Проблемы: трудно все зафиксировать • Подходы, основанные на машинном обучении – Ручная разметка сообщений (+, -, 0) – Выделение признаков сообщений • слова, знаки препинания, смайлики, и др. – Математические методы нахождения закономерностей • нейронные сети, деревья решений, метод опорных векторов – Проблемы: нужна ручная разметка, – размеченная выборка недостаточной величины, – драматические события в мире
  • 4. Как извлекать оценочные выражения? – Методы извлечения • Вручную • Корпусный подход – На основе шаблонов и конструкций – На основе статистики взаимной встречаемости • На основе словарей • Комбинация приведенных выше подходов – В этом докладе: словарь оценочных слов русского языка РуСентиЛекс • Создан автоматизированно – Автоматический подход – 3 разных источника – Затем просмотр и разметка экспертом • Применение в автоматическом анализе
  • 5. РуСентиЛекс: источники-1 • Списки оценочных слов из нескольких проектов по анализу тональности в конкретных предметных областях (инженерный подход) • Автоматическое сопоставление с тезаурусом русского языка РуТез, нахождение соответствующих понятий – Возможность просмотра синонимов, – родовых и видовых понятий • Далее просмотр и внесение в словарь экспертом
  • 6. РуСентиЛекс: источники-2 • Извлечение слов с негативными и позитивными ассоциациями (из новостей): – безработица, инфляция, и др. • Применение шаблонов (2 млн. документов) – Позитивные (18 шаблонов) • Защищать вин. • Бороться за вин. • Охранять вин. • Ценить вин. – Негативные (36 шаблонов) • Противостоять вин. • Бороться с творит. • Обвинить в творит. • Не допустить вин.
  • 7. Извлеченные слова с коннотациями • Список слов с негативными коннотациями – коррупция 14869 – терроризм 6876 – преступность 2631 – преступление 2618 – экстремизм 2483 – оборот 2166 – распространение 1939 – последствие 1930 – экономический преступление 1791 – … • Добавлены экспертом в словарь
  • 8. РуСентиЛекс: источники-3 • Извлечение оценочных слов из Твиттера • Модель извлечения оценочных слов, – основана на машинном обучении – несколько текстовых коллекций • Слова с высоким содержанием оценочной лексики • Низким содержанием оценочной лексики • Новости • Просмотр и добавления в словарь экспертом
  • 9. Новые слова с высоким весом, извлеченные из Твиттера (без мата) • Офигенный • Упоротый • Афигенный • Дибильный • Дерьмовый • Стремный • Класный • Халявный • Симпотичный • Бесбашенный • Безбашенный • Дебильный…
  • 10. РуСентиЛекс: структура • Текстовый файл – слово или фраза, – часть речи, – слово или фраза, в которой каждое слово стоит в лемматизированной форме (бросаться деньги) – тональность: позитивная (positive), негативная (negative), нейтральная (neutral) или двойная, positive/negative (верноподанный). – источник тональности (явно выраженная оценка, эмоция, или факт); – Для многозначных слов указание на понятия тезауруса РуТез, если слово в разных значениях имеет разные оценочные характеристике
  • 11. Примеры описания в РуСентиЛекс • Пресный • пресный, Adj, пресный, negative, feeling, "НЕВКУСНЫЙ" • пресный, Adj, пресный, negative, opinion, "НЕИНТЕРЕСНЫЙ" • пресный, Adj, пресный, positive, fact, "ПРЕСНАЯ ВОДА" • Грязный, грязь • грязный, Adj, грязный, negative, opinion • грязь, Noun, грязь, negative, opinion
  • 12. Проверка употребления по корпусам • аккуратист, Noun, аккуратист, positive, opinion • Примеры – Страховщики заплатят штраф за отсутствие скидок водителям-аккуратистам (Вести-ФМ 29.10.2015); – Шамардин: Это интеллигентнейший человек, который показал себя с первых дней своего обучения. Аккуратист во всем, в одежде, в поведении (Спорт FM, 13.10.2015).
  • 13. РуСентиЛекс: количественные характеристики Категория Количество Негативные 9744 Positive/negative 241 Позитивные 3585 Нейтральные 1394 Слова из Твиттера, отсутствующие в РуТез 798 Всего разных текстовых входов 10467 Всего значений 14492
  • 14. SentiRuEval 2016 • Тестирование систем анализа тональности на русском языке • Объектно-ориентированный анализ твитов: анализ репутации – Область банков – Область телекоммуникационных компаний • «Репутационный» твит может выражать – положительное или отрицательное отношение к компании – сообщать положительный или отрицательный факт • Обучающая коллекция – 8.6 тысяч (телеком), 9.4 тысячи (банки) • Тестовая коллекция – 2.2 тысячи (телеком), 3.3.тысячи (банки)
  • 15. Прошлый год: SentiRuEval-2015 Наиболее сложные твиты для участников 1. Обучающая коллекция не содержала оценочных слов (30% твитов для банков, 15% для телеком) – Самый безалаберный банк по отношению к клиентам - Сбербанк – В столице произошло дерзкое ограбление Сбербанка – Гребаный сбербанк 1. Реально сложные твиты: ирония и сарказм, сравнения – Сбербанк России – лучший в мире производитель пластиковых карточек для отскабливания льда от автомобиля – Нормально @sberbank зарабатывает - размен 5% от суммы • Большое различие между обучающей и тестовой выборкой=> – События на Украине привели к резкой смене тематики твитов в этих областях
  • 16. Новые подходы: комбинирование методов • Предварительное создание оценочных словарей – Вручную – Автоматически по большим текстовым коллекциям • Признаки для машинного обучения – Позитивное слово из словаря – Негативное слово из словаря – Общая количество оценок в твите и др. – => Снижение зависимости от обучающей выборки
  • 17. Вклад словарных ресурсов в результаты F-мера • Лучший участник (участник 2) – Кластеры слов, насчитанные на большой тестовой коллекции постов социальных сетей и комментариев к ним • 0.657 (ТКК), 0.588 (Банки) – Машинное обучение: нейронная сеть • Второй участник (участник 9) – Словарь РуСентиЛекс, автоматический словарь слов с коннотациями • 0.688 (ТКК), 0.55 (Банки) – Машинное обучение: SVM Участники с 3 и 4 лучшими результатами также связаны со словарем РуСентиЛекс
  • 18. Заключение • В докладе описан новый лексикон оценочных слов и выражений русского языка РуСентиЛекс. Данный лексикон был автоматизированно собран из нескольких источников • Особенности словаря • - для многозначных слов установлены отношения с понятиями тезауруса РуТез • - единицы лексикона расклассифицированы по четырем категориям тональности и трем источникам тональности (мнение, эмоция, факт) • Новый словарь был применен участниками в тестировании систем анализа тональности на русском языке SentiRuEval-2016 в комбинации с системами машинного обучения
  • 19. Адреса упомянутых ресурсов • Тезаурус РуТез – http://www.labinform.ru/pub/ruthes/index.htm • Словарь РуСентиЛекс – http://www.labinform.ru/pub/rusentilex/index.htm