2. Содержание
●
Что такое анализ тональности?
●
История исследований
●
Соревнования ROMIP
–
Отзывы
–
Цитаты из новостей
–
Поиск релевантных запросов
3. Что такое анализ тональностей?
●
●
Анализ тональностей — определение, какую
эмоциональную окраску имеет исследуемый
текст.
Он может быть использован в целях
исследования популярности товаров, услуг,
политиков и т. д.
4. Что такое анализ тональностей?
●
В рамках этого задачи обычно выделяются
следующие подзадачи:
–
Измерение объективности текста
–
Определение полярности текста
(положительный, отрицательный)
–
Расширенной полярности (злой, расстроенный,
счастливый)
–
Поиск саркастических фраз
5. История исследований
●
●
Анализ тональностей новая, быстро
развивающаяся часть науки о обработке
естественных языков.
Хотя анализ тональностей для английского
языка довольно давно исследуется, для
русского языка таких исследований почти не
производилось до 2011 года.
6. История исследований
●
●
●
●
Впервые для русского языка данные исследования
проводились в рамках многоязычных программ
анализа тональностей.
В 2011 году была разработана система, умевшая
работать сразу с 6 языками, в том числе и русским.
[Steinberger et al., 2011]
Она содержала два словаря на английском (2400 слов)
и Испанском (1737 слов)
Эти слова переводились на целевой язык через Google
Translate, и пересечение таких переводов из обоих
словарей учитывалось при оценке текста на целевом
языке.
7. История исследований
●
●
За последнее время появились и
разработки, ориентированные на русский
язык.
В 2012 году был составлен словарь
оценочных слов для товаров и услуг
ProductSentiRus [Chetviorkin and
Loukachevitch, 2012]
8. История исследований
●
●
В 2011 году данная тематика была
рассмотрена на ROMIP (Russian Information
Retrieval Seminar)
В рамках этой конференции был проведен
сравнительный анализ систем определения
тональности текстов.
9. Соревнования в рамках ROMIP
●
Сравнение систем анализа тональностей
проводились по трем направлениям
–
Отзывы о товарах
–
Цитаты из новостей
–
Поиск релевантных оценочных статей по
запросу
10. Анализ отзывов от товарах
●
●
●
Была собрана тренировочная база отзывов с сайтов
imhonet.ru и market.yandex.ru
В ней находились отзывы о фильмах и книгах,
оцененные по 10-бальной шкале
И отзывы о цифровых камерах, оцененные по
5-бальной шкале.
●
Всего было около 50 тысяч отзывов
●
Пример отзыва:
–
«Девушка с татуировкой дракона» — фильм крутой, вы
чего. Недавно америкосами был экранизирован, правда
шведские книга и фильм круче.
11. Анализ отзывов о товарах
●
●
Для оценки качества участников была
собрана тестовая база отзывов с помощью
Yandex Blog Search
В этой базе оценки не были проставлены,
поэтому для определения точности для
части из тестовой базы были проставлены
оценки вручную.
12. Анализ отзывов о товарах
В каждой области задачей
участников было сопоставить
каждому отзыву оценку по
некоторой шкале.
● Использовались 3 шкалы отдельно:
2-х, 3-х и 5-ти классовая.
●
13. Анализ отзывов о товарах
●
Чтобы измерять качество анализа были
использованы следующие метрики:
–
Accuracy
●
–
Macro F-мера
●
–
Процент правильно поставленных оценок
Precision и recall считались в среднем из-за того, что в
выборке очень большой перекос в сторону положительных
отзывов
Для оценки по 5-ти классовой шкалы также
использовалось Еквлидово расстояние до правильной
оценки
14. Анализ отзывов о товарах
●
●
●
В 2011 году участвовало 17 команд,
сделавших более 200 запусков
В 2012 17 команд и более 150 запусков
В сводные таблицы попали лучшие по
F-measure и accuracy запуски
16. Анализ отзывов о товарах
●
●
●
Лучшие результаты были получены методом
SVM, с использованием словарей (набранных
вручную или полу-автоматически) или систем
семантических правил.
В итоге, средние значения accuracy для 2-х,
3-х и 5-ти классовых тестов равны
соответственно 90%, 75% и 50%.
Эти результаты сравнимы с аналогичными
для английского языка.
17. Анализ новостных цитат
●
●
●
В рамках анализа новостных цитат нужно было
проанализировать короткие тексты, являющиеся
прямой или косвенной речью, высказанной
политиками, актерами и т. д. в новостях.
Темы цитат были разнообразны: от политики и
экономики до спорта и культуры.
Пример цитаты:
–
«Посредством этих структур десяткам тысяч избирателей
предлагают деньги в обмен на паспортные данные и подписи
за какого-либо кандидата», — сказал Черненко.
18. Анализ новостных цитат
●
●
В процессе создания тренировочных
наборов все цитаты были вручную оценены
как «положительный», «отрицательные» и
«смешанные». Смешанных были удалены из
итогового набора, который в итоге стал
состоять из 4 тысяч цитат.
Тестовый набор имел размер 120 тысяч
цитат, но замеры точности проводились на
случайно выбранных 5 тысячах.
19. Анализ новостных цитат
●
●
Распределение оценок в выборках
оказалось более сбалансированных, чем
для отзывов. 40% отрицательных, 30%
положительных и 30% смешанных.
Для оценок были использованы
macro-Recall, macro-Precision и accuracy.
21. Анализ новостных цитат
●
●
●
Лучшие результаты были получены программами,
основанными на системах знаний.
Лучший результат был у системы знаний, включающей 15
тысяч негативных выражений, 7 тысяч позитивных, 200 так
называемых операторов (которые влияют на тональность
рядом стоящих слов)
Но также неплохие результаты показали системы правил,
имевшие маленькие словари, но большие наборы
семантических правил.
22. Анализ новостных цитат
●
Аналогичные исследования для английского
языка показывают значение accuracy 71%
при разделении на 2 класса, при значении
accuracy 61% для русского языка, но
разделение проводилось на 3 класса.
23. Поиск релевантных запросов
●
●
Третьей подзадачей было выделение среди
блогов, полученных поисковым запросом,
тех записей, в которых содержится
оценочное мнение о некотором объекте.
3 области поиска:
–
Книги
–
Фильмы
–
Цифровые камеры
25. Поиск релевантных запросов
Только один участник предоставил
свою программу.
● Поэтому организаторы реализовали
свой анализатор.
● В оценке они учитывали
характеристики TFIDF и веса слов в
словаре ProductSentiRus
●
26. Поиск релевантный запросов
●
Для замеров использовались метрики
Precision@N - количество релевантных
записей в первых n и NDCG@N
●
rel(i) — 1 если запрос релевантен и 0 иначе
●
IDCG — идеальный классификатор
28. Заключение
●
●
На данный момент анализ тональностей на
русском языке активно исследуется, есть
много рабочих прототипов программ,
решающих задачи нескольких типов.
Лучшие результаты, полученные в рамках
ROMIP 2012 и 2011 показывают, что системы
анализа для русского языка практически не
уступают аналогичным системам для других
языков, в частности Английского языка.
29. Литература
●
●
●
●
●
Josef Steinberger, Mohamed Ebrahim, Maud Ehrmann, Ali Hurriyetoglu, Mijail
Kabadjov, Polina Lenkova, Ralf Steinberger, Hristo Tanev, Silvia V ́ azquez, and Vanni
Zavarella. 2011. Creating sentiment dictionaries via triangulation. Decision Support
Systems, pages 28–36.
Ilia Chetviorkin and Natalia Loukachevitch. 2012. Extraction of russian sentiment
lexicon for product meta-domain. In Proceedings of COLING 2012, pages 593–610.
Evaluating Sentiment Analysis Systems in Russian. Ilia Chetviorkin and Natalia
Loukachevitch.
Ilia Chetviorkin, P Braslavskiy, and Natalia Loukachevich. 2012. Sentiment analysis
track at romip 2011. In Proceedings of International Conference Dialog, volume 2,
pages 1–14.
Ilia Chetviorkin and Natalia Loukachevich. 2013. Sentiment analysis track at romip
2012. In Proceed- ings of International Conference Dialog, volume 2, pages 40–50.