Извлечение мнений из
отзывов: простая стратегия,
которая работает

Татьяна Ерехинская



                     © Dictum Ltd. 2011
Мониторинг и анализ контента

 Измерить степень интереса аудитории
 Оценить эмоциональное восприятие
 объекта
 Получить фактическую информацию по
 свойствам объекта
 Отследить динамику изменения



                © Dictum Ltd. 2011     2 / 21
Постановка задачи
Входные данные:
 Текст с отзывом
 Объект оценки (продукт, персона,
 компания)
Выходные данные:
Оценка по шкале позитив-негатив, с
 разбивкой по темам


                   © Dictum Ltd. 2011   3 / 21
Пример


Хороший телефон, но дизайн слабоват


Телефон в целом: +5
Дизайн: -1.5
Итого: +3.5



                © Dictum Ltd. 2011    4 / 21
Семантические отношения
 Хороший телефон
 Ноутбук глючит
 Кнопка работает плохо
 Восхищен дизайном
 Экран – отстой
 Разочаровался в этой софтине


                  © Dictum Ltd. 2011   5 / 21
Отношения vs зависимости

            могу


                       сказать



       Об                               хорошее



         телефоне               только


       этом

                   © Dictum Ltd. 2011             6 / 21
Термины
 Параметры (без эмоциональной окраски)
  Функции (работать, звонить)
  Составные части объекта оценки (экран)
  Свойства объекта оценки (дизайн,
  надежность)
 Характеристики
  Позитив (хороший, удобно, преимущество)
  Негатив (отстой, глючить)


                  © Dictum Ltd. 2011        7 / 21
Рубрики




          © Dictum Ltd. 2011   8 / 21
Характеристики-перевертыши


 Быстрая зарядка
 Быстрая разрядка


⇒ Служебные рубрики для ограничения
 «области видимости»



                © Dictum Ltd. 2011    9 / 21
Вычисление весов

Хороший/плохой ±5
Суперский/отстойный ±7

W=C×K
C − вес характеристики, ∈{-7,-5,5,7}
K − вес рубрики (1 для всего объекта,
    меньше 1 для отдельных рубрик)


                  © Dictum Ltd. 2011    10 / 21
Отрицания и усилители

 Не красивый / некрасивый
 Нет глюков, без глюков
 Ни единого глюка, ничего хорошего
 Очень хороший, чуть-чуть глючит
W = C × K × I × (-1)N
N – количество отрицаний
I – коэффициент усиления
                   © Dictum Ltd. 2011   11 / 21
Усиление + отрицание

Усиление отрицания
 Очень не понравился                 -7,5
 Почти не работает                   -2,5
Отрицание усиления
 Не очень понравился                  -1,5
 Не совсем подходящий                 +0,5


                © Dictum Ltd. 2011           12 / 21
Оценочные структуры
Дерево зависимостей → граф терминов
Выделяем компоненты связности
Для каждой компоненты связности при
 необходимости разделяем однородные
 члены (тормозной и глючный девайс)




                © Dictum Ltd. 2011    13 / 21
Сложные случаи
 Глагольное отрицание
Исправили глюки
 Сравнительные конструкции
А лучше Б
А хуже Б
 Контекстное отрицание
Я не согласен, что …

                  © Dictum Ltd. 2011   14 / 21
Схема обработки
 Графематика: деление на слова и
 предложения
 Исправление опечаток
 Морфологический анализ
 Синтаксический анализ
 Разрешение анафор



                © Dictum Ltd. 2011   15 / 21
Графематика
 Разбиение входного текста на токены по
 типу символов (литеральные, пробельные,
 пунктуационные, конец предложения)
 Склейка хитрых токенов: бело-розовый,
 5.5, X-43.
 Разделение на предложения: по символам
 конца предложения или по токенам,
 обозначающим начало предложения (не
 имя собственное с большой буквы)
                © Dictum Ltd. 2011       16 / 21
Исправление опечаток


Интеграция с синтаксическим анализом


         Мне нравиться телфон
         Мне нравится телефон




                © Dictum Ltd. 2011     17 / 21
Восстановление анафор
Купил телефон. Уже разочаровался в нем.
 Поиск влево в пределах двух предложений
 подходящих сущ., с учетом согласования
 по роду и числу
 Ранжирование: частота встречаемости в
 отзыве, наличие предка-глагола,
 количество вершин в поддереве СА,
 расстояние в токенах от антецедента


                © Dictum Ltd. 2011       18 / 21
Пример


  Проблем с неразборчивостью моей речи
или речи собеседника, недостаточностью
громкости динамиков или искажениями
звукового ряда не обнаружено.




               © Dictum Ltd. 2011    19 / 21
Компания «Диктум»


 Избавляем от синтаксической
         зависимости
     Вносим гармонию в
   семантические отношения


           © Dictum Ltd. 2011   20 / 21
Контакты

Адрес:
603000 Россия, Нижний Новгород,
ул.Короленко, 19Б, оф.216
Тел (факс): +7 (831) 202-16-04
e-mail: oka@dictum.ru
web: www.dictum.ru
Skype: vladimir.okatiev

               © Dictum Ltd. 2011   21 / 21

Ерехинская диктум извлечение мнений

  • 1.
    Извлечение мнений из отзывов:простая стратегия, которая работает Татьяна Ерехинская © Dictum Ltd. 2011
  • 2.
    Мониторинг и анализконтента Измерить степень интереса аудитории Оценить эмоциональное восприятие объекта Получить фактическую информацию по свойствам объекта Отследить динамику изменения © Dictum Ltd. 2011 2 / 21
  • 3.
    Постановка задачи Входные данные: Текст с отзывом Объект оценки (продукт, персона, компания) Выходные данные: Оценка по шкале позитив-негатив, с разбивкой по темам © Dictum Ltd. 2011 3 / 21
  • 4.
    Пример Хороший телефон, нодизайн слабоват Телефон в целом: +5 Дизайн: -1.5 Итого: +3.5 © Dictum Ltd. 2011 4 / 21
  • 5.
    Семантические отношения Хорошийтелефон Ноутбук глючит Кнопка работает плохо Восхищен дизайном Экран – отстой Разочаровался в этой софтине © Dictum Ltd. 2011 5 / 21
  • 6.
    Отношения vs зависимости могу сказать Об хорошее телефоне только этом © Dictum Ltd. 2011 6 / 21
  • 7.
    Термины Параметры (безэмоциональной окраски) Функции (работать, звонить) Составные части объекта оценки (экран) Свойства объекта оценки (дизайн, надежность) Характеристики Позитив (хороший, удобно, преимущество) Негатив (отстой, глючить) © Dictum Ltd. 2011 7 / 21
  • 8.
    Рубрики © Dictum Ltd. 2011 8 / 21
  • 9.
    Характеристики-перевертыши Быстрая зарядка Быстрая разрядка ⇒ Служебные рубрики для ограничения «области видимости» © Dictum Ltd. 2011 9 / 21
  • 10.
    Вычисление весов Хороший/плохой ±5 Суперский/отстойный±7 W=C×K C − вес характеристики, ∈{-7,-5,5,7} K − вес рубрики (1 для всего объекта, меньше 1 для отдельных рубрик) © Dictum Ltd. 2011 10 / 21
  • 11.
    Отрицания и усилители Не красивый / некрасивый Нет глюков, без глюков Ни единого глюка, ничего хорошего Очень хороший, чуть-чуть глючит W = C × K × I × (-1)N N – количество отрицаний I – коэффициент усиления © Dictum Ltd. 2011 11 / 21
  • 12.
    Усиление + отрицание Усилениеотрицания Очень не понравился -7,5 Почти не работает -2,5 Отрицание усиления Не очень понравился -1,5 Не совсем подходящий +0,5 © Dictum Ltd. 2011 12 / 21
  • 13.
    Оценочные структуры Дерево зависимостей→ граф терминов Выделяем компоненты связности Для каждой компоненты связности при необходимости разделяем однородные члены (тормозной и глючный девайс) © Dictum Ltd. 2011 13 / 21
  • 14.
    Сложные случаи Глагольноеотрицание Исправили глюки Сравнительные конструкции А лучше Б А хуже Б Контекстное отрицание Я не согласен, что … © Dictum Ltd. 2011 14 / 21
  • 15.
    Схема обработки Графематика:деление на слова и предложения Исправление опечаток Морфологический анализ Синтаксический анализ Разрешение анафор © Dictum Ltd. 2011 15 / 21
  • 16.
    Графематика Разбиение входноготекста на токены по типу символов (литеральные, пробельные, пунктуационные, конец предложения) Склейка хитрых токенов: бело-розовый, 5.5, X-43. Разделение на предложения: по символам конца предложения или по токенам, обозначающим начало предложения (не имя собственное с большой буквы) © Dictum Ltd. 2011 16 / 21
  • 17.
    Исправление опечаток Интеграция ссинтаксическим анализом Мне нравиться телфон Мне нравится телефон © Dictum Ltd. 2011 17 / 21
  • 18.
    Восстановление анафор Купил телефон.Уже разочаровался в нем. Поиск влево в пределах двух предложений подходящих сущ., с учетом согласования по роду и числу Ранжирование: частота встречаемости в отзыве, наличие предка-глагола, количество вершин в поддереве СА, расстояние в токенах от антецедента © Dictum Ltd. 2011 18 / 21
  • 19.
    Пример Проблемс неразборчивостью моей речи или речи собеседника, недостаточностью громкости динамиков или искажениями звукового ряда не обнаружено. © Dictum Ltd. 2011 19 / 21
  • 20.
    Компания «Диктум» Избавляемот синтаксической зависимости Вносим гармонию в семантические отношения © Dictum Ltd. 2011 20 / 21
  • 21.
    Контакты Адрес: 603000 Россия, НижнийНовгород, ул.Короленко, 19Б, оф.216 Тел (факс): +7 (831) 202-16-04 e-mail: oka@dictum.ru web: www.dictum.ru Skype: vladimir.okatiev © Dictum Ltd. 2011 21 / 21