SlideShare a Scribd company logo
1 of 12
Download to read offline
Дипломная работа

Автоматизированное формирование
  базы знаний для задачи анализа
             мнений

                    Четвёркин И.И. 524 гр.

                    Научный руководитель:
                   к.ф.-м.н. Лукашевич Н.В.
Задача анализа мнений
• Огромное количество отзывов о товарах и услугах
  в интернете

• Неожиданная развязка и новые герои делают
  этот фильм непохожим на предшественника.

• Для решения задачи анализа мнений необходимы
  дополнительные знания
  – Объекты обзоров
  – Атрибуты объекта
  – Оценочные слова и выражения

• Совокупность оценочных слов и выражений –
  важнейшая компонента базы знаний
Постановка задачи
• Выявить набор характеристик, позволяющих
  выделять оценочные слова из текстов мнений
  заданной предметной области

• Провести эксперименты по применению
  методов машинного обучения, на основании
  полученных характеристик, для
  классификации слов предметной области на
  оценочные и неоценочные слова

• Создать программную систему извлечения
  оценочных слов, по заданной коллекции
  мнений
Данные
• Для решения задачи выделения оценочных
  слов было подготовлено 4 корпуса
  – Корпус мнений (30 тысяч отзывов с
    пользовательскими оценками от 1 до 10)
  – Корпус описаний (20 тысяч описаний объектов)
  – Новостной корпус (1 млн. документов)
  – Малый корпус (составлен из частей корпуса
    мнений)
• Предварительная морфологическая обработка
  всех данных
• Слова разделяются на прилагательные и
  неприлагательные
Малый корпус
• Составные части
  – Предложения, заканчивающиеся на «!»
  – Предложения, заканчивающиеся на «…»
  – Короткие предложения не более, чем из 7 слов
  – Предложения, содержащие слово «фильм», без
    других существительных
  – Короткие отзывы, состоящие из одного
    предложения


• Размер малого корпуса примерно в 2.5 раза
  меньше, чем у корпуса мнений
Характеристики
• Для каждого слова вычисляется 18
  характеристик
  – Частотные (6 характеристик)
     • Частота слова во всем корпусе
     • Количество документов (отзывов), в которых встречается слово
     • Частота слов с большой буквы
  – По парам корпусов (10 характеристик)
     • TFIDF
     • «Странность»
  – Отклонение от средней оценки по корпусу
  – Существительные, связанные с «оценочными»
    прилагательными – потенциальные сущности и
    атрибуты
Оценка характеристик
• Лучшие показатели по количеству оценочных
  слов в первой тысяче по группам
  – Прилагательные
     • Частотные: 58.7%
     • По двум корпусам: 64%
     • Отклонение от средней оценки: 56.3%
  – Неприлагательные
     • Частотные: 21.4%
     • По двум корпусам: 41.7%
     • Отклонение от средней оценки: 30.6%
Машинное обучение
• Алгоритмы машинного обучения
  – Метод k ближайших соседей
  – «Наивный» Байесовский алгоритм
  – Нейронные сети (1,2,3 слоя)
  – Логистическая регрессия
  – Метод опорных векторов (скалярное и радиальное
    ядра)

• Оценка работы алгоритмов
  – F-мера
  – Количество оценочных слов, попавших в первую
    1000 слов, упорядоченных по байесовской
    «вероятности»
Сравнение методов
   Алгоритм       Прилагательные Неприлагательные
                    F     P1000     F     P1000
      kNN         67.17    66.3   34.59    36.6
 Наивный Байес    32.29    63.3   46.77    37.6
 Неиронная сеть   71.08    67.9   50.83    50.9
 Логистическая    68.09    69.1   49.58    49.6
      SVM         67.54    67.6   43.04    37.5

• Рост качества для прилагательных – на 8.28%,
  для неприлагательных – на 20.6%,по точности
  на первой тысяче слов (по сравнению со
  списками по характеристикам)
Архитектура системы
Выдача системы
добрый          понравиться
замечательный   пересматривать
великолепный    зацепить
потрясающий     однозначно
красивый        смешно
смешной         посмотреть
любимый         досмотреть
отличный        нравится
трогательный    затянутый
прекрасный      цеплять
Основные результаты
• Предложен набор из 18 характеристик,
  позволяющий выделять оценочные слова из текстов
  мнений заданной предметной области
• Проведены эксперименты по применению методов
  машинного обучения и выбраны алгоритмы
  логистической регрессии и нейронные сети для
  классификации слов
• Реализована программная система извлечения
  оценочных слов, по заданной коллекции мнений,
  на языке Питон
• Публикации:
   • Статья в Трудах Международной конференции по компьютерной
     лингвистике
     и интеллектуальным технологиям «Диалог-2010»
   • Тезисы в Трудах Международной конференции «Ломоносов-2010»

More Related Content

What's hot

Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)NLPseminar
 
Question Classification by Fedor Vityugin
Question Classification by Fedor VityuginQuestion Classification by Fedor Vityugin
Question Classification by Fedor VityuginFedor
 
07 автоматическое реферирование
07 автоматическое реферирование07 автоматическое реферирование
07 автоматическое реферированиеLidia Pivovarova
 
Системы аннотирования и реферирования
Системы аннотирования и реферированияСистемы аннотирования и реферирования
Системы аннотирования и реферированияArtem Lukanin
 
извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовYandex
 
Презентация
ПрезентацияПрезентация
Презентацияdfcbkmtdf
 
08 машинный перевод
08 машинный перевод08 машинный перевод
08 машинный переводLidia Pivovarova
 

What's hot (14)

Извлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстовИзвлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстов
 
Языконезависимое определение авторства текста на базе языковых моделей
Языконезависимое определение авторства текста на базе языковых моделейЯзыконезависимое определение авторства текста на базе языковых моделей
Языконезависимое определение авторства текста на базе языковых моделей
 
Комбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоименийКомбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоимений
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)
 
Муромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществМуромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществ
 
PressPortrets
PressPortretsPressPortrets
PressPortrets
 
Question Classification by Fedor Vityugin
Question Classification by Fedor VityuginQuestion Classification by Fedor Vityugin
Question Classification by Fedor Vityugin
 
Системы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератовСистемы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератов
 
07 автоматическое реферирование
07 автоматическое реферирование07 автоматическое реферирование
07 автоматическое реферирование
 
Системы аннотирования и реферирования
Системы аннотирования и реферированияСистемы аннотирования и реферирования
Системы аннотирования и реферирования
 
Информационный поиск. Методы оценки качества поиска. Эволюция результатов
Информационный поиск. Методы оценки качества поиска. Эволюция результатовИнформационный поиск. Методы оценки качества поиска. Эволюция результатов
Информационный поиск. Методы оценки качества поиска. Эволюция результатов
 
извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстов
 
Презентация
ПрезентацияПрезентация
Презентация
 
08 машинный перевод
08 машинный перевод08 машинный перевод
08 машинный перевод
 

Viewers also liked

Viewers also liked (20)

Извлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстовИзвлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстов
 
KEOD-2010
KEOD-2010KEOD-2010
KEOD-2010
 
Модули автоматической обработки текстов в проекте aot.ru
Модули автоматической обработки текстов в проекте aot.ruМодули автоматической обработки текстов в проекте aot.ru
Модули автоматической обработки текстов в проекте aot.ru
 
Программные средства поддержки словаря буквенных и морфемных паронимов
Программные средства поддержки словаря буквенных и морфемных паронимовПрограммные средства поддержки словаря буквенных и морфемных паронимов
Программные средства поддержки словаря буквенных и морфемных паронимов
 
рогова обзор средств поддержки обучения программированию
рогова обзор средств поддержки обучения программированиюрогова обзор средств поддержки обучения программированию
рогова обзор средств поддержки обучения программированию
 
Извлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусовИзвлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусов
 
смирнов Data mining
смирнов Data miningсмирнов Data mining
смирнов Data mining
 
бицоев сравнение систем анализа тональности на русском языке
бицоев сравнение систем анализа тональности на русском языкебицоев сравнение систем анализа тональности на русском языке
бицоев сравнение систем анализа тональности на русском языке
 
Интегрированная среда для языка Рефал
Интегрированная среда для языка РефалИнтегрированная среда для языка Рефал
Интегрированная среда для языка Рефал
 
Автоматическая коррекция ошибок сочетаемости слов в текстах на естественном я...
Автоматическая коррекция ошибок сочетаемости слов в текстах на естественном я...Автоматическая коррекция ошибок сочетаемости слов в текстах на естественном я...
Автоматическая коррекция ошибок сочетаемости слов в текстах на естественном я...
 
Проблемы автоматической рубрикации текстов
Проблемы автоматической рубрикации текстовПроблемы автоматической рубрикации текстов
Проблемы автоматической рубрикации текстов
 
Анализ игры “Судоку”
Анализ игры “Судоку”Анализ игры “Судоку”
Анализ игры “Судоку”
 
Фвтоматическая кластеризация значений многозначных слов
Фвтоматическая кластеризация значений многозначных словФвтоматическая кластеризация значений многозначных слов
Фвтоматическая кластеризация значений многозначных слов
 
Основные научные направления ИИ
Основные научные направления ИИОсновные научные направления ИИ
Основные научные направления ИИ
 
Методы автоматической классификации
Методы автоматической классификацииМетоды автоматической классификации
Методы автоматической классификации
 
Моделирование поведения взаимодействующих агентов в среде с ограничениями
Моделирование поведения взаимодействующих агентов в  среде с ограничениямиМоделирование поведения взаимодействующих агентов в  среде с ограничениями
Моделирование поведения взаимодействующих агентов в среде с ограничениями
 
Вопросно-ответный поиск
Вопросно-ответный поискВопросно-ответный поиск
Вопросно-ответный поиск
 
Автоматический анализ текста для аннотирования изображения
Автоматический анализ текста для аннотирования изображенияАвтоматический анализ текста для аннотирования изображения
Автоматический анализ текста для аннотирования изображения
 
Автоматическое составление обзорного реферата на основе кластеризации предлож...
Автоматическое составление обзорного реферата на основе кластеризации предлож...Автоматическое составление обзорного реферата на основе кластеризации предлож...
Автоматическое составление обзорного реферата на основе кластеризации предлож...
 
борисенкова методы визуализации для анализа зависящих от времени данных
борисенкова методы визуализации для анализа зависящих от времени данныхборисенкова методы визуализации для анализа зависящих от времени данных
борисенкова методы визуализации для анализа зависящих от времени данных
 

Similar to Автоматическое формирование базы знаний для задачи анализа мнений

"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУYandex
 
CV2011 Lecture 10. Image retrieval
CV2011 Lecture 10.  Image retrievalCV2011 Lecture 10.  Image retrieval
CV2011 Lecture 10. Image retrievalAnton Konushin
 
Ainl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAinl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAINL Conferences
 
Russir 2010 final
Russir 2010 finalRussir 2010 final
Russir 2010 finalyaevents
 
Ранжирование: от строчки кода до Матрикснета
Ранжирование:  от строчки кода до МатрикснетаРанжирование:  от строчки кода до Матрикснета
Ранжирование: от строчки кода до Матрикснетаyaevents
 
"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУYandex
 
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...GeeksLab Odessa
 
RuSSIR 2008. Как это было...
RuSSIR 2008. Как это было...RuSSIR 2008. Как это было...
RuSSIR 2008. Как это было...NLPseminar
 
машинное обучение и анализ данных
машинное обучение и анализ данныхмашинное обучение и анализ данных
машинное обучение и анализ данныхYandex
 
BBST courses. Стоит ли овчинка выделки?
BBST courses. Стоит ли овчинка выделки?BBST courses. Стоит ли овчинка выделки?
BBST courses. Стоит ли овчинка выделки?OdessaQA
 
Ontology and Text Alalize
Ontology and Text AlalizeOntology and Text Alalize
Ontology and Text AlalizeOchirov Tsyren
 

Similar to Автоматическое формирование базы знаний для задачи анализа мнений (20)

"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
 
CV2011 Lecture 10. Image retrieval
CV2011 Lecture 10.  Image retrievalCV2011 Lecture 10.  Image retrieval
CV2011 Lecture 10. Image retrieval
 
Evaluation in-nlp
Evaluation in-nlpEvaluation in-nlp
Evaluation in-nlp
 
Ainl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAinl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическая
 
Russir 2010 final
Russir 2010 finalRussir 2010 final
Russir 2010 final
 
Кластеризация русскоязычных текстов на основе латентно-семантического анализа
Кластеризация русскоязычных текстов на основе латентно-семантического анализаКластеризация русскоязычных текстов на основе латентно-семантического анализа
Кластеризация русскоязычных текстов на основе латентно-семантического анализа
 
OntoEd
OntoEdOntoEd
OntoEd
 
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
 
Ранжирование: от строчки кода до Матрикснета
Ранжирование:  от строчки кода до МатрикснетаРанжирование:  от строчки кода до Матрикснета
Ранжирование: от строчки кода до Матрикснета
 
Ruwikt
RuwiktRuwikt
Ruwikt
 
"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ
 
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
 
Авиком
АвикомАвиком
Авиком
 
Ageev
AgeevAgeev
Ageev
 
Перефразировщик текста
Перефразировщик текстаПерефразировщик текста
Перефразировщик текста
 
RuSSIR 2008. Как это было...
RuSSIR 2008. Как это было...RuSSIR 2008. Как это было...
RuSSIR 2008. Как это было...
 
машинное обучение и анализ данных
машинное обучение и анализ данныхмашинное обучение и анализ данных
машинное обучение и анализ данных
 
Экспертная система по конструированию и моделированию швейных изделий
Экспертная система по конструированию и моделированию швейных изделийЭкспертная система по конструированию и моделированию швейных изделий
Экспертная система по конструированию и моделированию швейных изделий
 
BBST courses. Стоит ли овчинка выделки?
BBST courses. Стоит ли овчинка выделки?BBST courses. Стоит ли овчинка выделки?
BBST courses. Стоит ли овчинка выделки?
 
Ontology and Text Alalize
Ontology and Text AlalizeOntology and Text Alalize
Ontology and Text Alalize
 

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (19)

Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
 
Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов
 
Лукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текстаЛукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текста
 
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
 
Сапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплениемСапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплением
 
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстовСмолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
 
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
 
Тодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAMLТодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAML
 
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
 
Савостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторингаСавостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторинга
 
Панфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их созданияПанфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их создания
 
Муромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеровМуромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеров
 
Баев Системы для обучения программированию
Баев Системы для обучения программированиюБаев Системы для обучения программированию
Баев Системы для обучения программированию
 
Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)
 
Тодуа. Методы разработки интерпретатора языка Рефал-2
Тодуа. Методы разработки интерпретатора языка Рефал-2Тодуа. Методы разработки интерпретатора языка Рефал-2
Тодуа. Методы разработки интерпретатора языка Рефал-2
 
курышев рекомендательные системы
курышев рекомендательные системыкурышев рекомендательные системы
курышев рекомендательные системы
 
куликов Sketch engine ord
куликов Sketch engine ordкуликов Sketch engine ord
куликов Sketch engine ord
 
кулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выраженийкулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выражений
 
иванов анализ речевых команд
иванов анализ речевых командиванов анализ речевых команд
иванов анализ речевых команд
 

Автоматическое формирование базы знаний для задачи анализа мнений

  • 1. Дипломная работа Автоматизированное формирование базы знаний для задачи анализа мнений Четвёркин И.И. 524 гр. Научный руководитель: к.ф.-м.н. Лукашевич Н.В.
  • 2. Задача анализа мнений • Огромное количество отзывов о товарах и услугах в интернете • Неожиданная развязка и новые герои делают этот фильм непохожим на предшественника. • Для решения задачи анализа мнений необходимы дополнительные знания – Объекты обзоров – Атрибуты объекта – Оценочные слова и выражения • Совокупность оценочных слов и выражений – важнейшая компонента базы знаний
  • 3. Постановка задачи • Выявить набор характеристик, позволяющих выделять оценочные слова из текстов мнений заданной предметной области • Провести эксперименты по применению методов машинного обучения, на основании полученных характеристик, для классификации слов предметной области на оценочные и неоценочные слова • Создать программную систему извлечения оценочных слов, по заданной коллекции мнений
  • 4. Данные • Для решения задачи выделения оценочных слов было подготовлено 4 корпуса – Корпус мнений (30 тысяч отзывов с пользовательскими оценками от 1 до 10) – Корпус описаний (20 тысяч описаний объектов) – Новостной корпус (1 млн. документов) – Малый корпус (составлен из частей корпуса мнений) • Предварительная морфологическая обработка всех данных • Слова разделяются на прилагательные и неприлагательные
  • 5. Малый корпус • Составные части – Предложения, заканчивающиеся на «!» – Предложения, заканчивающиеся на «…» – Короткие предложения не более, чем из 7 слов – Предложения, содержащие слово «фильм», без других существительных – Короткие отзывы, состоящие из одного предложения • Размер малого корпуса примерно в 2.5 раза меньше, чем у корпуса мнений
  • 6. Характеристики • Для каждого слова вычисляется 18 характеристик – Частотные (6 характеристик) • Частота слова во всем корпусе • Количество документов (отзывов), в которых встречается слово • Частота слов с большой буквы – По парам корпусов (10 характеристик) • TFIDF • «Странность» – Отклонение от средней оценки по корпусу – Существительные, связанные с «оценочными» прилагательными – потенциальные сущности и атрибуты
  • 7. Оценка характеристик • Лучшие показатели по количеству оценочных слов в первой тысяче по группам – Прилагательные • Частотные: 58.7% • По двум корпусам: 64% • Отклонение от средней оценки: 56.3% – Неприлагательные • Частотные: 21.4% • По двум корпусам: 41.7% • Отклонение от средней оценки: 30.6%
  • 8. Машинное обучение • Алгоритмы машинного обучения – Метод k ближайших соседей – «Наивный» Байесовский алгоритм – Нейронные сети (1,2,3 слоя) – Логистическая регрессия – Метод опорных векторов (скалярное и радиальное ядра) • Оценка работы алгоритмов – F-мера – Количество оценочных слов, попавших в первую 1000 слов, упорядоченных по байесовской «вероятности»
  • 9. Сравнение методов Алгоритм Прилагательные Неприлагательные F P1000 F P1000 kNN 67.17 66.3 34.59 36.6 Наивный Байес 32.29 63.3 46.77 37.6 Неиронная сеть 71.08 67.9 50.83 50.9 Логистическая 68.09 69.1 49.58 49.6 SVM 67.54 67.6 43.04 37.5 • Рост качества для прилагательных – на 8.28%, для неприлагательных – на 20.6%,по точности на первой тысяче слов (по сравнению со списками по характеристикам)
  • 11. Выдача системы добрый понравиться замечательный пересматривать великолепный зацепить потрясающий однозначно красивый смешно смешной посмотреть любимый досмотреть отличный нравится трогательный затянутый прекрасный цеплять
  • 12. Основные результаты • Предложен набор из 18 характеристик, позволяющий выделять оценочные слова из текстов мнений заданной предметной области • Проведены эксперименты по применению методов машинного обучения и выбраны алгоритмы логистической регрессии и нейронные сети для классификации слов • Реализована программная система извлечения оценочных слов, по заданной коллекции мнений, на языке Питон • Публикации: • Статья в Трудах Международной конференции по компьютерной лингвистике и интеллектуальным технологиям «Диалог-2010» • Тезисы в Трудах Международной конференции «Ломоносов-2010»