SlideShare a Scribd company logo
1 of 40
Download to read offline
Оценка систем
обработки текста
Александр Тарелкин
Руководитель группы инструментов оценки
качества (служба исправления опечаток)
Цели доклада

• Заинтересовать проблемой;
• Побудить к самостоятельному проведению
оценки;
• Подтолкнуть к изучению оценок других;
• Познакомить с основами.
Самостоятельная работа

• Поискать «natural language processing
evaluation»
• B. Krenn & C. Samuelsson. Don’t Panic:
The Linguist’s Guide to Statistics, 1997
• D. Santos. Evaluation in Natural Language
Processing, ESSLLI 2007
Краткий план
Что такое оценка?
Основные метрики
Корпусы

Человеческий фактор
Всякое
Краткий план
Что такое оценка?
Основные метрики
Корпусы

Человеческий фактор
Всякое
Evaluation is a systematic determination of a subject's
merit, worth and significance, using criteria governed by
a set of standards.
Wikipedia, Evaluation
Что такое оценка?

Что важно:
– Не только отображение на числовую шкалу
– Систематический подход
– Критерии, определяемые стандартами
Нужно для измерения качества системы
Что такое оценка?

Кому нужна:
– разработчикам
– инвесторам, владельцам бизнеса
– клиентам
– всему сообществу
Что такое оценка?

Важно: оценка отражает не абстрактное
качество, а результат измерения
при решении конкретной задачи.
Что такое оценка?

Поэтому нам интересен не только способ
вычисления, но и поставленная
при измерении задача.
Что такое оценка? Кстати
Квалиметрия, ГОСТ 15467-79 «Качество продукции. Термины»:
1) КАЧЕСТВО ПРОДУКЦИИ (УСЛУГИ) - совокупность свойств продукции
(услуги), обуславливающих ее пригодность удовлетворять
определенные потребности в соответствии с ее назначением.
2) СВОЙСТВО ПРОДУКЦИИ (УСЛУГИ) - объективная особенность
продукции (услуги), проявляющаяся при ее создании, эксплуатации,
использовании по назначению или потреблении (оказание услуги).
Например: точность, надежность, своевременная поставка и т.д.
Для объективной оценки качества объекта необходимо
охарактеризовать его свойства количественно. Для этого:
3) ПОКАЗАТЕЛЬ КАЧЕСТВА - количественная характеристика свойства
объекта, входящего в состав его качества и рассматриваемая
применительно к определенным условиям жизненного цикла объекта.
...
Что такое оценка?
Что можно оценивать:
– выполнение основной функции
– скорость работы
– потребление системных ресурсов
– удобство использования
– ошибкоустойчивость
и многое другое.
Краткий план
Что такое оценка?
Основные метрики
Корпусы

Человеческий фактор
Всякое
Основные метрики

Дано:
– классификатор документов
– тестовая выборка
– документы сопоставлены классам
Соотнесем ответы системы с правильными
значениями
Основные метрики
P
accuracy 
N
P — число документов, по которым
классификатор принял правильное решение
N — размер тестовой выборки
Недостатки: плохо работает, если
распределение классов неравномерно.
Основные метрики
Точность (precision) — доля правильно
отнесенных к классу документов
относительно всех документов, отнесенных
системой к данному классу.
Полнота (recall) — доля правильно
отнесенных к классу документов
относительно всех документов данного
класса.
Основные метрики
Таблица контингентности
Класс N

Экспертная оценка
положительная
положительная

True Positive

False Positive

отрицательная

Оценка системы

отрицательная

False Negative

True Negative

TP
precision 
TP  FP
TP
recall 
TP  FN
Релевантные точки
находятся слева от прямой,
а найденные системой —
в овале.
Wikipedia, Информационный поиск
Основные метрики

Матрица неточностей (confusion matrix)
– http://en.wikipedia.org/wiki/Confusion_matrix
– http://bazhenov.me/blog/2012/07/21/classification-performanceevaluation.html#confusion-matrix
Основные метрики

F-мера

precision  recall
F 2
precision  recall
Основные метрики

Пусть классификатор не просто
классифицирует, а возвращает ответ, если
документ принадлежит классу.
Например, исправление опечаток в
пользовательских запросах.
Основные метрики

TP => COR (correct, верные) + PAR (partial,
частично-верные) + INC (incorrect, неверные,
плохие)
FN => MIS (missing, отсутствующие)
FP => SPU (spurious, ложные)
TN => NON (noncommittal, неопределенные)
Основные метрики

COR  0.5PAR
recall 
COR  PAR  INC  MIS
COR  0.5PAR
precision 
COR  PAR  INC  SPU
Основные метрики
Пусть, у нас есть такие результаты для прогона нашей системы:
COR = 30, PAR = 10, INC = 5, MIS = 5, SPU = 15, NON = 100
Посчитаем полноту и точность того, как наша система исправляет
опечатки в запросах.
P = (30 + 0.5 * 10) / (30 + 10 + 5 + 15) = 0.58 = 58%
R = (30 + 0.5 * 10) / (30 + 10 + 5 + 5) = 0.7 = 70%
А теперь посчитаем полноту и точность того, как наша система
классифицирует, содержит ли запрос опечатки или нет.
P = (30 + 10 + 5) / (30 + 10 + 5 + 15) = 0.75 = 75%
R = (30 + 10 + 5) / (30 + 10 + 5 + 5) = 0.9 = 90%
Основные метрики

Мораль: четко следить за тем, какую задачу
ставит перед собой исследователь и что
конкретно он считает.
Основные метрики

Функция сравнения ответа и эталона:
– капитализация (А, а)
– равны ли «ё» и «е»
– равны ли «ä» и «a»
– равны ли u00e4 и au0308
– пунктуация
Краткий план
Что такое оценка?
Основные метрики
Корпусы

Человеческий фактор
Всякое
Корпусы
– НКРЯ — современные письменные тексты (XX—XXI вв.) и ранние
тексты (XVIII—XX вв.), морфологическая разметка (6 млн слов),
синтаксическая разметка (> 350 тыс слов), параллельные корпусы (en-ru,
de-ru, fr-ru, etc.).
– Открытый корпус — публицистика, блоги, художественная литература;
морфологическая разметка (>16 тыс из 1,5 млн слов).
– Англо-русский параллельный корпус Яндекса — собран по интернету
(1 млн пар параллельных предложений).

Другие ресурсы:
– http://nlpub.ru/Ресурсы
– http://statmt.org/wmt13/
Корпусы
• По типу содержимого:
– сбалансированные — состоят из текстов
разных жанров, предполагается, что
распределение текстов соответствует
таковому в языке (?!)
– пирамидальные — какие-то жанры
представлены более значительно, какие-то
менее
– случайные (opportunistic) — что было
доступно
Корпусы

• По аннотированности:
– неразмеченные
– с морфологической разметкой (PoStagged)
– с синтаксической разметкой (treebanks)
– лингвистически-интерепретированные
Корпусы
• Тестовые наборы:
– искусственные
– ограниченные
– содержат материал для хороших и
ложных срабатываний
• Корпусы:
– естественный контекст
– все разнообразие языка
– реалистичные относительные частоты
явлений
Корпусы
Беликов и др. Корпус как язык: от масштабируемости
к дифференциальной полноте, Dialog 2013
Описывает частые заблуждения при работе с корпусами.
Например, как данные о какой-то конструкции, полученные на каком-то
корпусе обобщаются до суждений о приоритете данной конструкции
в языке в целом.

Важные вопросы, часто остающиеся без внимания:
– сравнение данных по числу вхождений, документов и авторов;
– анализ временной динамики
– анализ распределения результатов по типам источников;
– наличие дублетов и иных систематических факторов, накручивающих
счетчики.
Корпусы

Тем не менее, состав корпусов часто
определяется узким контекстом применения
системы. То есть данные можно взять
у заказчика или собрать из доступных
источников.
Краткий план
Что такое оценка?
Основные метрики
Корпусы

Человеческий фактор
Всякое
Человеческий фактор

– системы обработки языка делаются для того, чтобы удовлетворять
нужды людей
– оценивать качество системы в результате будут все равно люди
– часто нет единственно верного решения (как правильно, блогер или
блоггер, Barbara Straisand или Barbra Straisand)
– человеку свойственно ошибаться (два сапога - множественное число
или единственное?)
– оценивают люди, и у людей могут быть разные мнения
– люди меняются
Человеческий фактор

Про мнения:
– внутреннее состояние оценивающего: предубеждения, компетенция,
усталость и т.д.
– системе нет смысла быть правой, если никто из пользователей этой
точки зрения не придерживается
– важно уметь сравнивать несколько мнений:
– согласованность асессоров (inter-rator agreement)
– внутриклассовая корреляция (intraclass correlation)
– однако согласованность нескольких асессоров не всегда важна (если
задача адаптируется под человека)
Краткий план
Что такое оценка?
Основные метрики
Корпусы

Человеческий фактор
Всякое
Всякое
Александр Тарелкин
Руководитель группы
инструментов оценки
качества (служба
исправления опечаток)
alexander.tarelkin@gmail.com

More Related Content

Viewers also liked

Norway PowerPoint Content
Norway PowerPoint Content Norway PowerPoint Content
Norway PowerPoint Content Andrew Schwartz
 
eVize 2007 - Přístupnost webových stránek
eVize 2007 - Přístupnost webových stránekeVize 2007 - Přístupnost webových stránek
eVize 2007 - Přístupnost webových stránekEquica
 
Pädevuste rakendamine
Pädevuste rakendaminePädevuste rakendamine
Pädevuste rakendaminekiq
 
爱是什么(自动播放)
爱是什么(自动播放)爱是什么(自动播放)
爱是什么(自动播放)liuruifeng
 
Saying Good-bye to Cambridge Again劍橋與牛津
Saying Good-bye to Cambridge Again劍橋與牛津Saying Good-bye to Cambridge Again劍橋與牛津
Saying Good-bye to Cambridge Again劍橋與牛津nonnon
 
A C E I 2008 Math Manipulatives 2003
A C E I 2008  Math  Manipulatives 2003A C E I 2008  Math  Manipulatives 2003
A C E I 2008 Math Manipulatives 2003ricmac25
 
Ontologies for Information Extraction
Ontologies for Information ExtractionOntologies for Information Extraction
Ontologies for Information ExtractionLidia Pivovarova
 
Ria2010 - keynote - Evolution des RIA d'Entreprise
Ria2010 - keynote - Evolution des RIA d'EntrepriseRia2010 - keynote - Evolution des RIA d'Entreprise
Ria2010 - keynote - Evolution des RIA d'EntrepriseMichael Chaize
 
Flex 4.5 and mobile development
Flex 4.5 and mobile developmentFlex 4.5 and mobile development
Flex 4.5 and mobile developmentMichael Chaize
 
S U P P L I C A T I O N S
S U P P L I C A T I O N SS U P P L I C A T I O N S
S U P P L I C A T I O N SZAKIR
 
Expansion of Information Extraction System to the Russian language
Expansion of Information Extraction System to the Russian languageExpansion of Information Extraction System to the Russian language
Expansion of Information Extraction System to the Russian languageLidia Pivovarova
 

Viewers also liked (16)

Norway PowerPoint Content
Norway PowerPoint Content Norway PowerPoint Content
Norway PowerPoint Content
 
eVize 2007 - Přístupnost webových stránek
eVize 2007 - Přístupnost webových stránekeVize 2007 - Přístupnost webových stránek
eVize 2007 - Přístupnost webových stránek
 
Aapt 2010
Aapt 2010Aapt 2010
Aapt 2010
 
Pädevuste rakendamine
Pädevuste rakendaminePädevuste rakendamine
Pädevuste rakendamine
 
爱是什么(自动播放)
爱是什么(自动播放)爱是什么(自动播放)
爱是什么(自动播放)
 
Tatorii
TatoriiTatorii
Tatorii
 
Saying Good-bye to Cambridge Again劍橋與牛津
Saying Good-bye to Cambridge Again劍橋與牛津Saying Good-bye to Cambridge Again劍橋與牛津
Saying Good-bye to Cambridge Again劍橋與牛津
 
Dolls
DollsDolls
Dolls
 
A C E I 2008 Math Manipulatives 2003
A C E I 2008  Math  Manipulatives 2003A C E I 2008  Math  Manipulatives 2003
A C E I 2008 Math Manipulatives 2003
 
大家行01
大家行01大家行01
大家行01
 
Ontologies for Information Extraction
Ontologies for Information ExtractionOntologies for Information Extraction
Ontologies for Information Extraction
 
Ria2010 - keynote - Evolution des RIA d'Entreprise
Ria2010 - keynote - Evolution des RIA d'EntrepriseRia2010 - keynote - Evolution des RIA d'Entreprise
Ria2010 - keynote - Evolution des RIA d'Entreprise
 
Flex 4.5 and mobile development
Flex 4.5 and mobile developmentFlex 4.5 and mobile development
Flex 4.5 and mobile development
 
S U P P L I C A T I O N S
S U P P L I C A T I O N SS U P P L I C A T I O N S
S U P P L I C A T I O N S
 
Lou Tulga Transaction Brokerage in NM real estate
Lou Tulga Transaction Brokerage in NM real estateLou Tulga Transaction Brokerage in NM real estate
Lou Tulga Transaction Brokerage in NM real estate
 
Expansion of Information Extraction System to the Russian language
Expansion of Information Extraction System to the Russian languageExpansion of Information Extraction System to the Russian language
Expansion of Information Extraction System to the Russian language
 

Similar to Evaluation in-nlp

Оценка эффективности работы аналитика
Оценка эффективности работы аналитикаОценка эффективности работы аналитика
Оценка эффективности работы аналитикаSQALab
 
Системный анализ - зачем?
Системный анализ - зачем?Системный анализ - зачем?
Системный анализ - зачем?Vladimir Kalenov
 
Н. Желнова "Оценка эффективности работы аналитика", DUMP-2014
Н. Желнова "Оценка эффективности работы аналитика", DUMP-2014Н. Желнова "Оценка эффективности работы аналитика", DUMP-2014
Н. Желнова "Оценка эффективности работы аналитика", DUMP-2014it-people
 
Метрики автоматизированного тестирования на пальцах
Метрики автоматизированного тестирования на пальцахМетрики автоматизированного тестирования на пальцах
Метрики автоматизированного тестирования на пальцахSQALab
 
Задачи системного аналитика (конспект лекций Школы системного анализа)
Задачи системного аналитика (конспект лекций Школы системного анализа)Задачи системного аналитика (конспект лекций Школы системного анализа)
Задачи системного аналитика (конспект лекций Школы системного анализа)Anton Konstantinov
 
Алексей Колосов
Алексей Колосов Алексей Колосов
Алексей Колосов Lidia Pivovarova
 
Project Management 2.0: AI Transformation
Project Management 2.0: AI TransformationProject Management 2.0: AI Transformation
Project Management 2.0: AI TransformationEduard Tyantov
 
20120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-0420120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-04Computer Science Club
 
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозированияПрогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозированияGleb Zakhodiakin
 
MainPrincipProcessModeling_RZD.pptx
MainPrincipProcessModeling_RZD.pptxMainPrincipProcessModeling_RZD.pptx
MainPrincipProcessModeling_RZD.pptxKama74
 
Федор Романенко - "Ранжирование: от строчки кода до Матрикснета"
Федор Романенко - "Ранжирование: от строчки кода до Матрикснета"Федор Романенко - "Ранжирование: от строчки кода до Матрикснета"
Федор Романенко - "Ранжирование: от строчки кода до Матрикснета"Rostislav Shorgin
 
Tq Metric Compared Sep2009
Tq Metric Compared Sep2009Tq Metric Compared Sep2009
Tq Metric Compared Sep2009Denis Khamin
 
Надежный тест-дизайн
Надежный тест-дизайнНадежный тест-дизайн
Надежный тест-дизайнSQALab
 
Эффективное взаимодействие тестировщика и аналитика
Эффективное взаимодействие тестировщика и аналитикаЭффективное взаимодействие тестировщика и аналитика
Эффективное взаимодействие тестировщика и аналитикаSQALab
 

Similar to Evaluation in-nlp (20)

Analyst Days 2014
Analyst Days 2014Analyst Days 2014
Analyst Days 2014
 
Оценка эффективности работы аналитика
Оценка эффективности работы аналитикаОценка эффективности работы аналитика
Оценка эффективности работы аналитика
 
Системный анализ - зачем?
Системный анализ - зачем?Системный анализ - зачем?
Системный анализ - зачем?
 
Системы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератовСистемы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератов
 
Авиком
АвикомАвиком
Авиком
 
Н. Желнова "Оценка эффективности работы аналитика", DUMP-2014
Н. Желнова "Оценка эффективности работы аналитика", DUMP-2014Н. Желнова "Оценка эффективности работы аналитика", DUMP-2014
Н. Желнова "Оценка эффективности работы аналитика", DUMP-2014
 
Информационный поиск. Методы оценки качества поиска. Эволюция результатов
Информационный поиск. Методы оценки качества поиска. Эволюция результатовИнформационный поиск. Методы оценки качества поиска. Эволюция результатов
Информационный поиск. Методы оценки качества поиска. Эволюция результатов
 
Метрики автоматизированного тестирования на пальцах
Метрики автоматизированного тестирования на пальцахМетрики автоматизированного тестирования на пальцах
Метрики автоматизированного тестирования на пальцах
 
Задачи системного аналитика (конспект лекций Школы системного анализа)
Задачи системного аналитика (конспект лекций Школы системного анализа)Задачи системного аналитика (конспект лекций Школы системного анализа)
Задачи системного аналитика (конспект лекций Школы системного анализа)
 
IT people
IT peopleIT people
IT people
 
Алексей Колосов
Алексей Колосов Алексей Колосов
Алексей Колосов
 
Project Management 2.0: AI Transformation
Project Management 2.0: AI TransformationProject Management 2.0: AI Transformation
Project Management 2.0: AI Transformation
 
20120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-0420120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-04
 
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозированияПрогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
 
Автоматическое формирование базы знаний для задачи анализа мнений
Автоматическое формирование базы знаний для задачи анализа мненийАвтоматическое формирование базы знаний для задачи анализа мнений
Автоматическое формирование базы знаний для задачи анализа мнений
 
MainPrincipProcessModeling_RZD.pptx
MainPrincipProcessModeling_RZD.pptxMainPrincipProcessModeling_RZD.pptx
MainPrincipProcessModeling_RZD.pptx
 
Федор Романенко - "Ранжирование: от строчки кода до Матрикснета"
Федор Романенко - "Ранжирование: от строчки кода до Матрикснета"Федор Романенко - "Ранжирование: от строчки кода до Матрикснета"
Федор Романенко - "Ранжирование: от строчки кода до Матрикснета"
 
Tq Metric Compared Sep2009
Tq Metric Compared Sep2009Tq Metric Compared Sep2009
Tq Metric Compared Sep2009
 
Надежный тест-дизайн
Надежный тест-дизайнНадежный тест-дизайн
Надежный тест-дизайн
 
Эффективное взаимодействие тестировщика и аналитика
Эффективное взаимодействие тестировщика и аналитикаЭффективное взаимодействие тестировщика и аналитика
Эффективное взаимодействие тестировщика и аналитика
 

More from Lidia Pivovarova

Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...Lidia Pivovarova
 
Convolutional neural networks for text classification
Convolutional neural networks for text classificationConvolutional neural networks for text classification
Convolutional neural networks for text classificationLidia Pivovarova
 
Grouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entitiesGrouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entitiesLidia Pivovarova
 
Интеллектуальный анализ текста
Интеллектуальный анализ текстаИнтеллектуальный анализ текста
Интеллектуальный анализ текстаLidia Pivovarova
 
AINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, MaksimovAINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, MaksimovLidia Pivovarova
 
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...Lidia Pivovarova
 
AINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, SelegeyAINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, SelegeyLidia Pivovarova
 

More from Lidia Pivovarova (20)

Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...
 
Convolutional neural networks for text classification
Convolutional neural networks for text classificationConvolutional neural networks for text classification
Convolutional neural networks for text classification
 
Grouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entitiesGrouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entities
 
Интеллектуальный анализ текста
Интеллектуальный анализ текстаИнтеллектуальный анализ текста
Интеллектуальный анализ текста
 
AINL 2016: Yagunova
AINL 2016: YagunovaAINL 2016: Yagunova
AINL 2016: Yagunova
 
AINL 2016: Kuznetsova
AINL 2016: KuznetsovaAINL 2016: Kuznetsova
AINL 2016: Kuznetsova
 
AINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, MaksimovAINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, Maksimov
 
AINL 2016: Boldyreva
AINL 2016: BoldyrevaAINL 2016: Boldyreva
AINL 2016: Boldyreva
 
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
 
AINL 2016: Kozerenko
AINL 2016: Kozerenko AINL 2016: Kozerenko
AINL 2016: Kozerenko
 
AINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, SelegeyAINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, Selegey
 
AINL 2016: Khudobakhshov
AINL 2016: KhudobakhshovAINL 2016: Khudobakhshov
AINL 2016: Khudobakhshov
 
AINL 2016: Proncheva
AINL 2016: PronchevaAINL 2016: Proncheva
AINL 2016: Proncheva
 
AINL 2016:
AINL 2016: AINL 2016:
AINL 2016:
 
AINL 2016: Bugaychenko
AINL 2016: BugaychenkoAINL 2016: Bugaychenko
AINL 2016: Bugaychenko
 
AINL 2016: Grigorieva
AINL 2016: GrigorievaAINL 2016: Grigorieva
AINL 2016: Grigorieva
 
AINL 2016: Muravyov
AINL 2016: MuravyovAINL 2016: Muravyov
AINL 2016: Muravyov
 
AINL 2016: Just AI
AINL 2016: Just AIAINL 2016: Just AI
AINL 2016: Just AI
 
AINL 2016: Moskvichev
AINL 2016: MoskvichevAINL 2016: Moskvichev
AINL 2016: Moskvichev
 
AINL 2016: Goncharov
AINL 2016: GoncharovAINL 2016: Goncharov
AINL 2016: Goncharov
 

Evaluation in-nlp

  • 1.
  • 2. Оценка систем обработки текста Александр Тарелкин Руководитель группы инструментов оценки качества (служба исправления опечаток)
  • 3. Цели доклада • Заинтересовать проблемой; • Побудить к самостоятельному проведению оценки; • Подтолкнуть к изучению оценок других; • Познакомить с основами.
  • 4. Самостоятельная работа • Поискать «natural language processing evaluation» • B. Krenn & C. Samuelsson. Don’t Panic: The Linguist’s Guide to Statistics, 1997 • D. Santos. Evaluation in Natural Language Processing, ESSLLI 2007
  • 5. Краткий план Что такое оценка? Основные метрики Корпусы Человеческий фактор Всякое
  • 6. Краткий план Что такое оценка? Основные метрики Корпусы Человеческий фактор Всякое
  • 7. Evaluation is a systematic determination of a subject's merit, worth and significance, using criteria governed by a set of standards. Wikipedia, Evaluation
  • 8. Что такое оценка? Что важно: – Не только отображение на числовую шкалу – Систематический подход – Критерии, определяемые стандартами Нужно для измерения качества системы
  • 9. Что такое оценка? Кому нужна: – разработчикам – инвесторам, владельцам бизнеса – клиентам – всему сообществу
  • 10. Что такое оценка? Важно: оценка отражает не абстрактное качество, а результат измерения при решении конкретной задачи.
  • 11. Что такое оценка? Поэтому нам интересен не только способ вычисления, но и поставленная при измерении задача.
  • 12. Что такое оценка? Кстати Квалиметрия, ГОСТ 15467-79 «Качество продукции. Термины»: 1) КАЧЕСТВО ПРОДУКЦИИ (УСЛУГИ) - совокупность свойств продукции (услуги), обуславливающих ее пригодность удовлетворять определенные потребности в соответствии с ее назначением. 2) СВОЙСТВО ПРОДУКЦИИ (УСЛУГИ) - объективная особенность продукции (услуги), проявляющаяся при ее создании, эксплуатации, использовании по назначению или потреблении (оказание услуги). Например: точность, надежность, своевременная поставка и т.д. Для объективной оценки качества объекта необходимо охарактеризовать его свойства количественно. Для этого: 3) ПОКАЗАТЕЛЬ КАЧЕСТВА - количественная характеристика свойства объекта, входящего в состав его качества и рассматриваемая применительно к определенным условиям жизненного цикла объекта. ...
  • 13. Что такое оценка? Что можно оценивать: – выполнение основной функции – скорость работы – потребление системных ресурсов – удобство использования – ошибкоустойчивость и многое другое.
  • 14. Краткий план Что такое оценка? Основные метрики Корпусы Человеческий фактор Всякое
  • 15. Основные метрики Дано: – классификатор документов – тестовая выборка – документы сопоставлены классам Соотнесем ответы системы с правильными значениями
  • 16. Основные метрики P accuracy  N P — число документов, по которым классификатор принял правильное решение N — размер тестовой выборки Недостатки: плохо работает, если распределение классов неравномерно.
  • 17. Основные метрики Точность (precision) — доля правильно отнесенных к классу документов относительно всех документов, отнесенных системой к данному классу. Полнота (recall) — доля правильно отнесенных к классу документов относительно всех документов данного класса.
  • 18. Основные метрики Таблица контингентности Класс N Экспертная оценка положительная положительная True Positive False Positive отрицательная Оценка системы отрицательная False Negative True Negative TP precision  TP  FP TP recall  TP  FN
  • 19. Релевантные точки находятся слева от прямой, а найденные системой — в овале. Wikipedia, Информационный поиск
  • 20. Основные метрики Матрица неточностей (confusion matrix) – http://en.wikipedia.org/wiki/Confusion_matrix – http://bazhenov.me/blog/2012/07/21/classification-performanceevaluation.html#confusion-matrix
  • 21. Основные метрики F-мера precision  recall F 2 precision  recall
  • 22. Основные метрики Пусть классификатор не просто классифицирует, а возвращает ответ, если документ принадлежит классу. Например, исправление опечаток в пользовательских запросах.
  • 23. Основные метрики TP => COR (correct, верные) + PAR (partial, частично-верные) + INC (incorrect, неверные, плохие) FN => MIS (missing, отсутствующие) FP => SPU (spurious, ложные) TN => NON (noncommittal, неопределенные)
  • 24. Основные метрики COR  0.5PAR recall  COR  PAR  INC  MIS COR  0.5PAR precision  COR  PAR  INC  SPU
  • 25. Основные метрики Пусть, у нас есть такие результаты для прогона нашей системы: COR = 30, PAR = 10, INC = 5, MIS = 5, SPU = 15, NON = 100 Посчитаем полноту и точность того, как наша система исправляет опечатки в запросах. P = (30 + 0.5 * 10) / (30 + 10 + 5 + 15) = 0.58 = 58% R = (30 + 0.5 * 10) / (30 + 10 + 5 + 5) = 0.7 = 70% А теперь посчитаем полноту и точность того, как наша система классифицирует, содержит ли запрос опечатки или нет. P = (30 + 10 + 5) / (30 + 10 + 5 + 15) = 0.75 = 75% R = (30 + 10 + 5) / (30 + 10 + 5 + 5) = 0.9 = 90%
  • 26. Основные метрики Мораль: четко следить за тем, какую задачу ставит перед собой исследователь и что конкретно он считает.
  • 27. Основные метрики Функция сравнения ответа и эталона: – капитализация (А, а) – равны ли «ё» и «е» – равны ли «ä» и «a» – равны ли u00e4 и au0308 – пунктуация
  • 28. Краткий план Что такое оценка? Основные метрики Корпусы Человеческий фактор Всякое
  • 29. Корпусы – НКРЯ — современные письменные тексты (XX—XXI вв.) и ранние тексты (XVIII—XX вв.), морфологическая разметка (6 млн слов), синтаксическая разметка (> 350 тыс слов), параллельные корпусы (en-ru, de-ru, fr-ru, etc.). – Открытый корпус — публицистика, блоги, художественная литература; морфологическая разметка (>16 тыс из 1,5 млн слов). – Англо-русский параллельный корпус Яндекса — собран по интернету (1 млн пар параллельных предложений). Другие ресурсы: – http://nlpub.ru/Ресурсы – http://statmt.org/wmt13/
  • 30. Корпусы • По типу содержимого: – сбалансированные — состоят из текстов разных жанров, предполагается, что распределение текстов соответствует таковому в языке (?!) – пирамидальные — какие-то жанры представлены более значительно, какие-то менее – случайные (opportunistic) — что было доступно
  • 31. Корпусы • По аннотированности: – неразмеченные – с морфологической разметкой (PoStagged) – с синтаксической разметкой (treebanks) – лингвистически-интерепретированные
  • 32. Корпусы • Тестовые наборы: – искусственные – ограниченные – содержат материал для хороших и ложных срабатываний • Корпусы: – естественный контекст – все разнообразие языка – реалистичные относительные частоты явлений
  • 33. Корпусы Беликов и др. Корпус как язык: от масштабируемости к дифференциальной полноте, Dialog 2013 Описывает частые заблуждения при работе с корпусами. Например, как данные о какой-то конструкции, полученные на каком-то корпусе обобщаются до суждений о приоритете данной конструкции в языке в целом. Важные вопросы, часто остающиеся без внимания: – сравнение данных по числу вхождений, документов и авторов; – анализ временной динамики – анализ распределения результатов по типам источников; – наличие дублетов и иных систематических факторов, накручивающих счетчики.
  • 34. Корпусы Тем не менее, состав корпусов часто определяется узким контекстом применения системы. То есть данные можно взять у заказчика или собрать из доступных источников.
  • 35. Краткий план Что такое оценка? Основные метрики Корпусы Человеческий фактор Всякое
  • 36. Человеческий фактор – системы обработки языка делаются для того, чтобы удовлетворять нужды людей – оценивать качество системы в результате будут все равно люди – часто нет единственно верного решения (как правильно, блогер или блоггер, Barbara Straisand или Barbra Straisand) – человеку свойственно ошибаться (два сапога - множественное число или единственное?) – оценивают люди, и у людей могут быть разные мнения – люди меняются
  • 37. Человеческий фактор Про мнения: – внутреннее состояние оценивающего: предубеждения, компетенция, усталость и т.д. – системе нет смысла быть правой, если никто из пользователей этой точки зрения не придерживается – важно уметь сравнивать несколько мнений: – согласованность асессоров (inter-rator agreement) – внутриклассовая корреляция (intraclass correlation) – однако согласованность нескольких асессоров не всегда важна (если задача адаптируется под человека)
  • 38. Краткий план Что такое оценка? Основные метрики Корпусы Человеческий фактор Всякое
  • 40. Александр Тарелкин Руководитель группы инструментов оценки качества (служба исправления опечаток) alexander.tarelkin@gmail.com