Evaluation in-nlp

Оценка систем
обработки текста
Александр Тарелкин
Руководитель группы инструментов оценки
качества (служба исправления опечаток)

Цели доклада

• Заинтересовать проблемой;
• Побудить к самостоятельному проведению
оценки;
• Подтолкнуть к изучению оценок других;
• Познакомить с основами.

Самостоятельная работа

• Поискать «natural language processing
evaluation»
• B. Krenn & C. Samuelsson. Don’t Panic:
The Linguist’s Guide to Statistics, 1997
• D. Santos. Evaluation in Natural Language
Processing, ESSLLI 2007

Краткий план
Что такое оценка?
Основные метрики
Корпусы

Человеческий фактор
Всякое

Evaluation is a systematic determination of a subject's
merit, worth and significance, using criteria governed by
a set of standards.
Wikipedia, Evaluation


Что важно:
– Не только отображение на числовую шкалу
– Систематический подход
– Критерии, определяемые стандартами
Нужно для измерения качества системы


Кому нужна:
– разработчикам
– инвесторам, владельцам бизнеса
– клиентам
– всему сообществу


Важно: оценка отражает не абстрактное
качество, а результат измерения
при решении конкретной задачи.


Поэтому нам интересен не только способ
вычисления, но и поставленная
при измерении задача.

Что такое оценка? Кстати
Квалиметрия, ГОСТ 15467-79 «Качество продукции. Термины»:
1) КАЧЕСТВО ПРОДУКЦИИ (УСЛУГИ) - совокупность свойств продукции
(услуги), обуславливающих ее пригодность удовлетворять
определенные потребности в соответствии с ее назначением.
2) СВОЙСТВО ПРОДУКЦИИ (УСЛУГИ) - объективная особенность
продукции (услуги), проявляющаяся при ее создании, эксплуатации,
использовании по назначению или потреблении (оказание услуги).
Например: точность, надежность, своевременная поставка и т.д.
Для объективной оценки качества объекта необходимо
охарактеризовать его свойства количественно. Для этого:
3) ПОКАЗАТЕЛЬ КАЧЕСТВА - количественная характеристика свойства
объекта, входящего в состав его качества и рассматриваемая
применительно к определенным условиям жизненного цикла объекта.
...

Что можно оценивать:
– выполнение основной функции
– скорость работы
– потребление системных ресурсов
– удобство использования
– ошибкоустойчивость
и многое другое.


Дано:
– классификатор документов
– тестовая выборка
– документы сопоставлены классам
Соотнесем ответы системы с правильными
значениями

P
accuracy 
N
P — число документов, по которым
классификатор принял правильное решение
N — размер тестовой выборки
Недостатки: плохо работает, если
распределение классов неравномерно.

Точность (precision) — доля правильно
отнесенных к классу документов
относительно всех документов, отнесенных
системой к данному классу.
Полнота (recall) — доля правильно
отнесенных к классу документов
относительно всех документов данного
класса.

Таблица контингентности
Класс N

Экспертная оценка
положительная
положительная

True Positive

False Positive

отрицательная

Оценка системы

отрицательная

False Negative

True Negative

TP
precision 
TP  FP
TP
recall 
TP  FN

Релевантные точки
находятся слева от прямой,
а найденные системой —
в овале.
Wikipedia, Информационный поиск


Матрица неточностей (confusion matrix)
– http://en.wikipedia.org/wiki/Confusion_matrix
– http://bazhenov.me/blog/2012/07/21/classification-performanceevaluation.html#confusion-matrix


F-мера

precision  recall
F 2
precision  recall


Пусть классификатор не просто
классифицирует, а возвращает ответ, если
документ принадлежит классу.
Например, исправление опечаток в
пользовательских запросах.


TP => COR (correct, верные) + PAR (partial,
частично-верные) + INC (incorrect, неверные,
плохие)
FN => MIS (missing, отсутствующие)
FP => SPU (spurious, ложные)
TN => NON (noncommittal, неопределенные)


COR  0.5PAR
recall 
COR  PAR  INC  MIS
COR  0.5PAR
precision 
COR  PAR  INC  SPU

Пусть, у нас есть такие результаты для прогона нашей системы:
COR = 30, PAR = 10, INC = 5, MIS = 5, SPU = 15, NON = 100
Посчитаем полноту и точность того, как наша система исправляет
опечатки в запросах.
P = (30 + 0.5 * 10) / (30 + 10 + 5 + 15) = 0.58 = 58%
R = (30 + 0.5 * 10) / (30 + 10 + 5 + 5) = 0.7 = 70%
А теперь посчитаем полноту и точность того, как наша система
классифицирует, содержит ли запрос опечатки или нет.
P = (30 + 10 + 5) / (30 + 10 + 5 + 15) = 0.75 = 75%
R = (30 + 10 + 5) / (30 + 10 + 5 + 5) = 0.9 = 90%


Мораль: четко следить за тем, какую задачу
ставит перед собой исследователь и что
конкретно он считает.


Функция сравнения ответа и эталона:
– капитализация (А, а)
– равны ли «ё» и «е»
– равны ли «ä» и «a»
– равны ли u00e4 и au0308
– пунктуация

Корпусы
– НКРЯ — современные письменные тексты (XX—XXI вв.) и ранние
тексты (XVIII—XX вв.), морфологическая разметка (6 млн слов),
синтаксическая разметка (> 350 тыс слов), параллельные корпусы (en-ru,
de-ru, fr-ru, etc.).
– Открытый корпус — публицистика, блоги, художественная литература;
морфологическая разметка (>16 тыс из 1,5 млн слов).
– Англо-русский параллельный корпус Яндекса — собран по интернету
(1 млн пар параллельных предложений).

Другие ресурсы:
– http://nlpub.ru/Ресурсы
– http://statmt.org/wmt13/

Корпусы
• По типу содержимого:
– сбалансированные — состоят из текстов
разных жанров, предполагается, что
распределение текстов соответствует
таковому в языке (?!)
– пирамидальные — какие-то жанры
представлены более значительно, какие-то
менее
– случайные (opportunistic) — что было
доступно

Корпусы

• По аннотированности:
– неразмеченные
– с морфологической разметкой (PoStagged)
– с синтаксической разметкой (treebanks)
– лингвистически-интерепретированные

Корпусы
• Тестовые наборы:
– искусственные
– ограниченные
– содержат материал для хороших и
ложных срабатываний
• Корпусы:
– естественный контекст
– все разнообразие языка
– реалистичные относительные частоты
явлений

Корпусы
Беликов и др. Корпус как язык: от масштабируемости
к дифференциальной полноте, Dialog 2013
Описывает частые заблуждения при работе с корпусами.
Например, как данные о какой-то конструкции, полученные на каком-то
корпусе обобщаются до суждений о приоритете данной конструкции
в языке в целом.

Важные вопросы, часто остающиеся без внимания:
– сравнение данных по числу вхождений, документов и авторов;
– анализ временной динамики
– анализ распределения результатов по типам источников;
– наличие дублетов и иных систематических факторов, накручивающих
счетчики.

Корпусы

Тем не менее, состав корпусов часто
определяется узким контекстом применения
системы. То есть данные можно взять
у заказчика или собрать из доступных
источников.


– системы обработки языка делаются для того, чтобы удовлетворять
нужды людей
– оценивать качество системы в результате будут все равно люди
– часто нет единственно верного решения (как правильно, блогер или
блоггер, Barbara Straisand или Barbra Straisand)
– человеку свойственно ошибаться (два сапога - множественное число
или единственное?)
– оценивают люди, и у людей могут быть разные мнения
– люди меняются


Про мнения:
– внутреннее состояние оценивающего: предубеждения, компетенция,
усталость и т.д.
– системе нет смысла быть правой, если никто из пользователей этой
точки зрения не придерживается
– важно уметь сравнивать несколько мнений:
– согласованность асессоров (inter-rator agreement)
– внутриклассовая корреляция (intraclass correlation)
– однако согласованность нескольких асессоров не всегда важна (если
задача адаптируется под человека)

Александр Тарелкин
Руководитель группы
инструментов оценки
качества (служба
исправления опечаток)
alexander.tarelkin@gmail.com

Evaluation in-nlp

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (16)

Similar to Evaluation in-nlp

Similar to Evaluation in-nlp (20)

More from Lidia Pivovarova

More from Lidia Pivovarova (20)

Evaluation in-nlp