3. Цели доклада
• Заинтересовать проблемой;
• Побудить к самостоятельному проведению
оценки;
• Подтолкнуть к изучению оценок других;
• Познакомить с основами.
4. Самостоятельная работа
• Поискать «natural language processing
evaluation»
• B. Krenn & C. Samuelsson. Don’t Panic:
The Linguist’s Guide to Statistics, 1997
• D. Santos. Evaluation in Natural Language
Processing, ESSLLI 2007
7. Evaluation is a systematic determination of a subject's
merit, worth and significance, using criteria governed by
a set of standards.
Wikipedia, Evaluation
8. Что такое оценка?
Что важно:
– Не только отображение на числовую шкалу
– Систематический подход
– Критерии, определяемые стандартами
Нужно для измерения качества системы
9. Что такое оценка?
Кому нужна:
– разработчикам
– инвесторам, владельцам бизнеса
– клиентам
– всему сообществу
10. Что такое оценка?
Важно: оценка отражает не абстрактное
качество, а результат измерения
при решении конкретной задачи.
11. Что такое оценка?
Поэтому нам интересен не только способ
вычисления, но и поставленная
при измерении задача.
12. Что такое оценка? Кстати
Квалиметрия, ГОСТ 15467-79 «Качество продукции. Термины»:
1) КАЧЕСТВО ПРОДУКЦИИ (УСЛУГИ) - совокупность свойств продукции
(услуги), обуславливающих ее пригодность удовлетворять
определенные потребности в соответствии с ее назначением.
2) СВОЙСТВО ПРОДУКЦИИ (УСЛУГИ) - объективная особенность
продукции (услуги), проявляющаяся при ее создании, эксплуатации,
использовании по назначению или потреблении (оказание услуги).
Например: точность, надежность, своевременная поставка и т.д.
Для объективной оценки качества объекта необходимо
охарактеризовать его свойства количественно. Для этого:
3) ПОКАЗАТЕЛЬ КАЧЕСТВА - количественная характеристика свойства
объекта, входящего в состав его качества и рассматриваемая
применительно к определенным условиям жизненного цикла объекта.
...
13. Что такое оценка?
Что можно оценивать:
– выполнение основной функции
– скорость работы
– потребление системных ресурсов
– удобство использования
– ошибкоустойчивость
и многое другое.
16. Основные метрики
P
accuracy
N
P — число документов, по которым
классификатор принял правильное решение
N — размер тестовой выборки
Недостатки: плохо работает, если
распределение классов неравномерно.
17. Основные метрики
Точность (precision) — доля правильно
отнесенных к классу документов
относительно всех документов, отнесенных
системой к данному классу.
Полнота (recall) — доля правильно
отнесенных к классу документов
относительно всех документов данного
класса.
18. Основные метрики
Таблица контингентности
Класс N
Экспертная оценка
положительная
положительная
True Positive
False Positive
отрицательная
Оценка системы
отрицательная
False Negative
True Negative
TP
precision
TP FP
TP
recall
TP FN
22. Основные метрики
Пусть классификатор не просто
классифицирует, а возвращает ответ, если
документ принадлежит классу.
Например, исправление опечаток в
пользовательских запросах.
23. Основные метрики
TP => COR (correct, верные) + PAR (partial,
частично-верные) + INC (incorrect, неверные,
плохие)
FN => MIS (missing, отсутствующие)
FP => SPU (spurious, ложные)
TN => NON (noncommittal, неопределенные)
24. Основные метрики
COR 0.5PAR
recall
COR PAR INC MIS
COR 0.5PAR
precision
COR PAR INC SPU
25. Основные метрики
Пусть, у нас есть такие результаты для прогона нашей системы:
COR = 30, PAR = 10, INC = 5, MIS = 5, SPU = 15, NON = 100
Посчитаем полноту и точность того, как наша система исправляет
опечатки в запросах.
P = (30 + 0.5 * 10) / (30 + 10 + 5 + 15) = 0.58 = 58%
R = (30 + 0.5 * 10) / (30 + 10 + 5 + 5) = 0.7 = 70%
А теперь посчитаем полноту и точность того, как наша система
классифицирует, содержит ли запрос опечатки или нет.
P = (30 + 10 + 5) / (30 + 10 + 5 + 15) = 0.75 = 75%
R = (30 + 10 + 5) / (30 + 10 + 5 + 5) = 0.9 = 90%
26. Основные метрики
Мораль: четко следить за тем, какую задачу
ставит перед собой исследователь и что
конкретно он считает.
27. Основные метрики
Функция сравнения ответа и эталона:
– капитализация (А, а)
– равны ли «ё» и «е»
– равны ли «ä» и «a»
– равны ли u00e4 и au0308
– пунктуация
29. Корпусы
– НКРЯ — современные письменные тексты (XX—XXI вв.) и ранние
тексты (XVIII—XX вв.), морфологическая разметка (6 млн слов),
синтаксическая разметка (> 350 тыс слов), параллельные корпусы (en-ru,
de-ru, fr-ru, etc.).
– Открытый корпус — публицистика, блоги, художественная литература;
морфологическая разметка (>16 тыс из 1,5 млн слов).
– Англо-русский параллельный корпус Яндекса — собран по интернету
(1 млн пар параллельных предложений).
Другие ресурсы:
– http://nlpub.ru/Ресурсы
– http://statmt.org/wmt13/
30. Корпусы
• По типу содержимого:
– сбалансированные — состоят из текстов
разных жанров, предполагается, что
распределение текстов соответствует
таковому в языке (?!)
– пирамидальные — какие-то жанры
представлены более значительно, какие-то
менее
– случайные (opportunistic) — что было
доступно
31. Корпусы
• По аннотированности:
– неразмеченные
– с морфологической разметкой (PoStagged)
– с синтаксической разметкой (treebanks)
– лингвистически-интерепретированные
32. Корпусы
• Тестовые наборы:
– искусственные
– ограниченные
– содержат материал для хороших и
ложных срабатываний
• Корпусы:
– естественный контекст
– все разнообразие языка
– реалистичные относительные частоты
явлений
33. Корпусы
Беликов и др. Корпус как язык: от масштабируемости
к дифференциальной полноте, Dialog 2013
Описывает частые заблуждения при работе с корпусами.
Например, как данные о какой-то конструкции, полученные на каком-то
корпусе обобщаются до суждений о приоритете данной конструкции
в языке в целом.
Важные вопросы, часто остающиеся без внимания:
– сравнение данных по числу вхождений, документов и авторов;
– анализ временной динамики
– анализ распределения результатов по типам источников;
– наличие дублетов и иных систематических факторов, накручивающих
счетчики.
34. Корпусы
Тем не менее, состав корпусов часто
определяется узким контекстом применения
системы. То есть данные можно взять
у заказчика или собрать из доступных
источников.
36. Человеческий фактор
– системы обработки языка делаются для того, чтобы удовлетворять
нужды людей
– оценивать качество системы в результате будут все равно люди
– часто нет единственно верного решения (как правильно, блогер или
блоггер, Barbara Straisand или Barbra Straisand)
– человеку свойственно ошибаться (два сапога - множественное число
или единственное?)
– оценивают люди, и у людей могут быть разные мнения
– люди меняются
37. Человеческий фактор
Про мнения:
– внутреннее состояние оценивающего: предубеждения, компетенция,
усталость и т.д.
– системе нет смысла быть правой, если никто из пользователей этой
точки зрения не придерживается
– важно уметь сравнивать несколько мнений:
– согласованность асессоров (inter-rator agreement)
– внутриклассовая корреляция (intraclass correlation)
– однако согласованность нескольких асессоров не всегда важна (если
задача адаптируется под человека)