Classifier evaluation and comparison

  • 567 views
Uploaded on

 

More in: Education
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
567
On Slideshare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
3
Comments
0
Likes
1

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Статистическое сравнение классификаторов на множестве наборов данных Влад Шахуро Факультет ВМК МГУ им. М.В.Ломоносова Лаборатория КГиМ Семинар «Компьютерное зрение» 29 октября 2012 г.
  • 2. Постановка задачи Дано k обученных классификаторов, протестированных на N наборов данных. Пусть cj — оценка качества j-го i классификатора на i-м наборе данных. Предполагается, что оценки качества классификаторов достаточно надёжны. Требуется определить по значениям cj , являются ли i результаты классификаторов статистически различными и, в случае k > 2, определить, какие именно классификаторы отличаются по качеству. 1
  • 3. Проверка гипотез X = (X1 , . . . , Xn ) - данные (выборка) F — совокупность априори допустимых распределений X FX — неизвестное истинное распределение данных, FX ∈ F F0 ⊂ F — выделенное множество функций распределения Задача проверки гипотез: необходимо по данным X проверить справедливость утверждения H0 : FX ∈ F0 . H0 называется нулевой гипотезой. Утверждение H1 : FX ∈ FF0 называется альтернативной гипотезой. Правило, согласно которому мы, наблюдая X, принимаем решение принять гипотезу H0 как истинную либо принять альтернативную гипотезу H1 , называется статистическим критерием. 2
  • 4. Проверка гипотез (продолжение) P(H1 |H0 ) = α — вероятность ошибки I рода или уровень значимости (significance level) критерия P(H0 |H1 ) = β — вероятность ошибки II рода, 1 − β — мощность критерия На практике обычно стараются выбрать наиболее мощный критерий при заданном значении ошибки первого рода. 3
  • 5. Проверка гипотез (продолжение) В случае сравнения классификаторов в качестве нулевой гипотезы выступает предположение о том, что все классификаторы в некотором роде эквивалентны, в качестве альтернативной гипотезы — предположение о том, что хотя бы два некоторых классификатора неэквивалентны. Критерии, включающие в себя расчёт параметров вероятностного распределения признака, называются параметрическими. Критерии, основанные на оперировании частотами и рангами, называются непараметрическими. 4
  • 6. Сравнение двух классификаторов Простейший способ сравнения множества классификаторов — выделить все возможные пары классификаторов и сравнивать каждую пару классификаторов выбранным критерием. 5
  • 7. Парный критерий Стьюдента Пусть c1 , c2 — результаты двух классификаторов на i-м из N i i наборов данных и di = c2 − c1 — их разница. i i ¯ ¯ Статистика t = d/σd распределена по закону Стьюдента ¯ с N − 1 степенью свободы. Здесь d — среднее арифметическое разниц результатов, а σd — стандартная ошибка. ¯ t ∼ t(N − 1) 6
  • 8. Парный критерий Стьюдента (продолжение) Недостатки критерия: — Не работает на несоизмеримых наборах данных, отвечающих различным проблемам. Можно решить, поделив разницу на среднее значение качества c2 −c1 di = (c1 +c2 )/2 i i i i — Требует, чтобы k был достаточно большим (≥ 30). В противном случае выборка должна быть взята из нормального распределения. Любопытно, что все тесты на нормальное распределение недостаточно мощны при таких размерах выборки — Чувствителен к выбросам 7
  • 9. Критерий Уилкинсона Проранжируем di по возрастанию модулей. Посчитаем суммы рангов результатов на наборах данных, на которых один классификатор показал результат лучше другого. 1 R+ = rank(di ) + rank(di ) 2 di >0 di =0 1 R− = rank(di ) + rank(di ) 2 di <0 di =0 Введём статистику T = min(R+ , R− ). Для T при N < 25 существуют таблицы точных критических значений, при больших N статистика T − 1 N (N + 1) 4 z= 1 24 N (N + 1)(2N + 1) имеет примерно нормальное распределение. 8
  • 10. Критерий Уилкинсона (продолжение) Особенности критерия: — Работает на несоизмеримых наборах данных — Устойчив к выбросам — Не требует предположений о характере распределения результатов классификаторов — Если выполняются условия для критерия Стьюдента, то критерий Уилкинсона менее мощен 9
  • 11. Критерий знаков Посчитаем количество наборов данных, на которых один классификатор превосходит второй. Если гипотеза эквивалентности классификаторов верна, то каждый классификатор должен выиграть примерно N/2 раз на N наборах данных. Количество побед является случайной величиной, распределённой по биномиальному закону. При больших N количество побед при условии верности √ гипотезы распределено по нормальному закону N (N/2, N /2). Тогда для проверки гипотезы эквивалентности можно использовать √ z-тест: если количество побед по меньшей мере равно N/2 + N , алгоритм значительно превосходит другой алгоритм с ошибкой предсказания 5%. 10
  • 12. Критерий знаков (продолжение) Особенности критерия: — Применим к любым наборам данных, не требует ни соизмеримости сложности данных, ни нормальности результатов — Намного слабее критерия Уилкинсона, не отвергает нулевую гипотезу до тех пор, пока исследуемый алгоритм не превосходит значительно второй алгоритм 11
  • 13. Сравнение множества классификаторов Приведенные ранее критерии не были созданы специально для исследования множества случайный величин. В силу того, что для проверки нулевой гипотезы нужно сделать k(k−1) 2 сравнений, определённая доля нулевых гипотез отвергается из-за погрешностей и случайностей. В статистике существуют методы, специально предназначенные для тестирования эквивалентности многих случайных величин. 12
  • 14. ANOVA В случае множественного сравнения классификаторов выборка поделена на k групп с N наблюдений в каждой группе. k 2 N σbg = (¯j − c)2 c ¯ k−1 j=1 k N 1 2 σwg = (cj − cj )2 i ¯ k(N − 1) j=1 i=1 2 2 σbg — межгрупповая дисперсия, σwg — внутригрупповая дисперсия 2 σbg F = 2 ∼ F (k − 1, k(N − 1)) σwg 13
  • 15. ANOVA (продолжение) Для попарного сравнения классификаторов используется статистика √ N (¯i − cj ) c ¯ T = ∼ t(k(N − 1)) 2 2σwg Необходимые условия для теста: — Выборки должны быть взяты из нормального распределения — Равенство дисперсий результатов каждого классификатора 14
  • 16. Тест Фридмана Тест Фридмана является непараметрическим аналогом ANOVA с повторными измерениями. j Пусть ri — ранг j-го алгоритма на i-м наборе данных, 1 j Rj = N i ri - средний ранг j-го алгоритма. Если верна гипотеза об эквивалентности алгоритмов, их средние ранги также должны быть равны. 15
  • 17. Тест Фридмана (продолжение) Введём статистику Фридмана   12N  k(k + 1)2 χ2 = F 2 Rj −  k(k + 1) 4 j χ2 ∼ χ2 (k − 1), k > 5, N > 10 F Статистика Фридмана косервативна (т.е. стремится к недооценке). Можно ввести более надежную статистику (N − 1)χ2F FF = N (k − 1) − χ2 F FF ∼ F (k − 1, (k − 1)(N − 1)) 16
  • 18. Тест Фридмана (продолжение) Если тест Фридмана отвергает нулевую гипотезу, можно ввести статистику для сравнения i-го и j-го классификаторов: (Ri − Rj ) z= k(k+1) 6N Статистика z имеет нормальное распределение. Значение z используется для определения соответствующей вероятности (p-value) и её последующего сравнения с вероятностью α ошибки I рода. 17
  • 19. Корректировки вероятностей ошибок В самом простом случае каждая гипотеза, соответствующая паре классификаторов, тестируется независимо от всех остальных гипотез. Более хорошие результаты даёт тестирование гипотез в совокупности. Будем контролировать ошибку на семействе гипотез (family-wise error) — вероятность совершить хотя бы одну ошибку I рода при сравнении множества пар. 18
  • 20. Процедуры Nemenyi и Хольма Nemenyi: значение ошибки α делится на количество произведённых сравнений классификаторов m = k(k−1) 2 Хольм-Бонферрони: пусть p1 , . . . , pm — упорядоченные вероятности (p-values) и H1 , . . . , Hm — соответствующие им гипотезы. Процедура Хольма отвергает гипотезы H1 , . . . , Hi−1 , если i — минимальное целое число, для которого выполнено неравенство pi > α/(m − i + 1). 19
  • 21. Процедура Бергманна и Хоммеля Множество индексов I ⊆ {1, . . . , m} называется исчерпывающим (exhaustive), если в точности все гипотезы Hj , j ∈ I, могут быть верными. Рассмотрим это определение для трёх классификаторов. H1 : C1 ∼ C2 , H2 : C2 ∼ C3 , H3 : C3 ∼ C1 Из 23 возможных сочетаний гипотез исчерпывающими являются следующие: — Все гипотезы верны — H1 верна, H2 и H3 неверны — H2 верна, H1 и H3 неверны — H3 верна, H1 и H2 неверны — Все гипотезы неверны 20
  • 22. Процедура Бергманна и Хоммеля (продолжение) function obtainExhaustive(C = {c1 , . . . , ck }): let E = ∅ E = E ∪ {all possible pairwise comparisons using C} if E == ∅: return E for all possible divisions of C into C1 & C2 , ck ∈ C2 and C1 = ∅: E1 = obtainExhaustive(C1 ) E2 = obtainExhaustive(C2 ) foreach family of hypotheses e1 of E1 : foreach family of hypotheses e2 of E2 : E = E ∪ (e1 ∪ e2 ) return E Процедура Бергманна и Хоммеля: отвергнуть гипотезу Hj , если j ∈ A A= {I : I − exhaustive, min{pi : i ∈ I} > α/|I|} 21
  • 23. Статическая процедура Шеффера Пусть p1 , . . . , pm — упорядоченные вероятности (p-values) и H1 , . . . , Hm — соответствующие им гипотезы. Процедура отвергает гипотезы H1 , . . . , Hi−1 , если i — минимальное целое число, для которого выполнено неравенство pi > α/ti , где ti — максимальное число гипотез, которые могут быть верны, при условии, что какая-то i − 1 гипотеза неверна. ti ∈ S(k), где S(k) — набор чисел возможных верных гипотез при k сравниваемых классификаторов. k 2 S(k) = Cj + x : x ∈ S(k − j) j=1 22
  • 24. Сравнение критериев Будем сравнивать мощности критериев косвенно через следующие параметры: — Количество отвергнутых нулевых гипотез — Среднее значение статистики критерия (average p-value, APV) Чем меньше значение APV, тем больше вероятность отвергнуть нулевую гипотезу на заданном уровне доверия — Вопроизводимость результатов — вероятность того, что два эксперимента на одной и той же паре алгоритмов дадут одинаковый результат (отвергнут или примут нулевую гипотезу): − p) i (pi ¯ R(p) = 1 − 2var(p) = 1 − 2 n−1 23
  • 25. Сравнение критериев (продолжение) При сравнении двух классификаторов сэмплирование производится из нескольких наборов данных так, что вероятность выбрать i-й набор данных пропорциональна 1/(1 + e−kdi ), где di — разница точности классификаторов на этом наборе данных, а k — смещённость. 24
  • 26. Сравнение парных критериев Слева: k и APV, справа: k и количество отвергнутых нулевых гипотез 25
  • 27. Сравнение множественных критериев Слева: k, APV и R(p), справа: k и количество отвергнутых нулевых гипотез 26
  • 28. Сравнение процедур корректировки 27
  • 29. Резюме — При сравнении классификаторов на реальных данных непараметрические критерии более предпочтительны, т.к. они накладывают меньшие ограничения на выборку результатов — Для сравнения большого количества классификаторов стоит пользоваться специализированными критериями, например, тестом Фридмана — Для попарного сравнения классификаторов после того, как отвергнута нулевая гипотеза, стоит пользоваться корректировками (post hoc tests), учитывающими зависимость гипотез друг от друга 28
  • 30. Список материалов Demˇar. Statistical Comparison of Classifiers over Multiple Data s Sets. JMLR 6 (2006). Garc´ Herrera. An Extension on «Statistical Comparison ıa, of Classifiers over Multiple Data Sets» for all Pairwise Comparisons. JMLR 9 (2008). Ивченко, Медведев. Введение в математическую статистику. http://statmaster.sdu.dk/courses/st111/module11/index.html http://ru.wikipedia.org/wiki/F-тест 29