SlideShare a Scribd company logo
Понятия закономерности и информативности
 Методы построения логических алгоритмов
                Вероятностное оценивание




  Логические алгоритмы классификации

                         К. В. Воронцов
                       vokov@forecsys.ru
             www.MachineLearning.ru, Участник:Vokov

                             ЗАО Форексис ,
               Вычислительный Центр им. А. А. Дородницына РАН


                          Научный семинар Яндекс
                            Москва, 9 июня 2010



         К. В. Воронцов (www.ccas.ru/voron)   Логические алгоритмы классификации
Понятия закономерности и информативности
   Методы построения логических алгоритмов
                  Вероятностное оценивание

Содержание


  1   Понятия закономерности и информативности
       Логическая закономерность
       Требование интерпретируемости
       Требование информативности
  2   Методы построения логических алгоритмов
       Индукция закономерностей
       Композиция закономерностей
       Взвешенное голосование
  3   Вероятностное оценивание
       Постановка задачи
       Оценки надёжности закономерностей
       Калибровка Платта


           К. В. Воронцов (www.ccas.ru/voron)   Логические алгоритмы классификации
Понятия закономерности и информативности      Логическая закономерность
    Методы построения логических алгоритмов      Требование интерпретируемости
                   Вероятностное оценивание      Требование информативности

Задача классификации

  X    множество объектов; Y    множество классов;
  y: X →Y     неизвестная целевая зависимость (target).
  Дано: X ℓ = (xi , yi )ℓ
                        i=1      обучающая выборка, yi = y (xi )
                                                         
                         f1 (x1 ) . . . fn (x1 )            y1
                     . . . . . . . . . . . . . . . . . . . . .
                         f1 (xℓ ) . . . fn (xℓ )             yℓ

  Найти: классификатор функцию a : X → Y ,
  приближающую y (x) на всём множестве x ∈ X .
                        ′                        ′
                                                      ′ 
                  f1 (x1 ) . . . fn (x1 )               a(x1 )
                 . . . . . . . . . . . . . . . . . .  . . . 
                         ′
                 f1 (xk ) . . . fn (xk )          ′          ′
                                                        a(xk )

            К. В. Воронцов (www.ccas.ru/voron)   Логические алгоритмы классификации
Понятия закономерности и информативности      Логическая закономерность
    Методы построения логических алгоритмов      Требование интерпретируемости
                   Вероятностное оценивание      Требование информативности

Задача классификации: уточнение требований

  Требования к классификатору:
        интерпретируемость ответов
          возможность объяснить классификацию;
        интерпретируемость классификатора
          понятность его внутренней структуры;
        возможность оценивать риски
          на выходе оценки вероятностей классов P(y |x);
        обобщающая способность
          высокое качество прогнозов на контрольных данных;
        масштабируемость
          миллионы объектов ℓ, тысячи признаков n;

  Данной совокупности требований удовлетворяют
  логические алгоритмы классификации.
            К. В. Воронцов (www.ccas.ru/voron)   Логические алгоритмы классификации
Понятия закономерности и информативности      Логическая закономерность
    Методы построения логических алгоритмов      Требование интерпретируемости
                   Вероятностное оценивание      Требование информативности

Логическая закономерность

  Логическая закономерность (правило, rule) это предикат
  R : X → {0, 1}, удовлетворяющий двум требованиям:
     1) интерпретируемость:
       R записывается на естественном языке;
       R зависит от небольшого числа признаков (1–7);
     2) информативность относительно одного из классов c ∈ Y :
       p(R) = xi : R(xi )=1 и yi =c → max;
       n(R) = xi : R(xi )=1 и yi =c → min;

  Если R(x) = 1, то говорят R выделяет x                       (R covers x).




            К. В. Воронцов (www.ccas.ru/voron)   Логические алгоритмы классификации
Понятия закономерности и информативности           Логическая закономерность
    Методы построения логических алгоритмов           Требование интерпретируемости
                   Вероятностное оценивание           Требование информативности

Часто используемые виды закономерностей

  1. Конъюнкция пороговых условий (термов):

                            R(x) =            aj       fj (x)    bj .
                                       j∈J

  2. Синдром когда выполнено не менее d термов из J,
  (при d = |J| это конъюнкция, при d = 1 дизъюнкция):

                         R(x) =                  aj    fj (x)     bj      d ,
                                        j∈J


  Синдромы обнаруживаются во многих прикладных областях:
  в кредитном скоринге, в геологическом прогнозировании,
  в медицинской диагностике [Переверзев-Орлов, 1990], и др.

  Параметры J, aj , bj , d настраиваются по обучающей выборке.

            К. В. Воронцов (www.ccas.ru/voron)        Логические алгоритмы классификации
Понятия закономерности и информативности          Логическая закономерность
    Методы построения логических алгоритмов          Требование интерпретируемости
                   Вероятностное оценивание          Требование информативности

Часто используемые виды закономерностей

  3. Полуплоскость             линейная пороговая функция:
                             R(x) =              wj fj (x)    w0 .
                                           j∈J

  4. Шар        пороговая функция близости:
                               R(x) = r (x, x0 )             w0 ,
    АВО        алгоритмы вычисления оценок [Ю. И. Журавлёв, 1971]:
                           r (x, x0 ) = max wj fj (x) − fj (x0 ) .
                                          j∈J

    SCM        машины покрывающих множеств [M. Marchand, 2001]:
                                                                    2
                           r (x, x0 ) =         wj fj (x) − fj (x0 ) .
                                          j∈J


  Параметры J, wj , w0 , x0 настраиваются по обучающей выборке
  путём оптимизации критерия информативности.
            К. В. Воронцов (www.ccas.ru/voron)       Логические алгоритмы классификации
Понятия закономерности и информативности          Логическая закономерность
    Методы построения логических алгоритмов          Требование интерпретируемости
                   Вероятностное оценивание          Требование информативности

Часто используемые критерии информативности

  Проблема: надо сравнивать закономерности R.
  Как свернуть два критерия в один критерий информативности?
                       p(R) → max                ?
                                                 =⇒      I (p, n) → max
                       n(R) → min
  Очевидные, но не всегда адекватные свёртки:
       p
           → max (precision);
     p+n
     p − n → max (accuracy);
        p − Cn → max             (linear cost accuracy);
        p    n
          −    → max              (relative accuracy);
        P    N
        P = xi : yi =c                число своих во всей выборке;
        N = xi : yi =c                число чужих во всей выборке.

            К. В. Воронцов (www.ccas.ru/voron)       Логические алгоритмы классификации
Понятия закономерности и информативности      Логическая закономерность
    Методы построения логических алгоритмов      Требование интерпретируемости
                   Вероятностное оценивание      Требование информативности

Часто используемые критерии информативности

  Адекватные, но неочевидные критерии:
        энтропийный критерий информационного выигрыша:
             P   p+n               p    ℓ−p−n                    P −p
        h      −     h                −       h                                  → max,
             ℓ    ℓ               p+n     ℓ                     ℓ−p−n
        где h(q) = −q log2 q − (1 − q) log2 (1 − q);
        критерий неслучайности FET (Fisher’s Exact Test):
          p n   p+n
        CP CN /CP+N → min;
        критерий бустинга [Cohen, Singer, 1999]:
        √    √
          p − n → max
        нормированный критерий бустинга:
          p/P − n/N → max;
        предсказательные критерии на основе мета-обучения
        [J. F¨rnkranz at al., 2001–2007].
             u

            К. В. Воронцов (www.ccas.ru/voron)   Логические алгоритмы классификации
Понятия закономерности и информативности                                 Логическая закономерность
    Методы построения логических алгоритмов                                 Требование интерпретируемости
                   Вероятностное оценивание                                 Требование информативности

Где находятся закономерности в (p, n)-плоскости

                                                                      n                p
  Логические закономерности:                                         p+n           0.1,
                                                                                     P+N            0.05.
                                                                              p n     p+n
  Статистические закономерности:                                             CP CN /CP+N             0.05.
   n
   100
                                                                                                             P = 200
   90

   80
                                                                                                             N = 100
   70

   60

   50

   40

   30

   20

   10

       0
            0    10   20   30   40   50   60   70   80   90    100 110 120 130 140 150 160 170 180 190   p
           логические закономерности низкой информативности       статистические закономерности
           логические закономерности высокой информативности      минимум информативности


  Вывод: неслучайность                                         ещё не значит закономерность.
                      К. В. Воронцов (www.ccas.ru/voron)                    Логические алгоритмы классификации
Понятия закономерности и информативности          Логическая закономерность
    Методы построения логических алгоритмов          Требование интерпретируемости
                   Вероятностное оценивание          Требование информативности

Парето-критерий информативности

  Парето-фронт множество недоминируемых закономерностей
  (точка R недоминируема, если правее и ниже точек нет)
                   50

                   45
                            6
          , n(R)




                   40       5
                            4
                   35       3
                            2
                   30
                            1
                   25

                   20

                   15

                   10

                   5

                   0
                        0       50      100         150       200       250          300
                                                               , p(R)
  задача UCI:german
               К. В. Воронцов (www.ccas.ru/voron)    Логические алгоритмы классификации
Понятия закономерности и информативности      Индукция закономерностей
    Методы построения логических алгоритмов      Композиция закономерностей
                   Вероятностное оценивание      Взвешенное голосование

Поиск информативных наборов признаков

  Проблема: как сократить перебор предикатов, захватив
  побольше закономерностей из первых Парето-слоёв.
  Это задача комбинаторной оптимизации.
  Основные эвристические методы поиска:
        поиск в глубину, метод ветвей и границ (КОРА);
        поиск в ширину (ТЭМП);
        стохастический локальный поиск (SLIPPER);
        генетические (эволюционные) алгоритмы (DMEL);
        случайный поиск с адаптацией (СПА);

  Основной практический вывод:
  Почти не важно, каким именно методом поиска пользоваться.
  Гораздо важнее критерий отбора закономерностей.

            К. В. Воронцов (www.ccas.ru/voron)   Логические алгоритмы классификации
Понятия закономерности и информативности      Индукция закономерностей
    Методы построения логических алгоритмов      Композиция закономерностей
                   Вероятностное оценивание      Взвешенное голосование

Локальное улучшение найденных закономерностей

  Редукция (pruning):
   1: заранее выделить контрольную выборку;
   2: для всех найденных закономерностей R(x)
   3:   для всех признаков fj из J
   4:     если удаление признака повышает информативность
          закономерности на контроле, то
   5:       признак удаляется;

  Стабилизация:
   1: для всех найденных закономерностей R(x)
   2:   для всех признаков fj из J
   3:     оптимизировать пороги aj , bj по критерию
          максимума информативности на всей выборке;
   4: удалить дубликаты среди закономерностей;

            К. В. Воронцов (www.ccas.ru/voron)   Логические алгоритмы классификации
Понятия закономерности и информативности      Индукция закономерностей
    Методы построения логических алгоритмов      Композиция закономерностей
                   Вероятностное оценивание      Взвешенное голосование

Композиция закономерностей

  Каждое правило выделяет лишь небольшую долю объектов.
  Следовательно, правил нужно много.

                                Две основные идеи:

          1: покрытие                                      2: голосование
     (комитеты старшинства,                            (комитеты большинства,
   решающие списки и деревья)                             бустинг и бэггинг)




            К. В. Воронцов (www.ccas.ru/voron)   Логические алгоритмы классификации
Понятия закономерности и информативности            Индукция закономерностей
    Методы построения логических алгоритмов            Композиция закономерностей
                   Вероятностное оценивание            Взвешенное голосование

Взвешенное голосование закономерностей

         t
  Пусть Ry (x), t = 1, . . . , Ty                закономерности класса y .
  Взвешенное голосование:
  1) сумма голосов закономерностей за класс y :
                                                 Ty
                                                        t t
                                 Γy (x) =              ay Ry (x);
                                                 t=1
  2) алгоритм классификации:
                                 a(x) = arg max Γy (x).
                                                  y ∈Y

  Методы настройки весов                    t
                              по обучающей выборке:
                                           ay
                           t = 1/T ;
     простое голосование: ay      y
     LR логистическая регрессия;
     SVM метод опорных векторов;
     бустинг.
            К. В. Воронцов (www.ccas.ru/voron)         Логические алгоритмы классификации
Понятия закономерности и информативности            Индукция закономерностей
    Методы построения логических алгоритмов            Композиция закономерностей
                   Вероятностное оценивание            Взвешенное голосование

Покрытие выборки


  Перевес голосов (margin) за правильный класс yi на объекте xi :

                                 M(xi ) = Γyi (xi ) − max Γy (xi ).
                                                           y =yi
          Margin

          0.8
          0.6
                            пограничные                                           эталонные
                              объекты                                              объекты
          0.4

                   шумы
                                               надёжно классифицируемые объекты
          0.2
            0

          -0.2
          -0.4            ошибки
          -0.6

                     0      20      40    60   80    100     120   140   160      180   200   i

  Практический вывод: метод настройки весов не столь важен,
  как обеспечение надёжного покрытия выборки и отсев шума.

             К. В. Воронцов (www.ccas.ru/voron)        Логические алгоритмы классификации
Понятия закономерности и информативности      Постановка задачи
    Методы построения логических алгоритмов      Оценки надёжности закономерностей
                   Вероятностное оценивание      Калибровка Платта

Задача вероятностного оценивания

  Задача:
  наряду с классификацией объекта a(x) вычислять оценки
  вероятностей P(y |x) для всех классов y .
  Основные методы решения:
        оценивание надёжности отдельных закономерностей
        (для решающих списков и деревьев);
        калибровка Платта
        (для взвешенного голосования);
        нечёткие закономерности и др.




            К. В. Воронцов (www.ccas.ru/voron)   Логические алгоритмы классификации
Понятия закономерности и информативности      Постановка задачи
    Методы построения логических алгоритмов      Оценки надёжности закономерностей
                   Вероятностное оценивание      Калибровка Платта

Оценки надёжности закономерностей

  Переобучение закономерностей:
   p ′ (R) на контроле меньше, чем p(R) на обучении;
   n′ (R) на контроле больше, чем n(R) на обучении;
  Смещённость оценки вероятности:
  если Ry (x) = 1, то вероятность того, что x из класса y :
                              p
                   P(y |x) =       − δ(p, n, . . .) .
                             p+n
                                                   поправка на
                                                 переобученность

  Способы несмещённого оценивания:
                                                                    p′
        По контрольным данным: P y (x)=c ≈                       p ′ +n′ .
        Метаобучение: строится регрессионная модель δ(p, n, . . .).
        Точные комбинаторные оценки вероятности переобучения
        (теория under construction).

            К. В. Воронцов (www.ccas.ru/voron)   Логические алгоритмы классификации
Понятия закономерности и информативности       Постановка задачи
    Методы построения логических алгоритмов       Оценки надёжности закономерностей
                   Вероятностное оценивание       Калибровка Платта

Калибровка Платта

  Пусть для простоты классов два, Y = {−1, +1}.
  При некоторых (не слишком сильных) допущениях
  вероятность P(y |x) связана с перевесом голосов
  ∆y (x) = Γy (x) − Γ−y (x) через сигмоидную функцию σ(z):

                                                   1.0

   P(y |x) = σ(a∆y (x) + b),                                                 σ(z)
                                                   0.5
                 1
   σ(z) =                                           0
              1 + e −z
                                                          -6   -4   -2   0   2   4     6   z
  Настройка коэффициентов a, b по контрольной выборке
  методом максимума правдоподобия:

                   log 1 − p(xi ; a, b) +                 log p(xi ; a, b) → max
                                                                                 a,b
          yi =−1                                 yi =+1

            К. В. Воронцов (www.ccas.ru/voron)    Логические алгоритмы классификации
Понятия закономерности и информативности      Постановка задачи
    Методы построения логических алгоритмов      Оценки надёжности закономерностей
                   Вероятностное оценивание      Калибровка Платта

Сухой остаток

    1   Закономерности это простые информативные правила.
        Чаще всего применяются закономерности-конъюнкции.
    2   Популярные критерии информативности не вполне адекватны.
        Спасает расслоение Парето.
    3   Поиск закономерностей сводится к отбору признаков.
        Выбор конкретного метода отбора почти не важен.
    4   Два основных типа композиций закономерностей.
        Взвешенное голосование немного надёжнее покрытия.
    5   Визуальный контроль граничных и шумовых объектов.
        Калибровка Платта даёт вероятности классов.




            К. В. Воронцов (www.ccas.ru/voron)   Логические алгоритмы классификации
Понятия закономерности и информативности      Постановка задачи
    Методы построения логических алгоритмов      Оценки надёжности закономерностей
                   Вероятностное оценивание      Калибровка Платта

Литература

        Ю. И. Журавлёв, В. В. Никифоров. Алгоритмы распознавания,
        основанные на вычислении оценок // Кибернетика, Киев, 1971, № 3.
        В. С. Переверзев-Орлов. Советчик специалиста: опыт создания
        партнерской системы. Наука, Москва, 1990. 133 С.
        W. W. Cohen, Y. Singer, A Simple, Fast and Effective Rule Learner //
        16th National Conference on Artificial Intelligence, 1999, Pp. 335–342.
        J. F¨rnkranz, P. A. Flach. ROC‘n’Rule Learning
            u                                          Towards a Better
        Understanding of Covering Algorithms // Machine Learning, 2005, No. 1,
        Vol. 58, Pp. 39–77.
        F. Janssen, J. F¨rnkranz. Meta-Learning Rule Learning Heuristics //
                        u
        Martin-Luther-University Halle-Wittenberg, 2007, Pp. 167–174.
        Hsuan-tien Lin, Chih-Jen Lin, Ruby C. Weng. A Note on Platts
        Probabilistic Outputs for SVM // Machine Learning, 2007, No. 3, Vol. 68,
        Pp. 267–276.
        M. Marchand, J. Shawe-Taylor. Learning with the Set Covering
        Machine // ICML-18, 2001, Pp. 345–352.

            К. В. Воронцов (www.ccas.ru/voron)   Логические алгоритмы классификации

More Related Content

Viewers also liked

Compreno_Starostin
Compreno_StarostinCompreno_Starostin
Compreno_Starostin
NLPseminar
 
Mitsov
MitsovMitsov
Mitsov
NLPseminar
 
4 ling
4 ling4 ling
4 ling
Yandex
 
Lecture1
Lecture1Lecture1
Lecture1esuesu
 
Системы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автоматСистемы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автоматArtem Lukanin
 
Прикладная лингвистика: проблемы моделирования языка в действии
Прикладная лингвистика: проблемы моделирования языка в действииПрикладная лингвистика: проблемы моделирования языка в действии
Прикладная лингвистика: проблемы моделирования языка в действииChristina Ovcharova
 
Логический анализ текстов на противоречия
Логический анализ текстов на противоречияЛогический анализ текстов на противоречия
Логический анализ текстов на противоречияVladimir Lapshin
 
Компьютерная лингвистика в Яндексе
Компьютерная лингвистика в ЯндексеКомпьютерная лингвистика в Яндексе
Компьютерная лингвистика в Яндексе
Yandex
 
4 встреча — Компьютерная лингвистика (А. Катинская)
4 встреча — Компьютерная лингвистика (А. Катинская)4 встреча — Компьютерная лингвистика (А. Катинская)
4 встреча — Компьютерная лингвистика (А. Катинская)
Smolensk Computer Science Club
 

Viewers also liked (9)

Compreno_Starostin
Compreno_StarostinCompreno_Starostin
Compreno_Starostin
 
Mitsov
MitsovMitsov
Mitsov
 
4 ling
4 ling4 ling
4 ling
 
Lecture1
Lecture1Lecture1
Lecture1
 
Системы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автоматСистемы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автомат
 
Прикладная лингвистика: проблемы моделирования языка в действии
Прикладная лингвистика: проблемы моделирования языка в действииПрикладная лингвистика: проблемы моделирования языка в действии
Прикладная лингвистика: проблемы моделирования языка в действии
 
Логический анализ текстов на противоречия
Логический анализ текстов на противоречияЛогический анализ текстов на противоречия
Логический анализ текстов на противоречия
 
Компьютерная лингвистика в Яндексе
Компьютерная лингвистика в ЯндексеКомпьютерная лингвистика в Яндексе
Компьютерная лингвистика в Яндексе
 
4 встреча — Компьютерная лингвистика (А. Катинская)
4 встреча — Компьютерная лингвистика (А. Катинская)4 встреча — Компьютерная лингвистика (А. Катинская)
4 встреча — Компьютерная лингвистика (А. Катинская)
 

Similar to Логические алгоритмы классификации

1.2 Выборка. Выборочное пространство
1.2 Выборка. Выборочное пространство1.2 Выборка. Выборочное пространство
1.2 Выборка. Выборочное пространство
DEVTYPE
 
Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства"
Technosphere1
 
К.В.Воронцов "Статистические (байесовские) методы классификации"
К.В.Воронцов "Статистические (байесовские) методы классификации"К.В.Воронцов "Статистические (байесовские) методы классификации"
К.В.Воронцов "Статистические (байесовские) методы классификации"
Yandex
 
Методы машинного обучения в физике элементарных частиц
Методы машинного обучения в физике элементарных частицМетоды машинного обучения в физике элементарных частиц
Методы машинного обучения в физике элементарных частиц
Andrey Ustyuzhanin
 
Использование поисковых машин и ресурсов Интернет для отбора терминов предмет...
Использование поисковых машин и ресурсов Интернет для отбора терминов предмет...Использование поисковых машин и ресурсов Интернет для отбора терминов предмет...
Использование поисковых машин и ресурсов Интернет для отбора терминов предмет...
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
Лекция №11 "Основы нейронных сетей"
Лекция №11 "Основы нейронных сетей" Лекция №11 "Основы нейронных сетей"
Лекция №11 "Основы нейронных сетей"
Technosphere1
 
К.В. Воронцов "Метрические методы классификации"
К.В. Воронцов "Метрические методы классификации"К.В. Воронцов "Метрические методы классификации"
К.В. Воронцов "Метрические методы классификации"
Yandex
 
К.В. Воронцов "Регрессивный анализ и метод главных компонент"
К.В. Воронцов "Регрессивный анализ и метод главных компонент"К.В. Воронцов "Регрессивный анализ и метод главных компонент"
К.В. Воронцов "Регрессивный анализ и метод главных компонент"
Yandex
 
К.В. Воронцов "Нелинейная регрессия. Многослойные нейронные сети"
К.В. Воронцов "Нелинейная регрессия. Многослойные нейронные сети"К.В. Воронцов "Нелинейная регрессия. Многослойные нейронные сети"
К.В. Воронцов "Нелинейная регрессия. Многослойные нейронные сети"
Yandex
 
Кванторы. Квантор всеобщности. Квантор существования.Равносильные формулы лог...
Кванторы. Квантор всеобщности. Квантор существования.Равносильные формулы лог...Кванторы. Квантор всеобщности. Квантор существования.Равносильные формулы лог...
Кванторы. Квантор всеобщности. Квантор существования.Равносильные формулы лог...
aleksashka3
 
A Method of Reducing Computational Complexity in Verification of Programming ...
A Method of Reducing Computational Complexity in Verification of Programming ...A Method of Reducing Computational Complexity in Verification of Programming ...
A Method of Reducing Computational Complexity in Verification of Programming ...
Iosif Itkin
 
Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера
Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдераАндрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера
Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдераYandex
 
20131022 зобнин
20131022 зобнин20131022 зобнин
20131022 зобнин
Yandex
 
Лекция №1. Введение. Предмет "Теория вычислительных процессов"
Лекция №1. Введение. Предмет "Теория вычислительных процессов"Лекция №1. Введение. Предмет "Теория вычислительных процессов"
Лекция №1. Введение. Предмет "Теория вычислительных процессов"Nikolay Grebenshikov
 
20110409 quantum algorithms_vyali_lecture09
20110409 quantum algorithms_vyali_lecture0920110409 quantum algorithms_vyali_lecture09
20110409 quantum algorithms_vyali_lecture09Computer Science Club
 
Подобедов: Абстрактный Детерминизм
Подобедов: Абстрактный ДетерминизмПодобедов: Абстрактный Детерминизм
Подобедов: Абстрактный ДетерминизмAleximos
 
20110409 quantum algorithms_vyali_lecture09
20110409 quantum algorithms_vyali_lecture0920110409 quantum algorithms_vyali_lecture09
20110409 quantum algorithms_vyali_lecture09Computer Science Club
 
Методы оценивания
Методы оцениванияМетоды оценивания
Методы оценивания
Kurbatskiy Alexey
 

Similar to Логические алгоритмы классификации (20)

1.2 Выборка. Выборочное пространство
1.2 Выборка. Выборочное пространство1.2 Выборка. Выборочное пространство
1.2 Выборка. Выборочное пространство
 
6
66
6
 
Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства"
 
К.В.Воронцов "Статистические (байесовские) методы классификации"
К.В.Воронцов "Статистические (байесовские) методы классификации"К.В.Воронцов "Статистические (байесовские) методы классификации"
К.В.Воронцов "Статистические (байесовские) методы классификации"
 
Методы машинного обучения в физике элементарных частиц
Методы машинного обучения в физике элементарных частицМетоды машинного обучения в физике элементарных частиц
Методы машинного обучения в физике элементарных частиц
 
Использование поисковых машин и ресурсов Интернет для отбора терминов предмет...
Использование поисковых машин и ресурсов Интернет для отбора терминов предмет...Использование поисковых машин и ресурсов Интернет для отбора терминов предмет...
Использование поисковых машин и ресурсов Интернет для отбора терминов предмет...
 
Лекция №11 "Основы нейронных сетей"
Лекция №11 "Основы нейронных сетей" Лекция №11 "Основы нейронных сетей"
Лекция №11 "Основы нейронных сетей"
 
К.В. Воронцов "Метрические методы классификации"
К.В. Воронцов "Метрические методы классификации"К.В. Воронцов "Метрические методы классификации"
К.В. Воронцов "Метрические методы классификации"
 
К.В. Воронцов "Регрессивный анализ и метод главных компонент"
К.В. Воронцов "Регрессивный анализ и метод главных компонент"К.В. Воронцов "Регрессивный анализ и метод главных компонент"
К.В. Воронцов "Регрессивный анализ и метод главных компонент"
 
К.В. Воронцов "Нелинейная регрессия. Многослойные нейронные сети"
К.В. Воронцов "Нелинейная регрессия. Многослойные нейронные сети"К.В. Воронцов "Нелинейная регрессия. Многослойные нейронные сети"
К.В. Воронцов "Нелинейная регрессия. Многослойные нейронные сети"
 
Кванторы. Квантор всеобщности. Квантор существования.Равносильные формулы лог...
Кванторы. Квантор всеобщности. Квантор существования.Равносильные формулы лог...Кванторы. Квантор всеобщности. Квантор существования.Равносильные формулы лог...
Кванторы. Квантор всеобщности. Квантор существования.Равносильные формулы лог...
 
A Method of Reducing Computational Complexity in Verification of Programming ...
A Method of Reducing Computational Complexity in Verification of Programming ...A Method of Reducing Computational Complexity in Verification of Programming ...
A Method of Reducing Computational Complexity in Verification of Programming ...
 
Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера
Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдераАндрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера
Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера
 
20131022 зобнин
20131022 зобнин20131022 зобнин
20131022 зобнин
 
Pril2
Pril2Pril2
Pril2
 
Лекция №1. Введение. Предмет "Теория вычислительных процессов"
Лекция №1. Введение. Предмет "Теория вычислительных процессов"Лекция №1. Введение. Предмет "Теория вычислительных процессов"
Лекция №1. Введение. Предмет "Теория вычислительных процессов"
 
20110409 quantum algorithms_vyali_lecture09
20110409 quantum algorithms_vyali_lecture0920110409 quantum algorithms_vyali_lecture09
20110409 quantum algorithms_vyali_lecture09
 
Подобедов: Абстрактный Детерминизм
Подобедов: Абстрактный ДетерминизмПодобедов: Абстрактный Детерминизм
Подобедов: Абстрактный Детерминизм
 
20110409 quantum algorithms_vyali_lecture09
20110409 quantum algorithms_vyali_lecture0920110409 quantum algorithms_vyali_lecture09
20110409 quantum algorithms_vyali_lecture09
 
Методы оценивания
Методы оцениванияМетоды оценивания
Методы оценивания
 

More from yaevents

Как научить роботов тестировать веб-интерфейсы. Артем Ерошенко, Илья Кацев, Я...
Как научить роботов тестировать веб-интерфейсы. Артем Ерошенко, Илья Кацев, Я...Как научить роботов тестировать веб-интерфейсы. Артем Ерошенко, Илья Кацев, Я...
Как научить роботов тестировать веб-интерфейсы. Артем Ерошенко, Илья Кацев, Я...
yaevents
 
Тема для WordPress в БЭМ. Владимир Гриненко, Яндекс
Тема для WordPress в БЭМ. Владимир Гриненко, ЯндексТема для WordPress в БЭМ. Владимир Гриненко, Яндекс
Тема для WordPress в БЭМ. Владимир Гриненко, Яндексyaevents
 
Построение сложносоставных блоков в шаблонизаторе bemhtml. Сергей Бережной, Я...
Построение сложносоставных блоков в шаблонизаторе bemhtml. Сергей Бережной, Я...Построение сложносоставных блоков в шаблонизаторе bemhtml. Сергей Бережной, Я...
Построение сложносоставных блоков в шаблонизаторе bemhtml. Сергей Бережной, Я...
yaevents
 
i-bem.js: JavaScript в БЭМ-терминах. Елена Глухова, Варвара Степанова, Яндекс
i-bem.js: JavaScript в БЭМ-терминах. Елена Глухова, Варвара Степанова, Яндексi-bem.js: JavaScript в БЭМ-терминах. Елена Глухова, Варвара Степанова, Яндекс
i-bem.js: JavaScript в БЭМ-терминах. Елена Глухова, Варвара Степанова, Яндекс
yaevents
 
Дом из готовых кирпичей. Библиотека блоков, тюнинг, инструменты. Елена Глухов...
Дом из готовых кирпичей. Библиотека блоков, тюнинг, инструменты. Елена Глухов...Дом из готовых кирпичей. Библиотека блоков, тюнинг, инструменты. Елена Глухов...
Дом из готовых кирпичей. Библиотека блоков, тюнинг, инструменты. Елена Глухов...
yaevents
 
Модели в профессиональной инженерии и тестировании программ. Александр Петрен...
Модели в профессиональной инженерии и тестировании программ. Александр Петрен...Модели в профессиональной инженерии и тестировании программ. Александр Петрен...
Модели в профессиональной инженерии и тестировании программ. Александр Петрен...
yaevents
 
Администрирование небольших сервисов или один за всех и 100 на одного. Роман ...
Администрирование небольших сервисов или один за всех и 100 на одного. Роман ...Администрирование небольших сервисов или один за всех и 100 на одного. Роман ...
Администрирование небольших сервисов или один за всех и 100 на одного. Роман ...
yaevents
 
Мониторинг со всех сторон. Алексей Симаков, Яндекс
Мониторинг со всех сторон. Алексей Симаков, ЯндексМониторинг со всех сторон. Алексей Симаков, Яндекс
Мониторинг со всех сторон. Алексей Симаков, Яндексyaevents
 
Истории про разработку сайтов. Сергей Бережной, Яндекс
Истории про разработку сайтов. Сергей Бережной, ЯндексИстории про разработку сайтов. Сергей Бережной, Яндекс
Истории про разработку сайтов. Сергей Бережной, Яндекс
yaevents
 
Разработка приложений для Android на С++. Юрий Береза, Shturmann
Разработка приложений для Android на С++. Юрий Береза, ShturmannРазработка приложений для Android на С++. Юрий Береза, Shturmann
Разработка приложений для Android на С++. Юрий Береза, Shturmann
yaevents
 
Кросс-платформенная разработка под мобильные устройства. Дмитрий Жестилевский...
Кросс-платформенная разработка под мобильные устройства. Дмитрий Жестилевский...Кросс-платформенная разработка под мобильные устройства. Дмитрий Жестилевский...
Кросс-платформенная разработка под мобильные устройства. Дмитрий Жестилевский...
yaevents
 
Сложнейшие техники, применяемые буткитами и полиморфными вирусами. Вячеслав З...
Сложнейшие техники, применяемые буткитами и полиморфными вирусами. Вячеслав З...Сложнейшие техники, применяемые буткитами и полиморфными вирусами. Вячеслав З...
Сложнейшие техники, применяемые буткитами и полиморфными вирусами. Вячеслав З...
yaevents
 
Сканирование уязвимостей со вкусом Яндекса. Тарас Иващенко, Яндекс
Сканирование уязвимостей со вкусом Яндекса. Тарас Иващенко, ЯндексСканирование уязвимостей со вкусом Яндекса. Тарас Иващенко, Яндекс
Сканирование уязвимостей со вкусом Яндекса. Тарас Иващенко, Яндекс
yaevents
 
Масштабируемость Hadoop в Facebook. Дмитрий Мольков, Facebook
Масштабируемость Hadoop в Facebook. Дмитрий Мольков, FacebookМасштабируемость Hadoop в Facebook. Дмитрий Мольков, Facebook
Масштабируемость Hadoop в Facebook. Дмитрий Мольков, Facebook
yaevents
 
Контроль зверей: инструменты для управления и мониторинга распределенных сист...
Контроль зверей: инструменты для управления и мониторинга распределенных сист...Контроль зверей: инструменты для управления и мониторинга распределенных сист...
Контроль зверей: инструменты для управления и мониторинга распределенных сист...
yaevents
 
Юнит-тестирование и Google Mock. Влад Лосев, Google
Юнит-тестирование и Google Mock. Влад Лосев, GoogleЮнит-тестирование и Google Mock. Влад Лосев, Google
Юнит-тестирование и Google Mock. Влад Лосев, Google
yaevents
 
C++11 (formerly known as C++0x) is the new C++ language standard. Dave Abraha...
C++11 (formerly known as C++0x) is the new C++ language standard. Dave Abraha...C++11 (formerly known as C++0x) is the new C++ language standard. Dave Abraha...
C++11 (formerly known as C++0x) is the new C++ language standard. Dave Abraha...
yaevents
 
Зачем обычному программисту знать языки, на которых почти никто не пишет. Але...
Зачем обычному программисту знать языки, на которых почти никто не пишет. Але...Зачем обычному программисту знать языки, на которых почти никто не пишет. Але...
Зачем обычному программисту знать языки, на которых почти никто не пишет. Але...
yaevents
 
В поисках математики. Михаил Денисенко, Нигма
В поисках математики. Михаил Денисенко, НигмаВ поисках математики. Михаил Денисенко, Нигма
В поисках математики. Михаил Денисенко, Нигма
yaevents
 
Using classifiers to compute similarities between face images. Prof. Lior Wol...
Using classifiers to compute similarities between face images. Prof. Lior Wol...Using classifiers to compute similarities between face images. Prof. Lior Wol...
Using classifiers to compute similarities between face images. Prof. Lior Wol...
yaevents
 

More from yaevents (20)

Как научить роботов тестировать веб-интерфейсы. Артем Ерошенко, Илья Кацев, Я...
Как научить роботов тестировать веб-интерфейсы. Артем Ерошенко, Илья Кацев, Я...Как научить роботов тестировать веб-интерфейсы. Артем Ерошенко, Илья Кацев, Я...
Как научить роботов тестировать веб-интерфейсы. Артем Ерошенко, Илья Кацев, Я...
 
Тема для WordPress в БЭМ. Владимир Гриненко, Яндекс
Тема для WordPress в БЭМ. Владимир Гриненко, ЯндексТема для WordPress в БЭМ. Владимир Гриненко, Яндекс
Тема для WordPress в БЭМ. Владимир Гриненко, Яндекс
 
Построение сложносоставных блоков в шаблонизаторе bemhtml. Сергей Бережной, Я...
Построение сложносоставных блоков в шаблонизаторе bemhtml. Сергей Бережной, Я...Построение сложносоставных блоков в шаблонизаторе bemhtml. Сергей Бережной, Я...
Построение сложносоставных блоков в шаблонизаторе bemhtml. Сергей Бережной, Я...
 
i-bem.js: JavaScript в БЭМ-терминах. Елена Глухова, Варвара Степанова, Яндекс
i-bem.js: JavaScript в БЭМ-терминах. Елена Глухова, Варвара Степанова, Яндексi-bem.js: JavaScript в БЭМ-терминах. Елена Глухова, Варвара Степанова, Яндекс
i-bem.js: JavaScript в БЭМ-терминах. Елена Глухова, Варвара Степанова, Яндекс
 
Дом из готовых кирпичей. Библиотека блоков, тюнинг, инструменты. Елена Глухов...
Дом из готовых кирпичей. Библиотека блоков, тюнинг, инструменты. Елена Глухов...Дом из готовых кирпичей. Библиотека блоков, тюнинг, инструменты. Елена Глухов...
Дом из готовых кирпичей. Библиотека блоков, тюнинг, инструменты. Елена Глухов...
 
Модели в профессиональной инженерии и тестировании программ. Александр Петрен...
Модели в профессиональной инженерии и тестировании программ. Александр Петрен...Модели в профессиональной инженерии и тестировании программ. Александр Петрен...
Модели в профессиональной инженерии и тестировании программ. Александр Петрен...
 
Администрирование небольших сервисов или один за всех и 100 на одного. Роман ...
Администрирование небольших сервисов или один за всех и 100 на одного. Роман ...Администрирование небольших сервисов или один за всех и 100 на одного. Роман ...
Администрирование небольших сервисов или один за всех и 100 на одного. Роман ...
 
Мониторинг со всех сторон. Алексей Симаков, Яндекс
Мониторинг со всех сторон. Алексей Симаков, ЯндексМониторинг со всех сторон. Алексей Симаков, Яндекс
Мониторинг со всех сторон. Алексей Симаков, Яндекс
 
Истории про разработку сайтов. Сергей Бережной, Яндекс
Истории про разработку сайтов. Сергей Бережной, ЯндексИстории про разработку сайтов. Сергей Бережной, Яндекс
Истории про разработку сайтов. Сергей Бережной, Яндекс
 
Разработка приложений для Android на С++. Юрий Береза, Shturmann
Разработка приложений для Android на С++. Юрий Береза, ShturmannРазработка приложений для Android на С++. Юрий Береза, Shturmann
Разработка приложений для Android на С++. Юрий Береза, Shturmann
 
Кросс-платформенная разработка под мобильные устройства. Дмитрий Жестилевский...
Кросс-платформенная разработка под мобильные устройства. Дмитрий Жестилевский...Кросс-платформенная разработка под мобильные устройства. Дмитрий Жестилевский...
Кросс-платформенная разработка под мобильные устройства. Дмитрий Жестилевский...
 
Сложнейшие техники, применяемые буткитами и полиморфными вирусами. Вячеслав З...
Сложнейшие техники, применяемые буткитами и полиморфными вирусами. Вячеслав З...Сложнейшие техники, применяемые буткитами и полиморфными вирусами. Вячеслав З...
Сложнейшие техники, применяемые буткитами и полиморфными вирусами. Вячеслав З...
 
Сканирование уязвимостей со вкусом Яндекса. Тарас Иващенко, Яндекс
Сканирование уязвимостей со вкусом Яндекса. Тарас Иващенко, ЯндексСканирование уязвимостей со вкусом Яндекса. Тарас Иващенко, Яндекс
Сканирование уязвимостей со вкусом Яндекса. Тарас Иващенко, Яндекс
 
Масштабируемость Hadoop в Facebook. Дмитрий Мольков, Facebook
Масштабируемость Hadoop в Facebook. Дмитрий Мольков, FacebookМасштабируемость Hadoop в Facebook. Дмитрий Мольков, Facebook
Масштабируемость Hadoop в Facebook. Дмитрий Мольков, Facebook
 
Контроль зверей: инструменты для управления и мониторинга распределенных сист...
Контроль зверей: инструменты для управления и мониторинга распределенных сист...Контроль зверей: инструменты для управления и мониторинга распределенных сист...
Контроль зверей: инструменты для управления и мониторинга распределенных сист...
 
Юнит-тестирование и Google Mock. Влад Лосев, Google
Юнит-тестирование и Google Mock. Влад Лосев, GoogleЮнит-тестирование и Google Mock. Влад Лосев, Google
Юнит-тестирование и Google Mock. Влад Лосев, Google
 
C++11 (formerly known as C++0x) is the new C++ language standard. Dave Abraha...
C++11 (formerly known as C++0x) is the new C++ language standard. Dave Abraha...C++11 (formerly known as C++0x) is the new C++ language standard. Dave Abraha...
C++11 (formerly known as C++0x) is the new C++ language standard. Dave Abraha...
 
Зачем обычному программисту знать языки, на которых почти никто не пишет. Але...
Зачем обычному программисту знать языки, на которых почти никто не пишет. Але...Зачем обычному программисту знать языки, на которых почти никто не пишет. Але...
Зачем обычному программисту знать языки, на которых почти никто не пишет. Але...
 
В поисках математики. Михаил Денисенко, Нигма
В поисках математики. Михаил Денисенко, НигмаВ поисках математики. Михаил Денисенко, Нигма
В поисках математики. Михаил Денисенко, Нигма
 
Using classifiers to compute similarities between face images. Prof. Lior Wol...
Using classifiers to compute similarities between face images. Prof. Lior Wol...Using classifiers to compute similarities between face images. Prof. Lior Wol...
Using classifiers to compute similarities between face images. Prof. Lior Wol...
 

Логические алгоритмы классификации

  • 1. Понятия закономерности и информативности Методы построения логических алгоритмов Вероятностное оценивание Логические алгоритмы классификации К. В. Воронцов vokov@forecsys.ru www.MachineLearning.ru, Участник:Vokov ЗАО Форексис , Вычислительный Центр им. А. А. Дородницына РАН Научный семинар Яндекс Москва, 9 июня 2010 К. В. Воронцов (www.ccas.ru/voron) Логические алгоритмы классификации
  • 2. Понятия закономерности и информативности Методы построения логических алгоритмов Вероятностное оценивание Содержание 1 Понятия закономерности и информативности Логическая закономерность Требование интерпретируемости Требование информативности 2 Методы построения логических алгоритмов Индукция закономерностей Композиция закономерностей Взвешенное голосование 3 Вероятностное оценивание Постановка задачи Оценки надёжности закономерностей Калибровка Платта К. В. Воронцов (www.ccas.ru/voron) Логические алгоритмы классификации
  • 3. Понятия закономерности и информативности Логическая закономерность Методы построения логических алгоритмов Требование интерпретируемости Вероятностное оценивание Требование информативности Задача классификации X множество объектов; Y множество классов; y: X →Y неизвестная целевая зависимость (target). Дано: X ℓ = (xi , yi )ℓ i=1 обучающая выборка, yi = y (xi )    f1 (x1 ) . . . fn (x1 ) y1 . . . . . . . . . . . . . . . . . . . . . f1 (xℓ ) . . . fn (xℓ ) yℓ Найти: классификатор функцию a : X → Y , приближающую y (x) на всём множестве x ∈ X .  ′ ′  ′  f1 (x1 ) . . . fn (x1 ) a(x1 )  . . . . . . . . . . . . . . . . . .  . . .  ′ f1 (xk ) . . . fn (xk ) ′ ′ a(xk ) К. В. Воронцов (www.ccas.ru/voron) Логические алгоритмы классификации
  • 4. Понятия закономерности и информативности Логическая закономерность Методы построения логических алгоритмов Требование интерпретируемости Вероятностное оценивание Требование информативности Задача классификации: уточнение требований Требования к классификатору: интерпретируемость ответов возможность объяснить классификацию; интерпретируемость классификатора понятность его внутренней структуры; возможность оценивать риски на выходе оценки вероятностей классов P(y |x); обобщающая способность высокое качество прогнозов на контрольных данных; масштабируемость миллионы объектов ℓ, тысячи признаков n; Данной совокупности требований удовлетворяют логические алгоритмы классификации. К. В. Воронцов (www.ccas.ru/voron) Логические алгоритмы классификации
  • 5. Понятия закономерности и информативности Логическая закономерность Методы построения логических алгоритмов Требование интерпретируемости Вероятностное оценивание Требование информативности Логическая закономерность Логическая закономерность (правило, rule) это предикат R : X → {0, 1}, удовлетворяющий двум требованиям: 1) интерпретируемость: R записывается на естественном языке; R зависит от небольшого числа признаков (1–7); 2) информативность относительно одного из классов c ∈ Y : p(R) = xi : R(xi )=1 и yi =c → max; n(R) = xi : R(xi )=1 и yi =c → min; Если R(x) = 1, то говорят R выделяет x (R covers x). К. В. Воронцов (www.ccas.ru/voron) Логические алгоритмы классификации
  • 6. Понятия закономерности и информативности Логическая закономерность Методы построения логических алгоритмов Требование интерпретируемости Вероятностное оценивание Требование информативности Часто используемые виды закономерностей 1. Конъюнкция пороговых условий (термов): R(x) = aj fj (x) bj . j∈J 2. Синдром когда выполнено не менее d термов из J, (при d = |J| это конъюнкция, при d = 1 дизъюнкция): R(x) = aj fj (x) bj d , j∈J Синдромы обнаруживаются во многих прикладных областях: в кредитном скоринге, в геологическом прогнозировании, в медицинской диагностике [Переверзев-Орлов, 1990], и др. Параметры J, aj , bj , d настраиваются по обучающей выборке. К. В. Воронцов (www.ccas.ru/voron) Логические алгоритмы классификации
  • 7. Понятия закономерности и информативности Логическая закономерность Методы построения логических алгоритмов Требование интерпретируемости Вероятностное оценивание Требование информативности Часто используемые виды закономерностей 3. Полуплоскость линейная пороговая функция: R(x) = wj fj (x) w0 . j∈J 4. Шар пороговая функция близости: R(x) = r (x, x0 ) w0 , АВО алгоритмы вычисления оценок [Ю. И. Журавлёв, 1971]: r (x, x0 ) = max wj fj (x) − fj (x0 ) . j∈J SCM машины покрывающих множеств [M. Marchand, 2001]: 2 r (x, x0 ) = wj fj (x) − fj (x0 ) . j∈J Параметры J, wj , w0 , x0 настраиваются по обучающей выборке путём оптимизации критерия информативности. К. В. Воронцов (www.ccas.ru/voron) Логические алгоритмы классификации
  • 8. Понятия закономерности и информативности Логическая закономерность Методы построения логических алгоритмов Требование интерпретируемости Вероятностное оценивание Требование информативности Часто используемые критерии информативности Проблема: надо сравнивать закономерности R. Как свернуть два критерия в один критерий информативности? p(R) → max ? =⇒ I (p, n) → max n(R) → min Очевидные, но не всегда адекватные свёртки: p → max (precision); p+n p − n → max (accuracy); p − Cn → max (linear cost accuracy); p n − → max (relative accuracy); P N P = xi : yi =c число своих во всей выборке; N = xi : yi =c число чужих во всей выборке. К. В. Воронцов (www.ccas.ru/voron) Логические алгоритмы классификации
  • 9. Понятия закономерности и информативности Логическая закономерность Методы построения логических алгоритмов Требование интерпретируемости Вероятностное оценивание Требование информативности Часто используемые критерии информативности Адекватные, но неочевидные критерии: энтропийный критерий информационного выигрыша: P p+n p ℓ−p−n P −p h − h − h → max, ℓ ℓ p+n ℓ ℓ−p−n где h(q) = −q log2 q − (1 − q) log2 (1 − q); критерий неслучайности FET (Fisher’s Exact Test): p n p+n CP CN /CP+N → min; критерий бустинга [Cohen, Singer, 1999]: √ √ p − n → max нормированный критерий бустинга: p/P − n/N → max; предсказательные критерии на основе мета-обучения [J. F¨rnkranz at al., 2001–2007]. u К. В. Воронцов (www.ccas.ru/voron) Логические алгоритмы классификации
  • 10. Понятия закономерности и информативности Логическая закономерность Методы построения логических алгоритмов Требование интерпретируемости Вероятностное оценивание Требование информативности Где находятся закономерности в (p, n)-плоскости n p Логические закономерности: p+n 0.1, P+N 0.05. p n p+n Статистические закономерности: CP CN /CP+N 0.05. n 100 P = 200 90 80 N = 100 70 60 50 40 30 20 10 0 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 p логические закономерности низкой информативности статистические закономерности логические закономерности высокой информативности минимум информативности Вывод: неслучайность ещё не значит закономерность. К. В. Воронцов (www.ccas.ru/voron) Логические алгоритмы классификации
  • 11. Понятия закономерности и информативности Логическая закономерность Методы построения логических алгоритмов Требование интерпретируемости Вероятностное оценивание Требование информативности Парето-критерий информативности Парето-фронт множество недоминируемых закономерностей (точка R недоминируема, если правее и ниже точек нет) 50 45 6 , n(R) 40 5 4 35 3 2 30 1 25 20 15 10 5 0 0 50 100 150 200 250 300 , p(R) задача UCI:german К. В. Воронцов (www.ccas.ru/voron) Логические алгоритмы классификации
  • 12. Понятия закономерности и информативности Индукция закономерностей Методы построения логических алгоритмов Композиция закономерностей Вероятностное оценивание Взвешенное голосование Поиск информативных наборов признаков Проблема: как сократить перебор предикатов, захватив побольше закономерностей из первых Парето-слоёв. Это задача комбинаторной оптимизации. Основные эвристические методы поиска: поиск в глубину, метод ветвей и границ (КОРА); поиск в ширину (ТЭМП); стохастический локальный поиск (SLIPPER); генетические (эволюционные) алгоритмы (DMEL); случайный поиск с адаптацией (СПА); Основной практический вывод: Почти не важно, каким именно методом поиска пользоваться. Гораздо важнее критерий отбора закономерностей. К. В. Воронцов (www.ccas.ru/voron) Логические алгоритмы классификации
  • 13. Понятия закономерности и информативности Индукция закономерностей Методы построения логических алгоритмов Композиция закономерностей Вероятностное оценивание Взвешенное голосование Локальное улучшение найденных закономерностей Редукция (pruning): 1: заранее выделить контрольную выборку; 2: для всех найденных закономерностей R(x) 3: для всех признаков fj из J 4: если удаление признака повышает информативность закономерности на контроле, то 5: признак удаляется; Стабилизация: 1: для всех найденных закономерностей R(x) 2: для всех признаков fj из J 3: оптимизировать пороги aj , bj по критерию максимума информативности на всей выборке; 4: удалить дубликаты среди закономерностей; К. В. Воронцов (www.ccas.ru/voron) Логические алгоритмы классификации
  • 14. Понятия закономерности и информативности Индукция закономерностей Методы построения логических алгоритмов Композиция закономерностей Вероятностное оценивание Взвешенное голосование Композиция закономерностей Каждое правило выделяет лишь небольшую долю объектов. Следовательно, правил нужно много. Две основные идеи: 1: покрытие 2: голосование (комитеты старшинства, (комитеты большинства, решающие списки и деревья) бустинг и бэггинг) К. В. Воронцов (www.ccas.ru/voron) Логические алгоритмы классификации
  • 15. Понятия закономерности и информативности Индукция закономерностей Методы построения логических алгоритмов Композиция закономерностей Вероятностное оценивание Взвешенное голосование Взвешенное голосование закономерностей t Пусть Ry (x), t = 1, . . . , Ty закономерности класса y . Взвешенное голосование: 1) сумма голосов закономерностей за класс y : Ty t t Γy (x) = ay Ry (x); t=1 2) алгоритм классификации: a(x) = arg max Γy (x). y ∈Y Методы настройки весов t по обучающей выборке: ay t = 1/T ; простое голосование: ay y LR логистическая регрессия; SVM метод опорных векторов; бустинг. К. В. Воронцов (www.ccas.ru/voron) Логические алгоритмы классификации
  • 16. Понятия закономерности и информативности Индукция закономерностей Методы построения логических алгоритмов Композиция закономерностей Вероятностное оценивание Взвешенное голосование Покрытие выборки Перевес голосов (margin) за правильный класс yi на объекте xi : M(xi ) = Γyi (xi ) − max Γy (xi ). y =yi Margin 0.8 0.6 пограничные эталонные объекты объекты 0.4 шумы надёжно классифицируемые объекты 0.2 0 -0.2 -0.4 ошибки -0.6 0 20 40 60 80 100 120 140 160 180 200 i Практический вывод: метод настройки весов не столь важен, как обеспечение надёжного покрытия выборки и отсев шума. К. В. Воронцов (www.ccas.ru/voron) Логические алгоритмы классификации
  • 17. Понятия закономерности и информативности Постановка задачи Методы построения логических алгоритмов Оценки надёжности закономерностей Вероятностное оценивание Калибровка Платта Задача вероятностного оценивания Задача: наряду с классификацией объекта a(x) вычислять оценки вероятностей P(y |x) для всех классов y . Основные методы решения: оценивание надёжности отдельных закономерностей (для решающих списков и деревьев); калибровка Платта (для взвешенного голосования); нечёткие закономерности и др. К. В. Воронцов (www.ccas.ru/voron) Логические алгоритмы классификации
  • 18. Понятия закономерности и информативности Постановка задачи Методы построения логических алгоритмов Оценки надёжности закономерностей Вероятностное оценивание Калибровка Платта Оценки надёжности закономерностей Переобучение закономерностей: p ′ (R) на контроле меньше, чем p(R) на обучении; n′ (R) на контроле больше, чем n(R) на обучении; Смещённость оценки вероятности: если Ry (x) = 1, то вероятность того, что x из класса y : p P(y |x) = − δ(p, n, . . .) . p+n поправка на переобученность Способы несмещённого оценивания: p′ По контрольным данным: P y (x)=c ≈ p ′ +n′ . Метаобучение: строится регрессионная модель δ(p, n, . . .). Точные комбинаторные оценки вероятности переобучения (теория under construction). К. В. Воронцов (www.ccas.ru/voron) Логические алгоритмы классификации
  • 19. Понятия закономерности и информативности Постановка задачи Методы построения логических алгоритмов Оценки надёжности закономерностей Вероятностное оценивание Калибровка Платта Калибровка Платта Пусть для простоты классов два, Y = {−1, +1}. При некоторых (не слишком сильных) допущениях вероятность P(y |x) связана с перевесом голосов ∆y (x) = Γy (x) − Γ−y (x) через сигмоидную функцию σ(z): 1.0 P(y |x) = σ(a∆y (x) + b), σ(z) 0.5 1 σ(z) = 0 1 + e −z -6 -4 -2 0 2 4 6 z Настройка коэффициентов a, b по контрольной выборке методом максимума правдоподобия: log 1 − p(xi ; a, b) + log p(xi ; a, b) → max a,b yi =−1 yi =+1 К. В. Воронцов (www.ccas.ru/voron) Логические алгоритмы классификации
  • 20. Понятия закономерности и информативности Постановка задачи Методы построения логических алгоритмов Оценки надёжности закономерностей Вероятностное оценивание Калибровка Платта Сухой остаток 1 Закономерности это простые информативные правила. Чаще всего применяются закономерности-конъюнкции. 2 Популярные критерии информативности не вполне адекватны. Спасает расслоение Парето. 3 Поиск закономерностей сводится к отбору признаков. Выбор конкретного метода отбора почти не важен. 4 Два основных типа композиций закономерностей. Взвешенное голосование немного надёжнее покрытия. 5 Визуальный контроль граничных и шумовых объектов. Калибровка Платта даёт вероятности классов. К. В. Воронцов (www.ccas.ru/voron) Логические алгоритмы классификации
  • 21. Понятия закономерности и информативности Постановка задачи Методы построения логических алгоритмов Оценки надёжности закономерностей Вероятностное оценивание Калибровка Платта Литература Ю. И. Журавлёв, В. В. Никифоров. Алгоритмы распознавания, основанные на вычислении оценок // Кибернетика, Киев, 1971, № 3. В. С. Переверзев-Орлов. Советчик специалиста: опыт создания партнерской системы. Наука, Москва, 1990. 133 С. W. W. Cohen, Y. Singer, A Simple, Fast and Effective Rule Learner // 16th National Conference on Artificial Intelligence, 1999, Pp. 335–342. J. F¨rnkranz, P. A. Flach. ROC‘n’Rule Learning u Towards a Better Understanding of Covering Algorithms // Machine Learning, 2005, No. 1, Vol. 58, Pp. 39–77. F. Janssen, J. F¨rnkranz. Meta-Learning Rule Learning Heuristics // u Martin-Luther-University Halle-Wittenberg, 2007, Pp. 167–174. Hsuan-tien Lin, Chih-Jen Lin, Ruby C. Weng. A Note on Platts Probabilistic Outputs for SVM // Machine Learning, 2007, No. 3, Vol. 68, Pp. 267–276. M. Marchand, J. Shawe-Taylor. Learning with the Set Covering Machine // ICML-18, 2001, Pp. 345–352. К. В. Воронцов (www.ccas.ru/voron) Логические алгоритмы классификации