Модель базы знаний для интеллектуальной кластеризации многомерных данных в системе КАРКАС
Model knowledge base for intelligent clustering of multidimensional data in the system KARKAS
интелектуальный анализ экономических данных в системе каркас
1.
2. Data Mining или Knowledge in
Databases (добыча данных, интеллектуальный анализ
данных , обнаружение знаний в базах знаний)
3. Большинство статистических
методов для выявления
закономерностей в данных
используют идею усреднения по
выборке, то есть используют
данные не присутствующие в
выборке.
А методы Data
Mining для поиска
закономерностей
используют только
исходные данные.
5. Задачи Data Mining :
Задача классификации сводится к
определению класса объекта по его
xaрактеристикам. Множество классов
известно заранее.
Задача регрессии подобно задаче
классификации позволяет определить по
известным характеристикам объекта
значение некоторого параметра из
множества действительных чисел.
При поиске ассоциативных правил целью
является нахождение частых
зависимостей (или ассоциаций)
Задача кластеризации заключается в
поиске независимых групп (кластеров) и
их характеристик во всем множестве
анализируемых данных.
6. Практическое применение Data
Mining
Интернет-технологии
персонализация посетителей Web-сайтов
поиск случаев мошенничества с кредитными картами
Web Mining: Web content mining и Web usage mining
Торговля
анализ рыночных корзин и сиквенциональный анализ
Телекоммуникации
анализ доходности и риска потери клиентов
защита от мошенничества,
выявление категорий клиентов с похожими
стepeoтипами пользования услугами и разработка
привлекательных наборов цен и услуг
7. Промышленное производство
прогнозирование качества изделия в
зависимости от замеряемых параметров
технологического процесса.
Медицина и биология
построение диагностической системы
исследование эффективности
хирургическoгo вмешательства
Биоинформатика – изучение генов,
разработка новых лекарств
Банковское дело
оценка кредитоспособности заемщика
8. Модели Data Mining
Предсказательные модели
модели классификации
модели последовательностей
Описательные модели
регрессионные модели
модели кластеров
модели исключений
итоговые модели
ассоциативные модели
9. Предсказательные модели
модели классификации описывают правила или
набор правил, в соответствии с которыми можно
отнести описание любого новогo объекта к одному
из классов. Такие правила строятся на основании
информации о существующих объектах путем
разбиения их на классы;
модели последовательностей описывают
функции, позволяющие прогнозировать изменение
непрерывных числовых параметров. Они строятся на
основании данных об изменении некоторого
параметра за прошедший период времени.
10. Описательные модели
реrрессионные модели описывают функциональные
зависимости между зависимыми и независимыми
показателями и переменными в понятной человеку форме.
Они описывают функциональную зависимость не только
между непрерывными числовыми параметрами, но и между
категориальными параметрами;
модели кластеров описывают группы (кластеры), на
которые можно разделить объекты, данные о которых
подвергаются анализу. Группируются объекты (наблюдения,
события) на основе данных (свойств), описывающих сущность
объектов. Объекты внутри кластера должны быть "похожими"
друr на друrа и отличаться от объектов, вошедших в другие
кластеры. Чем сильнее "похожи" объекты внутри кластера и
чем больше отличий между кластерами, тем точнее
кластеризация;
11. Описательные модели
o модели исключений описывают исключительные
ситуации в записях (например, отдельных пациентов),
которые резко отличаются чем либо от основного
множества записей (группы больных). Знание
исключений может быть использовано двояким образом.
Возможно, эти записи представляют собой случайный
сбой, например ошибки операторов, вводивших данные
в компьютер. С другой стороны, отдельные
исключительные записи могут представлять
самостоятельный интерес для исследования, т. к. они
могут указывать на некоторые редкие, но важные
аномальные заболевания.
12. Описательные модели
итоговые модели - выявление оrраничений на
данные анализируемоrо массива. Например, при
изучении выборки данных по пациентам не старше 30
лет, перенесшим инфаркт миокарда, обнаруживается,
что все пациенты, описанные в этой выборке, либо
курят более 5 пачек сигарет в день, либо имеют вес не
ниже 95 Kr. Построение итоrовых моделей заключается
в нахождении каких либо фактов, которые верны для
всех или почти всех записей в изучаемой выборке
данных, но которые достаточно редко встречались бы
во всем мыслимом мноrообразии записей;
ассоциативные модели - выявление
закономерностей между связанными событиями.
13. Кластерный анализ
Кластерный анализ (кластеризация, таксономия,
самообучение, обучение без учителя) предназначен для
разбиения множества объектов на заданное или
неизвестное число классов на основании некоторого
математического критерия качества классификации (cluster
— гроздь, пучок, скопление, группа элементов,
характеризуемых каким-либо общим свойством).
14. Стратегия проведения
кластеризации
Для решения задачи кластерного анализа с помощью системы
"КАРКАС" рекомендуется выполнить ряд операций:
1. Матрицу "объект-признак" записать в базу данных;
2. Произвести предварительную обработку данных (заполнение
пропусков в данных, взвешивание, редактирование и отбор признаков);
3. Отобрать наиболее информативные, репрезентативные признаки по
методу главных компонент, а также с помощью кластер-процедур, где в
качестве меры близости групп признаков Al и Aq положено:
где и – число признаков, составляющих группы Al и Aq соответственно, а
положительное число r выбирается исследователем; rij – коэффициент
корреляции между признаками pi и pj.
15. 5. Выбрать различные меры близости между кластерами
(К-обобщенное расстояние по Колмогорову) по формуле:
4. Выбрать различные меры близости между объектами:
взвешенное евклидовое расстояние
2/1
1
2
)(),(
p
k
kjkikji xxwxxd ;
обобщенное расстояние Махалонобиса
)()(),( 12
ji
TT
jiji xxWxxxxD
.
r
Sx Sx
ji
r
mlml
K
r
li mi
xxdnnSSd
/1
1)(
),()(),(
где nl, и nm – количество объектов xi (соответственно xj ) в кластерах Sl
(соответственно Sm). В частности,при r имеем расстояние,
измеряемое по принципу "ближайшего соседа", при r имеем
расстояние, измеряемое по принципу "дальнего соседа", при г = 1 имеем
расстояние, измеряемое по принципу "средней связи"
17. 7. Оценить и сравнить качество разбиения на кластеры,
используя различные функционалы качества:
"среднее внутрикластерное рассеяние"
r
Sk
i xSx
li
r
i
il
xxdxnSI
/1
)(
1 )(
11
1 ),())(()(
;
"меру концентрации объектов, соответствующую разбиению"
rn
i
r
ir nxnSZSI
/1
1
11
2 )/)(()()(
,
где d – метрика факторного пространства; n – число объектов; S(xi) –
кластер, содержащий объект xi; )( ix – число элементов в кластере S(xi);
k(S) – число классов, получающихся при разбиении S; г - числовой
параметр, выбираемый экспертом;
различные комбинации функцианалов
)()( 21 SISI ;
)()( 21 SISI ;
где и – некоторые положительные числа, выбираемые экспертом.
18. Такая стратегия кластеризации позволяет эксперту получить
дополнительную информацию о числе, форме и компактности
кластеров, о количестве центров кластеров и их координатах, о
расстоянии между кластерами и о размерности "аномальных"
кластеров.
8. Интерпретировать и документировать результаты кластеризации: на экран дисплея
выводится таблица расстояний между центрами кластеров, таблица дисперсий для получения
представления об относительном расположении образов внутри кластера и другое.
19.
20. Правила БЗ для выбора процедуры кластеризации.
Правило_1. A#.
ЕСЛИ
A Признаки = Количественные
ТО
Метрика = Евклидова, к. д. п. = 1.000.
Правило_2. A#.
ЕСЛИ
A Признаки = Порядковые
ТО
Метрика = Инфимум, к. д. п. = 1.000.
Правило_3. A#.
ЕСЛИ
A Признаки = Бинарные
ТО
Метрика = Хеммингова, к. д. п. = 1.000.
21. Правило_4. A#.
ЕСЛИ
A Признаки = Качественные
ТО
Метрика = Стандартизованная, к. д. п. = 1.000.
Правило_5. A#.
ЕСЛИ
A Признаки = Смешанные
ТО
Метрика = Не используется, к. д. п. = 1.000.
Фрейм_6.
Имя слота | Тип слота | Наследование
Выбор | Замещение |
Метрика | Евклидова |
Число | Ввод |
Стратегия | Замещение |
Целевой слот.
Кластеризация | "Иерархическая".
22. Фрейм_7.
Имя слота | Тип слота | Наследование
Выбор | Замещение |
Метрика | Инфимум |
Число | Ввод |
Стратегия | Замещение |
Целевой слот.
Кластеризация | "Иерархическая".
Фрейм_8.
Имя слота | Тип слота | Наследование
Выбор | Замещение |
Метрика | Хеммингова |
Число | Ввод |
Стратегия | Замещение |
Целевой слот.
Кластеризация | "Иерархическая".
23. Фрейм_15.
Имя слота | Тип слота | Наследование
Выбор | Замещение |
Метрика | Супремум |
Число | Нет |
Стратегия | Замещение |
Целевой слот.
Кластеризация | "Иерархическая".
Фрейм_16.
Имя слота | Тип слота | Наследование
Выбор | Замещение |
Метрика | Не используется |
Число | Нет |
Мощность | Замещение |
Степень принадлежности | Замещение |
Целевой слот.
Кластеризация | "Нечеткое динамическое сгущение".
29. 7. Далее, нажмите на кнопку "Выполнить
расчет KGS" и наблюдайте за сообщениями
на экране
30. 8. После стабилизации работы алгоритма "К-
внутригрупповых средних" можно просмотреть
результаты кластеризации
31. 9. Для визуализации результатов выберите
вкладку "Визуализация" и нажмите на кнопку
"Результат"
32. На предыдущем слайде представлены результаты
кластеризации 8 объектов по 2 признакам. Из самого
расположения объектов в признаковом пространстве
следует, что при вычислительном эксперименте
следовало бы выбрать число кластеров не 1 , а 2.
Поскольку на слайде четко выражены 2 кластера: первый
кластер содержит объекты (1 – 7), а второй кластер
содержит один объект 8. Но если эксперт считает, что
число объектов в кластерах должно быть больше 1, то
результат кластеризации в этом случае подсказывает, что
имеется 1 кластер форма, которого имеет вид вытянутого
облака.
33. Аналогично следует выполнить
вычислительный эксперимент с теми же
данными, но используя алгоритм
ISODATA (на шаге 7 следует нажать на
кнопку "Выполнить ИСОМАД"). В этом
случае можно в диалоговом режиме
выбрать ряд дополнительных
параметров: межкластерное расстояние,
число объектов в кластере, наличие
аномальных кластеров и так далее.