SlideShare a Scribd company logo
1 of 33
Data Mining или Knowledge in
Databases (добыча данных, интеллектуальный анализ
данных , обнаружение знаний в базах знаний)
Большинство статистических
методов для выявления
закономерностей в данных
используют идею усреднения по
выборке, то есть используют
данные не присутствующие в
выборке.
А методы Data
Mining для поиска
закономерностей
используют только
исходные данные.
К методам Data Mining
относятся:
Задачи Data Mining :
Задача классификации сводится к
определению класса объекта по его
xaрактеристикам. Множество классов
известно заранее.
Задача регрессии подобно задаче
классификации позволяет определить по
известным характеристикам объекта
значение некоторого параметра из
множества действительных чисел.
При поиске ассоциативных правил целью
является нахождение частых
зависимостей (или ассоциаций)
Задача кластеризации заключается в
поиске независимых групп (кластеров) и
их характеристик во всем множестве
анализируемых данных.
Практическое применение Data
Mining
Интернет-технологии
 персонализация посетителей Web-сайтов
 поиск случаев мошенничества с кредитными картами
 Web Mining: Web content mining и Web usage mining
Торговля
 анализ рыночных корзин и сиквенциональный анализ
Телекоммуникации
 анализ доходности и риска потери клиентов
 защита от мошенничества,
 выявление категорий клиентов с похожими
стepeoтипами пользования услугами и разработка
привлекательных наборов цен и услуг
Промышленное производство
 прогнозирование качества изделия в
зависимости от замеряемых параметров
технологического процесса.
Медицина и биология
 построение диагностической системы
 исследование эффективности
хирургическoгo вмешательства
 Биоинформатика – изучение генов,
разработка новых лекарств
Банковское дело
 оценка кредитоспособности заемщика
Модели Data Mining
Предсказательные модели
 модели классификации
 модели последовательностей
Описательные модели
 регрессионные модели
 модели кластеров
 модели исключений
 итоговые модели
 ассоциативные модели
Предсказательные модели
 модели классификации описывают правила или
набор правил, в соответствии с которыми можно
отнести описание любого новогo объекта к одному
из классов. Такие правила строятся на основании
информации о существующих объектах путем
разбиения их на классы;
 модели последовательностей описывают
функции, позволяющие прогнозировать изменение
непрерывных числовых параметров. Они строятся на
основании данных об изменении некоторого
параметра за прошедший период времени.
Описательные модели
 реrрессионные модели описывают функциональные
зависимости между зависимыми и независимыми
показателями и переменными в понятной человеку форме.
Они описывают функциональную зависимость не только
между непрерывными числовыми параметрами, но и между
категориальными параметрами;
 модели кластеров описывают группы (кластеры), на
которые можно разделить объекты, данные о которых
подвергаются анализу. Группируются объекты (наблюдения,
события) на основе данных (свойств), описывающих сущность
объектов. Объекты внутри кластера должны быть "похожими"
друr на друrа и отличаться от объектов, вошедших в другие
кластеры. Чем сильнее "похожи" объекты внутри кластера и
чем больше отличий между кластерами, тем точнее
кластеризация;
Описательные модели
o модели исключений описывают исключительные
ситуации в записях (например, отдельных пациентов),
которые резко отличаются чем либо от основного
множества записей (группы больных). Знание
исключений может быть использовано двояким образом.
Возможно, эти записи представляют собой случайный
сбой, например ошибки операторов, вводивших данные
в компьютер. С другой стороны, отдельные
исключительные записи могут представлять
самостоятельный интерес для исследования, т. к. они
могут указывать на некоторые редкие, но важные
аномальные заболевания.
Описательные модели
 итоговые модели - выявление оrраничений на
данные анализируемоrо массива. Например, при
изучении выборки данных по пациентам не старше 30
лет, перенесшим инфаркт миокарда, обнаруживается,
что все пациенты, описанные в этой выборке, либо
курят более 5 пачек сигарет в день, либо имеют вес не
ниже 95 Kr. Построение итоrовых моделей заключается
в нахождении каких либо фактов, которые верны для
всех или почти всех записей в изучаемой выборке
данных, но которые достаточно редко встречались бы
во всем мыслимом мноrообразии записей;
 ассоциативные модели - выявление
закономерностей между связанными событиями.
Кластерный анализ
Кластерный анализ (кластеризация, таксономия,
самообучение, обучение без учителя) предназначен для
разбиения множества объектов на заданное или
неизвестное число классов на основании некоторого
математического критерия качества классификации (cluster
— гроздь, пучок, скопление, группа элементов,
характеризуемых каким-либо общим свойством).
Стратегия проведения
кластеризации
Для решения задачи кластерного анализа с помощью системы
"КАРКАС" рекомендуется выполнить ряд операций:
1. Матрицу "объект-признак" записать в базу данных;
2. Произвести предварительную обработку данных (заполнение
пропусков в данных, взвешивание, редактирование и отбор признаков);
3. Отобрать наиболее информативные, репрезентативные признаки по
методу главных компонент, а также с помощью кластер-процедур, где в
качестве меры близости групп признаков Al и Aq положено:
где и – число признаков, составляющих группы Al и Aq соответственно, а
положительное число r выбирается исследователем; rij – коэффициент
корреляции между признаками pi и pj.
5. Выбрать различные меры близости между кластерами
(К-обобщенное расстояние по Колмогорову) по формуле:
4. Выбрать различные меры близости между объектами:
взвешенное евклидовое расстояние
2/1
1
2
)(),( 





 
p
k
kjkikji xxwxxd ;
обобщенное расстояние Махалонобиса
)()(),( 12
ji
TT
jiji xxWxxxxD  
.
r
Sx Sx
ji
r
mlml
K
r
li mi
xxdnnSSd
/1
1)(
),()(),( 





   

где nl, и nm – количество объектов xi (соответственно xj ) в кластерах Sl
(соответственно Sm). В частности,при r имеем расстояние,
измеряемое по принципу "ближайшего соседа", при r имеем
расстояние, измеряемое по принципу "дальнего соседа", при г = 1 имеем
расстояние, измеряемое по принципу "средней связи"
6. Использовать различные алгоритмы классификации
многомерных объектов на классы:
7. Оценить и сравнить качество разбиения на кластеры,
используя различные функционалы качества:
"среднее внутрикластерное рассеяние"
r
Sk
i xSx
li
r
i
il
xxdxnSI
/1
)(
1 )(
11
1 ),())(()( 





   

 ;
"меру концентрации объектов, соответствующую разбиению"
 
rn
i
r
ir nxnSZSI
/1
1
11
2 )/)(()()(









   ,
где d – метрика факторного пространства; n – число объектов; S(xi) –
кластер, содержащий объект xi; )( ix – число элементов в кластере S(xi);
k(S) – число классов, получающихся при разбиении S; г - числовой
параметр, выбираемый экспертом;
различные комбинации функцианалов
)()( 21 SISI   ;
   
)()( 21 SISI  ;
где  и  – некоторые положительные числа, выбираемые экспертом.
Такая стратегия кластеризации позволяет эксперту получить
дополнительную информацию о числе, форме и компактности
кластеров, о количестве центров кластеров и их координатах, о
расстоянии между кластерами и о размерности "аномальных"
кластеров.
8. Интерпретировать и документировать результаты кластеризации: на экран дисплея
выводится таблица расстояний между центрами кластеров, таблица дисперсий для получения
представления об относительном расположении образов внутри кластера и другое.
Правила БЗ для выбора процедуры кластеризации.
Правило_1. A#.
ЕСЛИ
A Признаки = Количественные
ТО
Метрика = Евклидова, к. д. п. = 1.000.
Правило_2. A#.
ЕСЛИ
A Признаки = Порядковые
ТО
Метрика = Инфимум, к. д. п. = 1.000.
Правило_3. A#.
ЕСЛИ
A Признаки = Бинарные
ТО
Метрика = Хеммингова, к. д. п. = 1.000.
Правило_4. A#.
ЕСЛИ
A Признаки = Качественные
ТО
Метрика = Стандартизованная, к. д. п. = 1.000.
Правило_5. A#.
ЕСЛИ
A Признаки = Смешанные
ТО
Метрика = Не используется, к. д. п. = 1.000.
Фрейм_6.
Имя слота | Тип слота | Наследование
Выбор | Замещение |
Метрика | Евклидова |
Число | Ввод |
Стратегия | Замещение |
Целевой слот.
Кластеризация | "Иерархическая".
Фрейм_7.
Имя слота | Тип слота | Наследование
Выбор | Замещение |
Метрика | Инфимум |
Число | Ввод |
Стратегия | Замещение |
Целевой слот.
Кластеризация | "Иерархическая".
Фрейм_8.
Имя слота | Тип слота | Наследование
Выбор | Замещение |
Метрика | Хеммингова |
Число | Ввод |
Стратегия | Замещение |
Целевой слот.
Кластеризация | "Иерархическая".
Фрейм_15.
Имя слота | Тип слота | Наследование
Выбор | Замещение |
Метрика | Супремум |
Число | Нет |
Стратегия | Замещение |
Целевой слот.
Кластеризация | "Иерархическая".
Фрейм_16.
Имя слота | Тип слота | Наследование
Выбор | Замещение |
Метрика | Не используется |
Число | Нет |
Мощность | Замещение |
Степень принадлежности | Замещение |
Целевой слот.
Кластеризация | "Нечеткое динамическое сгущение".
Фрейм для выбора процедуры нечеткого динамического сгущения
Описание процесса
кластеризации в
системе “КАРКАС”
4. Загрузить Ваш файл с расширением
*.xls
7. Далее, нажмите на кнопку "Выполнить
расчет KGS" и наблюдайте за сообщениями
на экране
8. После стабилизации работы алгоритма "К-
внутригрупповых средних" можно просмотреть
результаты кластеризации
9. Для визуализации результатов выберите
вкладку "Визуализация" и нажмите на кнопку
"Результат"
 На предыдущем слайде представлены результаты
кластеризации 8 объектов по 2 признакам. Из самого
расположения объектов в признаковом пространстве
следует, что при вычислительном эксперименте
следовало бы выбрать число кластеров не 1 , а 2.
Поскольку на слайде четко выражены 2 кластера: первый
кластер содержит объекты (1 – 7), а второй кластер
содержит один объект 8. Но если эксперт считает, что
число объектов в кластерах должно быть больше 1, то
результат кластеризации в этом случае подсказывает, что
имеется 1 кластер форма, которого имеет вид вытянутого
облака.
 Аналогично следует выполнить
вычислительный эксперимент с теми же
данными, но используя алгоритм
ISODATA (на шаге 7 следует нажать на
кнопку "Выполнить ИСОМАД"). В этом
случае можно в диалоговом режиме
выбрать ряд дополнительных
параметров: межкластерное расстояние,
число объектов в кластере, наличие
аномальных кластеров и так далее.

More Related Content

Similar to интелектуальный анализ экономических данных в системе каркас

Karkas интеллектуальный анализ
Karkas интеллектуальный анализKarkas интеллектуальный анализ
Karkas интеллектуальный анализVladimir Burdaev
 
Семь граблей краудсорсинга (7 crowdsourcing rakes)
Семь граблей краудсорсинга (7 crowdsourcing rakes)Семь граблей краудсорсинга (7 crowdsourcing rakes)
Семь граблей краудсорсинга (7 crowdsourcing rakes)Pavel Rastyannikov
 
Введение в машинное обучение
Введение в машинное обучениеВведение в машинное обучение
Введение в машинное обучениеGrigory Sapunov
 
#АналитикаРешает - обзорная лекция про аналитику
#АналитикаРешает - обзорная лекция про аналитику#АналитикаРешает - обзорная лекция про аналитику
#АналитикаРешает - обзорная лекция про аналитикуKadimov Mansur
 
лекция 8
лекция 8лекция 8
лекция 8cezium
 
К.В. Воронцов "Алгоритмы кластеризации"
К.В. Воронцов "Алгоритмы кластеризации"К.В. Воронцов "Алгоритмы кластеризации"
К.В. Воронцов "Алгоритмы кластеризации"Yandex
 
FaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_reviewFaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_reviewKhryashchev
 
CV2015. Лекция 5. Выделение объектов.
CV2015. Лекция 5. Выделение объектов.CV2015. Лекция 5. Выделение объектов.
CV2015. Лекция 5. Выделение объектов.Anton Konushin
 
Data Mining - lecture 5 - 2014
Data Mining - lecture 5 - 2014Data Mining - lecture 5 - 2014
Data Mining - lecture 5 - 2014Andrii Gakhov
 
Современные методы анализа данных
Современные методы анализа данныхСовременные методы анализа данных
Современные методы анализа данныхDEVTYPE
 
АиСД осень 2012 лекция 9
АиСД осень 2012 лекция 9АиСД осень 2012 лекция 9
АиСД осень 2012 лекция 9Technopark
 
основы ооп
основы оопосновы ооп
основы оопDmitry Savin
 
Моделирование ТПиПП
Моделирование ТПиППМоделирование ТПиПП
Моделирование ТПиППAndrey Urusov
 
C++ осень 2012 лекция 3
C++ осень 2012 лекция 3C++ осень 2012 лекция 3
C++ осень 2012 лекция 3Technopark
 
!Predictive analytics part_2
!Predictive analytics part_2!Predictive analytics part_2
!Predictive analytics part_2Vladimir Krylov
 

Similar to интелектуальный анализ экономических данных в системе каркас (20)

Karkas интеллектуальный анализ
Karkas интеллектуальный анализKarkas интеллектуальный анализ
Karkas интеллектуальный анализ
 
Семь граблей краудсорсинга (7 crowdsourcing rakes)
Семь граблей краудсорсинга (7 crowdsourcing rakes)Семь граблей краудсорсинга (7 crowdsourcing rakes)
Семь граблей краудсорсинга (7 crowdsourcing rakes)
 
Введение в машинное обучение
Введение в машинное обучениеВведение в машинное обучение
Введение в машинное обучение
 
#АналитикаРешает - обзорная лекция про аналитику
#АналитикаРешает - обзорная лекция про аналитику#АналитикаРешает - обзорная лекция про аналитику
#АналитикаРешает - обзорная лекция про аналитику
 
Geo sib 2012
Geo sib 2012Geo sib 2012
Geo sib 2012
 
лекция 8
лекция 8лекция 8
лекция 8
 
К.В. Воронцов "Алгоритмы кластеризации"
К.В. Воронцов "Алгоритмы кластеризации"К.В. Воронцов "Алгоритмы кластеризации"
К.В. Воронцов "Алгоритмы кластеризации"
 
FaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_reviewFaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_review
 
CV2015. Лекция 5. Выделение объектов.
CV2015. Лекция 5. Выделение объектов.CV2015. Лекция 5. Выделение объектов.
CV2015. Лекция 5. Выделение объектов.
 
Data Mining - lecture 5 - 2014
Data Mining - lecture 5 - 2014Data Mining - lecture 5 - 2014
Data Mining - lecture 5 - 2014
 
Lec 4
Lec 4Lec 4
Lec 4
 
лекция 4 (4часа)
лекция 4 (4часа)лекция 4 (4часа)
лекция 4 (4часа)
 
Современные методы анализа данных
Современные методы анализа данныхСовременные методы анализа данных
Современные методы анализа данных
 
Лекция 1
Лекция 1Лекция 1
Лекция 1
 
АиСД осень 2012 лекция 9
АиСД осень 2012 лекция 9АиСД осень 2012 лекция 9
АиСД осень 2012 лекция 9
 
основы ооп
основы оопосновы ооп
основы ооп
 
Моделирование ТПиПП
Моделирование ТПиППМоделирование ТПиПП
Моделирование ТПиПП
 
Lecture 2
Lecture 2Lecture 2
Lecture 2
 
C++ осень 2012 лекция 3
C++ осень 2012 лекция 3C++ осень 2012 лекция 3
C++ осень 2012 лекция 3
 
!Predictive analytics part_2
!Predictive analytics part_2!Predictive analytics part_2
!Predictive analytics part_2
 

More from Vladimir Burdaev

Modul 1 Systems Business Intelligence
Modul 1 Systems Business IntelligenceModul 1 Systems Business Intelligence
Modul 1 Systems Business IntelligenceVladimir Burdaev
 
презентация управления знаниями_каркас
презентация управления знаниями_каркаспрезентация управления знаниями_каркас
презентация управления знаниями_каркасVladimir Burdaev
 
управление знаний3 (2)
управление знаний3 (2)управление знаний3 (2)
управление знаний3 (2)Vladimir Burdaev
 
каркас новая версия
каркас новая версиякаркас новая версия
каркас новая версияVladimir Burdaev
 
каркас интеллектуальный анализ вар 2
каркас интеллектуальный анализ вар 2каркас интеллектуальный анализ вар 2
каркас интеллектуальный анализ вар 2Vladimir Burdaev
 
продвижение нового товара
продвижение нового товарапродвижение нового товара
продвижение нового товараVladimir Burdaev
 
оценка инновационных рисков предприятия
оценка инновационных рисков предприятияоценка инновационных рисков предприятия
оценка инновационных рисков предприятияVladimir Burdaev
 
источник финансирования
источник финансированияисточник финансирования
источник финансированияVladimir Burdaev
 
каркас 2011 prezent_servis
каркас 2011 prezent_servisкаркас 2011 prezent_servis
каркас 2011 prezent_servisVladimir Burdaev
 
каркас тестирование
каркас тестированиекаркас тестирование
каркас тестированиеVladimir Burdaev
 
бурдаев Ontology 2010
бурдаев Ontology 2010бурдаев Ontology 2010
бурдаев Ontology 2010Vladimir Burdaev
 
модель базы знаний салон красоты
модель базы знаний салон красотымодель базы знаний салон красоты
модель базы знаний салон красотыVladimir Burdaev
 
подбор кадров персонала Site 4
подбор  кадров персонала Site 4подбор  кадров персонала Site 4
подбор кадров персонала Site 4Vladimir Burdaev
 

More from Vladimir Burdaev (20)

Modul 1 Systems Business Intelligence
Modul 1 Systems Business IntelligenceModul 1 Systems Business Intelligence
Modul 1 Systems Business Intelligence
 
презентация управления знаниями_каркас
презентация управления знаниями_каркаспрезентация управления знаниями_каркас
презентация управления знаниями_каркас
 
2015 04 14_info_b_2
2015 04 14_info_b_22015 04 14_info_b_2
2015 04 14_info_b_2
 
E makros bur_2
E makros bur_2E makros bur_2
E makros bur_2
 
Burdtech
BurdtechBurdtech
Burdtech
 
управление знаний3 (2)
управление знаний3 (2)управление знаний3 (2)
управление знаний3 (2)
 
Paradigma km 0
Paradigma km 0Paradigma km 0
Paradigma km 0
 
парадигма ии
парадигма иипарадигма ии
парадигма ии
 
каркас новая версия
каркас новая версиякаркас новая версия
каркас новая версия
 
каркас интеллектуальный анализ вар 2
каркас интеллектуальный анализ вар 2каркас интеллектуальный анализ вар 2
каркас интеллектуальный анализ вар 2
 
продвижение нового товара
продвижение нового товарапродвижение нового товара
продвижение нового товара
 
оценка инновационных рисков предприятия
оценка инновационных рисков предприятияоценка инновационных рисков предприятия
оценка инновационных рисков предприятия
 
источник финансирования
источник финансированияисточник финансирования
источник финансирования
 
каркас рибс1
каркас рибс1каркас рибс1
каркас рибс1
 
каркас 2011 prezent_servis
каркас 2011 prezent_servisкаркас 2011 prezent_servis
каркас 2011 prezent_servis
 
каркас тестирование
каркас тестированиекаркас тестирование
каркас тестирование
 
бурдаев Mac1
бурдаев Mac1бурдаев Mac1
бурдаев Mac1
 
бурдаев Ontology 2010
бурдаев Ontology 2010бурдаев Ontology 2010
бурдаев Ontology 2010
 
модель базы знаний салон красоты
модель базы знаний салон красотымодель базы знаний салон красоты
модель базы знаний салон красоты
 
подбор кадров персонала Site 4
подбор  кадров персонала Site 4подбор  кадров персонала Site 4
подбор кадров персонала Site 4
 

интелектуальный анализ экономических данных в системе каркас

  • 1.
  • 2. Data Mining или Knowledge in Databases (добыча данных, интеллектуальный анализ данных , обнаружение знаний в базах знаний)
  • 3. Большинство статистических методов для выявления закономерностей в данных используют идею усреднения по выборке, то есть используют данные не присутствующие в выборке. А методы Data Mining для поиска закономерностей используют только исходные данные.
  • 4. К методам Data Mining относятся:
  • 5. Задачи Data Mining : Задача классификации сводится к определению класса объекта по его xaрактеристикам. Множество классов известно заранее. Задача регрессии подобно задаче классификации позволяет определить по известным характеристикам объекта значение некоторого параметра из множества действительных чисел. При поиске ассоциативных правил целью является нахождение частых зависимостей (или ассоциаций) Задача кластеризации заключается в поиске независимых групп (кластеров) и их характеристик во всем множестве анализируемых данных.
  • 6. Практическое применение Data Mining Интернет-технологии  персонализация посетителей Web-сайтов  поиск случаев мошенничества с кредитными картами  Web Mining: Web content mining и Web usage mining Торговля  анализ рыночных корзин и сиквенциональный анализ Телекоммуникации  анализ доходности и риска потери клиентов  защита от мошенничества,  выявление категорий клиентов с похожими стepeoтипами пользования услугами и разработка привлекательных наборов цен и услуг
  • 7. Промышленное производство  прогнозирование качества изделия в зависимости от замеряемых параметров технологического процесса. Медицина и биология  построение диагностической системы  исследование эффективности хирургическoгo вмешательства  Биоинформатика – изучение генов, разработка новых лекарств Банковское дело  оценка кредитоспособности заемщика
  • 8. Модели Data Mining Предсказательные модели  модели классификации  модели последовательностей Описательные модели  регрессионные модели  модели кластеров  модели исключений  итоговые модели  ассоциативные модели
  • 9. Предсказательные модели  модели классификации описывают правила или набор правил, в соответствии с которыми можно отнести описание любого новогo объекта к одному из классов. Такие правила строятся на основании информации о существующих объектах путем разбиения их на классы;  модели последовательностей описывают функции, позволяющие прогнозировать изменение непрерывных числовых параметров. Они строятся на основании данных об изменении некоторого параметра за прошедший период времени.
  • 10. Описательные модели  реrрессионные модели описывают функциональные зависимости между зависимыми и независимыми показателями и переменными в понятной человеку форме. Они описывают функциональную зависимость не только между непрерывными числовыми параметрами, но и между категориальными параметрами;  модели кластеров описывают группы (кластеры), на которые можно разделить объекты, данные о которых подвергаются анализу. Группируются объекты (наблюдения, события) на основе данных (свойств), описывающих сущность объектов. Объекты внутри кластера должны быть "похожими" друr на друrа и отличаться от объектов, вошедших в другие кластеры. Чем сильнее "похожи" объекты внутри кластера и чем больше отличий между кластерами, тем точнее кластеризация;
  • 11. Описательные модели o модели исключений описывают исключительные ситуации в записях (например, отдельных пациентов), которые резко отличаются чем либо от основного множества записей (группы больных). Знание исключений может быть использовано двояким образом. Возможно, эти записи представляют собой случайный сбой, например ошибки операторов, вводивших данные в компьютер. С другой стороны, отдельные исключительные записи могут представлять самостоятельный интерес для исследования, т. к. они могут указывать на некоторые редкие, но важные аномальные заболевания.
  • 12. Описательные модели  итоговые модели - выявление оrраничений на данные анализируемоrо массива. Например, при изучении выборки данных по пациентам не старше 30 лет, перенесшим инфаркт миокарда, обнаруживается, что все пациенты, описанные в этой выборке, либо курят более 5 пачек сигарет в день, либо имеют вес не ниже 95 Kr. Построение итоrовых моделей заключается в нахождении каких либо фактов, которые верны для всех или почти всех записей в изучаемой выборке данных, но которые достаточно редко встречались бы во всем мыслимом мноrообразии записей;  ассоциативные модели - выявление закономерностей между связанными событиями.
  • 13. Кластерный анализ Кластерный анализ (кластеризация, таксономия, самообучение, обучение без учителя) предназначен для разбиения множества объектов на заданное или неизвестное число классов на основании некоторого математического критерия качества классификации (cluster — гроздь, пучок, скопление, группа элементов, характеризуемых каким-либо общим свойством).
  • 14. Стратегия проведения кластеризации Для решения задачи кластерного анализа с помощью системы "КАРКАС" рекомендуется выполнить ряд операций: 1. Матрицу "объект-признак" записать в базу данных; 2. Произвести предварительную обработку данных (заполнение пропусков в данных, взвешивание, редактирование и отбор признаков); 3. Отобрать наиболее информативные, репрезентативные признаки по методу главных компонент, а также с помощью кластер-процедур, где в качестве меры близости групп признаков Al и Aq положено: где и – число признаков, составляющих группы Al и Aq соответственно, а положительное число r выбирается исследователем; rij – коэффициент корреляции между признаками pi и pj.
  • 15. 5. Выбрать различные меры близости между кластерами (К-обобщенное расстояние по Колмогорову) по формуле: 4. Выбрать различные меры близости между объектами: взвешенное евклидовое расстояние 2/1 1 2 )(),(         p k kjkikji xxwxxd ; обобщенное расстояние Махалонобиса )()(),( 12 ji TT jiji xxWxxxxD   . r Sx Sx ji r mlml K r li mi xxdnnSSd /1 1)( ),()(),(            где nl, и nm – количество объектов xi (соответственно xj ) в кластерах Sl (соответственно Sm). В частности,при r имеем расстояние, измеряемое по принципу "ближайшего соседа", при r имеем расстояние, измеряемое по принципу "дальнего соседа", при г = 1 имеем расстояние, измеряемое по принципу "средней связи"
  • 16. 6. Использовать различные алгоритмы классификации многомерных объектов на классы:
  • 17. 7. Оценить и сравнить качество разбиения на кластеры, используя различные функционалы качества: "среднее внутрикластерное рассеяние" r Sk i xSx li r i il xxdxnSI /1 )( 1 )( 11 1 ),())(()(             ; "меру концентрации объектов, соответствующую разбиению"   rn i r ir nxnSZSI /1 1 11 2 )/)(()()(             , где d – метрика факторного пространства; n – число объектов; S(xi) – кластер, содержащий объект xi; )( ix – число элементов в кластере S(xi); k(S) – число классов, получающихся при разбиении S; г - числовой параметр, выбираемый экспертом; различные комбинации функцианалов )()( 21 SISI   ;     )()( 21 SISI  ; где  и  – некоторые положительные числа, выбираемые экспертом.
  • 18. Такая стратегия кластеризации позволяет эксперту получить дополнительную информацию о числе, форме и компактности кластеров, о количестве центров кластеров и их координатах, о расстоянии между кластерами и о размерности "аномальных" кластеров. 8. Интерпретировать и документировать результаты кластеризации: на экран дисплея выводится таблица расстояний между центрами кластеров, таблица дисперсий для получения представления об относительном расположении образов внутри кластера и другое.
  • 19.
  • 20. Правила БЗ для выбора процедуры кластеризации. Правило_1. A#. ЕСЛИ A Признаки = Количественные ТО Метрика = Евклидова, к. д. п. = 1.000. Правило_2. A#. ЕСЛИ A Признаки = Порядковые ТО Метрика = Инфимум, к. д. п. = 1.000. Правило_3. A#. ЕСЛИ A Признаки = Бинарные ТО Метрика = Хеммингова, к. д. п. = 1.000.
  • 21. Правило_4. A#. ЕСЛИ A Признаки = Качественные ТО Метрика = Стандартизованная, к. д. п. = 1.000. Правило_5. A#. ЕСЛИ A Признаки = Смешанные ТО Метрика = Не используется, к. д. п. = 1.000. Фрейм_6. Имя слота | Тип слота | Наследование Выбор | Замещение | Метрика | Евклидова | Число | Ввод | Стратегия | Замещение | Целевой слот. Кластеризация | "Иерархическая".
  • 22. Фрейм_7. Имя слота | Тип слота | Наследование Выбор | Замещение | Метрика | Инфимум | Число | Ввод | Стратегия | Замещение | Целевой слот. Кластеризация | "Иерархическая". Фрейм_8. Имя слота | Тип слота | Наследование Выбор | Замещение | Метрика | Хеммингова | Число | Ввод | Стратегия | Замещение | Целевой слот. Кластеризация | "Иерархическая".
  • 23. Фрейм_15. Имя слота | Тип слота | Наследование Выбор | Замещение | Метрика | Супремум | Число | Нет | Стратегия | Замещение | Целевой слот. Кластеризация | "Иерархическая". Фрейм_16. Имя слота | Тип слота | Наследование Выбор | Замещение | Метрика | Не используется | Число | Нет | Мощность | Замещение | Степень принадлежности | Замещение | Целевой слот. Кластеризация | "Нечеткое динамическое сгущение".
  • 24. Фрейм для выбора процедуры нечеткого динамического сгущения
  • 26.
  • 27. 4. Загрузить Ваш файл с расширением *.xls
  • 28.
  • 29. 7. Далее, нажмите на кнопку "Выполнить расчет KGS" и наблюдайте за сообщениями на экране
  • 30. 8. После стабилизации работы алгоритма "К- внутригрупповых средних" можно просмотреть результаты кластеризации
  • 31. 9. Для визуализации результатов выберите вкладку "Визуализация" и нажмите на кнопку "Результат"
  • 32.  На предыдущем слайде представлены результаты кластеризации 8 объектов по 2 признакам. Из самого расположения объектов в признаковом пространстве следует, что при вычислительном эксперименте следовало бы выбрать число кластеров не 1 , а 2. Поскольку на слайде четко выражены 2 кластера: первый кластер содержит объекты (1 – 7), а второй кластер содержит один объект 8. Но если эксперт считает, что число объектов в кластерах должно быть больше 1, то результат кластеризации в этом случае подсказывает, что имеется 1 кластер форма, которого имеет вид вытянутого облака.
  • 33.  Аналогично следует выполнить вычислительный эксперимент с теми же данными, но используя алгоритм ISODATA (на шаге 7 следует нажать на кнопку "Выполнить ИСОМАД"). В этом случае можно в диалоговом режиме выбрать ряд дополнительных параметров: межкластерное расстояние, число объектов в кластере, наличие аномальных кластеров и так далее.