1. Моделирование гуманитарных процессов Древняя китайская классификация животных Животные подразделяются на: а) принадлежащих императору; б) набальзамированных; в) дрессированных; г) молочных поросят; д) сирен; е) сказочных; ж) бродячих собак; з) включенных в данную классификацию; и) дрожащих, как сумасшедшие; к) неисчислимых; л) нарисованных самой лучшей верблюжьей кисточкой; м) других; н) тех, которые только что разбили цветочную вазу и о) тех, которые издалека напоминают мух (Хорхе Луис Борхес, Другие исследования: 1937—1952). Лекция 6
2. Классификация. Кластерный анализ Кластер-анализ — это способ группировки многомерных объектов, основанный на представлении результатов отдельных наблюдений точками подходящего геометрического пространства с последующим выделением групп как «сгустков» этих точек. «Кластер» (cluster) в английском языке и означает «сгусток», «гроздь (винограда)», «скопление (звезд)» и т. п.
3. Рождение метода Первые работы, упоминающие о кластерных методах, появились давно, но большая часть литературы по кластерному анализу была написана в течение последних двух десятилетий. Импульсом для разработки многих кластерных методов послужила книга «Начала численной таксономии», опубликованная в 1963 г. двумя биологами — Робертом Сокэлом и Петером Снитом. Сокэл и Снит утверждали, что эффективная процедура для создания биологических классификаций должна обеспечивать сбор всевозможных данных об интересующих организмах, оценивать степень сходства между этими организмами и применять некоторый метод кластеризации, чтобы поместить достаточно схожие организмы в одну и ту же группу. После этого состав каждой группы можно проанализировать, чтобы выяснить, представляют ли они разные биологические виды. Фактически Сокэл и Снит полагают, что «структура отражает процесс», т. е. структура замеченных различий и сходств между организмами может служить основой для понимания эволюционного процесса.
4. Общий алгоритм кластеризации несмотря на различия в целях, типах данных и примененных методах, все исследования, использующие кластерный анализ, характеризуют следующие пять основных шагов: 1) отбор выборки для кластеризации; 2) определение множества признаков, по которым будут оцениваться объекты в выборке; 3) вычисление значений той или иной меры сходства между объектами; 4) применение метода кластерного анализа для создания групп сходных объектов; 5) проверка достоверности результатов кластерного решения.
5.
6. Матрица расстояний между объектами. Каждый объект описывается расстояниями до всех остальных объектов обучающей выборки.
7. Временной ряд или сигнал представляет собой последовательность измерений во времени. Каждое измерение может представляться числом, вектором, а в общем случае — признаковым описанием исследуемого объекта в данный момент времени.
8. Изображение или видеоряд.
9. Встречаются и более сложные случаи, когда входные данные представляются в виде графов, текстов, результатов запросов к базе данных, и т. д. Как правило, они приводятся к первому или второму случаю путём предварительной обработки данных и извлечения признаков. Классификацию сигналов и изображений называют также распознаванием образов.
10.
11. Многоклассоваяклассификация. Когда число классов достигает многих тысяч (например, при распознавании иероглифов или слитной речи), задача классификации становится существенно более трудной.
15. Понятие сходства. Меры сходства В задачах классификации очень важным является факт что различные объекты показывают сходства или различия. Проблема сходства состоит не в простом отнесении объектов к тем или иным классам, а в том что что такое разбиение должно удовлетворят критериям научного знания. Количественное определение сходства опирается на понятие метрики. При таком подходе объекты представляются точками в многомерном координатном пространстве, причем сходства и различия между ними находятся из метрических расстояний. Размерность пространства определяется числом переменных описывающих объект.
20. Ассоциативные коэффициенты Меры ассоциативности применяются когда требуется определить сходство между объектами описываемыми бинарными переменными. Для этого используется таблица ассоциативности2х2. 1 означает наличие переменной, 0 – отсутствие. Простой коэффициент встречаемости Коэффициент Жаккара
22. Иерархическая кластеризация Стратегия классификации– способ объединения элементов в кластеры. Для случая иерархической кластеризации элементы объединяются в кластеры последовательно попарно с заменой элементов на новый элемент. При этом стратегия выбирается из общего правила
24. Шаг 1. На первом шаге алгоритма в качестве первых элементов кластера выбираются два элемента с наименьшим по всей матрице расстоянием. В данном случае это элементы с номерами i=2 j=3, расстояние между которыми равно Новому кластеру, состоящему из двух элементов 2 и 3, присваивается следующий номер после номера последнего элемента. В данном случае этот номер равен 6.