SlideShare a Scribd company logo
1 of 21
Моделирование гуманитарных процессов Древняя китайская классификация животных  Животные подразделяются на: а) принадлежащих  императору; б) набальзамированных; в) дрессированных;  г) молочных поросят; д) сирен; е) сказочных; ж) бродячих  собак; з) включенных в данную классификацию;  и) дрожащих, как сумасшедшие; к) неисчислимых;  л) нарисованных самой лучшей верблюжьей кисточкой;  м) других; н) тех, которые только что разбили цветочную  вазу и о) тех, которые издалека напоминают мух  (Хорхе Луис Борхес, Другие исследования: 1937—1952).  Лекция 6
Классификация. Кластерный анализ Кластер-анализ — это способ группировки многомерных  объектов, основанный на представлении результатов отдельных  наблюдений точками подходящего геометрического пространства с последующим выделением групп как «сгустков» этих точек.  «Кластер» (cluster) в английском языке и означает «сгусток»,  «гроздь (винограда)», «скопление (звезд)» и т. п.
Рождение метода Первые работы, упоминающие о кластерных методах, появились давно, но большая часть литературы по кластерному анализу была написана в течение последних двух десятилетий. Импульсом для разработки многих кластерных методов послужила книга «Начала численной таксономии», опубликованная в 1963 г. двумя биологами — Робертом Сокэлом и Петером Снитом. Сокэл и Снит утверждали, что эффективная процедура для создания биологических классификаций должна обеспечивать сбор всевозможных данных об интересующих организмах, оценивать степень сходства между этими организмами и применять некоторый метод кластеризации, чтобы поместить достаточно схожие организмы в одну и ту же группу. После этого состав каждой группы можно проанализировать, чтобы выяснить, представляют ли они разные биологические виды. Фактически Сокэл и Снит полагают, что «структура отражает процесс», т. е. структура замеченных различий и  сходств между организмами может служить основой для понимания эволюционного процесса.
Общий алгоритм кластеризации несмотря на различия в целях, типах данных и примененных методах, все исследования, использующие кластерный анализ, характеризуют следующие пять основных шагов:  1) отбор выборки для кластеризации;  2) определение множества признаков, по которым будут оцениваться объекты в выборке;  3) вычисление значений той или иной меры сходства между объектами;  4) применение метода кластерного анализа для создания групп сходных объектов;  5) проверка достоверности результатов кластерного решения.
 Типология задач классификации   Типы входных данных ,[object Object]
    Матрица расстояний между объектами. Каждый объект описывается расстояниями до всех остальных объектов обучающей выборки.
    Временной ряд или сигнал представляет собой последовательность измерений во времени. Каждое измерение может представляться числом, вектором, а в общем случае — признаковым описанием исследуемого объекта в данный момент времени.
    Изображение или видеоряд.
    Встречаются и более сложные случаи, когда входные данные представляются в виде графов, текстов, результатов запросов к базе данных, и т. д. Как правило, они приводятся к первому или второму случаю путём предварительной обработки данных и извлечения признаков. Классификацию сигналов и изображений называют также распознаванием образов.
 Типология задач классификации  Типы классов ,[object Object]
Многоклассоваяклассификация. Когда число классов достигает многих тысяч (например, при распознавании иероглифов или слитной речи), задача классификации становится существенно более трудной.
Непересекающиеся классы.
Пересекающиеся классы. Объект может относиться одновременно к нескольким классам.
Нечёткие классы. Требуется определять степень принадлежности объекта каждому из классов, обычно это действительное число от 0 до 1. ,[object Object]
Понятие сходства. Меры сходства В задачах классификации очень важным является факт что различные объекты показывают сходства или различия. Проблема сходства состоит не в  простом отнесении объектов к тем или иным классам, а в том что  что такое  разбиение должно удовлетворят критериям научного знания.  Количественное определение сходства опирается на понятие метрики. При  таком подходе объекты представляются точками в многомерном координатном  пространстве, причем сходства и различия между ними находятся из  метрических расстояний. Размерность пространства определяется числом переменных описывающих  объект.
Критерии метрик
Меры сходства Коэффициенты корреляции Меры расстояний Меры ассоциативности Вероятностные коэффициенты
Коэффициент корреляции
Меры расстояний
Ассоциативные коэффициенты Меры ассоциативности применяются когда требуется определить сходство  между объектами описываемыми бинарными переменными.  Для этого используется таблица ассоциативности2х2. 1 означает наличие переменной,  0 – отсутствие. Простой коэффициент встречаемости Коэффициент Жаккара
Ассоциативные коэффициенты Коэффициент Гауэра  

More Related Content

Similar to Моделирование Гуманитарных процессов. Лекция 6

isp_23_2012_215.pdf
isp_23_2012_215.pdfisp_23_2012_215.pdf
isp_23_2012_215.pdfGrishan1
 
Методики получения бизнес-информации
Методики получения бизнес-информацииМетодики получения бизнес-информации
Методики получения бизнес-информацииOlya Kollen, PhD
 
никитин с.г. возможности и ограничения применения общенаучных методов познани...
никитин с.г. возможности и ограничения применения общенаучных методов познани...никитин с.г. возможности и ограничения применения общенаучных методов познани...
никитин с.г. возможности и ограничения применения общенаучных методов познани...Анатолий Бельчусов
 
Введение в машинное обучение
Введение в машинное обучениеВведение в машинное обучение
Введение в машинное обучениеGrigory Sapunov
 
Data base
Data baseData base
Data basesng
 
Лекция "Задача моделирования когнитивной эволюции"
Лекция "Задача моделирования когнитивной эволюции"Лекция "Задача моделирования когнитивной эволюции"
Лекция "Задача моделирования когнитивной эволюции"begingroup
 
02 классификация документов
02 классификация документов02 классификация документов
02 классификация документовLidia Pivovarova
 
методика формирования нечетких онтологий
методика формирования нечетких онтологий методика формирования нечетких онтологий
методика формирования нечетких онтологий Yury Katkov
 
Как решать бизнес-кейсы и сложные проблемы
Как решать бизнес-кейсы и сложные проблемыКак решать бизнес-кейсы и сложные проблемы
Как решать бизнес-кейсы и сложные проблемыAntony Kleyman
 
Тема 3. Модели и закономерности систем
Тема 3. Модели и закономерности системТема 3. Модели и закономерности систем
Тема 3. Модели и закономерности системСергей Солнечный
 
Ontologies for Information Extraction
Ontologies for Information ExtractionOntologies for Information Extraction
Ontologies for Information ExtractionLidia Pivovarova
 
И.А.Горбунов, В.М.Коваль, Л.Л.Першин "Изучение зависимости семантического про...
И.А.Горбунов, В.М.Коваль, Л.Л.Першин "Изучение зависимости семантического про...И.А.Горбунов, В.М.Коваль, Л.Л.Першин "Изучение зависимости семантического про...
И.А.Горбунов, В.М.Коваль, Л.Л.Першин "Изучение зависимости семантического про...ЗПШ СПбГУ
 
Лекция 2 Основы анализа данных психологического исследования
Лекция 2 Основы анализа данных психологического исследованияЛекция 2 Основы анализа данных психологического исследования
Лекция 2 Основы анализа данных психологического исследованияКонстантин Князев
 
Семь граблей краудсорсинга (7 crowdsourcing rakes)
Семь граблей краудсорсинга (7 crowdsourcing rakes)Семь граблей краудсорсинга (7 crowdsourcing rakes)
Семь граблей краудсорсинга (7 crowdsourcing rakes)Pavel Rastyannikov
 

Similar to Моделирование Гуманитарных процессов. Лекция 6 (20)

L24
L24L24
L24
 
isp_23_2012_215.pdf
isp_23_2012_215.pdfisp_23_2012_215.pdf
isp_23_2012_215.pdf
 
Методики получения бизнес-информации
Методики получения бизнес-информацииМетодики получения бизнес-информации
Методики получения бизнес-информации
 
никитин с.г. возможности и ограничения применения общенаучных методов познани...
никитин с.г. возможности и ограничения применения общенаучных методов познани...никитин с.г. возможности и ограничения применения общенаучных методов познани...
никитин с.г. возможности и ограничения применения общенаучных методов познани...
 
Введение в машинное обучение
Введение в машинное обучениеВведение в машинное обучение
Введение в машинное обучение
 
clasification
clasificationclasification
clasification
 
Data base
Data baseData base
Data base
 
Лекция "Задача моделирования когнитивной эволюции"
Лекция "Задача моделирования когнитивной эволюции"Лекция "Задача моделирования когнитивной эволюции"
Лекция "Задача моделирования когнитивной эволюции"
 
02 классификация документов
02 классификация документов02 классификация документов
02 классификация документов
 
методика формирования нечетких онтологий
методика формирования нечетких онтологий методика формирования нечетких онтологий
методика формирования нечетких онтологий
 
Lecture 0
Lecture 0Lecture 0
Lecture 0
 
Lecture 0
Lecture 0Lecture 0
Lecture 0
 
Lecture 0
Lecture 0Lecture 0
Lecture 0
 
Как решать бизнес-кейсы и сложные проблемы
Как решать бизнес-кейсы и сложные проблемыКак решать бизнес-кейсы и сложные проблемы
Как решать бизнес-кейсы и сложные проблемы
 
Тема 3. Модели и закономерности систем
Тема 3. Модели и закономерности системТема 3. Модели и закономерности систем
Тема 3. Модели и закономерности систем
 
Ontologies for Information Extraction
Ontologies for Information ExtractionOntologies for Information Extraction
Ontologies for Information Extraction
 
Geo sib 2012
Geo sib 2012Geo sib 2012
Geo sib 2012
 
И.А.Горбунов, В.М.Коваль, Л.Л.Першин "Изучение зависимости семантического про...
И.А.Горбунов, В.М.Коваль, Л.Л.Першин "Изучение зависимости семантического про...И.А.Горбунов, В.М.Коваль, Л.Л.Першин "Изучение зависимости семантического про...
И.А.Горбунов, В.М.Коваль, Л.Л.Першин "Изучение зависимости семантического про...
 
Лекция 2 Основы анализа данных психологического исследования
Лекция 2 Основы анализа данных психологического исследованияЛекция 2 Основы анализа данных психологического исследования
Лекция 2 Основы анализа данных психологического исследования
 
Семь граблей краудсорсинга (7 crowdsourcing rakes)
Семь граблей краудсорсинга (7 crowdsourcing rakes)Семь граблей краудсорсинга (7 crowdsourcing rakes)
Семь граблей краудсорсинга (7 crowdsourcing rakes)
 

More from Andrei V, Zhuravlev

Университеты северо-востока США.
Университеты северо-востока США. Университеты северо-востока США.
Университеты северо-востока США. Andrei V, Zhuravlev
 
Конференция отчет
Конференция отчетКонференция отчет
Конференция отчетAndrei V, Zhuravlev
 
практикум в сош №48 отчет
практикум в сош №48 отчетпрактикум в сош №48 отчет
практикум в сош №48 отчетAndrei V, Zhuravlev
 
Закон Всемирного Тяготения 2015 СОШ 66
Закон Всемирного Тяготения 2015 СОШ 66Закон Всемирного Тяготения 2015 СОШ 66
Закон Всемирного Тяготения 2015 СОШ 66Andrei V, Zhuravlev
 
Идеи Роджера Пенроуза
Идеи Роджера ПенроузаИдеи Роджера Пенроуза
Идеи Роджера ПенроузаAndrei V, Zhuravlev
 
Космофизический практикум
Космофизический практикумКосмофизический практикум
Космофизический практикумAndrei V, Zhuravlev
 
Телескоп: исследовательская работа
Телескоп: исследовательская  работаТелескоп: исследовательская  работа
Телескоп: исследовательская работаAndrei V, Zhuravlev
 
НИТИ криптография лекция 2
НИТИ криптография лекция 2НИТИ криптография лекция 2
НИТИ криптография лекция 2Andrei V, Zhuravlev
 
НЕЛОКАЛЬНОСТЬ В КВАНТОВОЙ ФИЗИКЕ
НЕЛОКАЛЬНОСТЬ В КВАНТОВОЙ ФИЗИКЕНЕЛОКАЛЬНОСТЬ В КВАНТОВОЙ ФИЗИКЕ
НЕЛОКАЛЬНОСТЬ В КВАНТОВОЙ ФИЗИКЕAndrei V, Zhuravlev
 

More from Andrei V, Zhuravlev (20)

Университеты северо-востока США.
Университеты северо-востока США. Университеты северо-востока США.
Университеты северо-востока США.
 
Асперитас
АсперитасАсперитас
Асперитас
 
Конференция отчет
Конференция отчетКонференция отчет
Конференция отчет
 
практикум в сош №48 отчет
практикум в сош №48 отчетпрактикум в сош №48 отчет
практикум в сош №48 отчет
 
Влияние космоса
Влияние космосаВлияние космоса
Влияние космоса
 
Закон Всемирного Тяготения 2015 СОШ 66
Закон Всемирного Тяготения 2015 СОШ 66Закон Всемирного Тяготения 2015 СОШ 66
Закон Всемирного Тяготения 2015 СОШ 66
 
Идеи Роджера Пенроуза
Идеи Роджера ПенроузаИдеи Роджера Пенроуза
Идеи Роджера Пенроуза
 
Космонавтика
КосмонавтикаКосмонавтика
Космонавтика
 
Космофизический практикум
Космофизический практикумКосмофизический практикум
Космофизический практикум
 
Телескоп: исследовательская работа
Телескоп: исследовательская  работаТелескоп: исследовательская  работа
Телескоп: исследовательская работа
 
ивушка самара 2014
ивушка самара 2014ивушка самара 2014
ивушка самара 2014
 
НИТИ криптография лекция 2
НИТИ криптография лекция 2НИТИ криптография лекция 2
НИТИ криптография лекция 2
 
улгу крипто
улгу криптоулгу крипто
улгу крипто
 
НЕЛОКАЛЬНОСТЬ В КВАНТОВОЙ ФИЗИКЕ
НЕЛОКАЛЬНОСТЬ В КВАНТОВОЙ ФИЗИКЕНЕЛОКАЛЬНОСТЬ В КВАНТОВОЙ ФИЗИКЕ
НЕЛОКАЛЬНОСТЬ В КВАНТОВОЙ ФИЗИКЕ
 
Digest 018-new
Digest 018-newDigest 018-new
Digest 018-new
 
Digest 018
Digest 018Digest 018
Digest 018
 
Digest 017
Digest 017Digest 017
Digest 017
 
Digest 016
Digest 016Digest 016
Digest 016
 
Digest 015f-new
Digest 015f-newDigest 015f-new
Digest 015f-new
 
бак церн
бак цернбак церн
бак церн
 

Моделирование Гуманитарных процессов. Лекция 6

  • 1. Моделирование гуманитарных процессов Древняя китайская классификация животных Животные подразделяются на: а) принадлежащих императору; б) набальзамированных; в) дрессированных; г) молочных поросят; д) сирен; е) сказочных; ж) бродячих собак; з) включенных в данную классификацию; и) дрожащих, как сумасшедшие; к) неисчислимых; л) нарисованных самой лучшей верблюжьей кисточкой; м) других; н) тех, которые только что разбили цветочную вазу и о) тех, которые издалека напоминают мух (Хорхе Луис Борхес, Другие исследования: 1937—1952). Лекция 6
  • 2. Классификация. Кластерный анализ Кластер-анализ — это способ группировки многомерных объектов, основанный на представлении результатов отдельных наблюдений точками подходящего геометрического пространства с последующим выделением групп как «сгустков» этих точек. «Кластер» (cluster) в английском языке и означает «сгусток», «гроздь (винограда)», «скопление (звезд)» и т. п.
  • 3. Рождение метода Первые работы, упоминающие о кластерных методах, появились давно, но большая часть литературы по кластерному анализу была написана в течение последних двух десятилетий. Импульсом для разработки многих кластерных методов послужила книга «Начала численной таксономии», опубликованная в 1963 г. двумя биологами — Робертом Сокэлом и Петером Снитом. Сокэл и Снит утверждали, что эффективная процедура для создания биологических классификаций должна обеспечивать сбор всевозможных данных об интересующих организмах, оценивать степень сходства между этими организмами и применять некоторый метод кластеризации, чтобы поместить достаточно схожие организмы в одну и ту же группу. После этого состав каждой группы можно проанализировать, чтобы выяснить, представляют ли они разные биологические виды. Фактически Сокэл и Снит полагают, что «структура отражает процесс», т. е. структура замеченных различий и сходств между организмами может служить основой для понимания эволюционного процесса.
  • 4. Общий алгоритм кластеризации несмотря на различия в целях, типах данных и примененных методах, все исследования, использующие кластерный анализ, характеризуют следующие пять основных шагов: 1) отбор выборки для кластеризации; 2) определение множества признаков, по которым будут оцениваться объекты в выборке; 3) вычисление значений той или иной меры сходства между объектами; 4) применение метода кластерного анализа для создания групп сходных объектов; 5) проверка достоверности результатов кластерного решения.
  • 5.
  • 6. Матрица расстояний между объектами. Каждый объект описывается расстояниями до всех остальных объектов обучающей выборки.
  • 7. Временной ряд или сигнал представляет собой последовательность измерений во времени. Каждое измерение может представляться числом, вектором, а в общем случае — признаковым описанием исследуемого объекта в данный момент времени.
  • 8. Изображение или видеоряд.
  • 9. Встречаются и более сложные случаи, когда входные данные представляются в виде графов, текстов, результатов запросов к базе данных, и т. д. Как правило, они приводятся к первому или второму случаю путём предварительной обработки данных и извлечения признаков. Классификацию сигналов и изображений называют также распознаванием образов.
  • 10.
  • 11. Многоклассоваяклассификация. Когда число классов достигает многих тысяч (например, при распознавании иероглифов или слитной речи), задача классификации становится существенно более трудной.
  • 13. Пересекающиеся классы. Объект может относиться одновременно к нескольким классам.
  • 14.
  • 15. Понятие сходства. Меры сходства В задачах классификации очень важным является факт что различные объекты показывают сходства или различия. Проблема сходства состоит не в простом отнесении объектов к тем или иным классам, а в том что что такое разбиение должно удовлетворят критериям научного знания. Количественное определение сходства опирается на понятие метрики. При таком подходе объекты представляются точками в многомерном координатном пространстве, причем сходства и различия между ними находятся из метрических расстояний. Размерность пространства определяется числом переменных описывающих объект.
  • 17. Меры сходства Коэффициенты корреляции Меры расстояний Меры ассоциативности Вероятностные коэффициенты
  • 20. Ассоциативные коэффициенты Меры ассоциативности применяются когда требуется определить сходство между объектами описываемыми бинарными переменными. Для этого используется таблица ассоциативности2х2. 1 означает наличие переменной, 0 – отсутствие. Простой коэффициент встречаемости Коэффициент Жаккара
  • 22. Иерархическая кластеризация Стратегия классификации– способ объединения элементов в кластеры. Для случая иерархической кластеризации элементы объединяются в кластеры последовательно попарно с заменой элементов на новый элемент. При этом стратегия выбирается из общего правила  
  • 23. Пример. Гибкая стратегия. Гибкая стратегия соответствует выбору
  • 24. Шаг 1. На первом шаге алгоритма в качестве первых элементов кластера выбираются два элемента с наименьшим по всей матрице расстоянием. В данном случае это элементы с номерами i=2 j=3, расстояние между которыми равно Новому кластеру, состоящему из двух элементов 2 и 3, присваивается следующий номер после номера последнего элемента. В данном случае этот номер равен 6.
  • 28. Литература http://www.machinelearning.ru/wiki/index.php?title=Категория:Классификация Мандель И.Д. Кластерный Анализ, Москва. Финансы и Статистика,1988 Факторный, дискриминационный и кластерный анализ. Москва. Финансы и Статистика,1988