Data Mining - lecture 1 - 2014

Andrii Gakhov
Andrii GakhovPh.D., Senior Software Engineer at Ferret-Go
Харьковский национальный университет имени В. Н. Каразина 
Факультет компьютерных наук 
ИНТЕЛЛЕКТУАЛЬНЫЙ 
АНАЛИЗ ДАННЫХ 
Data Mining 
Подготовил: 
доцент каф. искусственного интеллекта и программного обеспечения, 
к.ф.-м. н. Гахов Андрей Владимирович 
2014/2015 уч. год
ПЛАН КУРСА 
• Введение в Data Mining 
• Узнаем больше о своих данных 
• Подготовка данных (preprocesing) 
• Хранилища данных 
• Поиск шаблонов в данных 
• Методы классификации 
• Методы кластеризации
ВВЕДЕНИЕ В DATA MINING
ЧТО ТАКОЕ DATA MINING 
• Data mining (с англ.) - добыча данных 
• Data mining - поиск знаний (или интересных 
шаблонов и закономерностей) в данных 
• Data mining - процесс поиска интересных 
шаблонов и новых знаний из большого 
количества данных
ПРОЦЕСС ПОЛУЧЕНИЯ 
ЗНАНИЙ ИЗ ДАННЫХ 
Хранилище Data mining Шаблоны 
данных 
БД 
файлы 
Знание
ОСНОВНЫЕ ЭТАПЫ 
• Очистка данных 
удаление шумов и противоречивых данных 
• Интеграция данных 
объединение данных из различных источников данных 
• Выбор данных 
только данные, имеющие отношение к поставленной задаче 
• Трансформация данных 
представление данных в формах, удобных для анализа и аггрегаций 
• Data mining 
применение различных методов для выделение шаблонов данных 
• Изучение шаблонов 
идентификация важных шаблонов, содержащих новые знания 
• Презентация знаний 
использование визуализации и других техник представления 
полученных знаний
КАКИЕ ШАБЛОНЫ МОГУТ 
БЫТЬ НАЙДЕНЫ? 
• описательные 
Описательные шаблоны характеризуют свойства 
данных в анализируемом наборе данных 
• предсказывающие 
Предсказывающие шаблоны позволяют 
используя анализируемый набор данных делать 
предсказания для других наборов данных
ОПИСАНИЕ КЛАССА ИЛИ КОНЦЕПЦИИ 
Описание некоторого класса или концепции с помощью 
краткого и выразительного набора терминов 
• Такое описание может быть получено: 
• при помощи характеризации данных, путем краткого 
представления данных рассматриваемого класса (target 
class) в общих терминах 
• путем сравнения рассматриваемого класса с одним или 
несколькими альтернативными классами - дискриминация 
данных
ПРИМЕР: ХАРАКТЕРИЗАЦИЯ ДАННЫХ 
• Менеджер по продажам рассматривает такую 
задачу: Описать характеристики клиентов, 
которые потратили больше $5000. 
• Результат: возраст 40-50 лет, работающие и 
имеющие высший кредитный рейтинг
ПРИМЕР: ДИСКРИМИНАЦИЯ ДАННЫХ 
• Менеджер по продажам рассматривает такую задачу: 
Сравнить характеристики пользователей, покупающих 
некоторую группу товаров часто (чаще 2 раз в месяц), и 
пользователей, которые покупают очень редко (менее 3 
раз в год). 
• Результат: 80% частых покупателей данной группы 
товаров имеют возраст 20-40 лет и высшее образование, 
в то время как 60% нечастых покупателей - пенсионеры 
или люди до 18 лет и без высшего образования. При 
более детальном анализе, например, можно сказать, что 
отличия двух рассматриваемых групп - уровень дохода.
ЧАСТЫЕ ШАБЛОНЫ 
Шаблоны, которые часто встречаются в данных: 
• подмножества 
Пример: хлеб и молоко покупаются вместе 
• последовательности 
Пример: сначала покупается ноутбук, потом цифровая камера, а 
потом карта памяти 
• структурные шаблоны (могут включать в себя последовательности 
и подмножества) 
Пример: покупается ноутбук вместе с чехлом, потом сканер, 
принтер или мфу, причем если купили принтер или мфу - то 
покупается бумага ежемесячно.
ПРИМЕР: АНАЛИЗ АССОЦИАЦИЙ 
• Менеджер рассматривает такую задачу: Найти товары, 
которые часто покупаются вместе. 
• Результат: 
покупка(X, “компьютер”) => покупка(X, “ПО”) 
[supp = 1%, conf = 50%] 
т.е. 1% всех покупок включает компьютер и ПО вместе, в 
50% случаев при покупке компьютера покупается и ПО. 
• supp(A) - относительное количество случаев, когда 
правило A выполняется (support) 
• conf(A=>B) - относительное количество случаев, когда 
выполняется B после A (confidence). conf(A=>B) = p(B|A)
ПРЕДСКАЗАТЕЛЬНЫЙ АНАЛИЗ 
ДЛЯ ПОИСКА ШАБЛОНОВ 
• Классификация - процесс поиска модели 
(или функции), которая описывает и отличает 
классы или концепции в данных 
• Пример: 
возраст(X, “молодой”) AND доход(X, “высокий”) => class(X, “A”) 
возраст(X, “молодой”) AND доход(X, “низкий”) => class(X, “B”) 
возраст(X, “средний”) => class(X, “C”) 
возраст(X, “старый”) => class(X, “C”)
ПРЕДСКАЗАТЕЛЬНЫЙ АНАЛИЗ 
ДЛЯ ПОИСКА ШАБЛОНОВ 
• Регрессионный анализ - статистическая методология, 
используемая для численного предсказания. 
• При классификации предсказывают сатегории (дискретные и без 
определенного порядка), а модели регрессии - непрерывные 
функции 
20 
• Пример: 
15 
10 
5 
0 
0 3 6 9 12
КЛАСТЕРНЫЙ АНАЛИЗ 
• Кластерный анализ - процесс анализа данных 
без использования информации о их классах 
(например, когда такой информации просто нет) 
20 
• Пример: 
15 
10 
5 
0 
0 3 6 9 12
ПОИСК АНОМАЛИЙ 
• Данные могут содержать элементы, которые не 
отвечают общему поведению или модели данных 
- аномалии (outliers). 
• Пример: 
100 
40 
1
КАКИЕ ШАБЛОНЫ ПРЕДСТАВЛЯЮТ ИНТЕРЕС 
Интересные шаблоны должны: 
• быть легко понимаемы для человека 
• быть верными и для тестовых данных с некоторой степенью 
достоверности (valid) 
• быть потенциально полезными в решении рассматриваемой 
задачи (useful) 
• нести новое знание для исследователя (novel) 
• давать возможность предпринимать дейсвие на основе 
полученного знания (actionable)
ИСПОЛЬЗУЕМЫЕ ТЕХНОЛОГИИ 
Machine Learning 
Data Mining 
Статистика 
Базы данных 
Хранилища 
данных 
Информационный 
поиск 
Приложения 
Распознание 
шаблонов 
Визуализация 
Алгоритмы 
HP 
вычисления
СТАТИСТИКА 
• Статистика изучает вопросы сбора, анализа, интерпретации 
и презентации данных 
• Статистическая модель - это набор математических 
функций, описывающий поведение объектов в 
рассматриваемом классе в терминах случайных переменных 
и их вероятностные распределения 
• Статистические модели могут быть результатом Data 
Mining 
• Статистические методы применяются для проверки и 
обоснования результатов Data Mining
MACHINE LEARNING 
• Machine Learning рассматривает вопросы как 
компьютер может учиться (или улучшать свою 
эффективность) основываясь на данных 
• Supervised learning - обучение с учителем. 
Рассматриваются в основном задачи классификации. 
И с п о л ь з у ю т с я у ж е п о м е ч е н н ы е 
(классифицированные) данные. 
• Unsupervised learning - самостоятельное обучение. 
Рассматриваются в основном задачи кластеризации.
ОСНОВНЫЕ ПРОБЛЕМЫ 
DATA MINING 
• Разработка методологий 
• Взаимодействие с пользователем 
• Эффективность и масштабируемость 
• Разнообразие типов данных 
• Data Mining и общество
РАЗРАБОТКА МЕТОДОЛОГИЙ 
Исследователи, разрабатывая новые методы, 
учитывают следующие аспекты: 
• Получение новых типов знаний 
• Получение данных в пространствах многих 
измерений 
• Интеграция методов из многих дисциплин 
• Обработка зашумленных и неполных данных
ВЗАИМОДЕЙСТВИЕ С ПОЛЬЗОВАТЕЛЕМ 
Пользователь играет одну из важных ролей в 
процессе Data Mining. Основными вопросами 
исследований являются: 
• Как взаимодействовать с системой Data Mining? 
• Как интегрировать предметные знания 
пользователей в процесс Data Mining? 
• Как представить и визуализировать результаты?
ЭФФЕКТИВНОСТЬ И МАСШТАБИРУЕМОСТЬ 
Вопросы эффективности и масштабируемости всегда 
рассматриваются при сравнении различных алгоритмов Data Mining. 
• Ал г о р и т м ы д о лжн ы б ы т ь эффе к т и в н ы м и и л е г к о 
масштабируемыми, чтобы иметь возможность добывать 
информацию из огромного количества данных. Время выполнения 
должно быть предсказуемо, ограничено и приемлемо для 
приложений 
• Map/Reduce. Часто применяется техника разделения данных на 
части, каждая из которых обрабатывается параллельно 
несколькими процессами (с возможностью взаимодействия). 
После обработки полученные шаблоны объединяются.
ЛИТЕРАТУРА 
• https://ru.wikipedia.org/wiki/Data_mining 
• Дюк В.А., Самойленко А.П. Data Mining. Учебный 
курс 
• Ситник В. Ф., Краснюк М. Т. Інтелектуальний 
аналіз даних (дейтамайнінг): Навч. посібник. 
• J. Han, M. Kamber, J. Pei Data Mining: Concepts and 
Techniques
1 of 25

Recommended

Data Mining - lecture 8 - 2014 by
Data Mining - lecture 8 - 2014Data Mining - lecture 8 - 2014
Data Mining - lecture 8 - 2014Andrii Gakhov
1.3K views20 slides
Data mining by
Data mining Data mining
Data mining Dmitry Nikotin
883 views55 slides
Data Mining - lecture 5 - 2014 by
Data Mining - lecture 5 - 2014Data Mining - lecture 5 - 2014
Data Mining - lecture 5 - 2014Andrii Gakhov
816 views24 slides
Data Mining - lecture 2 - 2014 by
Data Mining - lecture 2 - 2014Data Mining - lecture 2 - 2014
Data Mining - lecture 2 - 2014Andrii Gakhov
824 views26 slides
Data Mining - lecture 7 - 2014 by
Data Mining - lecture 7 - 2014Data Mining - lecture 7 - 2014
Data Mining - lecture 7 - 2014Andrii Gakhov
2.5K views26 slides
Data Mining - lecture 6 - 2014 by
Data Mining - lecture 6 - 2014Data Mining - lecture 6 - 2014
Data Mining - lecture 6 - 2014Andrii Gakhov
1.1K views24 slides

More Related Content

What's hot

Моделирование ТПиПП by
Моделирование ТПиППМоделирование ТПиПП
Моделирование ТПиППAndrey Urusov
577 views79 slides
4 azure 24 04 by
4 azure 24 044 azure 24 04
4 azure 24 04antishmanti
1.7K views27 slides
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования by
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозированияПрогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозированияGleb Zakhodiakin
3.4K views20 slides
Визуализация данных. Аналитическая платформа Tableau. by
Визуализация данных. Аналитическая платформа Tableau.Визуализация данных. Аналитическая платформа Tableau.
Визуализация данных. Аналитическая платформа Tableau.Gleb Zakhodiakin
2K views11 slides
Изучение распространения болезней. Эпидемиология и SAS. С. Плавинский by
Изучение распространения болезней. Эпидемиология и SAS. С. ПлавинскийИзучение распространения болезней. Эпидемиология и SAS. С. Плавинский
Изучение распространения болезней. Эпидемиология и SAS. С. ПлавинскийSergey Soshnikov
553 views64 slides
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов) by
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Dmitry Kornev
2.3K views70 slides

What's hot(10)

Моделирование ТПиПП by Andrey Urusov
Моделирование ТПиППМоделирование ТПиПП
Моделирование ТПиПП
Andrey Urusov577 views
4 azure 24 04 by antishmanti
4 azure 24 044 azure 24 04
4 azure 24 04
antishmanti1.7K views
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования by Gleb Zakhodiakin
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозированияПрогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Gleb Zakhodiakin3.4K views
Визуализация данных. Аналитическая платформа Tableau. by Gleb Zakhodiakin
Визуализация данных. Аналитическая платформа Tableau.Визуализация данных. Аналитическая платформа Tableau.
Визуализация данных. Аналитическая платформа Tableau.
Gleb Zakhodiakin2K views
Изучение распространения болезней. Эпидемиология и SAS. С. Плавинский by Sergey Soshnikov
Изучение распространения болезней. Эпидемиология и SAS. С. ПлавинскийИзучение распространения болезней. Эпидемиология и SAS. С. Плавинский
Изучение распространения болезней. Эпидемиология и SAS. С. Плавинский
Sergey Soshnikov553 views
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов) by Dmitry Kornev
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Dmitry Kornev2.3K views
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1) by Technosphere1
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
Technosphere11.4K views
Практический курс «Основы Data Mining для всех» by ScienceHunter1
Практический курс «Основы Data Mining для всех»Практический курс «Основы Data Mining для всех»
Практический курс «Основы Data Mining для всех»
ScienceHunter1333 views
Введение в машинное обучение by Anton Anokhin
Введение в машинное обучение Введение в машинное обучение
Введение в машинное обучение
Anton Anokhin20.4K views
L13: Заключительная by Technosphere1
L13: ЗаключительнаяL13: Заключительная
L13: Заключительная
Technosphere1487 views

Viewers also liked

Петров by
Петров Петров
Петров Andrew Paymushkin
275 views11 slides
Detecting logged in user's abnormal activity by
Detecting logged in user's abnormal activityDetecting logged in user's abnormal activity
Detecting logged in user's abnormal activityArvids Godjuks
363 views30 slides
Data Mining. Анализ рыночной корзины. Поиск ассоциативных правил by
Data Mining. Анализ рыночной корзины. Поиск ассоциативных правилData Mining. Анализ рыночной корзины. Поиск ассоциативных правил
Data Mining. Анализ рыночной корзины. Поиск ассоциативных правилBitworks Software
1.7K views37 slides
Data Science Week 2016. New Professions Lab. "Образование в области Big Data" by
Data Science Week 2016. New Professions Lab. "Образование в области Big Data"Data Science Week 2016. New Professions Lab. "Образование в области Big Data"
Data Science Week 2016. New Professions Lab. "Образование в области Big Data"Newprolab
912 views15 slides
Лекция №1 "Задачи Data Mining" by
Лекция №1 "Задачи Data Mining" Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining" Technosphere1
2.8K views24 slides
Data-driven маркетинг: programmatic и data mining by
Data-driven маркетинг: programmatic и data miningData-driven маркетинг: programmatic и data mining
Data-driven маркетинг: programmatic и data miningTsvetelina Miteva
2.2K views21 slides

Viewers also liked(20)

Detecting logged in user's abnormal activity by Arvids Godjuks
Detecting logged in user's abnormal activityDetecting logged in user's abnormal activity
Detecting logged in user's abnormal activity
Arvids Godjuks363 views
Data Mining. Анализ рыночной корзины. Поиск ассоциативных правил by Bitworks Software
Data Mining. Анализ рыночной корзины. Поиск ассоциативных правилData Mining. Анализ рыночной корзины. Поиск ассоциативных правил
Data Mining. Анализ рыночной корзины. Поиск ассоциативных правил
Bitworks Software1.7K views
Data Science Week 2016. New Professions Lab. "Образование в области Big Data" by Newprolab
Data Science Week 2016. New Professions Lab. "Образование в области Big Data"Data Science Week 2016. New Professions Lab. "Образование в области Big Data"
Data Science Week 2016. New Professions Lab. "Образование в области Big Data"
Newprolab912 views
Лекция №1 "Задачи Data Mining" by Technosphere1
Лекция №1 "Задачи Data Mining" Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining"
Technosphere12.8K views
Data-driven маркетинг: programmatic и data mining by Tsvetelina Miteva
Data-driven маркетинг: programmatic и data miningData-driven маркетинг: programmatic и data mining
Data-driven маркетинг: programmatic и data mining
Tsvetelina Miteva2.2K views
Asturiasnaturalezaviva 24 10 07 An by guest23830b
Asturiasnaturalezaviva 24 10 07 AnAsturiasnaturalezaviva 24 10 07 An
Asturiasnaturalezaviva 24 10 07 An
guest23830b451 views
Test driven infrastructure development (2 - puppetconf 2013 edition) by Tomas Doran
Test driven infrastructure development (2 - puppetconf 2013 edition)Test driven infrastructure development (2 - puppetconf 2013 edition)
Test driven infrastructure development (2 - puppetconf 2013 edition)
Tomas Doran1.6K views
Formula 1 by albil
Formula 1Formula 1
Formula 1
albil623 views
10 errores a evitar en tu reputación online by Víctor Puig
10 errores a evitar en tu reputación online10 errores a evitar en tu reputación online
10 errores a evitar en tu reputación online
Víctor Puig2.6K views
Wat scheelt er met koning Filip? by Thierry Debels
Wat scheelt er met koning Filip?Wat scheelt er met koning Filip?
Wat scheelt er met koning Filip?
Thierry Debels458 views
Insider's Guide to SXSW-i by MSL
Insider's Guide to SXSW-iInsider's Guide to SXSW-i
Insider's Guide to SXSW-i
MSL3.8K views
A Walk Through 4 Recent Content Campaigns PubCon Las Vegas 2014 by 97th Floor
A Walk Through 4 Recent Content Campaigns PubCon Las Vegas 2014A Walk Through 4 Recent Content Campaigns PubCon Las Vegas 2014
A Walk Through 4 Recent Content Campaigns PubCon Las Vegas 2014
97th Floor10.5K views
The Breaking Bad Guide to Storytelling by Kapost
The Breaking Bad Guide to StorytellingThe Breaking Bad Guide to Storytelling
The Breaking Bad Guide to Storytelling
Kapost6.9K views

Similar to Data Mining - lecture 1 - 2014

Современные методы анализа данных by
Современные методы анализа данныхСовременные методы анализа данных
Современные методы анализа данныхDEVTYPE
3.4K views32 slides
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ) by
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)Mark Shaphir
15.7K views41 slides
SPSS Modeler by
SPSS ModelerSPSS Modeler
SPSS ModelerВалерий Берестов
1.5K views28 slides
D1.03 ppt market research-v5 by
D1.03 ppt market research-v5D1.03 ppt market research-v5
D1.03 ppt market research-v5Altynbek Shaidyldaev
152 views34 slides
Подход КРОК к построению MDM by
Подход КРОК к построению MDMПодход КРОК к построению MDM
Подход КРОК к построению MDMКРОК
286 views15 slides
Профессия Data Scientist by
 Профессия Data Scientist Профессия Data Scientist
Профессия Data ScientistLeonid Zhukov
2.8K views20 slides

Similar to Data Mining - lecture 1 - 2014(20)

Современные методы анализа данных by DEVTYPE
Современные методы анализа данныхСовременные методы анализа данных
Современные методы анализа данных
DEVTYPE3.4K views
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ) by Mark Shaphir
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
Mark Shaphir15.7K views
Подход КРОК к построению MDM by КРОК
Подход КРОК к построению MDMПодход КРОК к построению MDM
Подход КРОК к построению MDM
КРОК286 views
Профессия Data Scientist by Leonid Zhukov
 Профессия Data Scientist Профессия Data Scientist
Профессия Data Scientist
Leonid Zhukov2.8K views
презентация 6 июля 2012 by Sergiy Gladkyy
презентация 6 июля 2012презентация 6 июля 2012
презентация 6 июля 2012
Sergiy Gladkyy225 views
Структура и этапы проведения исследования by Ирина Галкина
Структура и этапы проведения исследованияСтруктура и этапы проведения исследования
Структура и этапы проведения исследования
BusinessObjects глазами аналитика - Tern4 by Valeriy Titov
BusinessObjects глазами аналитика -  Tern4 BusinessObjects глазами аналитика -  Tern4
BusinessObjects глазами аналитика - Tern4
Valeriy Titov209 views
Тема 2.1. Этапы проведения исследования. Этап первый : 1. Вхождение в проблем... by Ирина Галкина
Тема 2.1. Этапы проведения исследования. Этап первый : 1. Вхождение в проблем...Тема 2.1. Этапы проведения исследования. Этап первый : 1. Вхождение в проблем...
Тема 2.1. Этапы проведения исследования. Этап первый : 1. Вхождение в проблем...
Как сделать учебную аналитику полезной? (ITGM8) by Maxim Skryabin
Как сделать учебную аналитику полезной? (ITGM8)Как сделать учебную аналитику полезной? (ITGM8)
Как сделать учебную аналитику полезной? (ITGM8)
Maxim Skryabin1.2K views
Персональные данные организации by Alexey Fedorischev
Персональные данные организацииПерсональные данные организации
Персональные данные организации
Alexey Fedorischev449 views
Lab Management magic, elves, and mushrooms by Alena Begler
Lab Management magic, elves, and mushroomsLab Management magic, elves, and mushrooms
Lab Management magic, elves, and mushrooms
Alena Begler297 views
Роль аналитики в электронной коммерции. Олег Наумов, конференция OWOX by OWOX
Роль аналитики в электронной коммерции. Олег Наумов, конференция OWOXРоль аналитики в электронной коммерции. Олег Наумов, конференция OWOX
Роль аналитики в электронной коммерции. Олег Наумов, конференция OWOX
OWOX772 views
Hub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучение by Hub-IT-School
Hub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучениеHub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучение
Hub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучение
Hub-IT-School596 views
Тема 1.Маркетинговое исследование: определение, процедура, планирование, типо... by Ирина Галкина
Тема 1.Маркетинговое исследование: определение, процедура, планирование, типо...Тема 1.Маркетинговое исследование: определение, процедура, планирование, типо...
Тема 1.Маркетинговое исследование: определение, процедура, планирование, типо...
Internet life. Selfemployment in research by Yaroslav Karasev
Internet life. Selfemployment in researchInternet life. Selfemployment in research
Internet life. Selfemployment in research
Yaroslav Karasev288 views

More from Andrii Gakhov

Let's start GraphQL: structure, behavior, and architecture by
Let's start GraphQL: structure, behavior, and architectureLet's start GraphQL: structure, behavior, and architecture
Let's start GraphQL: structure, behavior, and architectureAndrii Gakhov
423 views90 slides
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat... by
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...Andrii Gakhov
735 views39 slides
Too Much Data? - Just Sample, Just Hash, ... by
Too Much Data? - Just Sample, Just Hash, ...Too Much Data? - Just Sample, Just Hash, ...
Too Much Data? - Just Sample, Just Hash, ...Andrii Gakhov
386 views23 slides
DNS Delegation by
DNS DelegationDNS Delegation
DNS DelegationAndrii Gakhov
902 views15 slides
Implementing a Fileserver with Nginx and Lua by
Implementing a Fileserver with Nginx and LuaImplementing a Fileserver with Nginx and Lua
Implementing a Fileserver with Nginx and LuaAndrii Gakhov
2.1K views16 slides
Pecha Kucha: Ukrainian Food Traditions by
Pecha Kucha: Ukrainian Food TraditionsPecha Kucha: Ukrainian Food Traditions
Pecha Kucha: Ukrainian Food TraditionsAndrii Gakhov
838 views20 slides

More from Andrii Gakhov(20)

Let's start GraphQL: structure, behavior, and architecture by Andrii Gakhov
Let's start GraphQL: structure, behavior, and architectureLet's start GraphQL: structure, behavior, and architecture
Let's start GraphQL: structure, behavior, and architecture
Andrii Gakhov423 views
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat... by Andrii Gakhov
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
Andrii Gakhov735 views
Too Much Data? - Just Sample, Just Hash, ... by Andrii Gakhov
Too Much Data? - Just Sample, Just Hash, ...Too Much Data? - Just Sample, Just Hash, ...
Too Much Data? - Just Sample, Just Hash, ...
Andrii Gakhov386 views
Implementing a Fileserver with Nginx and Lua by Andrii Gakhov
Implementing a Fileserver with Nginx and LuaImplementing a Fileserver with Nginx and Lua
Implementing a Fileserver with Nginx and Lua
Andrii Gakhov2.1K views
Pecha Kucha: Ukrainian Food Traditions by Andrii Gakhov
Pecha Kucha: Ukrainian Food TraditionsPecha Kucha: Ukrainian Food Traditions
Pecha Kucha: Ukrainian Food Traditions
Andrii Gakhov838 views
Probabilistic data structures. Part 4. Similarity by Andrii Gakhov
Probabilistic data structures. Part 4. SimilarityProbabilistic data structures. Part 4. Similarity
Probabilistic data structures. Part 4. Similarity
Andrii Gakhov2.4K views
Probabilistic data structures. Part 3. Frequency by Andrii Gakhov
Probabilistic data structures. Part 3. FrequencyProbabilistic data structures. Part 3. Frequency
Probabilistic data structures. Part 3. Frequency
Andrii Gakhov1.7K views
Probabilistic data structures. Part 2. Cardinality by Andrii Gakhov
Probabilistic data structures. Part 2. CardinalityProbabilistic data structures. Part 2. Cardinality
Probabilistic data structures. Part 2. Cardinality
Andrii Gakhov1.7K views
Вероятностные структуры данных by Andrii Gakhov
Вероятностные структуры данныхВероятностные структуры данных
Вероятностные структуры данных
Andrii Gakhov1.3K views
Recurrent Neural Networks. Part 1: Theory by Andrii Gakhov
Recurrent Neural Networks. Part 1: TheoryRecurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: Theory
Andrii Gakhov14.2K views
Apache Big Data Europe 2015: Selected Talks by Andrii Gakhov
Apache Big Data Europe 2015: Selected TalksApache Big Data Europe 2015: Selected Talks
Apache Big Data Europe 2015: Selected Talks
Andrii Gakhov716 views
Swagger / Quick Start Guide by Andrii Gakhov
Swagger / Quick Start GuideSwagger / Quick Start Guide
Swagger / Quick Start Guide
Andrii Gakhov7.6K views
API Days Berlin highlights by Andrii Gakhov
API Days Berlin highlightsAPI Days Berlin highlights
API Days Berlin highlights
Andrii Gakhov787 views
ELK - What's new and showcases by Andrii Gakhov
ELK - What's new and showcasesELK - What's new and showcases
ELK - What's new and showcases
Andrii Gakhov938 views
Apache Spark Overview @ ferret by Andrii Gakhov
Apache Spark Overview @ ferretApache Spark Overview @ ferret
Apache Spark Overview @ ferret
Andrii Gakhov1.2K views
Decision Theory - lecture 1 (introduction) by Andrii Gakhov
Decision Theory - lecture 1 (introduction)Decision Theory - lecture 1 (introduction)
Decision Theory - lecture 1 (introduction)
Andrii Gakhov1.4K views
Buzzwords 2014 / Overview / part2 by Andrii Gakhov
Buzzwords 2014 / Overview / part2Buzzwords 2014 / Overview / part2
Buzzwords 2014 / Overview / part2
Andrii Gakhov634 views
Buzzwords 2014 / Overview / part1 by Andrii Gakhov
Buzzwords 2014 / Overview / part1Buzzwords 2014 / Overview / part1
Buzzwords 2014 / Overview / part1
Andrii Gakhov902 views

Data Mining - lecture 1 - 2014

  • 1. Харьковский национальный университет имени В. Н. Каразина Факультет компьютерных наук ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ Data Mining Подготовил: доцент каф. искусственного интеллекта и программного обеспечения, к.ф.-м. н. Гахов Андрей Владимирович 2014/2015 уч. год
  • 2. ПЛАН КУРСА • Введение в Data Mining • Узнаем больше о своих данных • Подготовка данных (preprocesing) • Хранилища данных • Поиск шаблонов в данных • Методы классификации • Методы кластеризации
  • 4. ЧТО ТАКОЕ DATA MINING • Data mining (с англ.) - добыча данных • Data mining - поиск знаний (или интересных шаблонов и закономерностей) в данных • Data mining - процесс поиска интересных шаблонов и новых знаний из большого количества данных
  • 5. ПРОЦЕСС ПОЛУЧЕНИЯ ЗНАНИЙ ИЗ ДАННЫХ Хранилище Data mining Шаблоны данных БД файлы Знание
  • 6. ОСНОВНЫЕ ЭТАПЫ • Очистка данных удаление шумов и противоречивых данных • Интеграция данных объединение данных из различных источников данных • Выбор данных только данные, имеющие отношение к поставленной задаче • Трансформация данных представление данных в формах, удобных для анализа и аггрегаций • Data mining применение различных методов для выделение шаблонов данных • Изучение шаблонов идентификация важных шаблонов, содержащих новые знания • Презентация знаний использование визуализации и других техник представления полученных знаний
  • 7. КАКИЕ ШАБЛОНЫ МОГУТ БЫТЬ НАЙДЕНЫ? • описательные Описательные шаблоны характеризуют свойства данных в анализируемом наборе данных • предсказывающие Предсказывающие шаблоны позволяют используя анализируемый набор данных делать предсказания для других наборов данных
  • 8. ОПИСАНИЕ КЛАССА ИЛИ КОНЦЕПЦИИ Описание некоторого класса или концепции с помощью краткого и выразительного набора терминов • Такое описание может быть получено: • при помощи характеризации данных, путем краткого представления данных рассматриваемого класса (target class) в общих терминах • путем сравнения рассматриваемого класса с одним или несколькими альтернативными классами - дискриминация данных
  • 9. ПРИМЕР: ХАРАКТЕРИЗАЦИЯ ДАННЫХ • Менеджер по продажам рассматривает такую задачу: Описать характеристики клиентов, которые потратили больше $5000. • Результат: возраст 40-50 лет, работающие и имеющие высший кредитный рейтинг
  • 10. ПРИМЕР: ДИСКРИМИНАЦИЯ ДАННЫХ • Менеджер по продажам рассматривает такую задачу: Сравнить характеристики пользователей, покупающих некоторую группу товаров часто (чаще 2 раз в месяц), и пользователей, которые покупают очень редко (менее 3 раз в год). • Результат: 80% частых покупателей данной группы товаров имеют возраст 20-40 лет и высшее образование, в то время как 60% нечастых покупателей - пенсионеры или люди до 18 лет и без высшего образования. При более детальном анализе, например, можно сказать, что отличия двух рассматриваемых групп - уровень дохода.
  • 11. ЧАСТЫЕ ШАБЛОНЫ Шаблоны, которые часто встречаются в данных: • подмножества Пример: хлеб и молоко покупаются вместе • последовательности Пример: сначала покупается ноутбук, потом цифровая камера, а потом карта памяти • структурные шаблоны (могут включать в себя последовательности и подмножества) Пример: покупается ноутбук вместе с чехлом, потом сканер, принтер или мфу, причем если купили принтер или мфу - то покупается бумага ежемесячно.
  • 12. ПРИМЕР: АНАЛИЗ АССОЦИАЦИЙ • Менеджер рассматривает такую задачу: Найти товары, которые часто покупаются вместе. • Результат: покупка(X, “компьютер”) => покупка(X, “ПО”) [supp = 1%, conf = 50%] т.е. 1% всех покупок включает компьютер и ПО вместе, в 50% случаев при покупке компьютера покупается и ПО. • supp(A) - относительное количество случаев, когда правило A выполняется (support) • conf(A=>B) - относительное количество случаев, когда выполняется B после A (confidence). conf(A=>B) = p(B|A)
  • 13. ПРЕДСКАЗАТЕЛЬНЫЙ АНАЛИЗ ДЛЯ ПОИСКА ШАБЛОНОВ • Классификация - процесс поиска модели (или функции), которая описывает и отличает классы или концепции в данных • Пример: возраст(X, “молодой”) AND доход(X, “высокий”) => class(X, “A”) возраст(X, “молодой”) AND доход(X, “низкий”) => class(X, “B”) возраст(X, “средний”) => class(X, “C”) возраст(X, “старый”) => class(X, “C”)
  • 14. ПРЕДСКАЗАТЕЛЬНЫЙ АНАЛИЗ ДЛЯ ПОИСКА ШАБЛОНОВ • Регрессионный анализ - статистическая методология, используемая для численного предсказания. • При классификации предсказывают сатегории (дискретные и без определенного порядка), а модели регрессии - непрерывные функции 20 • Пример: 15 10 5 0 0 3 6 9 12
  • 15. КЛАСТЕРНЫЙ АНАЛИЗ • Кластерный анализ - процесс анализа данных без использования информации о их классах (например, когда такой информации просто нет) 20 • Пример: 15 10 5 0 0 3 6 9 12
  • 16. ПОИСК АНОМАЛИЙ • Данные могут содержать элементы, которые не отвечают общему поведению или модели данных - аномалии (outliers). • Пример: 100 40 1
  • 17. КАКИЕ ШАБЛОНЫ ПРЕДСТАВЛЯЮТ ИНТЕРЕС Интересные шаблоны должны: • быть легко понимаемы для человека • быть верными и для тестовых данных с некоторой степенью достоверности (valid) • быть потенциально полезными в решении рассматриваемой задачи (useful) • нести новое знание для исследователя (novel) • давать возможность предпринимать дейсвие на основе полученного знания (actionable)
  • 18. ИСПОЛЬЗУЕМЫЕ ТЕХНОЛОГИИ Machine Learning Data Mining Статистика Базы данных Хранилища данных Информационный поиск Приложения Распознание шаблонов Визуализация Алгоритмы HP вычисления
  • 19. СТАТИСТИКА • Статистика изучает вопросы сбора, анализа, интерпретации и презентации данных • Статистическая модель - это набор математических функций, описывающий поведение объектов в рассматриваемом классе в терминах случайных переменных и их вероятностные распределения • Статистические модели могут быть результатом Data Mining • Статистические методы применяются для проверки и обоснования результатов Data Mining
  • 20. MACHINE LEARNING • Machine Learning рассматривает вопросы как компьютер может учиться (или улучшать свою эффективность) основываясь на данных • Supervised learning - обучение с учителем. Рассматриваются в основном задачи классификации. И с п о л ь з у ю т с я у ж е п о м е ч е н н ы е (классифицированные) данные. • Unsupervised learning - самостоятельное обучение. Рассматриваются в основном задачи кластеризации.
  • 21. ОСНОВНЫЕ ПРОБЛЕМЫ DATA MINING • Разработка методологий • Взаимодействие с пользователем • Эффективность и масштабируемость • Разнообразие типов данных • Data Mining и общество
  • 22. РАЗРАБОТКА МЕТОДОЛОГИЙ Исследователи, разрабатывая новые методы, учитывают следующие аспекты: • Получение новых типов знаний • Получение данных в пространствах многих измерений • Интеграция методов из многих дисциплин • Обработка зашумленных и неполных данных
  • 23. ВЗАИМОДЕЙСТВИЕ С ПОЛЬЗОВАТЕЛЕМ Пользователь играет одну из важных ролей в процессе Data Mining. Основными вопросами исследований являются: • Как взаимодействовать с системой Data Mining? • Как интегрировать предметные знания пользователей в процесс Data Mining? • Как представить и визуализировать результаты?
  • 24. ЭФФЕКТИВНОСТЬ И МАСШТАБИРУЕМОСТЬ Вопросы эффективности и масштабируемости всегда рассматриваются при сравнении различных алгоритмов Data Mining. • Ал г о р и т м ы д о лжн ы б ы т ь эффе к т и в н ы м и и л е г к о масштабируемыми, чтобы иметь возможность добывать информацию из огромного количества данных. Время выполнения должно быть предсказуемо, ограничено и приемлемо для приложений • Map/Reduce. Часто применяется техника разделения данных на части, каждая из которых обрабатывается параллельно несколькими процессами (с возможностью взаимодействия). После обработки полученные шаблоны объединяются.
  • 25. ЛИТЕРАТУРА • https://ru.wikipedia.org/wiki/Data_mining • Дюк В.А., Самойленко А.П. Data Mining. Учебный курс • Ситник В. Ф., Краснюк М. Т. Інтелектуальний аналіз даних (дейтамайнінг): Навч. посібник. • J. Han, M. Kamber, J. Pei Data Mining: Concepts and Techniques