Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Data Mining - lecture 1 - 2014

1,725 views

Published on

Data Mining - Lecture 1

Lecture1 - https://www.slideshare.net/gakhov/data-mining-lecture-1-2014
Lecture2 - https://www.slideshare.net/gakhov/data-mining-lecture-2-2014
Lecture3 - https://www.slideshare.net/gakhov/3-39206548
Lecture4 - https://www.slideshare.net/gakhov/4-39539775
Lecture5 - https://www.slideshare.net/gakhov/5-40343377
Lecture6 - https://www.slideshare.net/gakhov/data-mining-lecture-6-2014
Lecture7 - https://www.slideshare.net/gakhov/7-41296721
Lecture8 - https://www.slideshare.net/gakhov/da-42067508

Published in: Education
  • Be the first to comment

Data Mining - lecture 1 - 2014

  1. 1. Харьковский национальный университет имени В. Н. Каразина Факультет компьютерных наук ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ Data Mining Подготовил: доцент каф. искусственного интеллекта и программного обеспечения, к.ф.-м. н. Гахов Андрей Владимирович 2014/2015 уч. год
  2. 2. ПЛАН КУРСА • Введение в Data Mining • Узнаем больше о своих данных • Подготовка данных (preprocesing) • Хранилища данных • Поиск шаблонов в данных • Методы классификации • Методы кластеризации
  3. 3. ВВЕДЕНИЕ В DATA MINING
  4. 4. ЧТО ТАКОЕ DATA MINING • Data mining (с англ.) - добыча данных • Data mining - поиск знаний (или интересных шаблонов и закономерностей) в данных • Data mining - процесс поиска интересных шаблонов и новых знаний из большого количества данных
  5. 5. ПРОЦЕСС ПОЛУЧЕНИЯ ЗНАНИЙ ИЗ ДАННЫХ Хранилище Data mining Шаблоны данных БД файлы Знание
  6. 6. ОСНОВНЫЕ ЭТАПЫ • Очистка данных удаление шумов и противоречивых данных • Интеграция данных объединение данных из различных источников данных • Выбор данных только данные, имеющие отношение к поставленной задаче • Трансформация данных представление данных в формах, удобных для анализа и аггрегаций • Data mining применение различных методов для выделение шаблонов данных • Изучение шаблонов идентификация важных шаблонов, содержащих новые знания • Презентация знаний использование визуализации и других техник представления полученных знаний
  7. 7. КАКИЕ ШАБЛОНЫ МОГУТ БЫТЬ НАЙДЕНЫ? • описательные Описательные шаблоны характеризуют свойства данных в анализируемом наборе данных • предсказывающие Предсказывающие шаблоны позволяют используя анализируемый набор данных делать предсказания для других наборов данных
  8. 8. ОПИСАНИЕ КЛАССА ИЛИ КОНЦЕПЦИИ Описание некоторого класса или концепции с помощью краткого и выразительного набора терминов • Такое описание может быть получено: • при помощи характеризации данных, путем краткого представления данных рассматриваемого класса (target class) в общих терминах • путем сравнения рассматриваемого класса с одним или несколькими альтернативными классами - дискриминация данных
  9. 9. ПРИМЕР: ХАРАКТЕРИЗАЦИЯ ДАННЫХ • Менеджер по продажам рассматривает такую задачу: Описать характеристики клиентов, которые потратили больше $5000. • Результат: возраст 40-50 лет, работающие и имеющие высший кредитный рейтинг
  10. 10. ПРИМЕР: ДИСКРИМИНАЦИЯ ДАННЫХ • Менеджер по продажам рассматривает такую задачу: Сравнить характеристики пользователей, покупающих некоторую группу товаров часто (чаще 2 раз в месяц), и пользователей, которые покупают очень редко (менее 3 раз в год). • Результат: 80% частых покупателей данной группы товаров имеют возраст 20-40 лет и высшее образование, в то время как 60% нечастых покупателей - пенсионеры или люди до 18 лет и без высшего образования. При более детальном анализе, например, можно сказать, что отличия двух рассматриваемых групп - уровень дохода.
  11. 11. ЧАСТЫЕ ШАБЛОНЫ Шаблоны, которые часто встречаются в данных: • подмножества Пример: хлеб и молоко покупаются вместе • последовательности Пример: сначала покупается ноутбук, потом цифровая камера, а потом карта памяти • структурные шаблоны (могут включать в себя последовательности и подмножества) Пример: покупается ноутбук вместе с чехлом, потом сканер, принтер или мфу, причем если купили принтер или мфу - то покупается бумага ежемесячно.
  12. 12. ПРИМЕР: АНАЛИЗ АССОЦИАЦИЙ • Менеджер рассматривает такую задачу: Найти товары, которые часто покупаются вместе. • Результат: покупка(X, “компьютер”) => покупка(X, “ПО”) [supp = 1%, conf = 50%] т.е. 1% всех покупок включает компьютер и ПО вместе, в 50% случаев при покупке компьютера покупается и ПО. • supp(A) - относительное количество случаев, когда правило A выполняется (support) • conf(A=>B) - относительное количество случаев, когда выполняется B после A (confidence). conf(A=>B) = p(B|A)
  13. 13. ПРЕДСКАЗАТЕЛЬНЫЙ АНАЛИЗ ДЛЯ ПОИСКА ШАБЛОНОВ • Классификация - процесс поиска модели (или функции), которая описывает и отличает классы или концепции в данных • Пример: возраст(X, “молодой”) AND доход(X, “высокий”) => class(X, “A”) возраст(X, “молодой”) AND доход(X, “низкий”) => class(X, “B”) возраст(X, “средний”) => class(X, “C”) возраст(X, “старый”) => class(X, “C”)
  14. 14. ПРЕДСКАЗАТЕЛЬНЫЙ АНАЛИЗ ДЛЯ ПОИСКА ШАБЛОНОВ • Регрессионный анализ - статистическая методология, используемая для численного предсказания. • При классификации предсказывают сатегории (дискретные и без определенного порядка), а модели регрессии - непрерывные функции 20 • Пример: 15 10 5 0 0 3 6 9 12
  15. 15. КЛАСТЕРНЫЙ АНАЛИЗ • Кластерный анализ - процесс анализа данных без использования информации о их классах (например, когда такой информации просто нет) 20 • Пример: 15 10 5 0 0 3 6 9 12
  16. 16. ПОИСК АНОМАЛИЙ • Данные могут содержать элементы, которые не отвечают общему поведению или модели данных - аномалии (outliers). • Пример: 100 40 1
  17. 17. КАКИЕ ШАБЛОНЫ ПРЕДСТАВЛЯЮТ ИНТЕРЕС Интересные шаблоны должны: • быть легко понимаемы для человека • быть верными и для тестовых данных с некоторой степенью достоверности (valid) • быть потенциально полезными в решении рассматриваемой задачи (useful) • нести новое знание для исследователя (novel) • давать возможность предпринимать дейсвие на основе полученного знания (actionable)
  18. 18. ИСПОЛЬЗУЕМЫЕ ТЕХНОЛОГИИ Machine Learning Data Mining Статистика Базы данных Хранилища данных Информационный поиск Приложения Распознание шаблонов Визуализация Алгоритмы HP вычисления
  19. 19. СТАТИСТИКА • Статистика изучает вопросы сбора, анализа, интерпретации и презентации данных • Статистическая модель - это набор математических функций, описывающий поведение объектов в рассматриваемом классе в терминах случайных переменных и их вероятностные распределения • Статистические модели могут быть результатом Data Mining • Статистические методы применяются для проверки и обоснования результатов Data Mining
  20. 20. MACHINE LEARNING • Machine Learning рассматривает вопросы как компьютер может учиться (или улучшать свою эффективность) основываясь на данных • Supervised learning - обучение с учителем. Рассматриваются в основном задачи классификации. И с п о л ь з у ю т с я у ж е п о м е ч е н н ы е (классифицированные) данные. • Unsupervised learning - самостоятельное обучение. Рассматриваются в основном задачи кластеризации.
  21. 21. ОСНОВНЫЕ ПРОБЛЕМЫ DATA MINING • Разработка методологий • Взаимодействие с пользователем • Эффективность и масштабируемость • Разнообразие типов данных • Data Mining и общество
  22. 22. РАЗРАБОТКА МЕТОДОЛОГИЙ Исследователи, разрабатывая новые методы, учитывают следующие аспекты: • Получение новых типов знаний • Получение данных в пространствах многих измерений • Интеграция методов из многих дисциплин • Обработка зашумленных и неполных данных
  23. 23. ВЗАИМОДЕЙСТВИЕ С ПОЛЬЗОВАТЕЛЕМ Пользователь играет одну из важных ролей в процессе Data Mining. Основными вопросами исследований являются: • Как взаимодействовать с системой Data Mining? • Как интегрировать предметные знания пользователей в процесс Data Mining? • Как представить и визуализировать результаты?
  24. 24. ЭФФЕКТИВНОСТЬ И МАСШТАБИРУЕМОСТЬ Вопросы эффективности и масштабируемости всегда рассматриваются при сравнении различных алгоритмов Data Mining. • Ал г о р и т м ы д о лжн ы б ы т ь эффе к т и в н ы м и и л е г к о масштабируемыми, чтобы иметь возможность добывать информацию из огромного количества данных. Время выполнения должно быть предсказуемо, ограничено и приемлемо для приложений • Map/Reduce. Часто применяется техника разделения данных на части, каждая из которых обрабатывается параллельно несколькими процессами (с возможностью взаимодействия). После обработки полученные шаблоны объединяются.
  25. 25. ЛИТЕРАТУРА • https://ru.wikipedia.org/wiki/Data_mining • Дюк В.А., Самойленко А.П. Data Mining. Учебный курс • Ситник В. Ф., Краснюк М. Т. Інтелектуальний аналіз даних (дейтамайнінг): Навч. посібник. • J. Han, M. Kamber, J. Pei Data Mining: Concepts and Techniques

×