Data mining

686 views

Published on

Data Mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Published in: Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
686
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
15
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Data mining

  1. 1. Data mining Дмитрий Никотин http://meetmarket.ru/ dmitrynikotin@gmail.com
  2. 2. Данных все больше и больше
  3. 3. Управленец не может вручную обработать большие массивы данных и принять решение
  4. 4. Проблема
  5. 5. Проблема имеется достаточно крупная база данных
  6. 6. Проблема имеется достаточно крупная база данных предполагается, что в базе данных находятся некие «скрытые знания»*
  7. 7. «скрытые знания»* 1. ранее не известные — то есть такие знания, которые должны быть новыми (а не подтверждающими какие-то ранее полученные сведения); 2. нетривиальные — то есть такие, которые нельзя просто так увидеть (при непосредственном визуальном анализе данных или при вычислении простых статистических характеристик); 3. практически полезные — то есть такие знания, которые представляют ценность для исследователя или потребителя; 4. доступные для интерпретации — то есть такие знания, которые легко представить в наглядной для пользователя форме и легко объяснить в терминах предметной области.
  8. 8. Проблема имеется достаточно крупная база данных предполагается, что в базе данных находятся некие «скрытые знания»* Цель
  9. 9. Проблема имеется достаточно крупная база данных предполагается, что в базе данных находятся некие «скрытые знания»* Цель Обнаружить «знания»*, скрытые в больших объёмах исходных «сырых» данных
  10. 10. «знания»* • исходные данные (сырые данные) – необработанные массивы данных, получаемые в результате наблюдения за некой динамической системой (например, данные о котировках акций за прошедший год); • информация – обработанные данные, которые несут в себе некую информационную ценность для пользователя; сырые данные, представленные в более компактном виде; • знания —отображают скрытые взаимосвязи межу объектами, которые не являются общедоступными (в противном случае, это будет просто информация).
  11. 11. Data mining
  12. 12. Data mining Извлечение знаний
  13. 13. Задачи, решаемые методами Data Mining
  14. 14. • Классификация — отнесение входного вектора (объекта, события, наблюдения) к одному из заранее известных классов. • Кластеризация — разделение множества входных векторов на группы (кластеры) по степени «похожести» друг на друга. • Сокращение описания — для визуализации данных, упрощения счета и интерпретации, сжатия объемов собираемой и хранимой информации. • Ассоциация — поиск повторяющихся образцов. Например, поиск «устойчивых связей в корзине покупателя». • Прогнозирование – нахождение будущих состояний объекта на основании предыдущих состояний (исторических данных) • Анализ отклонений — например, выявление нетипичной сетевой активности позволяет обнаружить вредоносные программы. • Визуализация данных.
  15. 15. Инструменты Data Mining
  16. 16. В опросе приняли участие 1880 специалистов
  17. 17. Самый большой объем данных для анализа?
  18. 18. Применение Data mining
  19. 19. Пример 1. Ритейл (торговые сети) Дано: 1. Большая торговая сеть имеет сотни магазинов по всей РФ, десятки тысяч активных товаров. 2. Данные о продажах каждого товара в каждом конкретном магазине в каждый момент времени (день или час) хранится в учетной системе компании. 3. Торговая сеть ежедневно должна заказывать товары в свои магазины. Проблема: Ежедневно в матрице, например [5000 Х 10 000] должно стоять значение — сколько везти этого товара?
  20. 20. Проблема: Ежедневно в матрице, например [10.130 Х 1.000.000 ]* должно стоять значение — сколько везти этого товара? например [10.130 Х 1.000.000 ]* • Walmart — крупнейшая в мире розничная сеть, в которую входит более 10130 магазинов. • Walmart - имеет более 1.000.000 наименований продукции. Источник: www.walmart.com
  21. 21. Проблема: Ежедневно в матрице, например [10.130 Х 1.000.000 ]* должно стоять значение — сколько везти этого товара? например [10.130 Х 1.000.000 ]* • Walmart — крупнейшая в мире розничная сеть, в которую входит более 10130 магазинов. • Walmart - имеет более 1.000.000 наименований продукции. Никакая армия аналитиков и товароведов не справятся с решениям такой задачи. Источник: www.walmart.com
  22. 22. Зачем?
  23. 23. 1. Если сеть закажет меньше, чем будет реальный спрос, то получит УБЫТКИ из-за дефицита (и потеряет наценочную стоимость). 2. Если сеть закажет больше товаров, чем будет реальный спрос, то получит УБЫТКИ из-за стоимости хранения товаров на складе, замороженных средств, порчи товара после истечения срока годности.
  24. 24. В цифрах
  25. 25. ФАКТ: улучшение прогнозирующей модели способно снизить издержки торговой сети на 1-2 процента от оборота. Оборот ▲ $408,1 млрд (2010 год) 2% - 8,160,000,000
  26. 26. 2% - 8,160,000,000 Олег Владимирович Дерипаска - 14 место среди миллиардеров России
  27. 27. Пример 2. Образование Educational Data Mining
  28. 28. Пример 2. Образование Educational Data Mining методы исследования данных, использующихся в образовательных целях, для принятия решений в сфере образования.
  29. 29. Цель улучшить образовательный процесс
  30. 30. Цель улучшить образовательный процесс • • • направить студентов в нужное русло дать рекомендации преподавателям понять феномен образования
  31. 31. Как?
  32. 32. Онлайн система Используются лог-файлы, в которых содержится вся информация о работе пользователя на сайте (клики, переходы, оценки и многое другое)
  33. 33. Онлайн система Используются лог-файлы, в которых содержится вся информация о работе пользователя на сайте (клики, переходы, оценки и многое другое) Традиционная система (университет,школа) Тоже возможно, но в данном случае мы обладаем очень разобщенной и недостаточной информацией на данный момент
  34. 34. Методы Помимо стандартных методов : • кластеризации • классификации • регрессии • корреляции • визуализации • Статистики В EDM используются и некоторые специфичные, например, из области психометрики.
  35. 35. Зачем? помогают разбивать студентов на группы по восприятию информации*
  36. 36. позволяет адаптировать образовательный процесс под студента подбирать соответствующий тип контента и определённым образом его организовывать
  37. 37. Проект в сфере онлайн-образования, основанный профессорами Стэнфордского университета Эндрю Нг и Дафной Келлер. Посещаемость – 2.7 млн человек Текущий статус – публичное бета тестирование
  38. 38. Целевая аудитория
  39. 39. У нас есть студент, который хочет понять как управлять персоналом.
  40. 40. Когда студент хочет получить знания в интернете – он использует образовательную онлайн систему. Она взаимодействует со студентом, обеспечивая индивидуализированный контент и адаптированную помощь. Источник: информация об обучении и его личных данных, которые он заполняет в профиле или из ответов на анкеты курсов.
  41. 41. Система собирает детализированную информацию о том, какой контент студент открывает чаще всего (задание, видео, текст). А также скорость, длительность и частоту его просмотра. После сохраняет в базу данных.
  42. 42. Полученная информация обрабатывается и основываясь на полученных моделях обучения, система пытается наилучшим образом адаптировать курс под студента.
  43. 43. Также система может дать рекомендации других курсов. Существует огромное количество рекомендационных алгоритмов*, которые можно использовать.
  44. 44. Если система видит, что студент очень быстро справляется с домашними заданиями, быстро проматывает учебный материал, то она может предложить ему “обходные” (сокращённые) пути прохождения курса — более сложные задания, прохождение на более сложную ступень при сдаче экзамена и пр.
  45. 45. В ином случае она поможет сгенерировать адаптированную подсказку. Если у студента возникли проблемы с какой-то частью курса ( это можно понять на основе ошибок в домашних заданиях и вопросам на форуме) Система может дать рекомендацию по дополнительному материалу или перенаправить его на соответствующую главу.
  46. 46. У нас есть преподаватель, который хочет улучшить курс.
  47. 47. При создании курса, основываясь на анализе уже имеющихся курсов, преподаватель сможет заранее предсказывать поведение студента и адаптировать материал под его нужды.
  48. 48. Во время курса очень важно получать фитбек (ответную реакцию) о процессе обучения. Например, это может быть интегральная оценка или динамика работы студентов по курсу.
  49. 49. Также у преподавателя есть возможность классифицировать обучающихся по группам, например, по успеваемости, активности, полу, возрасту, бекграунду и пр.
  50. 50. Система предоставляет инструменты для частоты и распределения ошибок, которые совершают студенты. С помощью дополнительных параметров, например таких как просмотренные темы, предыдущие оценки, возможно понять причины ошибок.
  51. 51. Автоматически создавать модели студента и наставника. Основываясь на данных о преподавателях и студентах, здесь как раз помогут психометрики, можно подбирать наилучшие комбинации студент-наставник, что должно повысить усваиваемость материала.
  52. 52. В заключение об использовании EDM Основные направления, по которым ведутся разработки, можно посмотреть на диаграмме. Данные собраны по 300 работам до 2009 года.
  53. 53. Пример 3. Data mining на службе у HR Microsoft и IBM и Google сейчас используют программы для математического анализа ценности каждого отдельного сотрудника. Комплексный анализ документооборота, почтовой переписки, SMS-сообщений и прочих каналов коммуникации — с распознаванием эмоций, поведенческих привычек и прочих невербальных характеристик каждого пользователя.
  54. 54. Data mining Будущее здесь
  55. 55. Обсудим? • vk.com/dmitry_nikotin • facebook.com/dmitry.nikotin • twitter.com/Dmitry_Nikotin dmitrynikotin@gmail.com

×