2. Data Mining
• Data mining – «Копать данные»
• Data mining — совокупность
методов обнаружения в данных
ранее неизвестных,
нетривиальных, практически
полезных и доступных
интерпретации знаний,
необходимых для принятия
решений в различных сферах
человеческой деятельности.
3. Методы Data Mining
Задачи Data Mining:
• Классификация;
• Моделирование;
• Прогнозирование.
Основа методов:
• Деревья решений;
• Нейронные сети;
• Генетические алгоритмы.
4. Задачи Data Mining
Постановка задачи: извлечь
«скрытые данные» из достаточно
крупной базы данных.
Скрытые знания — ранее
неизвестные, нетривиальные,
практически полезные и доступные
для интерпретации данные, как уже
было сказано ранее.
5. Знания Data Mining
Знания представлены в виде:
• Ассоциативных правил;
• Деревьев решений;
• Кластеров;
• Математических функций.
8. Задача поиска ассоциативных
правил
• Задача: реализация
рекомендательной системы по
подбору сочетаний продуктов к
введенному пользователем списку.
Основа решения: набор кулинарных
рецептов и то, как продукты
сочетаются между собой в этих
рецептах.
9. Ассоциативные правила
Вид правила:
• «если… то…»
• «Если клиент купил пиво, то он
купит и чипсы».
Ассоциативное правило – форма
представления знаний.
Используются в задаче «Анализ
рыночной корзины».
10. Анализ рыночной корзины (Market
Basket Analysis)
• Рыночная корзина – набор товаров, приобретаемых
покупателем в рамках одной транзакции.
• Транзакция – множество событий, которые произошли
одновременно.
• Транзакционная база данных (Transaction database) –
двумерная таблица, состоящая из номера транзакции и
перечня покупок.
11. Анализ рыночной корзины (Market
Basket Analysis)
• I — набор продуктов {i1, i2, …, ik};
• j — продукт;
• Support — количество наборов,
содержащих элементы из I;
• Минимальная поддержка;
l
Support{Beer, Bread} = 2
12. Анализ рыночной корзины (Market
Basket Analysis)
● Ассоциативное правило: I={i1
, i2
, …, ik
} → j
— если набор содержит элементы из I, то
она содержит и j.
●
Confidence — уверенность рекомендации
набора I → j.
36. Другие задачи
●
Поиск ассоциативных правил в
результатах опросов;
●
Медицина;
●
Анализ посещений веб-страниц;
●
Перепись населения;
●
Прогнозирование сбоев
телекоммуникационного оборудования.