Интеллектуальный анализ данных
(Data Mining)
Смирнов Михаил, гр.425

Москва, 2013
План доклада
I.

Характеристики направления
i.
История развития
ii. Области применения
iii. Применяемые подходы
iv. Достоинства и недостатки
II. Деревья решений в Data Mining
I.
Основные понятия
II. Примеры
III. Методы построения
IV. Достоинства и недостатки
III. Метод «ближайшего соседа»
I.
Суть метода
II. Преимущества и недостатки
III. Реализации

2
Data Mining: Определения
• Data Mining - это процесс обнаружения в сырых данных
ранее неизвестных, нетривиальных, практически
полезных и доступных интерпретации знаний,
необходимых для принятия решений в различных сферах
человеческой деятельности.
Gregory Piatetsky-Shapiro
• Технология, которая предназначена для поиска в больших
объемах данных неочевидных, объективных и полезных
на практике закономерностей.

3
Data Mining: Поиск закономерностей
Неочевидных – найденные закономерности не всегда
обнаруживаются обычными методами обработки
информации или даже опытными экспертами
Объективных – найденные закономерности будут
полностью соответствовать действительности, в отличие,
например, от мнения экспертов (эксперты строят
предположения, выдвигают гипотезы на основе своего
опыта)
Полезных – найденные закономерности имеют свое
практическое значение
4
Data Mining
• Зарождение технологии – 1989год, семинар
Григория Пятецкого-Шапиро. Основной вопрос:
можно ли автоматически находить
определённые правила, чтобы ускорить
некоторые запросы к крупным базам данных?
• 1993 г. - выход первой рассылки «Knowledge
Discovery Nuggets»
• 1994 г. – создание первых сайтов по Data Mining

5
Data Mining: Предпосылки развития
Развитию технологии способствовало совершенствование:
• аппаратного и программного обеспечения;
• технологий хранения и записи данных;
• алгоритмов обработки информации.
Немаловажную роль сыграл большой объем накопленной
информации для обработки

6
Data mining: Области применения
Розничная торговля:
• анализ покупательской корзины
(Выявление товаров, которые покупатели стремятся
приобретать вместе)
• создание прогнозирующих моделей
(Определение характера потребностей различных
категорий клиентов с определенным поведением)
Банковское дело
• выявление мошенничества с кредитными карточками
• прогнозирование изменений клиентуры
7
Data mining: Пример применения
Телекоммуникации
• анализ записей о подробных характеристиках вызовов
(Создание новых услуг и тарифов)
Страхование
• анализ риска
Известен случай, когда в США крупная страховая компания
обнаружила, что суммы, выплаченные по заявлениям людей,
состоящих в браке, вдвое превышает суммы по заявлениям одиноких
людей. Компания отреагировала на это новое знание пересмотром
своей общей политики предоставления скидок семейным клиентам.
8
Data Mining: Применяемые методы
Математические:
• кластерный анализ,
• метод ближайшего соседа,
• метод k-ближайших соседей
• логические методы;
Статистические :
• Дескриптивный анализ (оценка как с качественной, так и с
количественной стороны)
• Анализ связей (корреляционный и регрессионный анализ, факторный
анализ, дисперсионный анализ).
• Многомерный статистический анализ.
• Анализ временных рядов (динамические модели и
прогнозирование).

9
Data Mining: Методы искусственного
интеллекта
• Методы искусственного интеллекта:
• Искусственные нейронные сети (распознавание, кластеризация,
прогноз);
• Эволюционное программирование
• Генетические алгоритмы (оптимизация);
• Ассоциативная память (поиск аналогов, прототипов);
• Нечеткая логика;
• Деревья решений;
• Системы обработки экспертных знаний.

10
Преимущества и недостатки направления
Недостатки:
• Data Mining не может заменить аналитика
• Сложность подготовки данных
• Большой процент ложных, недостоверных
или бессмысленных результатов
• Высокая стоимость получения результатов
Преимущества:
• Использование методов Data Mining может
предоставить ощутимые преимущества в
конкурентной борьбе
11
Перспективы развития направления
• выделение типов предметных областей с
соответствующими им эвристиками
• создание формальных языков и логических средств, с
помощью которых будет формализованы
рассуждения
• создание методов Data Mining, способных не только
извлекать из данных закономерности, но и
формировать некие теории, опирающиеся на
эмпирические данные
12
Деревья решений: История и основные понятия
• Возникновение - 50-е годы (Ховиленд и Хант (Hoveland,
Hunt) )
• Другие названия метода:
 деревьями решающих правил
 деревьями классификации и регрессии
• Это способ представления правил в иерархической,
последовательной структуре

13
Деревья решений: Пример 1
Дерево для принятия решения, стоит ли сегодня играть в гольф?

14
Деревья решений: Пример 2
Дерево для принятия решения, стоит ли лицу выдавать кредит?

15
Деревья решений: Процесс конструирования
Основные этапы алгоритмов конструирования деревьев:
• "построение" или "создание" дерева (tree building)
1.
2.

Выбираем очередной атрибут , помещаем его в корень.
Для всех его значений :
a. Оставляем из тестовых примеров только те, у которых
значение атрибута равно (для категориальных данных) /
находим значение параметра для расщепления (для
числовых значений)
b. Рекурсивно строим дерево в этом потомке

Примеры алгоритмов для выбора атрибута: ID3,C4.5, CART,MARS
ФИО клиента

возраст

образование доход

недвижимость вес

пол

Иванов А.В.

30

Нет

30

есть

40

М

Петров П.М.

43

Высшее

200

нет

55

М

Сидорова
И.Н.

30

Среднее

150

нет

70

Ж

…

16
Деревья решений: процесс сокращения
Точность распознавания рассчитывается как отношение объектов, правильно
классифицированных в процессе обучения, к общему количеству объектов
набора данных, которые принимали участие в обучении
Ошибка рассчитывается как отношение объектов, неправильно
классифицированных в процессе обучения, к общему количеству объектов
набора данных, которые принимали участие в обучении
•

"сокращение" дерева (tree pruning)
Простейших метод регулирования — уменьшение ошибки ограничения
дерева. Начиная с листьев, каждый узел заменяется на самый популярный
класс. Если точность предсказания не влияет, то изменение сохраняется.

17
Деревья решений: «Эффект горизонта»
Один из вопросов при построении — оптимальный
размер конечного дерева.
Небольшое дерево может не охватить ту или иную
важную информацию о выборочном пространстве. Тем
не менее, трудно сказать, когда алгоритм должен
остановиться, потому что невозможно
спрогнозировать, добавление какого узла позволит
значительно уменьшить ошибку.
Эта проблема известна как «эффект горизонта».
Тем не менее, общая стратегия ограничения дерева
сохраняется: удаление узлов реализуется в случае,
если они не дают дополнительной информации
18
Деревья решений: Преимущества и недостатки
Преимущества:
• Интуитивность деревьев решений
• Возможность извлекать правила из базы данных на
естественном языке
• Не требует от пользователя выбора входных атрибутов
• Точность моделей
• Разработан ряд масштабируемых алгоритмов
• Быстрый процесс обучения
• Обработка пропущенных значений
Недостатки:
• Проблема получения оптимального дерева решений
(проблема не достаточно полного представления данных)
19
Метод "ближайшего соседа»
Простейший метрический классификатор, основанный
на оценивании сходства объектов.
Классифицируемый объект относится к тому классу,
которому принадлежат ближайшие к нему объекты
обучающей выборки.
возраст

- -

- - -

доход

20
Метод «ближайшего соседа» : Преимущества и
недостатки
Преимущества:
• "самообучающаяся" технология
• Целью поиска является не гарантированно верное
решение, а лучшее из возможных.
Недостатки:
• Cложность выбора меры "близости" (метрики).
• Высокая зависимость результатов классификации от
выбранной метрики.
• Необходимость полного перебора обучающей выборки
при распознавании, следствие этого - вычислительная
трудоемкость.
21
Программные продукты, использующие
метод «ближайшего соседа»
Метод реализован в пакете WEKA
Weka представляет собой набор средств визуализации и
алгоритмов для интеллектуального анализа данных и
решения задач прогнозирования, вместе с графической
пользовательской оболочкой для доступа к ним.
Weka позволяет выполнять:
 подготовка данных (preprocessing),
 отбор признаков
 кластеризация
 классификация
 регрессионный анализ
 визуализация результатов
22

смирнов Data mining

  • 1.
    Интеллектуальный анализ данных (DataMining) Смирнов Михаил, гр.425 Москва, 2013
  • 2.
    План доклада I. Характеристики направления i. Историяразвития ii. Области применения iii. Применяемые подходы iv. Достоинства и недостатки II. Деревья решений в Data Mining I. Основные понятия II. Примеры III. Методы построения IV. Достоинства и недостатки III. Метод «ближайшего соседа» I. Суть метода II. Преимущества и недостатки III. Реализации 2
  • 3.
    Data Mining: Определения •Data Mining - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Gregory Piatetsky-Shapiro • Технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей. 3
  • 4.
    Data Mining: Поискзакономерностей Неочевидных – найденные закономерности не всегда обнаруживаются обычными методами обработки информации или даже опытными экспертами Объективных – найденные закономерности будут полностью соответствовать действительности, в отличие, например, от мнения экспертов (эксперты строят предположения, выдвигают гипотезы на основе своего опыта) Полезных – найденные закономерности имеют свое практическое значение 4
  • 5.
    Data Mining • Зарождениетехнологии – 1989год, семинар Григория Пятецкого-Шапиро. Основной вопрос: можно ли автоматически находить определённые правила, чтобы ускорить некоторые запросы к крупным базам данных? • 1993 г. - выход первой рассылки «Knowledge Discovery Nuggets» • 1994 г. – создание первых сайтов по Data Mining 5
  • 6.
    Data Mining: Предпосылкиразвития Развитию технологии способствовало совершенствование: • аппаратного и программного обеспечения; • технологий хранения и записи данных; • алгоритмов обработки информации. Немаловажную роль сыграл большой объем накопленной информации для обработки 6
  • 7.
    Data mining: Областиприменения Розничная торговля: • анализ покупательской корзины (Выявление товаров, которые покупатели стремятся приобретать вместе) • создание прогнозирующих моделей (Определение характера потребностей различных категорий клиентов с определенным поведением) Банковское дело • выявление мошенничества с кредитными карточками • прогнозирование изменений клиентуры 7
  • 8.
    Data mining: Примерприменения Телекоммуникации • анализ записей о подробных характеристиках вызовов (Создание новых услуг и тарифов) Страхование • анализ риска Известен случай, когда в США крупная страховая компания обнаружила, что суммы, выплаченные по заявлениям людей, состоящих в браке, вдвое превышает суммы по заявлениям одиноких людей. Компания отреагировала на это новое знание пересмотром своей общей политики предоставления скидок семейным клиентам. 8
  • 9.
    Data Mining: Применяемыеметоды Математические: • кластерный анализ, • метод ближайшего соседа, • метод k-ближайших соседей • логические методы; Статистические : • Дескриптивный анализ (оценка как с качественной, так и с количественной стороны) • Анализ связей (корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ). • Многомерный статистический анализ. • Анализ временных рядов (динамические модели и прогнозирование). 9
  • 10.
    Data Mining: Методыискусственного интеллекта • Методы искусственного интеллекта: • Искусственные нейронные сети (распознавание, кластеризация, прогноз); • Эволюционное программирование • Генетические алгоритмы (оптимизация); • Ассоциативная память (поиск аналогов, прототипов); • Нечеткая логика; • Деревья решений; • Системы обработки экспертных знаний. 10
  • 11.
    Преимущества и недостаткинаправления Недостатки: • Data Mining не может заменить аналитика • Сложность подготовки данных • Большой процент ложных, недостоверных или бессмысленных результатов • Высокая стоимость получения результатов Преимущества: • Использование методов Data Mining может предоставить ощутимые преимущества в конкурентной борьбе 11
  • 12.
    Перспективы развития направления •выделение типов предметных областей с соответствующими им эвристиками • создание формальных языков и логических средств, с помощью которых будет формализованы рассуждения • создание методов Data Mining, способных не только извлекать из данных закономерности, но и формировать некие теории, опирающиеся на эмпирические данные 12
  • 13.
    Деревья решений: Историяи основные понятия • Возникновение - 50-е годы (Ховиленд и Хант (Hoveland, Hunt) ) • Другие названия метода:  деревьями решающих правил  деревьями классификации и регрессии • Это способ представления правил в иерархической, последовательной структуре 13
  • 14.
    Деревья решений: Пример1 Дерево для принятия решения, стоит ли сегодня играть в гольф? 14
  • 15.
    Деревья решений: Пример2 Дерево для принятия решения, стоит ли лицу выдавать кредит? 15
  • 16.
    Деревья решений: Процессконструирования Основные этапы алгоритмов конструирования деревьев: • "построение" или "создание" дерева (tree building) 1. 2. Выбираем очередной атрибут , помещаем его в корень. Для всех его значений : a. Оставляем из тестовых примеров только те, у которых значение атрибута равно (для категориальных данных) / находим значение параметра для расщепления (для числовых значений) b. Рекурсивно строим дерево в этом потомке Примеры алгоритмов для выбора атрибута: ID3,C4.5, CART,MARS ФИО клиента возраст образование доход недвижимость вес пол Иванов А.В. 30 Нет 30 есть 40 М Петров П.М. 43 Высшее 200 нет 55 М Сидорова И.Н. 30 Среднее 150 нет 70 Ж … 16
  • 17.
    Деревья решений: процесссокращения Точность распознавания рассчитывается как отношение объектов, правильно классифицированных в процессе обучения, к общему количеству объектов набора данных, которые принимали участие в обучении Ошибка рассчитывается как отношение объектов, неправильно классифицированных в процессе обучения, к общему количеству объектов набора данных, которые принимали участие в обучении • "сокращение" дерева (tree pruning) Простейших метод регулирования — уменьшение ошибки ограничения дерева. Начиная с листьев, каждый узел заменяется на самый популярный класс. Если точность предсказания не влияет, то изменение сохраняется. 17
  • 18.
    Деревья решений: «Эффектгоризонта» Один из вопросов при построении — оптимальный размер конечного дерева. Небольшое дерево может не охватить ту или иную важную информацию о выборочном пространстве. Тем не менее, трудно сказать, когда алгоритм должен остановиться, потому что невозможно спрогнозировать, добавление какого узла позволит значительно уменьшить ошибку. Эта проблема известна как «эффект горизонта». Тем не менее, общая стратегия ограничения дерева сохраняется: удаление узлов реализуется в случае, если они не дают дополнительной информации 18
  • 19.
    Деревья решений: Преимуществаи недостатки Преимущества: • Интуитивность деревьев решений • Возможность извлекать правила из базы данных на естественном языке • Не требует от пользователя выбора входных атрибутов • Точность моделей • Разработан ряд масштабируемых алгоритмов • Быстрый процесс обучения • Обработка пропущенных значений Недостатки: • Проблема получения оптимального дерева решений (проблема не достаточно полного представления данных) 19
  • 20.
    Метод "ближайшего соседа» Простейшийметрический классификатор, основанный на оценивании сходства объектов. Классифицируемый объект относится к тому классу, которому принадлежат ближайшие к нему объекты обучающей выборки. возраст - - - - - доход 20
  • 21.
    Метод «ближайшего соседа»: Преимущества и недостатки Преимущества: • "самообучающаяся" технология • Целью поиска является не гарантированно верное решение, а лучшее из возможных. Недостатки: • Cложность выбора меры "близости" (метрики). • Высокая зависимость результатов классификации от выбранной метрики. • Необходимость полного перебора обучающей выборки при распознавании, следствие этого - вычислительная трудоемкость. 21
  • 22.
    Программные продукты, использующие метод«ближайшего соседа» Метод реализован в пакете WEKA Weka представляет собой набор средств визуализации и алгоритмов для интеллектуального анализа данных и решения задач прогнозирования, вместе с графической пользовательской оболочкой для доступа к ним. Weka позволяет выполнять:  подготовка данных (preprocessing),  отбор признаков  кластеризация  классификация  регрессионный анализ  визуализация результатов 22