2. Что такое извлечение знаний (data mining)?
Задача извлечения знаний (data mining) – поиск неявных
закономерностей и взаимосвязей в совокупностях данных большого
объема.
Общая схема решения задачи извлечения знаний
3. Два типа задач data mining: разработка
приложений
Для нейронных сетей:
- обучение НС;
- использование НС в приложениях
4. Два типа задач data mining: поддержка
принятия решений
Для нейронных сетей:
- обучение НС;
- извлечение модели из НС;
- использование модели в приложениях
Построение модели в системах поддержки принятия решения
5. Подходы к извлечению знаний из НС
• анализ реакции НС;
• формирование логических правил функционирования НС;
• визуализация.
6. Алгоритм NeuroRule (Lu, Setiono, Liu, 1995)
Задача: классификация данных.
Метод: многослойный персептрон, построить
классификационные правила.
C={C1,C2,…,CN} – классы
A1,A2,…,AM – атрибуты.
F: A1,A2,…,AM –> C
Обучающая выборка: {(a1,a2,…,aM,ck)}
1. Обучение НС
2. Прореживание НС
3. Извлечение правил:
если (a1xq1), (a2,q2),…,(an,qn), то …
7. Обучение сети
Случай двух классов.
N входов, 2 выхода: (1,0); (0,1).
2 слоя: внутренний слой – гиперболический тангенс (-1,1),
выходной слой – сигмоида (0,1).
- выходные значения
Условие правильной классификации:
Функция ошибки:
Метод обучения: обратное распространение ошибки.
8. Прореживание НС
Полносвязанная сеть: (N+M)*H связей
Условие удаления связи wl
m
Удаление связи выходного слоя:
1. Обучить полносвязанную сеть;
2. Удалить связи, удовлетворяющие условиям;
3. Переобучить получившуюся сеть;
4. Если точность ниже заданного уровня, то выход
иначе перейти на шаг 2.
9. Дискретизация
Входы: правило градусника
Внутренние нейроны: кластеризация.
Алгоритм (для каждого нейрона):
1. Вычислить значения нейронов
для каждого входного вектора, сгруппировать по правилу:
2. Заменить значения нейронов на средние по
соответствующим кластерам
3. Проверить точность классификации
4. Если точность низкая, то уменьшить e и перейти на шаг 1
10. Извлечение правил
1. Построить правила для связей внутренний слой –> выходы
2. Выделить значения внутренних нейронов,
задействованные в построенных правилах.
3. Построить правила для связей входы –> внутренний слой
4. Объединить два множества правил посредством значений
нейронов внутреннего слоя.
11. Алгоритм TREPAN: идея
• Выделение правил => Построение правил,
аппроксимирующих известные данные;
• <Базовые данные> = <Обучающая выборка> +
<дополнительные данные>;
• Нейронная сеть - оракул – генератор дополнительных данных;
• Построение дерева решений.
12. Структура дерева
• Вершина:
- правило принятия решения;
- примеры, на которых строилась вершина;
- ограничения на значения параметров правил
• Очередь вершин
14. Оракул
Задачи оракула
• классифицировать примеры из обучающей выборки;
• выбрать правила для вершин;
• идентифицировать листья.
Генерация дополнительных примеров
• Построить распределение значений параметров
• Определить ограничения на значения параметров в
данной вершине
• Сгенерировать примеры.
15. Правила в вершинах дерева
Правила m-of-n:
~
Построение правила:
• найти лучшее правило по одному параметру
• наращивать правило до m-of-n.
16. Критерий остановки
1. Оценка вероятности, что в вершине остались примеры
одного класса
2. Ограничение на количество внутренних вершин
17. Заключение
Достоинства
• независимость от архитектуры сети
• независимость от метода обучения
• масштабируемость
Недостатки
• отсутствие средств построения оптимального решения
Editor's Notes
1. Причины возникновения.
2. Неформальное определение.
3. Средства запросов, OLAP (online analytical processing), three-dimensional views of data.
4. Принципиальное отличие data mining.
5. Эффективность = прибыль/затраты на data mining
Обучение как метод построения приложений (поиск и реализация моделей данных); генетическое программирование
Сравнить с общепринятыми методами: программирование
Что это значит применительно к НС
Построенный алгоритм не должен быть эффективнее того, который написан вручную, ведь главное, что он получен автоматически.
Два способа поддержки принятия решения: облегчение восприятия информации (визуализация и т.п.); автоматизированное принятие решений
Как это касается НС.