1. Харьковский национальный университет имени В. Н. Каразина
Факультет компьютерных наук
ИНТЕЛЛЕКТУАЛЬНЫЙ
АНАЛИЗ ДАННЫХ
Data Mining
Подготовил:
доцент каф. искусственного интеллекта и программного обеспечения,
к.ф.-м. н. Гахов Андрей Владимирович
2014/2015 уч. год
4. АТРИБУТ
• Атрибут - это поле данных, представляющие
характеристику или свойство объекта данных
• Очень часто понятия атрибут, размерность,
с в о й с т в о и л и п е р е м е н н а я применяются
взаимозаменяемо
• Тип атрибута определяется множеством возможных
значений, которые может принимать данный атрибут
• Пример: Объект данных автомобиль может иметь
атрибуты марка, цвет и объем двигателя
5. НОМИНАТИВНЫЕ АТРИБУТЫ
• Термин “номинативный” означает, что атрибут
связан с некоторым наименованием
• Значения номинативных атрибутов - символы или
имена вещей
• Как правило, значение номинативного атрибута
представляет некую категорию, код или состояние,
поэтому номинативные атрибуты называют также
градационными переменными, описывающими
категории объекта
6. • Значениям номинативных атрибутов можно
поставить в соответствие некие числовые
значения
• Однако, т.к. номинативные атрибуты не имеют
н и к а к о г о о т н о ш е н и я п о р я д к а ( н е
количественные), тогда нет смысла сравнивать и
их числовые значения
• Номинативные атрибуты используются только для
классификации объектов исследования по
качественным признакам.
7. • Пример: Рассмотрим атрибуты объекта данных
человек: цвет волос и семейное положение
• Пусть возможные значения для атрибута цвет
волос будут: черный, коричневый, белый, седой и
рыжий.
• Пусть возможные значения для атрибута
семейное положение будут: замужем, не замужем
• Оба данных атрибута являются номинативными
атрибутами
8. БИНАРНЫЕ АТРИБУТЫ
• Бинарные (дихотомические) атрибуты - это
номинативные атрибуты, принимающие только 2
значения: 0 (атрибут отсутствует) и 1 (атрибут
присутствует)
• Бинарные атрибуты называются симметричными,
если оба значения одинаково важны и имеют один
и тот же вес
• Бинарные атрибуты называются асимметричными,
если одно из значений более важно
9. • Пример: атрибут пол (принимает значения
мужской и женский, которые могут быть
представлен как 0/1) - симметрический
бинарный атрибут
• Пример: атрибут результат ВИЧ теста
(принимает значения положительный и
отрицательный) - асимметрический
бинарный атрибут, т.к. 1 (положительный)
является более редким и важным
10. ПОРЯДКОВЫЙ АТРИБУТ
• Порядковый атрибут - это атрибут, которые
принимает значения, позволяющие установить
отншение порядка (лучше/хуже), но без возможности
учета разности между величинами (лучше в 5 раз/хуже в
5 раз).
• Порядковые атрибуты применяются когда невозможно
установить точное различие между принимаемыми
значениями
• Порядковый атрибут относится к качественным
характеристикам
11. • Пример: Атрибут оценка (принимает значения A+,
A, A-, B+ и т.д.) является пордяковым атрибутом,
т.к. можно упорядочить значения, считая A+ лучше
A-, однако нельзя сказать во сколько раз A+ лучше.
• Значениям порядкового атрибута также можно
поставить в соответствия некие числа, которые
можно упорядочивать
• Пример: Значения атрибута удовлетворенность
покупателя можно представить в виде: 0 - ужасно,
1 - плохо, 2 - нормально, 3 - хорошо, 4 - отлично
12. ЧИСЛЕННЫЕ АТРИБУТЫ
• Численные атрибуты - это количественные
характеристики, которые можно измерить и
представить в виде целых или вещественных
значений
• Численные атрибуты бывают двух видов -
интервальные атрибуты и атрибуты отношений
13. • Интервальные атрибуты это численные
атрибуты, которые измеряются относительно
некоторой шкалы
• Значения интервального атрибута имеют порядок и
могут быть положительными, отрицательными или
равными 0
• За единицу измерения интервальной переменной
(за ее «размер») принимается одна и та же
величина, равная интервалу между двумя соседними
значениями
• Интервальные атрибуты позволяют сравнивать
разности (интервалы) между значениями
14. • Пример: атрибут температура воздуха,
принимающий значения по шкале Цельсия.
• Шкала Цельсия не имеет абсолютного нуля (точки
отсчета), т.к. 0º - не отвечает значению “нет
температуры”
• Мы можем сказать, что температура в 40º на 10º
выше, чем температура в 30º. Мы также можем
сказать, что увеличение (разница) от 20º до 40º в
два раза больше, чем увеличение от 30º до 40º.
• Мы не можем сказать, что 10º в три раза холоднее,
чем 30º
15. • За нуль для значений интервального
атрибута может быть принята любая точка
отсчета.
• Интервальные переменные величины
позволяют нам не только ранжировать по
порядку измеряемые признаки, но также и
представлять их в количественной форме и,
кроме того, сравнивать величины разностей
между ними.
16. • Атрибуты отношений - это интервальные
атрибуты, которые имеют абсолютный ноль
(единую точку отсчета)
• Только для атрибутов отношений можно
говорить, что одно значение “больше в
столько-то раз”, чем другое
• Пример: атрибут температура, принимающий
значения по шкале Кельвина. Шкала Кельвина
(в отличие от Цельсия) имеет абсолютный
ноль (0ºK = -273.15ºC)
17. НЕПРЕРЫВНЫЕ И ДИСКРЕТНЫЕ АТРИБУТЫ
• Дискретные атрибуты принимают конечное
или счетное множество значений, которые
мог у т к а к п р е д с т а в л я т ь с я , т а к и н е
представляться как целые числа
• Если атрибут не является дискретным, то он
называется непрерывным. Непрерывные
атрибуты представляются вещественными
значениями
18. • Пример: а т р и б у т уровень дохода,
принимающий значения высокий, средний и
низкий является дискретным номинативным
атрибутом
• Пример: атрибут заработная плата,
принимающая значения в некотором
интервале значений, является непрерывным
атрибутом отношения
20. ИЗМЕРЕНИЕ ЦЕНТРАЛЬНОЙ ТЕНДЕЦИИ
• Меры центральной тенденции измеряют
р а с положе н и е с е р е д и ны и л и ц е н т р а
распределения данных
• Отвечаем на вопрос: “Где располагаются
большинство значений некоторого атрибута
данных?”
• Измерение центральной тенденции включает
среднее (арифметическое), медиану и моду
21. СРЕДНЕЕ АРИФМЕТИЧЕСКОЕ
• Пусть x1, x2, … xN - множество значений
(наблюдений) численного атрибута x
• Средним арифметическим называется величина
x- = x1 + x2 + … + xN
!
N
• Пример: пусть атрибут зарплата принимает
следующие значения (тыс. грн): 3.0, 3.6, 4.7, 5.0, 5.2,
5.6, 6.0, 6.3, 7.0, 7.0, 11.0
• Среднее арифметическое будет 69.6 / 12 = 5.8
• Средняя зарплата составляет 5800 грн
22. • Иногда для управлением влиянием, важностью
или для отображения частоты каждое
значение xi может быть ассоциировано с
некоторым весом wi, i=1…N
• Взвешенное среднее (арифметическое)
может быть вычислено по формуле:
w1 • x1 + x- = w2 • x2 + … + wN • xN
! w1 + w2 + … + wN
23. • Основной проблемой среднего (арифметического)
я в л я е т с я б о л ь ш а я чувствительность к
экстремальным значениям (например, аномалиям).
Для борьбы с данной чувствительностью можно
применять т.н. усеченное среднее
• Усеченное среднее - это среднее значение для
имеющегося набора данных, из которого исключены
k% наибольших и k% наименьших значений.
• Как правило процент удаляемых значений
устанавливается в диапазоне от 5% до 25%.
24. МЕДИАНА
• Медиана - возможное значение атрибута, которое делит
упорядоченную по возрастанию совокупность значений этого
атрибута на две равные части: 50% «нижних» значений будут
иметь значение атрибута не больше, чем медиана, а
«верхние» 50% - значения атрибута не меньше, чем медиана.
• Медиана играет особенно важную роль для асимметричных
данных
• Если N - четное, тогда медиана не уникальна и равна двум
ближайшим к центру значениям, а также любым значениям
между ними (на практике, используют среднее
арифметическое этих значений)
25. МОДА
• Мода - это значение атрибута, которое встречается
особенно часто
• Мода может быть определена как для количественных, так
и для качественных характеристик
• Если набор данных содержит только 1 моду, он называется
одномодальным. Различают также бимодальные,
тримодальные и многомодальные наборы данных
• Для одномодальных атрибутов без явной асимметрии:
выполняется соотношение:
среднее - мода ≈ 3 • (среднее - медиана)
26. среднее мода
медиана
мода среднее
медиана
медиана
мода
среднее
Симметрические данные
Асимметрические данные положительный перекос отрицаельный перекос