SlideShare a Scribd company logo
1 of 26
Download to read offline
Харьковский национальный университет имени В. Н. Каразина 
Факультет компьютерных наук 
ИНТЕЛЛЕКТУАЛЬНЫЙ 
АНАЛИЗ ДАННЫХ 
Data Mining 
Подготовил: 
доцент каф. искусственного интеллекта и программного обеспечения, 
к.ф.-м. н. Гахов Андрей Владимирович 
2014/2015 уч. год
ЛЕКЦИЯ 2 
Узнаем больше о своих данных. Часть 1
ТИПЫ АТРИБУТОВ
АТРИБУТ 
• Атрибут - это поле данных, представляющие 
характеристику или свойство объекта данных 
• Очень часто понятия атрибут, размерность, 
с в о й с т в о и л и п е р е м е н н а я применяются 
взаимозаменяемо 
• Тип атрибута определяется множеством возможных 
значений, которые может принимать данный атрибут 
• Пример: Объект данных автомобиль может иметь 
атрибуты марка, цвет и объем двигателя
НОМИНАТИВНЫЕ АТРИБУТЫ 
• Термин “номинативный” означает, что атрибут 
связан с некоторым наименованием 
• Значения номинативных атрибутов - символы или 
имена вещей 
• Как правило, значение номинативного атрибута 
представляет некую категорию, код или состояние, 
поэтому номинативные атрибуты называют также 
градационными переменными, описывающими 
категории объекта
• Значениям номинативных атрибутов можно 
поставить в соответствие некие числовые 
значения 
• Однако, т.к. номинативные атрибуты не имеют 
н и к а к о г о о т н о ш е н и я п о р я д к а ( н е 
количественные), тогда нет смысла сравнивать и 
их числовые значения 
• Номинативные атрибуты используются только для 
классификации объектов исследования по 
качественным признакам.
• Пример: Рассмотрим атрибуты объекта данных 
человек: цвет волос и семейное положение 
• Пусть возможные значения для атрибута цвет 
волос будут: черный, коричневый, белый, седой и 
рыжий. 
• Пусть возможные значения для атрибута 
семейное положение будут: замужем, не замужем 
• Оба данных атрибута являются номинативными 
атрибутами
БИНАРНЫЕ АТРИБУТЫ 
• Бинарные (дихотомические) атрибуты - это 
номинативные атрибуты, принимающие только 2 
значения: 0 (атрибут отсутствует) и 1 (атрибут 
присутствует) 
• Бинарные атрибуты называются симметричными, 
если оба значения одинаково важны и имеют один 
и тот же вес 
• Бинарные атрибуты называются асимметричными, 
если одно из значений более важно
• Пример: атрибут пол (принимает значения 
мужской и женский, которые могут быть 
представлен как 0/1) - симметрический 
бинарный атрибут 
• Пример: атрибут результат ВИЧ теста 
(принимает значения положительный и 
отрицательный) - асимметрический 
бинарный атрибут, т.к. 1 (положительный) 
является более редким и важным
ПОРЯДКОВЫЙ АТРИБУТ 
• Порядковый атрибут - это атрибут, которые 
принимает значения, позволяющие установить 
отншение порядка (лучше/хуже), но без возможности 
учета разности между величинами (лучше в 5 раз/хуже в 
5 раз). 
• Порядковые атрибуты применяются когда невозможно 
установить точное различие между принимаемыми 
значениями 
• Порядковый атрибут относится к качественным 
характеристикам
• Пример: Атрибут оценка (принимает значения A+, 
A, A-, B+ и т.д.) является пордяковым атрибутом, 
т.к. можно упорядочить значения, считая A+ лучше 
A-, однако нельзя сказать во сколько раз A+ лучше. 
• Значениям порядкового атрибута также можно 
поставить в соответствия некие числа, которые 
можно упорядочивать 
• Пример: Значения атрибута удовлетворенность 
покупателя можно представить в виде: 0 - ужасно, 
1 - плохо, 2 - нормально, 3 - хорошо, 4 - отлично
ЧИСЛЕННЫЕ АТРИБУТЫ 
• Численные атрибуты - это количественные 
характеристики, которые можно измерить и 
представить в виде целых или вещественных 
значений 
• Численные атрибуты бывают двух видов - 
интервальные атрибуты и атрибуты отношений
• Интервальные атрибуты это численные 
атрибуты, которые измеряются относительно 
некоторой шкалы 
• Значения интервального атрибута имеют порядок и 
могут быть положительными, отрицательными или 
равными 0 
• За единицу измерения интервальной переменной 
(за ее «размер») принимается одна и та же 
величина, равная интервалу между двумя соседними 
значениями 
• Интервальные атрибуты позволяют сравнивать 
разности (интервалы) между значениями
• Пример: атрибут температура воздуха, 
принимающий значения по шкале Цельсия. 
• Шкала Цельсия не имеет абсолютного нуля (точки 
отсчета), т.к. 0º - не отвечает значению “нет 
температуры” 
• Мы можем сказать, что температура в 40º на 10º 
выше, чем температура в 30º. Мы также можем 
сказать, что увеличение (разница) от 20º до 40º в 
два раза больше, чем увеличение от 30º до 40º. 
• Мы не можем сказать, что 10º в три раза холоднее, 
чем 30º
• За нуль для значений интервального 
атрибута может быть принята любая точка 
отсчета. 
• Интервальные переменные величины 
позволяют нам не только ранжировать по 
порядку измеряемые признаки, но также и 
представлять их в количественной форме и, 
кроме того, сравнивать величины разностей 
между ними.
• Атрибуты отношений - это интервальные 
атрибуты, которые имеют абсолютный ноль 
(единую точку отсчета) 
• Только для атрибутов отношений можно 
говорить, что одно значение “больше в 
столько-то раз”, чем другое 
• Пример: атрибут температура, принимающий 
значения по шкале Кельвина. Шкала Кельвина 
(в отличие от Цельсия) имеет абсолютный 
ноль (0ºK = -273.15ºC)
НЕПРЕРЫВНЫЕ И ДИСКРЕТНЫЕ АТРИБУТЫ 
• Дискретные атрибуты принимают конечное 
или счетное множество значений, которые 
мог у т к а к п р е д с т а в л я т ь с я , т а к и н е 
представляться как целые числа 
• Если атрибут не является дискретным, то он 
называется непрерывным. Непрерывные 
атрибуты представляются вещественными 
значениями
• Пример: а т р и б у т уровень дохода, 
принимающий значения высокий, средний и 
низкий является дискретным номинативным 
атрибутом 
• Пример: атрибут заработная плата, 
принимающая значения в некотором 
интервале значений, является непрерывным 
атрибутом отношения
БАЗОВОЕ 
СТАТИСТИЧЕСКОЕ 
ОПИСАНИЕ ДАННЫХ
ИЗМЕРЕНИЕ ЦЕНТРАЛЬНОЙ ТЕНДЕЦИИ 
• Меры центральной тенденции измеряют 
р а с положе н и е с е р е д и ны и л и ц е н т р а 
распределения данных 
• Отвечаем на вопрос: “Где располагаются 
большинство значений некоторого атрибута 
данных?” 
• Измерение центральной тенденции включает 
среднее (арифметическое), медиану и моду
СРЕДНЕЕ АРИФМЕТИЧЕСКОЕ 
• Пусть x1, x2, … xN - множество значений 
(наблюдений) численного атрибута x 
• Средним арифметическим называется величина 
x- = x1 + x2 + … + xN 
! 
N 
• Пример: пусть атрибут зарплата принимает 
следующие значения (тыс. грн): 3.0, 3.6, 4.7, 5.0, 5.2, 
5.6, 6.0, 6.3, 7.0, 7.0, 11.0 
• Среднее арифметическое будет 69.6 / 12 = 5.8 
• Средняя зарплата составляет 5800 грн
• Иногда для управлением влиянием, важностью 
или для отображения частоты каждое 
значение xi может быть ассоциировано с 
некоторым весом wi, i=1…N 
• Взвешенное среднее (арифметическое) 
может быть вычислено по формуле: 
w1 • x1 + x- = w2 • x2 + … + wN • xN 
! w1 + w2 + … + wN
• Основной проблемой среднего (арифметического) 
я в л я е т с я б о л ь ш а я чувствительность к 
экстремальным значениям (например, аномалиям). 
Для борьбы с данной чувствительностью можно 
применять т.н. усеченное среднее 
• Усеченное среднее - это среднее значение для 
имеющегося набора данных, из которого исключены 
k% наибольших и k% наименьших значений. 
• Как правило процент удаляемых значений 
устанавливается в диапазоне от 5% до 25%.
МЕДИАНА 
• Медиана - возможное значение атрибута, которое делит 
упорядоченную по возрастанию совокупность значений этого 
атрибута на две равные части: 50% «нижних» значений будут 
иметь значение атрибута не больше, чем медиана, а 
«верхние» 50% - значения атрибута не меньше, чем медиана. 
• Медиана играет особенно важную роль для асимметричных 
данных 
• Если N - четное, тогда медиана не уникальна и равна двум 
ближайшим к центру значениям, а также любым значениям 
между ними (на практике, используют среднее 
арифметическое этих значений)
МОДА 
• Мода - это значение атрибута, которое встречается 
особенно часто 
• Мода может быть определена как для количественных, так 
и для качественных характеристик 
• Если набор данных содержит только 1 моду, он называется 
одномодальным. Различают также бимодальные, 
тримодальные и многомодальные наборы данных 
• Для одномодальных атрибутов без явной асимметрии: 
выполняется соотношение: 
среднее - мода ≈ 3 • (среднее - медиана)
среднее мода 
медиана 
мода среднее 
медиана 
медиана 
мода 
среднее 
Симметрические данные 
Асимметрические данные положительный перекос отрицаельный перекос

More Related Content

What's hot

Моделирование ТПиПП
Моделирование ТПиППМоделирование ТПиПП
Моделирование ТПиППAndrey Urusov
 
Матстатистика для HR
Матстатистика для HRМатстатистика для HR
Матстатистика для HRAnna Nesmeeva
 
Лекция 2. Описательная статистика
Лекция 2. Описательная статистикаЛекция 2. Описательная статистика
Лекция 2. Описательная статистикаKurbatskiy Alexey
 
Оценивание параметров
Оценивание параметровОценивание параметров
Оценивание параметровKurbatskiy Alexey
 
матстатистика для Hr
матстатистика для Hrматстатистика для Hr
матстатистика для HrEdward Babushkin
 
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозированияПрогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозированияGleb Zakhodiakin
 
Практический курс «Основы Data Mining для всех»
Практический курс «Основы Data Mining для всех»Практический курс «Основы Data Mining для всех»
Практический курс «Основы Data Mining для всех»ScienceHunter1
 
Визуализация данных. Аналитическая платформа Tableau.
Визуализация данных. Аналитическая платформа Tableau.Визуализация данных. Аналитическая платформа Tableau.
Визуализация данных. Аналитическая платформа Tableau.Gleb Zakhodiakin
 
Разведочный анализ данных
Разведочный анализ данныхРазведочный анализ данных
Разведочный анализ данныхDEVTYPE
 
Сглаживание временных рядов
Сглаживание временных рядовСглаживание временных рядов
Сглаживание временных рядовDEVTYPE
 
Практический курс «Основы Data Mining»
Практический курс «Основы Data Mining»Практический курс «Основы Data Mining»
Практический курс «Основы Data Mining»ScienceHunter1
 
Изучение распространения болезней. Эпидемиология и SAS. С. Плавинский
Изучение распространения болезней. Эпидемиология и SAS. С. ПлавинскийИзучение распространения болезней. Эпидемиология и SAS. С. Плавинский
Изучение распространения болезней. Эпидемиология и SAS. С. ПлавинскийSergey Soshnikov
 

What's hot (15)

Моделирование ТПиПП
Моделирование ТПиППМоделирование ТПиПП
Моделирование ТПиПП
 
Матстатистика для HR
Матстатистика для HRМатстатистика для HR
Матстатистика для HR
 
Лекция 2. Описательная статистика
Лекция 2. Описательная статистикаЛекция 2. Описательная статистика
Лекция 2. Описательная статистика
 
Оценивание параметров
Оценивание параметровОценивание параметров
Оценивание параметров
 
матстатистика для Hr
матстатистика для Hrматстатистика для Hr
матстатистика для Hr
 
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозированияПрогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
 
Практический курс «Основы Data Mining для всех»
Практический курс «Основы Data Mining для всех»Практический курс «Основы Data Mining для всех»
Практический курс «Основы Data Mining для всех»
 
Визуализация данных. Аналитическая платформа Tableau.
Визуализация данных. Аналитическая платформа Tableau.Визуализация данных. Аналитическая платформа Tableau.
Визуализация данных. Аналитическая платформа Tableau.
 
Разведочный анализ данных
Разведочный анализ данныхРазведочный анализ данных
Разведочный анализ данных
 
Сглаживание временных рядов
Сглаживание временных рядовСглаживание временных рядов
Сглаживание временных рядов
 
Практический курс «Основы Data Mining»
Практический курс «Основы Data Mining»Практический курс «Основы Data Mining»
Практический курс «Основы Data Mining»
 
Stat 5 alpha
Stat 5 alphaStat 5 alpha
Stat 5 alpha
 
Stat 4 alpha
Stat 4 alphaStat 4 alpha
Stat 4 alpha
 
01 введение 2012
01 введение 201201 введение 2012
01 введение 2012
 
Изучение распространения болезней. Эпидемиология и SAS. С. Плавинский
Изучение распространения болезней. Эпидемиология и SAS. С. ПлавинскийИзучение распространения болезней. Эпидемиология и SAS. С. Плавинский
Изучение распространения болезней. Эпидемиология и SAS. С. Плавинский
 

Viewers also liked

Nilis cert in info man - rb on 'info and know' man - 1 oct 11
Nilis   cert in info man - rb on 'info and know' man - 1 oct 11Nilis   cert in info man - rb on 'info and know' man - 1 oct 11
Nilis cert in info man - rb on 'info and know' man - 1 oct 11NILISSL
 
Memoria de acceso aleatorio
Memoria de acceso aleatorioMemoria de acceso aleatorio
Memoria de acceso aleatoriocathdei21
 
Managing serious incidents and fatal accidents - November 2016, Birmingham
Managing serious incidents and fatal accidents - November 2016, BirminghamManaging serious incidents and fatal accidents - November 2016, Birmingham
Managing serious incidents and fatal accidents - November 2016, BirminghamBrowne Jacobson LLP
 
TEGNOLOGIA DE PUNTA
TEGNOLOGIA DE PUNTA TEGNOLOGIA DE PUNTA
TEGNOLOGIA DE PUNTA Angela yanez
 
10 Daily hacks to learn a New Skill (Part-2)
10 Daily hacks to learn a New Skill (Part-2)10 Daily hacks to learn a New Skill (Part-2)
10 Daily hacks to learn a New Skill (Part-2)Ankur Tandon
 
Notas Excel Evaluaciones
Notas Excel EvaluacionesNotas Excel Evaluaciones
Notas Excel EvaluacionesSkulleD42
 
O Serviço Social e a tradição Marxista - José Paulo Netto
O Serviço Social e a tradição Marxista - José Paulo NettoO Serviço Social e a tradição Marxista - José Paulo Netto
O Serviço Social e a tradição Marxista - José Paulo NettoFILIPE NERI
 
Recent changes in capital market
Recent changes in capital marketRecent changes in capital market
Recent changes in capital marketPavan Kumar Vijay
 
3 d pie chart circular puzzle with hole in center process 2 stages style 1 po...
3 d pie chart circular puzzle with hole in center process 2 stages style 1 po...3 d pie chart circular puzzle with hole in center process 2 stages style 1 po...
3 d pie chart circular puzzle with hole in center process 2 stages style 1 po...SlideTeam.net
 
Persentase ilmu pengantar hukum .
Persentase ilmu pengantar hukum .Persentase ilmu pengantar hukum .
Persentase ilmu pengantar hukum .Erwin Pasaribu
 
Jose F Ruiz - Los nuevos modelos de firma electrónica - semanainformatica.com...
Jose F Ruiz - Los nuevos modelos de firma electrónica - semanainformatica.com...Jose F Ruiz - Los nuevos modelos de firma electrónica - semanainformatica.com...
Jose F Ruiz - Los nuevos modelos de firma electrónica - semanainformatica.com...COIICV
 
Was wäre, wenn es einfach wäre?
Was wäre, wenn es einfach wäre?Was wäre, wenn es einfach wäre?
Was wäre, wenn es einfach wäre?diana frank
 

Viewers also liked (20)

Nilis cert in info man - rb on 'info and know' man - 1 oct 11
Nilis   cert in info man - rb on 'info and know' man - 1 oct 11Nilis   cert in info man - rb on 'info and know' man - 1 oct 11
Nilis cert in info man - rb on 'info and know' man - 1 oct 11
 
Memoria de acceso aleatorio
Memoria de acceso aleatorioMemoria de acceso aleatorio
Memoria de acceso aleatorio
 
40 rabbana
40 rabbana40 rabbana
40 rabbana
 
Moving Beyond "Acts of Faith": Effective Scholarships for Equity Students
Moving Beyond "Acts of Faith": Effective Scholarships for Equity StudentsMoving Beyond "Acts of Faith": Effective Scholarships for Equity Students
Moving Beyond "Acts of Faith": Effective Scholarships for Equity Students
 
Managing serious incidents and fatal accidents - November 2016, Birmingham
Managing serious incidents and fatal accidents - November 2016, BirminghamManaging serious incidents and fatal accidents - November 2016, Birmingham
Managing serious incidents and fatal accidents - November 2016, Birmingham
 
FDIC Insurance Explained
FDIC Insurance ExplainedFDIC Insurance Explained
FDIC Insurance Explained
 
TEGNOLOGIA DE PUNTA
TEGNOLOGIA DE PUNTA TEGNOLOGIA DE PUNTA
TEGNOLOGIA DE PUNTA
 
10 Daily hacks to learn a New Skill (Part-2)
10 Daily hacks to learn a New Skill (Part-2)10 Daily hacks to learn a New Skill (Part-2)
10 Daily hacks to learn a New Skill (Part-2)
 
Notas Excel Evaluaciones
Notas Excel EvaluacionesNotas Excel Evaluaciones
Notas Excel Evaluaciones
 
O Serviço Social e a tradição Marxista - José Paulo Netto
O Serviço Social e a tradição Marxista - José Paulo NettoO Serviço Social e a tradição Marxista - José Paulo Netto
O Serviço Social e a tradição Marxista - José Paulo Netto
 
Recent changes in capital market
Recent changes in capital marketRecent changes in capital market
Recent changes in capital market
 
Pbl muskuloskeletal sken_2
Pbl muskuloskeletal sken_2Pbl muskuloskeletal sken_2
Pbl muskuloskeletal sken_2
 
Aniversaris abril
Aniversaris abrilAniversaris abril
Aniversaris abril
 
3 d pie chart circular puzzle with hole in center process 2 stages style 1 po...
3 d pie chart circular puzzle with hole in center process 2 stages style 1 po...3 d pie chart circular puzzle with hole in center process 2 stages style 1 po...
3 d pie chart circular puzzle with hole in center process 2 stages style 1 po...
 
13 nights of halloween
13 nights of halloween13 nights of halloween
13 nights of halloween
 
Persentase ilmu pengantar hukum .
Persentase ilmu pengantar hukum .Persentase ilmu pengantar hukum .
Persentase ilmu pengantar hukum .
 
I'm happy
I'm happyI'm happy
I'm happy
 
Jose F Ruiz - Los nuevos modelos de firma electrónica - semanainformatica.com...
Jose F Ruiz - Los nuevos modelos de firma electrónica - semanainformatica.com...Jose F Ruiz - Los nuevos modelos de firma electrónica - semanainformatica.com...
Jose F Ruiz - Los nuevos modelos de firma electrónica - semanainformatica.com...
 
Chanakya quotes
Chanakya quotesChanakya quotes
Chanakya quotes
 
Was wäre, wenn es einfach wäre?
Was wäre, wenn es einfach wäre?Was wäre, wenn es einfach wäre?
Was wäre, wenn es einfach wäre?
 

More from Andrii Gakhov

Let's start GraphQL: structure, behavior, and architecture
Let's start GraphQL: structure, behavior, and architectureLet's start GraphQL: structure, behavior, and architecture
Let's start GraphQL: structure, behavior, and architectureAndrii Gakhov
 
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...Andrii Gakhov
 
Too Much Data? - Just Sample, Just Hash, ...
Too Much Data? - Just Sample, Just Hash, ...Too Much Data? - Just Sample, Just Hash, ...
Too Much Data? - Just Sample, Just Hash, ...Andrii Gakhov
 
Implementing a Fileserver with Nginx and Lua
Implementing a Fileserver with Nginx and LuaImplementing a Fileserver with Nginx and Lua
Implementing a Fileserver with Nginx and LuaAndrii Gakhov
 
Pecha Kucha: Ukrainian Food Traditions
Pecha Kucha: Ukrainian Food TraditionsPecha Kucha: Ukrainian Food Traditions
Pecha Kucha: Ukrainian Food TraditionsAndrii Gakhov
 
Probabilistic data structures. Part 4. Similarity
Probabilistic data structures. Part 4. SimilarityProbabilistic data structures. Part 4. Similarity
Probabilistic data structures. Part 4. SimilarityAndrii Gakhov
 
Probabilistic data structures. Part 3. Frequency
Probabilistic data structures. Part 3. FrequencyProbabilistic data structures. Part 3. Frequency
Probabilistic data structures. Part 3. FrequencyAndrii Gakhov
 
Probabilistic data structures. Part 2. Cardinality
Probabilistic data structures. Part 2. CardinalityProbabilistic data structures. Part 2. Cardinality
Probabilistic data structures. Part 2. CardinalityAndrii Gakhov
 
Вероятностные структуры данных
Вероятностные структуры данныхВероятностные структуры данных
Вероятностные структуры данныхAndrii Gakhov
 
Recurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: TheoryRecurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: TheoryAndrii Gakhov
 
Apache Big Data Europe 2015: Selected Talks
Apache Big Data Europe 2015: Selected TalksApache Big Data Europe 2015: Selected Talks
Apache Big Data Europe 2015: Selected TalksAndrii Gakhov
 
Swagger / Quick Start Guide
Swagger / Quick Start GuideSwagger / Quick Start Guide
Swagger / Quick Start GuideAndrii Gakhov
 
API Days Berlin highlights
API Days Berlin highlightsAPI Days Berlin highlights
API Days Berlin highlightsAndrii Gakhov
 
ELK - What's new and showcases
ELK - What's new and showcasesELK - What's new and showcases
ELK - What's new and showcasesAndrii Gakhov
 
Apache Spark Overview @ ferret
Apache Spark Overview @ ferretApache Spark Overview @ ferret
Apache Spark Overview @ ferretAndrii Gakhov
 
Decision Theory - lecture 1 (introduction)
Decision Theory - lecture 1 (introduction)Decision Theory - lecture 1 (introduction)
Decision Theory - lecture 1 (introduction)Andrii Gakhov
 
Buzzwords 2014 / Overview / part2
Buzzwords 2014 / Overview / part2Buzzwords 2014 / Overview / part2
Buzzwords 2014 / Overview / part2Andrii Gakhov
 
Buzzwords 2014 / Overview / part1
Buzzwords 2014 / Overview / part1Buzzwords 2014 / Overview / part1
Buzzwords 2014 / Overview / part1Andrii Gakhov
 

More from Andrii Gakhov (20)

Let's start GraphQL: structure, behavior, and architecture
Let's start GraphQL: structure, behavior, and architectureLet's start GraphQL: structure, behavior, and architecture
Let's start GraphQL: structure, behavior, and architecture
 
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
 
Too Much Data? - Just Sample, Just Hash, ...
Too Much Data? - Just Sample, Just Hash, ...Too Much Data? - Just Sample, Just Hash, ...
Too Much Data? - Just Sample, Just Hash, ...
 
DNS Delegation
DNS DelegationDNS Delegation
DNS Delegation
 
Implementing a Fileserver with Nginx and Lua
Implementing a Fileserver with Nginx and LuaImplementing a Fileserver with Nginx and Lua
Implementing a Fileserver with Nginx and Lua
 
Pecha Kucha: Ukrainian Food Traditions
Pecha Kucha: Ukrainian Food TraditionsPecha Kucha: Ukrainian Food Traditions
Pecha Kucha: Ukrainian Food Traditions
 
Probabilistic data structures. Part 4. Similarity
Probabilistic data structures. Part 4. SimilarityProbabilistic data structures. Part 4. Similarity
Probabilistic data structures. Part 4. Similarity
 
Probabilistic data structures. Part 3. Frequency
Probabilistic data structures. Part 3. FrequencyProbabilistic data structures. Part 3. Frequency
Probabilistic data structures. Part 3. Frequency
 
Probabilistic data structures. Part 2. Cardinality
Probabilistic data structures. Part 2. CardinalityProbabilistic data structures. Part 2. Cardinality
Probabilistic data structures. Part 2. Cardinality
 
Вероятностные структуры данных
Вероятностные структуры данныхВероятностные структуры данных
Вероятностные структуры данных
 
Recurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: TheoryRecurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: Theory
 
Apache Big Data Europe 2015: Selected Talks
Apache Big Data Europe 2015: Selected TalksApache Big Data Europe 2015: Selected Talks
Apache Big Data Europe 2015: Selected Talks
 
Swagger / Quick Start Guide
Swagger / Quick Start GuideSwagger / Quick Start Guide
Swagger / Quick Start Guide
 
API Days Berlin highlights
API Days Berlin highlightsAPI Days Berlin highlights
API Days Berlin highlights
 
ELK - What's new and showcases
ELK - What's new and showcasesELK - What's new and showcases
ELK - What's new and showcases
 
Apache Spark Overview @ ferret
Apache Spark Overview @ ferretApache Spark Overview @ ferret
Apache Spark Overview @ ferret
 
Decision Theory - lecture 1 (introduction)
Decision Theory - lecture 1 (introduction)Decision Theory - lecture 1 (introduction)
Decision Theory - lecture 1 (introduction)
 
Buzzwords 2014 / Overview / part2
Buzzwords 2014 / Overview / part2Buzzwords 2014 / Overview / part2
Buzzwords 2014 / Overview / part2
 
Buzzwords 2014 / Overview / part1
Buzzwords 2014 / Overview / part1Buzzwords 2014 / Overview / part1
Buzzwords 2014 / Overview / part1
 
Elasticsearch
ElasticsearchElasticsearch
Elasticsearch
 

Data Mining - lecture 2 - 2014

  • 1. Харьковский национальный университет имени В. Н. Каразина Факультет компьютерных наук ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ Data Mining Подготовил: доцент каф. искусственного интеллекта и программного обеспечения, к.ф.-м. н. Гахов Андрей Владимирович 2014/2015 уч. год
  • 2. ЛЕКЦИЯ 2 Узнаем больше о своих данных. Часть 1
  • 4. АТРИБУТ • Атрибут - это поле данных, представляющие характеристику или свойство объекта данных • Очень часто понятия атрибут, размерность, с в о й с т в о и л и п е р е м е н н а я применяются взаимозаменяемо • Тип атрибута определяется множеством возможных значений, которые может принимать данный атрибут • Пример: Объект данных автомобиль может иметь атрибуты марка, цвет и объем двигателя
  • 5. НОМИНАТИВНЫЕ АТРИБУТЫ • Термин “номинативный” означает, что атрибут связан с некоторым наименованием • Значения номинативных атрибутов - символы или имена вещей • Как правило, значение номинативного атрибута представляет некую категорию, код или состояние, поэтому номинативные атрибуты называют также градационными переменными, описывающими категории объекта
  • 6. • Значениям номинативных атрибутов можно поставить в соответствие некие числовые значения • Однако, т.к. номинативные атрибуты не имеют н и к а к о г о о т н о ш е н и я п о р я д к а ( н е количественные), тогда нет смысла сравнивать и их числовые значения • Номинативные атрибуты используются только для классификации объектов исследования по качественным признакам.
  • 7. • Пример: Рассмотрим атрибуты объекта данных человек: цвет волос и семейное положение • Пусть возможные значения для атрибута цвет волос будут: черный, коричневый, белый, седой и рыжий. • Пусть возможные значения для атрибута семейное положение будут: замужем, не замужем • Оба данных атрибута являются номинативными атрибутами
  • 8. БИНАРНЫЕ АТРИБУТЫ • Бинарные (дихотомические) атрибуты - это номинативные атрибуты, принимающие только 2 значения: 0 (атрибут отсутствует) и 1 (атрибут присутствует) • Бинарные атрибуты называются симметричными, если оба значения одинаково важны и имеют один и тот же вес • Бинарные атрибуты называются асимметричными, если одно из значений более важно
  • 9. • Пример: атрибут пол (принимает значения мужской и женский, которые могут быть представлен как 0/1) - симметрический бинарный атрибут • Пример: атрибут результат ВИЧ теста (принимает значения положительный и отрицательный) - асимметрический бинарный атрибут, т.к. 1 (положительный) является более редким и важным
  • 10. ПОРЯДКОВЫЙ АТРИБУТ • Порядковый атрибут - это атрибут, которые принимает значения, позволяющие установить отншение порядка (лучше/хуже), но без возможности учета разности между величинами (лучше в 5 раз/хуже в 5 раз). • Порядковые атрибуты применяются когда невозможно установить точное различие между принимаемыми значениями • Порядковый атрибут относится к качественным характеристикам
  • 11. • Пример: Атрибут оценка (принимает значения A+, A, A-, B+ и т.д.) является пордяковым атрибутом, т.к. можно упорядочить значения, считая A+ лучше A-, однако нельзя сказать во сколько раз A+ лучше. • Значениям порядкового атрибута также можно поставить в соответствия некие числа, которые можно упорядочивать • Пример: Значения атрибута удовлетворенность покупателя можно представить в виде: 0 - ужасно, 1 - плохо, 2 - нормально, 3 - хорошо, 4 - отлично
  • 12. ЧИСЛЕННЫЕ АТРИБУТЫ • Численные атрибуты - это количественные характеристики, которые можно измерить и представить в виде целых или вещественных значений • Численные атрибуты бывают двух видов - интервальные атрибуты и атрибуты отношений
  • 13. • Интервальные атрибуты это численные атрибуты, которые измеряются относительно некоторой шкалы • Значения интервального атрибута имеют порядок и могут быть положительными, отрицательными или равными 0 • За единицу измерения интервальной переменной (за ее «размер») принимается одна и та же величина, равная интервалу между двумя соседними значениями • Интервальные атрибуты позволяют сравнивать разности (интервалы) между значениями
  • 14. • Пример: атрибут температура воздуха, принимающий значения по шкале Цельсия. • Шкала Цельсия не имеет абсолютного нуля (точки отсчета), т.к. 0º - не отвечает значению “нет температуры” • Мы можем сказать, что температура в 40º на 10º выше, чем температура в 30º. Мы также можем сказать, что увеличение (разница) от 20º до 40º в два раза больше, чем увеличение от 30º до 40º. • Мы не можем сказать, что 10º в три раза холоднее, чем 30º
  • 15. • За нуль для значений интервального атрибута может быть принята любая точка отсчета. • Интервальные переменные величины позволяют нам не только ранжировать по порядку измеряемые признаки, но также и представлять их в количественной форме и, кроме того, сравнивать величины разностей между ними.
  • 16. • Атрибуты отношений - это интервальные атрибуты, которые имеют абсолютный ноль (единую точку отсчета) • Только для атрибутов отношений можно говорить, что одно значение “больше в столько-то раз”, чем другое • Пример: атрибут температура, принимающий значения по шкале Кельвина. Шкала Кельвина (в отличие от Цельсия) имеет абсолютный ноль (0ºK = -273.15ºC)
  • 17. НЕПРЕРЫВНЫЕ И ДИСКРЕТНЫЕ АТРИБУТЫ • Дискретные атрибуты принимают конечное или счетное множество значений, которые мог у т к а к п р е д с т а в л я т ь с я , т а к и н е представляться как целые числа • Если атрибут не является дискретным, то он называется непрерывным. Непрерывные атрибуты представляются вещественными значениями
  • 18. • Пример: а т р и б у т уровень дохода, принимающий значения высокий, средний и низкий является дискретным номинативным атрибутом • Пример: атрибут заработная плата, принимающая значения в некотором интервале значений, является непрерывным атрибутом отношения
  • 20. ИЗМЕРЕНИЕ ЦЕНТРАЛЬНОЙ ТЕНДЕЦИИ • Меры центральной тенденции измеряют р а с положе н и е с е р е д и ны и л и ц е н т р а распределения данных • Отвечаем на вопрос: “Где располагаются большинство значений некоторого атрибута данных?” • Измерение центральной тенденции включает среднее (арифметическое), медиану и моду
  • 21. СРЕДНЕЕ АРИФМЕТИЧЕСКОЕ • Пусть x1, x2, … xN - множество значений (наблюдений) численного атрибута x • Средним арифметическим называется величина x- = x1 + x2 + … + xN ! N • Пример: пусть атрибут зарплата принимает следующие значения (тыс. грн): 3.0, 3.6, 4.7, 5.0, 5.2, 5.6, 6.0, 6.3, 7.0, 7.0, 11.0 • Среднее арифметическое будет 69.6 / 12 = 5.8 • Средняя зарплата составляет 5800 грн
  • 22. • Иногда для управлением влиянием, важностью или для отображения частоты каждое значение xi может быть ассоциировано с некоторым весом wi, i=1…N • Взвешенное среднее (арифметическое) может быть вычислено по формуле: w1 • x1 + x- = w2 • x2 + … + wN • xN ! w1 + w2 + … + wN
  • 23. • Основной проблемой среднего (арифметического) я в л я е т с я б о л ь ш а я чувствительность к экстремальным значениям (например, аномалиям). Для борьбы с данной чувствительностью можно применять т.н. усеченное среднее • Усеченное среднее - это среднее значение для имеющегося набора данных, из которого исключены k% наибольших и k% наименьших значений. • Как правило процент удаляемых значений устанавливается в диапазоне от 5% до 25%.
  • 24. МЕДИАНА • Медиана - возможное значение атрибута, которое делит упорядоченную по возрастанию совокупность значений этого атрибута на две равные части: 50% «нижних» значений будут иметь значение атрибута не больше, чем медиана, а «верхние» 50% - значения атрибута не меньше, чем медиана. • Медиана играет особенно важную роль для асимметричных данных • Если N - четное, тогда медиана не уникальна и равна двум ближайшим к центру значениям, а также любым значениям между ними (на практике, используют среднее арифметическое этих значений)
  • 25. МОДА • Мода - это значение атрибута, которое встречается особенно часто • Мода может быть определена как для количественных, так и для качественных характеристик • Если набор данных содержит только 1 моду, он называется одномодальным. Различают также бимодальные, тримодальные и многомодальные наборы данных • Для одномодальных атрибутов без явной асимметрии: выполняется соотношение: среднее - мода ≈ 3 • (среднее - медиана)
  • 26. среднее мода медиана мода среднее медиана медиана мода среднее Симметрические данные Асимметрические данные положительный перекос отрицаельный перекос