Введение в анализ данных

1,205 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,205
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
14
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Введение в анализ данных

  1. 1. Лекция №2Введение в анализ данных 1
  2. 2. План лекции● Основные понятия анализа данных● Основные подходы анализа данных● Основные инструменты анализа данных Цель лекции — получить представление о процессе анализа данных и применяемых методиках 2
  3. 3. Основы Анализа данных● Теория вероятности и математическая статистика● Математический анализ● Вычислительная математика● Для тех, кто забыл — khanacademy.org 3
  4. 4. Основные понятия● Атрибут – Зависимая переменная – Независимая переменная● Объект● Значение атрибута у объекта● Измерение 4
  5. 5. Шкалы● Номинальная (=, <>)● Дихотомическая● Порядковая (=, <>, >, <)● Интервальная (=, <>, >, <, +, -)● Относительная (=, <>, >, <, +, -, *, /) 5
  6. 6. Процесс анализа данных● Постановка задачи● Сбор данных● Выдвижение гипотез● Очистка данных● Выбор алгоритма анализа● «Обучение» (Machine Learning)● Оценка результата● Применение построенного в результате обучения 6
  7. 7. Постановка задачи● Следует сформулировать, что мы хотим изучить, какие возможные закономерности выявить● Предварительные «гипотезы» 7
  8. 8. Сбор данных● Из реальности● При помощи программных инструментов● Или опросов● Или наблюдений 8
  9. 9. Выдвижение гипотез● Основываясь на собранных данных● Их визуализации● Их структуре 9
  10. 10. Очистка данных● Удаление избыточных● Проверка независимости● Корреляционный и факторный анализ 10
  11. 11. Выбор алгоритма анализа● На основании данных● Исходя из задачи● Можно несколько, комбинируя (чаще последовательно) 11
  12. 12. Обучение● Алгоритм анализа часто сам данные не анализирует● Он строит анализатор данных● Который основан на конкретных данных● И который как раз доказывает или опровергает гипотезу 12
  13. 13. Оценка результата● Полученный набор правил следует проверить● Хотя бы визуализацией● При помощи данных, опять же● Иногда — на тех же, по которым строили● Чаще — на независимых (отобранных заранее и не участвовавших в построении)● Различными методами● Если качество результата не устраивает — 13 то меняем что-то и заново
  14. 14. Применение построенного анализатора● Его объяснение● Его визуализация● Его интерпретация● Его использование в реальности 14
  15. 15. Пример● Автоводитель (Нейронная сеть) 15
  16. 16. Средства анализа данных● Статистические/математические пакеты● Среды анализа данных● Библиотеки анализа данных● Пакеты анализа данных● Средства добычи данных● Средства очистки данных● Средства хранения данных● Средства визуализации данных 16
  17. 17. Статистические пакеты● SPSS● Matlab 17
  18. 18. Среды анализа данных● Orange● Weka● RapidMiner 18
  19. 19. Библиотеки анализа данных● Xelopes● DTML● Waffles● Apache Mahout 19
  20. 20. Пакеты анализа данных● R● GNU Octave● Python + Numpy 20
  21. 21. Средства добычи данных● Пауки – Mechanize – Scrapy – Selenium – ...● Парсеры – BeautifulSoup – Lxml – …. 21
  22. 22. Средства добычи данных● Пауки – Mechanize – Scrapy – Selenium – ...● Парсеры – BeautifulSoup – Lxml – …. 22
  23. 23. Средства очистки данных● Парсеры● Табличные процессоры – Google Refine – LO Calc – MS Excel 23
  24. 24. Средства хранения данных● MS SQL Server● MySQL Server● Apache Hadoop 24
  25. 25. Средства визуализации● Gephi● Tulip● Google Fusion Tables/ Chart Tools● Tableau Public● ManyEyes● Protovis● D3.js● Data.js 25● ….

×