Python для анализа данных

Для тех, кто хочет попробовать,
но не знает, с чего начать
Роман Иманкулов / @rdotpy
Minsk Python Meetup, январь 2014
Python для анализа данных
Data Science

●

Программирование.

●

Математическая статистика.

●

Прикладная область
Python для анализа данных
Data Scientist – человек, который
разбирается в статистике лучше любого
программиста, и который разбирается в
создании программ лучше любого
статистика.
Josh Wills, Director of Data Science at Cloudera
Python для анализа данных
Data Scientist – человек, который
разбирается в статистике хуже любого
статистика, и который разбирается в
создании программ хуже любого
программиста.
Will Cukierski, Data Scientist at Kaggle
Python для анализа данных
Зачем?
●

Optimization at the Obama campaign: a/b
testing.
Как заработать $690 млн за 20 месяцев и
увеличить конверсию более чем вдвое
http://kylerush.net/blog/optimization-at-the-obama-campaign-ab-testing/
Python для анализа данных
Зачем?
●

Как я покупал квартиру
Как, работая в Wargaming, и используя R и
линейные регрессии, за полдня увеличить
свою квартиру на 20%
http://habrahabr.ru/post/148782/
Python для анализа данных
Зачем?
●

Математик взломал сайт знакомств и
нашел девушку своей мечты
http://habrahabr.ru/post/210198/
Экосистема Python для анализа данных
Экосистема Python
numpy
●

●
●

объект ndarray для быстрой работы с
массивами
векторные операции для работы ними
случайные величины с различными
распределениями
Экосистема Python
scipy
●

Функции для работы с векторными данными
numpy
–

сluster: кластерный анализ

–

fftpack: преобразование Фурье

–

interpolate: интерполяция данных

–

signal: обработка сигналов ...
Экосистема Python
matplotlib и matplotlib.pyplot
Визуализация данных
Экосистема Python
pandas
pandas.DataFrame – удобный объект для
работы с табличными данными и
визуализации их.
Экосистема Python
Scikit-learn
●

Supervised learning (обучение с учителем):
–

●

линейные регрессии, классификация KNN, support vector
machines, деревья решений

Unsupervised learning (обучение без учителя):
–

Кластеризация

●

Кросс-валидация

●

Препроцессинг данных и куча всего еще
Экосистема Python

IPython и IPython Notebook
Куда двигаться дальше?
Куда двигаться дальше
Coursera: Data Analysis
Jeff Leek
https://www.coursera.org/course/dataanalysis
Куда двигаться дальше
Coursera: Machine Learning
Andrew Ng
https://www.coursera.org/course/ml
Куда двигаться дальше
Kaggle
http://kaggle.com

Python для анализа данных