Python для анализа данных

4,502 views

Published on

Роман Иманкулов, компания Doist.io.

Доклад об анализе данных и посвящен преимущественно тем, кто хочет попробовать, но не знает с чего начать. О том, кому это вообще надо, где брать данные, какие инструменты есть в распоряжении начинающего python-аналитика и какую пользу для себя из всего можно извлечь на старте.

Найти видео презентации можно здесь: http://habrahabr.ru/company/wargaming/

Python для анализа данных

  1. 1. Python для анализа данных Для тех, кто хочет попробовать, но не знает, с чего начать Роман Иманкулов / @rdotpy Minsk Python Meetup, январь 2014
  2. 2. Python для анализа данных Data Science ● Программирование. ● Математическая статистика. ● Прикладная область
  3. 3. Python для анализа данных Data Scientist – человек, который разбирается в статистике лучше любого программиста, и который разбирается в создании программ лучше любого статистика. Josh Wills, Director of Data Science at Cloudera
  4. 4. Python для анализа данных Data Scientist – человек, который разбирается в статистике хуже любого статистика, и который разбирается в создании программ хуже любого программиста. Will Cukierski, Data Scientist at Kaggle
  5. 5. Python для анализа данных Зачем? ● Optimization at the Obama campaign: a/b testing. Как заработать $690 млн за 20 месяцев и увеличить конверсию более чем вдвое http://kylerush.net/blog/optimization-at-the-obama-campaign-ab-testing/
  6. 6. Python для анализа данных Зачем? ● Как я покупал квартиру Как, работая в Wargaming, и используя R и линейные регрессии, за полдня увеличить свою квартиру на 20% http://habrahabr.ru/post/148782/
  7. 7. Python для анализа данных Зачем? ● Математик взломал сайт знакомств и нашел девушку своей мечты http://habrahabr.ru/post/210198/
  8. 8. Экосистема Python для анализа данных
  9. 9. Экосистема Python numpy ● ● ● объект ndarray для быстрой работы с массивами векторные операции для работы ними случайные величины с различными распределениями
  10. 10. Экосистема Python scipy ● Функции для работы с векторными данными numpy – сluster: кластерный анализ – fftpack: преобразование Фурье – interpolate: интерполяция данных – signal: обработка сигналов ...
  11. 11. Экосистема Python matplotlib и matplotlib.pyplot Визуализация данных
  12. 12. Экосистема Python pandas pandas.DataFrame – удобный объект для работы с табличными данными и визуализации их.
  13. 13. Экосистема Python Scikit-learn ● Supervised learning (обучение с учителем): – ● линейные регрессии, классификация KNN, support vector machines, деревья решений Unsupervised learning (обучение без учителя): – Кластеризация ● Кросс-валидация ● Препроцессинг данных и куча всего еще
  14. 14. Экосистема Python IPython и IPython Notebook
  15. 15. Куда двигаться дальше?
  16. 16. Куда двигаться дальше Coursera: Data Analysis Jeff Leek https://www.coursera.org/course/dataanalysis
  17. 17. Куда двигаться дальше Coursera: Machine Learning Andrew Ng https://www.coursera.org/course/ml
  18. 18. Куда двигаться дальше Kaggle http://kaggle.com

×