Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Python для анализа данных

5,445 views

Published on

Роман Иманкулов, компания Doist.io.

Доклад об анализе данных и посвящен преимущественно тем, кто хочет попробовать, но не знает с чего начать. О том, кому это вообще надо, где брать данные, какие инструменты есть в распоряжении начинающего python-аналитика и какую пользу для себя из всего можно извлечь на старте.

Найти видео презентации можно здесь: http://habrahabr.ru/company/wargaming/

Python для анализа данных

  1. 1. Python для анализа данных Для тех, кто хочет попробовать, но не знает, с чего начать Роман Иманкулов / @rdotpy Minsk Python Meetup, январь 2014
  2. 2. Python для анализа данных Data Science ● Программирование. ● Математическая статистика. ● Прикладная область
  3. 3. Python для анализа данных Data Scientist – человек, который разбирается в статистике лучше любого программиста, и который разбирается в создании программ лучше любого статистика. Josh Wills, Director of Data Science at Cloudera
  4. 4. Python для анализа данных Data Scientist – человек, который разбирается в статистике хуже любого статистика, и который разбирается в создании программ хуже любого программиста. Will Cukierski, Data Scientist at Kaggle
  5. 5. Python для анализа данных Зачем? ● Optimization at the Obama campaign: a/b testing. Как заработать $690 млн за 20 месяцев и увеличить конверсию более чем вдвое http://kylerush.net/blog/optimization-at-the-obama-campaign-ab-testing/
  6. 6. Python для анализа данных Зачем? ● Как я покупал квартиру Как, работая в Wargaming, и используя R и линейные регрессии, за полдня увеличить свою квартиру на 20% http://habrahabr.ru/post/148782/
  7. 7. Python для анализа данных Зачем? ● Математик взломал сайт знакомств и нашел девушку своей мечты http://habrahabr.ru/post/210198/
  8. 8. Экосистема Python для анализа данных
  9. 9. Экосистема Python numpy ● ● ● объект ndarray для быстрой работы с массивами векторные операции для работы ними случайные величины с различными распределениями
  10. 10. Экосистема Python scipy ● Функции для работы с векторными данными numpy – сluster: кластерный анализ – fftpack: преобразование Фурье – interpolate: интерполяция данных – signal: обработка сигналов ...
  11. 11. Экосистема Python matplotlib и matplotlib.pyplot Визуализация данных
  12. 12. Экосистема Python pandas pandas.DataFrame – удобный объект для работы с табличными данными и визуализации их.
  13. 13. Экосистема Python Scikit-learn ● Supervised learning (обучение с учителем): – ● линейные регрессии, классификация KNN, support vector machines, деревья решений Unsupervised learning (обучение без учителя): – Кластеризация ● Кросс-валидация ● Препроцессинг данных и куча всего еще
  14. 14. Экосистема Python IPython и IPython Notebook
  15. 15. Куда двигаться дальше?
  16. 16. Куда двигаться дальше Coursera: Data Analysis Jeff Leek https://www.coursera.org/course/dataanalysis
  17. 17. Куда двигаться дальше Coursera: Machine Learning Andrew Ng https://www.coursera.org/course/ml
  18. 18. Куда двигаться дальше Kaggle http://kaggle.com

×