Быстрые конструкции в Python - Олег Шидловский, Python Meetup 26.09.2014Python Meetup
В своем докладе Олег расскажет о замене стандартных функций на более быстрые и об ускорении работы python. Также продемонстрирует несколько примеров быстрых конструкций python.
Факторизационные модели в рекомендательных системахromovpa
Факторизационные модели, модели разложения матриц для коллаборативной фильтрации в рекомендательных системах. В презентации рассматриваются теоретические аспекты и алгоритмы.
С доклада на спецсеминаре "Machine Learning & Information Retrieval" в Школе Анализа Данных Яндекса.
Быстрые конструкции в Python - Олег Шидловский, Python Meetup 26.09.2014Python Meetup
В своем докладе Олег расскажет о замене стандартных функций на более быстрые и об ускорении работы python. Также продемонстрирует несколько примеров быстрых конструкций python.
Факторизационные модели в рекомендательных системахromovpa
Факторизационные модели, модели разложения матриц для коллаборативной фильтрации в рекомендательных системах. В презентации рассматриваются теоретические аспекты и алгоритмы.
С доклада на спецсеминаре "Machine Learning & Information Retrieval" в Школе Анализа Данных Яндекса.
Статический анализ: вокруг Java за 60 минутAndrey Karpov
Статический анализ всё больше воспринимается как неотъемлемая часть процесса разработки качественного программного обеспечения. Разумеется, у этой технологии уже есть свои сторонники и противники, но, несмотря на это, тема статического анализа всё более актуальна и требует детального рассмотрения. Рассмотрим, что такое статический анализ, как он применяется и как влияет на качество и надёжность кода. Поговорим о важности раннего обнаружения ошибок и дефектов уязвимости. Рассмотрим существующие инструменты для Java, такие как Sonar Java, FindBugs и анализатор встроенном в среду разработки IntelliJ IDEA. Расскажем историю, почему несмотря на уже существующие инструменты, мы решили разработать PVS-Studio для Java, как мы это делали и что в итоге получилось. В конце затронем вопрос интеграции статических анализаторов кода в большие старые проекты. Другими словами, как увидеть 100500 срабатываний и не упасть духом.
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №10 "Алгоритмические композиции. Завершение"
Лектор - Владимир Гулин
Ключевые идеи бустинга. Отличия бустинга и бэггинга. Алгорим AdaBoost. Градиентный бустинг. Мета-алгоритмы над алгоритмическими композициями. Алгоритм BagBoo.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
2. Коэффициент корреляции отражает
степень связи между переменными
Но мы не можем его использовать для
предсказания значений одной
переменной по значениям другой
Author: Sergey Mastitsky
4. yi – зависимая переменная
0 – свободный член уравнения
1 – регрессионный коэффициент
xi – предиктор (= “независимая переменная”)
εi – остатки, независимые и
iii xy 10
),0( N
Author: Sergey Mastitsky
5. Это тоже линейная регрессионная модель,
хотя и описывает кривую:
Объяснение:
iiii xxy 2
21
iiii
ii
cxy
cxесли
21
2
Author: Sergey Mastitsky
6. Параметры 0, 1 и оцениваются
методом наименьших квадратов
Author: Sergey Mastitsky
7. 8.2. Подгонка линейных
моделей в R
Подробнее см.:
http://r-analytics.blogspot.de/2014/03/blog-post.html
http://r-analytics.blogspot.de/2014/04/blog-post.html
http://r-analytics.blogspot.de/2014/05/blog-post_18.html
8. Freedman et al. (2001)*
опубликовали данные по
расстоянию до 24
галактик (Мегапарсек),
измеренному
Телескопом Хаббла
Приведены также
скорости удаления этих
галактик (по эффекту
Доплера, км/с)
*Freedman WL et al. (2001) The
Astrophysical Journal 553: 47-72 hubblesite.org
Author: Sergey Mastitsky
10. Согласно ТБВ, Вселенная равномерно
расширяется по закону Хаббла:
где y – относительная скорость расхождения
любых двух галактик, находящихся на
расстоянии x друг от друга
-1 – неизвестный параметр, который примерно
равен возрасту Вселенной
Мы можем использовать данные Friedman et al.
(2001) для оценки : iii xy
xy
Author: Sergey Mastitsky
11. Используйте команду:
> setwd("~/Introductory R
Course/R_Course_Datasets")
Или в RStudio:
Session -> Set Working Directory -> Choose
Directory -> …Рабочий стол -> папка
“Introductory R Course” -> папка
“R_Course_Datasets”
Author: Sergey Mastitsky
13. > hub.mod <- lm(y ~ x - 1,
data = hub.data)
Объект с результатами
анализа
Формула модели:
“ ~ “ - “тилда”
“ -1” значит отсутствие
свободного члена
Имя таблицы с данными
Author: Sergey Mastitsky
15. Показывает, о какой модели идет речь
Полезно при построении большого
числа моделей
Author: Sergey Mastitsky
16. Сводка о распределении остатков
Позволяет выполнить экспресс-оценку
их распределения
Так, Median должна быть ~0, а Max и
Min должны быть примерно равны
Author: Sergey Mastitsky
17. Регрессионный коэффициент (76.581), его
станд. ошибка и P-значение соответствующего
t-теста
* - индикатор уровня значимости
Эти «звездочки» можно отключить командой
options(show.signif.stars = FALSE)
Author: Sergey Mastitsky
19. Multiple R-squared (= коэффициент
детерминации)
Adjusted R-squared скорректированный
Multiple R-squared с учетом объема
выборки и числа параметров модели
Author: Sergey Mastitsky
20. F-тест гипотезы о том, что все регрессионные
коэффициенты в действительности равны
нулю
Показатель того, насколько модель хороша в
целом
Author: Sergey Mastitsky
21. В целом, модель высоко значима
(P < 0.001, F-тест)
Расстояние до галактики является
хорошим предиктором скорости ее
удаления (P < 0.001, t-тест)
Полученная модель:
xy 581.76
Author: Sergey Mastitsky
23. Низкие P-значения не гарантируют, что
модель адекватно описывает изучаемый
процесс
После построения модели необходимо
проверить ряд допущений
В частности:
характер распределения остатков
наличие «выбросов»
Author: Sergey Mastitsky
24. # resid() извлекает остатки из модельного
объекта:
> resid(hub.mod)
Author: Sergey Mastitsky
5 10 20
5001500
x
y
25. 5 10 20
5001500
x
y
# fitted() извлекает предсказанные
моделью значения y:
> fitted(hub.mod)
Author: Sergey Mastitsky
28. Диагностические графики показывают,
что наблюдения #3 и #15, по-видимому,
оказывают слишком большое влияние
на оценки параметров модели. Удалим
эти наблюдения и подгоним новую
модель:
> hub.mod1 <- lm(y ~ x - 1,
data = hub.data[-c(3, 15), ])
Author: Sergey Mastitsky
31. 5 10 15 20
50010001500
Distance (Mpc)
Velocity(km/sec)
Один Мегапарсек -
3.091019 км => разделим
на это число, чтобы
получить постоянную
Хаббла (сек-1):
> hub.const <-
coef(hub.mod1)/3.09e19
# возраст в секундах:
> age <- 1/hub.const
# возраст в годах:
> age/(60^2*24*365)
12614854757
Ответ: ~ 13 млрд. лет
Author: Sergey Mastitsky
32. Поскольку полученная оценка возраста
Вселенной является выборочной, существует
неопределенность в отношении того, насколько
она точна
Эту неопределенность выражают при помощи
доверительного интервала
О том, как рассчитать доверительные интервалы
для параметров регрессионной модели, см. здесь:
http://r-analytics.blogspot.de/2014/05/blog-post.html
Author: Sergey Mastitsky