Автоматическая оптимизация алгоритмов с помощью быстрого возведения матриц в ...Alexander Borzunov
Описание декоратора для автоматической оптимизации алгоритмов с помощью быстрого возведения матриц в степень в Python.
Смотрите подробнее:
GitHub: https://github.com/borzunov/cpmoptimize
Хабрахабр: http://habrahabr.ru/post/236689/
Python Package Index: https://pypi.python.org/pypi/cpmoptimize
Физика в Яндексе: опыт сотрудничества с ЦЕРНомNikita Kazeev
Обработка данных в эксперименте LHCb, использование технологий Яндекса для классификации событий, разработанные им алгоритмы машинного обучения, методы оптимизации хранения и доступа к данным.
Павел Артёмкин — Разработка C++ API для реализации алгоритмов на больших графахYandex
В докладе рассказано о вычислительной модели на графах, в основе которой лежит механизм передачи сообщений между вершинами, а также о реализации в рамках данной модели API для написания алгоритмов на C++.
AI&BigData Lab 2016. Константин Герасименко: MOLAP: Новые границы возможного.GeeksLab Odessa
4.6.16 AI&BigData Lab
Upcoming events: goo.gl/I2gJ4H
Рассказ о том что такое MOLAP. Сравнение с традиционными подходами. Преимущества и недостатки. Рассказать как с этим работать на моём проекте.
Автоматическая оптимизация алгоритмов с помощью быстрого возведения матриц в ...Alexander Borzunov
Описание декоратора для автоматической оптимизации алгоритмов с помощью быстрого возведения матриц в степень в Python.
Смотрите подробнее:
GitHub: https://github.com/borzunov/cpmoptimize
Хабрахабр: http://habrahabr.ru/post/236689/
Python Package Index: https://pypi.python.org/pypi/cpmoptimize
Физика в Яндексе: опыт сотрудничества с ЦЕРНомNikita Kazeev
Обработка данных в эксперименте LHCb, использование технологий Яндекса для классификации событий, разработанные им алгоритмы машинного обучения, методы оптимизации хранения и доступа к данным.
Павел Артёмкин — Разработка C++ API для реализации алгоритмов на больших графахYandex
В докладе рассказано о вычислительной модели на графах, в основе которой лежит механизм передачи сообщений между вершинами, а также о реализации в рамках данной модели API для написания алгоритмов на C++.
AI&BigData Lab 2016. Константин Герасименко: MOLAP: Новые границы возможного.GeeksLab Odessa
4.6.16 AI&BigData Lab
Upcoming events: goo.gl/I2gJ4H
Рассказ о том что такое MOLAP. Сравнение с традиционными подходами. Преимущества и недостатки. Рассказать как с этим работать на моём проекте.
Распределенный блочно-координатный спуск для обучения логистической регрессии...Илья Трофимов
Предложен новый метод для распределенного обучения логистической регрессии с L1-регуляризацией с помощью блочно-координатного спуска.
Результаты экспериментов на кластере.
http://arxiv.org/abs/1411.6520
Yandex School of Data Analysis conference, Machine Learning and Very Large Da...Илья Трофимов
This document discusses machine learning techniques for click-through rate prediction in online advertising. It describes using a composition of boosted decision trees and logistic regression with L1-regularization to model clicks based on 54 real-valued and 3.4 million binary features extracted from user search sessions. The model was trained on 67 million examples and tested on 5 million examples, achieving improved accuracy over alternative methods. Keywords that increased or decreased the probability of a click were also presented.
NFC adalah teknologi komunikasi nirkabel jarak dekat yang memungkinkan transfer data antara perangkat yang berdekatan. NFC bekerja pada frekuensi 13,56 MHz dan memiliki kelebihan daya baterai rendah dan konektivitas cepat dibandingkan Bluetooth meski memiliki jangkauan lebih pendek. NFC telah diterapkan pada beberapa perangkat seperti smartphone dan tablet untuk pembayaran nirkontak, pertukaran data, dan konektivitas peer-to-peer
El documento describe la historia del desarrollo de la computadora desde sus inicios en el siglo XVII hasta la actualidad. Se menciona que pioneros como Leibniz, Jacquard y Babbage hicieron contribuciones fundamentales al desarrollo de máquinas capaces de procesar datos. Posteriormente, inventos como las tarjetas perforadas y los circuitos integrados permitieron avances que llevaron al desarrollo de los primeros microprocesadores y computadoras modernas.
Este documento discute os fitoesteróis, compostos naturais encontrados em plantas que podem reduzir os níveis de colesterol no sangue. Explica que fitoesteróis são adicionados a alimentos para aumentar a ingestão e que a ingestão de 2g por dia pode reduzir o colesterol LDL em 10-15%. Também descreve brevemente como os fitoesteróis agem, competindo com o colesterol na absorção e transporte no intestino.
Distributed Coordinate Descent for Logistic Regression with RegularizationИлья Трофимов
Logistic regression with L1 and L2 regularization is a widely used technique for solving
classication and class probability estimation problems. With the numbers of both featurescand examples growing rapidly in the fields like text mining and clickstream data analysis parallelization and the use of cluster architectures becomes important. We present a novel algorithm for tting regularized logistic regression in the distributed environment. The algorithm splits data between nodes by features, uses coordinate descent on each node and line search to merge results globally. Convergence proof is provided. A modications of the algorithm addresses slow node problem. We empirically compare our program with several state-of-the art approaches that rely on different algorithmic and data spitting methods. Experiments demonstrate that our approach is scalable and superior when training on large and sparse datasets.
----------------------------------------------------------
Machine Learning: Prospects and Applications
58 October 2015, Berlin, Germany
The document discusses how personalization and dynamic content are becoming increasingly important on websites. It notes that 52% of marketers see content personalization as critical and 75% of consumers like it when brands personalize their content. However, personalization can create issues for search engine optimization as dynamic URLs and content are more difficult for search engines to index than static pages. The document provides tips for SEOs to help address these personalization and SEO challenges, such as using static URLs when possible and submitting accurate sitemaps.
Lightning Talk #9: How UX and Data Storytelling Can Shape Policy by Mika Aldabaux singapore
How can we take UX and Data Storytelling out of the tech context and use them to change the way government behaves?
Showcasing the truth is the highest goal of data storytelling. Because the design of a chart can affect the interpretation of data in a major way, one must wield visual tools with care and deliberation. Using quantitative facts to evoke an emotional response is best achieved with the combination of UX and data storytelling.
This document summarizes a study of CEO succession events among the largest 100 U.S. corporations between 2005-2015. The study analyzed executives who were passed over for the CEO role ("succession losers") and their subsequent careers. It found that 74% of passed over executives left their companies, with 30% eventually becoming CEOs elsewhere. However, companies led by succession losers saw average stock price declines of 13% over 3 years, compared to gains for companies whose CEO selections remained unchanged. The findings suggest that boards generally identify the most qualified CEO candidates, though differences between internal and external hires complicate comparisons.
Распределенный блочно-координатный спуск для обучения логистической регрессии...Илья Трофимов
Предложен новый метод для распределенного обучения логистической регрессии с L1-регуляризацией с помощью блочно-координатного спуска.
Результаты экспериментов на кластере.
http://arxiv.org/abs/1411.6520
Yandex School of Data Analysis conference, Machine Learning and Very Large Da...Илья Трофимов
This document discusses machine learning techniques for click-through rate prediction in online advertising. It describes using a composition of boosted decision trees and logistic regression with L1-regularization to model clicks based on 54 real-valued and 3.4 million binary features extracted from user search sessions. The model was trained on 67 million examples and tested on 5 million examples, achieving improved accuracy over alternative methods. Keywords that increased or decreased the probability of a click were also presented.
NFC adalah teknologi komunikasi nirkabel jarak dekat yang memungkinkan transfer data antara perangkat yang berdekatan. NFC bekerja pada frekuensi 13,56 MHz dan memiliki kelebihan daya baterai rendah dan konektivitas cepat dibandingkan Bluetooth meski memiliki jangkauan lebih pendek. NFC telah diterapkan pada beberapa perangkat seperti smartphone dan tablet untuk pembayaran nirkontak, pertukaran data, dan konektivitas peer-to-peer
El documento describe la historia del desarrollo de la computadora desde sus inicios en el siglo XVII hasta la actualidad. Se menciona que pioneros como Leibniz, Jacquard y Babbage hicieron contribuciones fundamentales al desarrollo de máquinas capaces de procesar datos. Posteriormente, inventos como las tarjetas perforadas y los circuitos integrados permitieron avances que llevaron al desarrollo de los primeros microprocesadores y computadoras modernas.
Este documento discute os fitoesteróis, compostos naturais encontrados em plantas que podem reduzir os níveis de colesterol no sangue. Explica que fitoesteróis são adicionados a alimentos para aumentar a ingestão e que a ingestão de 2g por dia pode reduzir o colesterol LDL em 10-15%. Também descreve brevemente como os fitoesteróis agem, competindo com o colesterol na absorção e transporte no intestino.
Distributed Coordinate Descent for Logistic Regression with RegularizationИлья Трофимов
Logistic regression with L1 and L2 regularization is a widely used technique for solving
classication and class probability estimation problems. With the numbers of both featurescand examples growing rapidly in the fields like text mining and clickstream data analysis parallelization and the use of cluster architectures becomes important. We present a novel algorithm for tting regularized logistic regression in the distributed environment. The algorithm splits data between nodes by features, uses coordinate descent on each node and line search to merge results globally. Convergence proof is provided. A modications of the algorithm addresses slow node problem. We empirically compare our program with several state-of-the art approaches that rely on different algorithmic and data spitting methods. Experiments demonstrate that our approach is scalable and superior when training on large and sparse datasets.
----------------------------------------------------------
Machine Learning: Prospects and Applications
58 October 2015, Berlin, Germany
The document discusses how personalization and dynamic content are becoming increasingly important on websites. It notes that 52% of marketers see content personalization as critical and 75% of consumers like it when brands personalize their content. However, personalization can create issues for search engine optimization as dynamic URLs and content are more difficult for search engines to index than static pages. The document provides tips for SEOs to help address these personalization and SEO challenges, such as using static URLs when possible and submitting accurate sitemaps.
Lightning Talk #9: How UX and Data Storytelling Can Shape Policy by Mika Aldabaux singapore
How can we take UX and Data Storytelling out of the tech context and use them to change the way government behaves?
Showcasing the truth is the highest goal of data storytelling. Because the design of a chart can affect the interpretation of data in a major way, one must wield visual tools with care and deliberation. Using quantitative facts to evoke an emotional response is best achieved with the combination of UX and data storytelling.
This document summarizes a study of CEO succession events among the largest 100 U.S. corporations between 2005-2015. The study analyzed executives who were passed over for the CEO role ("succession losers") and their subsequent careers. It found that 74% of passed over executives left their companies, with 30% eventually becoming CEOs elsewhere. However, companies led by succession losers saw average stock price declines of 13% over 3 years, compared to gains for companies whose CEO selections remained unchanged. The findings suggest that boards generally identify the most qualified CEO candidates, though differences between internal and external hires complicate comparisons.
Solit 2014, MapReduce и машинное обучение на hadoop и mahout, Слисенко Конста...solit
Слисенко Константин, Минск. Компания JazzTeam, Senior Software Engineer
«Scrum для большого проекта. Как это работает на практике». Development секция. Agile отделение.
«MapReduce и машинное обучение на Hadoop и Mahout». Development секция. Для разработчиков. Высокий уровень подготовки.
Mihail Zachepilo - WebAssembly powered Machine LearningMaria Kuneva
Stop talking about WebAssembly specification, let's solve a problems using it! How to WebAssembly work and how we can use it to enhance Machine Learning in browser experience.
Moscow Jenkins Meetup #1. Pipeline для инженеров. Обзор экосистемыOleg Nenashev
Рассказ о Configuration as Code в Jenkins и возможностях Pipeline: DSL, Multi-Branch, Pipeline Model Definition, восстановление после ошибок, параллелизация задач, интеграции. В каком направлении развивается экосистема?
Семинар по Node.js в КПИ 20 октября 2014. Докладчики: Тимур Шемсединов, Никита Савченко, Максим Петренко. Краткое содержание:
* Что такое Node.js и как работает JavaScript в V8
* Профессионалы расскажут, почему они выбрали Node.js
* Вы узнаете его сильные и слабые стороны и где его лучше применять
* Будет полный обзор особеностей и внутреннего строения Node.js
* Примеры внедрения и Highload-проекты
* Вопросы развертывания, хостинг, тестирования, и отладки
* Где и что учить, что читать, как осваивать
Примеры использования базы clickhouse для анализа данных.
Экспорт данных access.log в clickhouse. Примеры анализа скорости пользователей на основе логов сервера.
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова.
Курс "Методы распределенной обработки больших объемов данных в Hadoop"
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9rPxMIgPri9YnOpvyDAL9HD
2. There are two ways to have a fast learning
algorithm: (a) start with a slow algorithm
and speed it up, or (b) build an intrinsically
fast learning algorithm. This project is about
approach (b), and it's reached a state where
it may be useful to others as a platform for
research and experimentation.
3. Начало:12/21/2007
Написан на C/C++
Проект разрабатывался в Yahoo Research, сейчас –
Microsoft Research
Open Source – BSD лицензия
https://github.com/JohnLangford/vowpal_wabbit/wiki
http://tech.groups.yahoo.com/group/vowpal_wabbit/
4. Обучение линейных функций с разными
функциями потерь: квадратичной,
логистической, hinge, quantile;
Методы оптимизации: SGD, сопряженные
градиенты, L-BFGS;
Многоклассовая классификация;
Поддержка весов объектов;
Обучение на объектах со структурой;
Matrix factorization;
Latent Dirichlet Allocation;
Для работы Vowpal Wabbit не обязателен
Hadoop-кластер.
6. Нужна распределенная система обучения:
все данные не могут лежать на одном сервере
нужно увеличение производительности
Hadoop:
файловая система HDFS
JobTracker
speculative execution
12. Аналогичная реализация:
Вычисление количества
Среднее значение
Средневзвешенное значение
13. На кластере запускается процесс spanning_tree ;
Каждый mapper запускает vw в режиме
стриминга;
vw подключается к spanning_tree и
обменивается с остальными ip & port;
из мэпперов выстраивается дерево, после
этого процесс spanning_tree не нужен;
дерево из мэпперов выполняет операции
AllReduce.
14. Все работает в одной операции map:
hadoop jar $HADOOP HOME/hadoop-streaming.jar
-Dmapred.job.map.memory.mb=2500 -input <input>
-output <output> -file vw -file runvw.sh –mapper
runvw.sh <output> <span server> -reducer NONE
15. Yahoo: A. Agarwal, O. Chapelle, M. Dudik, J. Langford
A Reliable Effective Terascale Linear Learning System,
17*109 событий http://arxiv.org/abs/1110.4198
16*106 параметров … 70 мин
1000 серверов
Yandex:
1*109 событий
16*106 параметров … 20 мин
60 серверов
16. A. Agarwal, O. Chapelle, M. Dudik, J. Langford
A Reliable Effective Terascale Linear Learning System,
http://arxiv.org/abs/1110.4198
17. A. Agarwal, O. Chapelle, M. Dudik, J. Langford
A Reliable Effective Terascale Linear Learning System,
http://arxiv.org/abs/1110.4198
18. Наиболее эффективная комбинация – это один
проход SGD с последующими итерациями L-BFGS
A. Agarwal, O. Chapelle, M. Dudik, J. Langford
A Reliable Effective Terascale Linear Learning System,
http://arxiv.org/abs/1110.4198
19. Задачи
“Big Data” с большим количеством
параметров (бинарные и категориальные
переменные)
Анализпользовательских логов
Предсказание кликов
O. Chapelle. Click Modeling for Display Advertising, ICML 2012.
Предсказание конверсии
Задачи из генетики
Splice site recognition
A. Agarwal, O. Chapelle, M. Dudik, J. Langford. A Reliable Effective Terascale
Linear Learning System
21. Alekh Agarwal, Olivier Chapelle, Miroslav Dudik, John Langford A Reliable
Effective Terascale Linear Learning System,
http://arxiv.org/abs/1110.4198
K. Weinberger, A. Dasgupta, J. Langford, A. Smola, and J.Attenberg,
Feature Hashing for Large Scale Multitask Learning, ICML 2009.
O. Chapelle. Click Modeling for Display Advertising, ICML 2012.
J. Nocedal, Updating Quasi-Newton Matrices with Limited Storage.
C. Teo, Q. Le, A. Smola, V. Vishwanathan, A Scalable Modular.
Convex Solver for Regularized Risk Minimizationavg. G. Mann et al. Ecient
large-scale distributed training of conditional maximum entropy models.
M. Zinkevich, M. Weimar, A. Smola, and L. Li, Parallelized Stochastic
Gradient Descent.