SlideShare a Scribd company logo
 There are two ways to have a fast learning
 algorithm: (a) start with a slow algorithm
 and speed it up, or (b) build an intrinsically
 fast learning algorithm. This project is about
 approach (b), and it's reached a state where
 it may be useful to others as a platform for
 research and experimentation.
   Начало:12/21/2007
   Написан на C/C++
   Проект разрабатывался в Yahoo Research, сейчас –
    Microsoft Research
   Open Source – BSD лицензия

   https://github.com/JohnLangford/vowpal_wabbit/wiki
   http://tech.groups.yahoo.com/group/vowpal_wabbit/
 Обучение линейных функций с разными
  функциями потерь: квадратичной,
  логистической, hinge, quantile;
 Методы оптимизации: SGD, сопряженные
  градиенты, L-BFGS;
 Многоклассовая классификация;
 Поддержка весов объектов;
 Обучение на объектах со структурой;
 Matrix factorization;
 Latent Dirichlet Allocation;
 Для работы Vowpal Wabbit не обязателен
  Hadoop-кластер.

 Нужна   распределенная система обучения:
    все данные не могут лежать на одном сервере
    нужно увеличение производительности
 Hadoop:
    файловая система HDFS
    JobTracker
    speculative execution
 Нужнаоперация AllReduce, которая
 агрегирует данные со всех нод и сообщает
 обратно всем результат.
1

    2               3

4       5       6       7
1

    11               16

4        5       6        7
28

    11                16

4        5        6        7
28

     28              28

28    28        28        28
 Аналогичная   реализация:
    Вычисление количества
    Среднее значение
    Средневзвешенное значение
 На кластере запускается процесс spanning_tree ;
 Каждый mapper запускает vw в режиме
  стриминга;
 vw подключается к spanning_tree и

  обменивается с остальными ip & port;
 из мэпперов выстраивается дерево, после
  этого процесс spanning_tree не нужен;
 дерево из мэпперов выполняет операции
  AllReduce.
 Все   работает в одной операции map:

hadoop jar $HADOOP HOME/hadoop-streaming.jar
-Dmapred.job.map.memory.mb=2500 -input <input>
-output <output> -file vw -file runvw.sh –mapper
runvw.sh <output> <span server> -reducer NONE
 Yahoo:            A. Agarwal, O. Chapelle, M. Dudik, J. Langford
                    A Reliable Effective Terascale Linear Learning System,

17*109 событий      http://arxiv.org/abs/1110.4198



16*106 параметров          … 70 мин
1000 серверов

 Yandex:
1*109 событий
16*106 параметров          … 20 мин
60 серверов
A. Agarwal, O. Chapelle, M. Dudik, J. Langford
A Reliable Effective Terascale Linear Learning System,
http://arxiv.org/abs/1110.4198
A. Agarwal, O. Chapelle, M. Dudik, J. Langford
A Reliable Effective Terascale Linear Learning System,
http://arxiv.org/abs/1110.4198
Наиболее эффективная комбинация – это один
проход SGD с последующими итерациями L-BFGS

  A. Agarwal, O. Chapelle, M. Dudik, J. Langford
  A Reliable Effective Terascale Linear Learning System,
  http://arxiv.org/abs/1110.4198
 Задачи
       “Big Data” с большим количеством
 параметров (бинарные и категориальные
 переменные)

 Анализпользовательских логов
 Предсказание кликов
    O. Chapelle. Click Modeling for Display Advertising, ICML 2012.
 Предсказание  конверсии
 Задачи из генетики
    Splice site recognition
    A. Agarwal, O. Chapelle, M. Dudik, J. Langford. A Reliable Effective Terascale
     Linear Learning System
 Hadoop:
https://github.com/JohnLangford/vowpal_wab
bit/tree/master/cluster

 YandexMapReduce:
обращаться к trofim
   Alekh Agarwal, Olivier Chapelle, Miroslav Dudik, John Langford A Reliable
    Effective Terascale Linear Learning System,
    http://arxiv.org/abs/1110.4198
   K. Weinberger, A. Dasgupta, J. Langford, A. Smola, and J.Attenberg,
    Feature Hashing for Large Scale Multitask Learning, ICML 2009.
   O. Chapelle. Click Modeling for Display Advertising, ICML 2012.
   J. Nocedal, Updating Quasi-Newton Matrices with Limited Storage.
   C. Teo, Q. Le, A. Smola, V. Vishwanathan, A Scalable Modular.
   Convex Solver for Regularized Risk Minimizationavg. G. Mann et al. Ecient
    large-scale distributed training of conditional maximum entropy models.
   M. Zinkevich, M. Weimar, A. Smola, and L. Li, Parallelized Stochastic
    Gradient Descent.
2012.11.06 машинное обучение с помощью vw

More Related Content

What's hot

Экосистема Common Lisp
Экосистема Common LispЭкосистема Common Lisp
Экосистема Common Lisp
Vsevolod Dyomkin
 
Hadoop > cascading -> cascalog (short version)
Hadoop  > cascading -> cascalog (short version)Hadoop  > cascading -> cascalog (short version)
Hadoop > cascading -> cascalog (short version)
Andrew Panfilov
 
Чему мы можем научиться у Lisp'а?
Чему мы можем научиться у Lisp'а?Чему мы можем научиться у Lisp'а?
Чему мы можем научиться у Lisp'а?Vsevolod Dyomkin
 
Применение в Enterprise-приложении графовой базы данных Neo4j - Антон Максимо...
Применение в Enterprise-приложении графовой базы данных Neo4j - Антон Максимо...Применение в Enterprise-приложении графовой базы данных Neo4j - Антон Максимо...
Применение в Enterprise-приложении графовой базы данных Neo4j - Антон Максимо...
Dev2Dev
 
Hadoop -> Cascading -> Cascalog
Hadoop -> Cascading -> CascalogHadoop -> Cascading -> Cascalog
Hadoop -> Cascading -> CascalogAndrew Panfilov
 
Java GC tuning and monitoring (by Alexander Ashitkin)
Java GC tuning and monitoring (by Alexander Ashitkin)Java GC tuning and monitoring (by Alexander Ashitkin)
Java GC tuning and monitoring (by Alexander Ashitkin)
aragozin
 
Параллельные и распределенные вычисления
Параллельные и распределенные вычисленияПараллельные и распределенные вычисления
Параллельные и распределенные вычисления
MATLAB
 
Mike ponomarenko java17-fork-v1.2
Mike ponomarenko java17-fork-v1.2Mike ponomarenko java17-fork-v1.2
Mike ponomarenko java17-fork-v1.2
Alex Tumanoff
 
R - как инструмент обработки и анализа пространственных данных
R - как инструмент обработки и анализа пространственных данныхR - как инструмент обработки и анализа пространственных данных
R - как инструмент обработки и анализа пространственных данных
Maxim Dubinin
 
Борьба с GС паузами в JVM
Борьба с GС паузами в JVMБорьба с GС паузами в JVM
Борьба с GС паузами в JVM
aragozin
 
"Сеть - это компьютер. Снова" Бахтерев Михаил, ИММ УрО РАН
"Сеть - это компьютер. Снова" Бахтерев Михаил, ИММ УрО РАН"Сеть - это компьютер. Снова" Бахтерев Михаил, ИММ УрО РАН
"Сеть - это компьютер. Снова" Бахтерев Михаил, ИММ УрО РАН
it-people
 
ADD2010: Обработка большого объема данных на платформеApache Hadoop
ADD2010: Обработка большого объема данных на платформеApache Hadoop ADD2010: Обработка большого объема данных на платформеApache Hadoop
ADD2010: Обработка большого объема данных на платформеApache Hadoop Vladimir Klimontovich
 

What's hot (12)

Экосистема Common Lisp
Экосистема Common LispЭкосистема Common Lisp
Экосистема Common Lisp
 
Hadoop > cascading -> cascalog (short version)
Hadoop  > cascading -> cascalog (short version)Hadoop  > cascading -> cascalog (short version)
Hadoop > cascading -> cascalog (short version)
 
Чему мы можем научиться у Lisp'а?
Чему мы можем научиться у Lisp'а?Чему мы можем научиться у Lisp'а?
Чему мы можем научиться у Lisp'а?
 
Применение в Enterprise-приложении графовой базы данных Neo4j - Антон Максимо...
Применение в Enterprise-приложении графовой базы данных Neo4j - Антон Максимо...Применение в Enterprise-приложении графовой базы данных Neo4j - Антон Максимо...
Применение в Enterprise-приложении графовой базы данных Neo4j - Антон Максимо...
 
Hadoop -> Cascading -> Cascalog
Hadoop -> Cascading -> CascalogHadoop -> Cascading -> Cascalog
Hadoop -> Cascading -> Cascalog
 
Java GC tuning and monitoring (by Alexander Ashitkin)
Java GC tuning and monitoring (by Alexander Ashitkin)Java GC tuning and monitoring (by Alexander Ashitkin)
Java GC tuning and monitoring (by Alexander Ashitkin)
 
Параллельные и распределенные вычисления
Параллельные и распределенные вычисленияПараллельные и распределенные вычисления
Параллельные и распределенные вычисления
 
Mike ponomarenko java17-fork-v1.2
Mike ponomarenko java17-fork-v1.2Mike ponomarenko java17-fork-v1.2
Mike ponomarenko java17-fork-v1.2
 
R - как инструмент обработки и анализа пространственных данных
R - как инструмент обработки и анализа пространственных данныхR - как инструмент обработки и анализа пространственных данных
R - как инструмент обработки и анализа пространственных данных
 
Борьба с GС паузами в JVM
Борьба с GС паузами в JVMБорьба с GС паузами в JVM
Борьба с GС паузами в JVM
 
"Сеть - это компьютер. Снова" Бахтерев Михаил, ИММ УрО РАН
"Сеть - это компьютер. Снова" Бахтерев Михаил, ИММ УрО РАН"Сеть - это компьютер. Снова" Бахтерев Михаил, ИММ УрО РАН
"Сеть - это компьютер. Снова" Бахтерев Михаил, ИММ УрО РАН
 
ADD2010: Обработка большого объема данных на платформеApache Hadoop
ADD2010: Обработка большого объема данных на платформеApache Hadoop ADD2010: Обработка большого объема данных на платформеApache Hadoop
ADD2010: Обработка большого объема данных на платформеApache Hadoop
 

Viewers also liked

Распределенный блочно-координатный спуск для обучения логистической регрессии...
Распределенный блочно-координатный спуск для обучения логистической регрессии...Распределенный блочно-координатный спуск для обучения логистической регрессии...
Распределенный блочно-координатный спуск для обучения логистической регрессии...
Илья Трофимов
 
Yandex School of Data Analysis conference, Machine Learning and Very Large Da...
Yandex School of Data Analysis conference, Machine Learning and Very Large Da...Yandex School of Data Analysis conference, Machine Learning and Very Large Da...
Yandex School of Data Analysis conference, Machine Learning and Very Large Da...
Илья Трофимов
 
Nfc
NfcNfc
Historia del computador
Historia del computador Historia del computador
Historia del computador
Fredi Soria
 
Fitoesteróis e Colesterol
Fitoesteróis e ColesterolFitoesteróis e Colesterol
Fitoesteróis e Colesterol
Dr. Benevenuto
 
Distributed Coordinate Descent for Logistic Regression with Regularization
Distributed Coordinate Descent for Logistic Regression with RegularizationDistributed Coordinate Descent for Logistic Regression with Regularization
Distributed Coordinate Descent for Logistic Regression with Regularization
Илья Трофимов
 
SEO: Getting Personal
SEO: Getting PersonalSEO: Getting Personal
SEO: Getting Personal
Kirsty Hulse
 
Lightning Talk #9: How UX and Data Storytelling Can Shape Policy by Mika Aldaba
Lightning Talk #9: How UX and Data Storytelling Can Shape Policy by Mika AldabaLightning Talk #9: How UX and Data Storytelling Can Shape Policy by Mika Aldaba
Lightning Talk #9: How UX and Data Storytelling Can Shape Policy by Mika Aldaba
ux singapore
 
Succession “Losers”: What Happens to Executives Passed Over for the CEO Job?
Succession “Losers”: What Happens to Executives Passed Over for the CEO Job? Succession “Losers”: What Happens to Executives Passed Over for the CEO Job?
Succession “Losers”: What Happens to Executives Passed Over for the CEO Job?
Stanford GSB Corporate Governance Research Initiative
 

Viewers also liked (9)

Распределенный блочно-координатный спуск для обучения логистической регрессии...
Распределенный блочно-координатный спуск для обучения логистической регрессии...Распределенный блочно-координатный спуск для обучения логистической регрессии...
Распределенный блочно-координатный спуск для обучения логистической регрессии...
 
Yandex School of Data Analysis conference, Machine Learning and Very Large Da...
Yandex School of Data Analysis conference, Machine Learning and Very Large Da...Yandex School of Data Analysis conference, Machine Learning and Very Large Da...
Yandex School of Data Analysis conference, Machine Learning and Very Large Da...
 
Nfc
NfcNfc
Nfc
 
Historia del computador
Historia del computador Historia del computador
Historia del computador
 
Fitoesteróis e Colesterol
Fitoesteróis e ColesterolFitoesteróis e Colesterol
Fitoesteróis e Colesterol
 
Distributed Coordinate Descent for Logistic Regression with Regularization
Distributed Coordinate Descent for Logistic Regression with RegularizationDistributed Coordinate Descent for Logistic Regression with Regularization
Distributed Coordinate Descent for Logistic Regression with Regularization
 
SEO: Getting Personal
SEO: Getting PersonalSEO: Getting Personal
SEO: Getting Personal
 
Lightning Talk #9: How UX and Data Storytelling Can Shape Policy by Mika Aldaba
Lightning Talk #9: How UX and Data Storytelling Can Shape Policy by Mika AldabaLightning Talk #9: How UX and Data Storytelling Can Shape Policy by Mika Aldaba
Lightning Talk #9: How UX and Data Storytelling Can Shape Policy by Mika Aldaba
 
Succession “Losers”: What Happens to Executives Passed Over for the CEO Job?
Succession “Losers”: What Happens to Executives Passed Over for the CEO Job? Succession “Losers”: What Happens to Executives Passed Over for the CEO Job?
Succession “Losers”: What Happens to Executives Passed Over for the CEO Job?
 

Similar to 2012.11.06 машинное обучение с помощью vw

Hadoop > cascading -> cascalog (very short)
Hadoop  > cascading -> cascalog (very short)Hadoop  > cascading -> cascalog (very short)
Hadoop > cascading -> cascalog (very short)Andrew Panfilov
 
Solit 2014, MapReduce и машинное обучение на hadoop и mahout, Слисенко Конста...
Solit 2014, MapReduce и машинное обучение на hadoop и mahout, Слисенко Конста...Solit 2014, MapReduce и машинное обучение на hadoop и mahout, Слисенко Конста...
Solit 2014, MapReduce и машинное обучение на hadoop и mahout, Слисенко Конста...
solit
 
DBD lection 4. Big Data, NoSQL. In Russian.
DBD lection 4. Big Data, NoSQL. In Russian.DBD lection 4. Big Data, NoSQL. In Russian.
DBD lection 4. Big Data, NoSQL. In Russian.
mikhaelsmirnov
 
Unsafe: to be or to be removed?
Unsafe: to be or to be removed?Unsafe: to be or to be removed?
Unsafe: to be or to be removed?
Alexey Fyodorov
 
CodeFest 2012. Нелюбин Д. — Neo4j — графовая база данных
CodeFest 2012. Нелюбин Д. — Neo4j — графовая база данныхCodeFest 2012. Нелюбин Д. — Neo4j — графовая база данных
CodeFest 2012. Нелюбин Д. — Neo4j — графовая база данныхCodeFest
 
Mihail Zachepilo - WebAssembly powered Machine Learning
Mihail Zachepilo - WebAssembly powered Machine LearningMihail Zachepilo - WebAssembly powered Machine Learning
Mihail Zachepilo - WebAssembly powered Machine Learning
OdessaJS Conf
 
Mihail Zachepilo - WebAssembly powered Machine Learning
Mihail Zachepilo - WebAssembly powered Machine LearningMihail Zachepilo - WebAssembly powered Machine Learning
Mihail Zachepilo - WebAssembly powered Machine Learning
Maria Kuneva
 
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...it-people
 
Moscow Jenkins Meetup #1. Pipeline для инженеров. Обзор экосистемы
Moscow Jenkins Meetup #1. Pipeline для инженеров. Обзор экосистемыMoscow Jenkins Meetup #1. Pipeline для инженеров. Обзор экосистемы
Moscow Jenkins Meetup #1. Pipeline для инженеров. Обзор экосистемы
Oleg Nenashev
 
Node.js введение в технологию, КПИ #ITmeetingKPI
Node.js введение в технологию, КПИ  #ITmeetingKPINode.js введение в технологию, КПИ  #ITmeetingKPI
Node.js введение в технологию, КПИ #ITmeetingKPI
Timur Shemsedinov
 
Эволюция к Behavior Driven Development на примере популярного фреймворка JBehave
Эволюция к Behavior Driven Development на примере популярного фреймворка JBehaveЭволюция к Behavior Driven Development на примере популярного фреймворка JBehave
Эволюция к Behavior Driven Development на примере популярного фреймворка JBehaveReturn on Intelligence
 
PostgreSQL: вчера, сегодня, завтра, Олег Бартунов, Postgres Professional, Мо...
 PostgreSQL: вчера, сегодня, завтра, Олег Бартунов, Postgres Professional, Мо... PostgreSQL: вчера, сегодня, завтра, Олег Бартунов, Postgres Professional, Мо...
PostgreSQL: вчера, сегодня, завтра, Олег Бартунов, Postgres Professional, Мо...
it-people
 
Анализируем данные с Clickhouse
Анализируем данные с  ClickhouseАнализируем данные с  Clickhouse
Анализируем данные с Clickhouse
Александр Сигачев
 
Apache Hadoop
Apache HadoopApache Hadoop
Apache Hadoop
Ivan Blinkov
 
Java/Scala Lab: Владимир Илюшенко - Jelastic PaaS v2.5 Capabilities and Benef...
Java/Scala Lab: Владимир Илюшенко - Jelastic PaaS v2.5 Capabilities and Benef...Java/Scala Lab: Владимир Илюшенко - Jelastic PaaS v2.5 Capabilities and Benef...
Java/Scala Lab: Владимир Илюшенко - Jelastic PaaS v2.5 Capabilities and Benef...
GeeksLab Odessa
 
Лекция 10. Apache Mahout
Лекция 10. Apache MahoutЛекция 10. Apache Mahout
Лекция 10. Apache Mahout
Technopark
 
Lift, play, akka, rails part1
Lift, play, akka, rails part1Lift, play, akka, rails part1
Lift, play, akka, rails part1Eduard Antsupov
 
CUDA & CAFFE
CUDA & CAFFE CUDA & CAFFE
CUDA & CAFFE
Andrew Babiy
 

Similar to 2012.11.06 машинное обучение с помощью vw (20)

Hadoop > cascading -> cascalog (very short)
Hadoop  > cascading -> cascalog (very short)Hadoop  > cascading -> cascalog (very short)
Hadoop > cascading -> cascalog (very short)
 
Solit 2014, MapReduce и машинное обучение на hadoop и mahout, Слисенко Конста...
Solit 2014, MapReduce и машинное обучение на hadoop и mahout, Слисенко Конста...Solit 2014, MapReduce и машинное обучение на hadoop и mahout, Слисенко Конста...
Solit 2014, MapReduce и машинное обучение на hadoop и mahout, Слисенко Конста...
 
Kuznetcov
KuznetcovKuznetcov
Kuznetcov
 
DBD lection 4. Big Data, NoSQL. In Russian.
DBD lection 4. Big Data, NoSQL. In Russian.DBD lection 4. Big Data, NoSQL. In Russian.
DBD lection 4. Big Data, NoSQL. In Russian.
 
Unsafe: to be or to be removed?
Unsafe: to be or to be removed?Unsafe: to be or to be removed?
Unsafe: to be or to be removed?
 
CodeFest 2012. Нелюбин Д. — Neo4j — графовая база данных
CodeFest 2012. Нелюбин Д. — Neo4j — графовая база данныхCodeFest 2012. Нелюбин Д. — Neo4j — графовая база данных
CodeFest 2012. Нелюбин Д. — Neo4j — графовая база данных
 
апрель
апрельапрель
апрель
 
Mihail Zachepilo - WebAssembly powered Machine Learning
Mihail Zachepilo - WebAssembly powered Machine LearningMihail Zachepilo - WebAssembly powered Machine Learning
Mihail Zachepilo - WebAssembly powered Machine Learning
 
Mihail Zachepilo - WebAssembly powered Machine Learning
Mihail Zachepilo - WebAssembly powered Machine LearningMihail Zachepilo - WebAssembly powered Machine Learning
Mihail Zachepilo - WebAssembly powered Machine Learning
 
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
 
Moscow Jenkins Meetup #1. Pipeline для инженеров. Обзор экосистемы
Moscow Jenkins Meetup #1. Pipeline для инженеров. Обзор экосистемыMoscow Jenkins Meetup #1. Pipeline для инженеров. Обзор экосистемы
Moscow Jenkins Meetup #1. Pipeline для инженеров. Обзор экосистемы
 
Node.js введение в технологию, КПИ #ITmeetingKPI
Node.js введение в технологию, КПИ  #ITmeetingKPINode.js введение в технологию, КПИ  #ITmeetingKPI
Node.js введение в технологию, КПИ #ITmeetingKPI
 
Эволюция к Behavior Driven Development на примере популярного фреймворка JBehave
Эволюция к Behavior Driven Development на примере популярного фреймворка JBehaveЭволюция к Behavior Driven Development на примере популярного фреймворка JBehave
Эволюция к Behavior Driven Development на примере популярного фреймворка JBehave
 
PostgreSQL: вчера, сегодня, завтра, Олег Бартунов, Postgres Professional, Мо...
 PostgreSQL: вчера, сегодня, завтра, Олег Бартунов, Postgres Professional, Мо... PostgreSQL: вчера, сегодня, завтра, Олег Бартунов, Postgres Professional, Мо...
PostgreSQL: вчера, сегодня, завтра, Олег Бартунов, Postgres Professional, Мо...
 
Анализируем данные с Clickhouse
Анализируем данные с  ClickhouseАнализируем данные с  Clickhouse
Анализируем данные с Clickhouse
 
Apache Hadoop
Apache HadoopApache Hadoop
Apache Hadoop
 
Java/Scala Lab: Владимир Илюшенко - Jelastic PaaS v2.5 Capabilities and Benef...
Java/Scala Lab: Владимир Илюшенко - Jelastic PaaS v2.5 Capabilities and Benef...Java/Scala Lab: Владимир Илюшенко - Jelastic PaaS v2.5 Capabilities and Benef...
Java/Scala Lab: Владимир Илюшенко - Jelastic PaaS v2.5 Capabilities and Benef...
 
Лекция 10. Apache Mahout
Лекция 10. Apache MahoutЛекция 10. Apache Mahout
Лекция 10. Apache Mahout
 
Lift, play, akka, rails part1
Lift, play, akka, rails part1Lift, play, akka, rails part1
Lift, play, akka, rails part1
 
CUDA & CAFFE
CUDA & CAFFE CUDA & CAFFE
CUDA & CAFFE
 

2012.11.06 машинное обучение с помощью vw

  • 1.
  • 2.  There are two ways to have a fast learning algorithm: (a) start with a slow algorithm and speed it up, or (b) build an intrinsically fast learning algorithm. This project is about approach (b), and it's reached a state where it may be useful to others as a platform for research and experimentation.
  • 3. Начало:12/21/2007  Написан на C/C++  Проект разрабатывался в Yahoo Research, сейчас – Microsoft Research  Open Source – BSD лицензия  https://github.com/JohnLangford/vowpal_wabbit/wiki  http://tech.groups.yahoo.com/group/vowpal_wabbit/
  • 4.  Обучение линейных функций с разными функциями потерь: квадратичной, логистической, hinge, quantile;  Методы оптимизации: SGD, сопряженные градиенты, L-BFGS;  Многоклассовая классификация;  Поддержка весов объектов;  Обучение на объектах со структурой;  Matrix factorization;  Latent Dirichlet Allocation;  Для работы Vowpal Wabbit не обязателен Hadoop-кластер.
  • 5.
  • 6.  Нужна распределенная система обучения:  все данные не могут лежать на одном сервере  нужно увеличение производительности  Hadoop:  файловая система HDFS  JobTracker  speculative execution
  • 7.  Нужнаоперация AllReduce, которая агрегирует данные со всех нод и сообщает обратно всем результат.
  • 8. 1 2 3 4 5 6 7
  • 9. 1 11 16 4 5 6 7
  • 10. 28 11 16 4 5 6 7
  • 11. 28 28 28 28 28 28 28
  • 12.  Аналогичная реализация:  Вычисление количества  Среднее значение  Средневзвешенное значение
  • 13.  На кластере запускается процесс spanning_tree ;  Каждый mapper запускает vw в режиме стриминга;  vw подключается к spanning_tree и обменивается с остальными ip & port;  из мэпперов выстраивается дерево, после этого процесс spanning_tree не нужен;  дерево из мэпперов выполняет операции AllReduce.
  • 14.  Все работает в одной операции map: hadoop jar $HADOOP HOME/hadoop-streaming.jar -Dmapred.job.map.memory.mb=2500 -input <input> -output <output> -file vw -file runvw.sh –mapper runvw.sh <output> <span server> -reducer NONE
  • 15.  Yahoo: A. Agarwal, O. Chapelle, M. Dudik, J. Langford A Reliable Effective Terascale Linear Learning System, 17*109 событий http://arxiv.org/abs/1110.4198 16*106 параметров … 70 мин 1000 серверов  Yandex: 1*109 событий 16*106 параметров … 20 мин 60 серверов
  • 16. A. Agarwal, O. Chapelle, M. Dudik, J. Langford A Reliable Effective Terascale Linear Learning System, http://arxiv.org/abs/1110.4198
  • 17. A. Agarwal, O. Chapelle, M. Dudik, J. Langford A Reliable Effective Terascale Linear Learning System, http://arxiv.org/abs/1110.4198
  • 18. Наиболее эффективная комбинация – это один проход SGD с последующими итерациями L-BFGS A. Agarwal, O. Chapelle, M. Dudik, J. Langford A Reliable Effective Terascale Linear Learning System, http://arxiv.org/abs/1110.4198
  • 19.  Задачи “Big Data” с большим количеством параметров (бинарные и категориальные переменные)  Анализпользовательских логов  Предсказание кликов  O. Chapelle. Click Modeling for Display Advertising, ICML 2012.  Предсказание конверсии  Задачи из генетики  Splice site recognition  A. Agarwal, O. Chapelle, M. Dudik, J. Langford. A Reliable Effective Terascale Linear Learning System
  • 21. Alekh Agarwal, Olivier Chapelle, Miroslav Dudik, John Langford A Reliable Effective Terascale Linear Learning System, http://arxiv.org/abs/1110.4198  K. Weinberger, A. Dasgupta, J. Langford, A. Smola, and J.Attenberg, Feature Hashing for Large Scale Multitask Learning, ICML 2009.  O. Chapelle. Click Modeling for Display Advertising, ICML 2012.  J. Nocedal, Updating Quasi-Newton Matrices with Limited Storage.  C. Teo, Q. Le, A. Smola, V. Vishwanathan, A Scalable Modular.  Convex Solver for Regularized Risk Minimizationavg. G. Mann et al. Ecient large-scale distributed training of conditional maximum entropy models.  M. Zinkevich, M. Weimar, A. Smola, and L. Li, Parallelized Stochastic Gradient Descent.