This presentation provides brief answers to three questions: "What a Program Manager requires from a Project Manager?", "What distinguishes a successful Project Manager?" and "How to become a Program Manager?"
This presentation by Denys Balatsko (Associate Vice President, GlobalLogic) was delivered at Lviv Project Management Day on November 14, 2015.
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова.
Курс "Методы распределенной обработки больших объемов данных в Hadoop"
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9rPxMIgPri9YnOpvyDAL9HD
Мастер-класс по BigData Tools для HappyDev'15Alexey Zinoviev
Данила, BigData Tool Master,
собрал Hadoop - кластер,
Запустил Dataset
Он скрипты на Scala
Run'ил на Spark постоянно
И писал в HDFSssss
Если во время доклада "Когда все данные станут большими..." мы будем говорить о вопросах и ответах, то на этом мастер-классе мы уже потопчемся в вотчине BigData-разработчиков.
Начнем с классики на Hadoop, познаем боль MapReduce job, потыкаем Pig + Hive, затем плавно свальсируем в сторону Spark и попишем код в легком и удобном pipeline - стиле.
Для кого хорошо подходит данный мастер-класс: вы умеете читать и понимать код на Java на уровне хотя бы Junior, умеете писать SQL-запросы, в универе вы ходили хоть на одну пару по матану или терверу, вас либо недавно поставили, либо вскоре поставят на проект, где надо уметь ручками работать с вышеперечисленным зверинцем. Ну или вам просто интересно посмотреть на мощь даннодробилок, написанных на Java, и у вас в анамнезе неудачный опыт с NoSQL/SQL, как хранилищем, которое было ответственно за все, включая аналитику.
Micro orm для жизни. Кожевников Дмитрий D2D Just.NETDev2Dev
Micro-ORM решения хвастают высокой скоростью маппинга. Яркий представитель семейства - Dapper, разработан в StackExchange и позволяет ресурсам вроде StackOverflow держать нагрузку. Но нишу бизнес-приложений твёрдо занимают heavy-ORM - EnityFramework и NHibernate. Так зачем enterprise-разработчику нужен Dapper? Micro-ORM - это свобода от влияния технологии доступа к данным. Нам Dapper помог серьёзно подойти к дизайну не только DAL, но и доменной модели. А ещё мы любим писать SQL. А вы уже впустили SQL в своё сердце?
This presentation provides brief answers to three questions: "What a Program Manager requires from a Project Manager?", "What distinguishes a successful Project Manager?" and "How to become a Program Manager?"
This presentation by Denys Balatsko (Associate Vice President, GlobalLogic) was delivered at Lviv Project Management Day on November 14, 2015.
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова.
Курс "Методы распределенной обработки больших объемов данных в Hadoop"
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9rPxMIgPri9YnOpvyDAL9HD
Мастер-класс по BigData Tools для HappyDev'15Alexey Zinoviev
Данила, BigData Tool Master,
собрал Hadoop - кластер,
Запустил Dataset
Он скрипты на Scala
Run'ил на Spark постоянно
И писал в HDFSssss
Если во время доклада "Когда все данные станут большими..." мы будем говорить о вопросах и ответах, то на этом мастер-классе мы уже потопчемся в вотчине BigData-разработчиков.
Начнем с классики на Hadoop, познаем боль MapReduce job, потыкаем Pig + Hive, затем плавно свальсируем в сторону Spark и попишем код в легком и удобном pipeline - стиле.
Для кого хорошо подходит данный мастер-класс: вы умеете читать и понимать код на Java на уровне хотя бы Junior, умеете писать SQL-запросы, в универе вы ходили хоть на одну пару по матану или терверу, вас либо недавно поставили, либо вскоре поставят на проект, где надо уметь ручками работать с вышеперечисленным зверинцем. Ну или вам просто интересно посмотреть на мощь даннодробилок, написанных на Java, и у вас в анамнезе неудачный опыт с NoSQL/SQL, как хранилищем, которое было ответственно за все, включая аналитику.
Micro orm для жизни. Кожевников Дмитрий D2D Just.NETDev2Dev
Micro-ORM решения хвастают высокой скоростью маппинга. Яркий представитель семейства - Dapper, разработан в StackExchange и позволяет ресурсам вроде StackOverflow держать нагрузку. Но нишу бизнес-приложений твёрдо занимают heavy-ORM - EnityFramework и NHibernate. Так зачем enterprise-разработчику нужен Dapper? Micro-ORM - это свобода от влияния технологии доступа к данным. Нам Dapper помог серьёзно подойти к дизайну не только DAL, но и доменной модели. А ещё мы любим писать SQL. А вы уже впустили SQL в своё сердце?
My talk on Hadoop stack operations engineering at OSPConAlex Chistyakov
My talk on Hadoop stack operations engineering at OSPCon Nov 2015 (http://www.ospcon.ru/event/prakticheskaya-konferentsiya-tekhnologii-bolshikh-dannykh_130.html)
My talk on Hadoop stack operations engineering at OSPConAlex Chistyakov
My talk on Hadoop stack operations engineering at OSPCon Nov 2015 (http://www.ospcon.ru/event/prakticheskaya-konferentsiya-tekhnologii-bolshikh-dannykh_130.html)
4. История версий hadoop
● 2004 MapReduce: Simplified Data
Processing on Large Clusters
● 2005 Начало разработки Hadoop
5. История версий hadoop
● 2004 MapReduce: Simplified Data
Processing on Large Clusters
● 2005 Начало разработки Hadoop
● 2007 Передача в ASF
6. История версий hadoop
● 2004 MapReduce: Simplified Data
Processing on Large Clusters
● 2005 Начало разработки Hadoop
● 2007 Передача в ASF
● 2009 Версия 0.20
7. История версий hadoop
● 2004 MapReduce: Simplified Data
Processing on Large Clusters
● 2005 Начало разработки Hadoop
● 2007 Передача в ASF
● 2009 Версия 0.20
● 2011 Версия 1.0
8. История версий hadoop
● 2004 MapReduce: Simplified Data
Processing on Large Clusters
● 2005 Начало разработки Hadoop
● 2007 Передача в ASF
● 2009 Версия 0.20
● 2011 Версия 1.0
● 2013 Версия 2.2
28. Решение Google
● One of the copies of the program is special - the– master. The
rest are workers that are assigned work by the master. ... The
master picks idle workers and assigns each one a map task or
a reduce task.
29. Решение Google
● One of the copies of the program is special - the master. The rest
are workers that are assigned work by the master. ... The master
picks idle workers and assigns each one a map task or a
reduce task.
● .... The locations of ... pairs on the local disk are passed back to
the master, who is responsible for forwarding these locations to
the reduce workers.
30. Решение Google
● One of the copies of the program is special - the– master. The
rest are workers that are assigned work by the master. ... The
master picks idle workers and assigns each one a map task or
a reduce task.
● .... The locations of ... pairs on the local disk are passed back to
the master, who is responsible for forwarding these locations to
the reduce workers.
● When a reduce worker is notified by the master about these
locations, it uses remote procedure calls to read the buffered
data from the local disks of the map workers
31. Решение Google
● One of the copies of the program is special - the– master. The
rest are workers that are assigned work by the master. ... The
master picks idle workers and assigns each one a map task or
a reduce task.
● .... The locations of ... pairs on the local disk are passed back to
the master, who is responsible for forwarding these locations to
the reduce workers.
● When a reduce worker is notified by the master about these
locations, it uses remote procedure calls to read the buffered
data from the local disks of the map workers
● When all map tasks and reduce tasks have been completed, the
master wakes up the user program.
32. Устранение недостатков
1. только mapReduce
2. неполное использование ресурсов
3. job tracker — узкое место
4. single point of failure
33. Устранение недостатков
1. только mapReduce
2. неполное использование ресурсов
3. job tracker — узкое место
4. single point of failure
34. Устранение недостатков
1. только mapReduce
2. неполное использование ресурсов
3. job tracker — узкое место
4. single point of failure
35. Устранение недостатков
1. только mapReduce
2. неполное использование ресурсов
3. job tracker — узкое место
4. single point of failure
36. Устранение недостатков
1. только mapReduce
2. неполное использование ресурсов
3. job tracker — узкое место
4. single point of failure?
42. Решение Facebook
● Кластер на 100 Pb
● 0.5 Pb в день новых данных
● 60 000 джобов в день
● Corona
● Выложено в open source
https://github.com/facebookarchive/hadoop-20/tree/master/src/
contrib/corona
43.
44.
45.
46.
47.
48.
49.
50.
51.
52. Устранение недостатков
1. только mapReduce
2. неполное использование ресурсов
3. job tracker — узкое место
4. single point of failure
53. Устранение недостатков
1. только mapReduce
2. неполное использование ресурсов
3. job tracker — узкое место
4. single point of failure
54. Устранение недостатков
1. только mapReduce
2. неполное использование ресурсов
3. job tracker — узкое место
4. single point of failure
55. Устранение недостатков
1. только mapReduce
2. неполное использование ресурсов
3. job tracker — узкое место
4. single point of failure
56. Устранение недостатков
1. только mapReduce
2. неполное использование ресурсов
3. job tracker — узкое место
4. single point of failure
57. План
• hadoop 1.0
• YARN
• Приложения на YARN
• Планировщики
• Развитие YARN
94. А где же результат?
yarn.log-aggregation-enable=true
95. А где же результат?
yarn.log-aggregation-enable=true
96. А где же результат?
● Через yarn cli
yarn logs -applicationId
application_1388248867335_0003
● Через hdfs
/tmp/logs/yarn/user/.
./application/container
115. Совместимость с mr1
● на уровне кода
да
● на бинарном уровне
да
● на уровне скриптов
hadoop job …
да
● на уровне конфигурации
Большинство настроек устарело
116. Совместимость с mr1
● на уровне кода
да
● на бинарном уровне
да
● на уровне скриптов
hadoop job …
да
● на уровне конфигурации
Большинство настроек устарело
117. Совместимость с mr1
● на уровне кода
да
● на бинарном уровне
да
● на уровне скриптов
hadoop job …
да
● на уровне конфигурации
Большинство настроек устарело
118. Совместимость с mr1
● на уровне кода
да
● на бинарном уровне
да
● на уровне скриптов
hadoop job …
да
● на уровне конфигурации
Большинство настроек устарело
119. Совместимость с mr1
● на уровне кода
да
● на бинарном уровне
да
● на уровне скриптов
hadoop job …
да
● на уровне конфигурации
Большинство настроек устарело
120. Совместимость с mr1
● на уровне кода
да
● на бинарном уровне
да
● на уровне скриптов
hadoop job …
да
● на уровне конфигурации
Большинство настроек устарело
121. Совместимость с mr1
● на уровне кода
да
● на бинарном уровне
да
● на уровне скриптов
hadoop job …
да
● на уровне конфигурации
Большинство настроек устарело
122. Совместимость с mr1
● на уровне кода
да
● на бинарном уровне
да
● на уровне скриптов
hadoop job …
да
● на уровне конфигурации
Большинство настроек устарело
123. Совместимость с mr1
● на уровне кода
да
● на бинарном уровне
да
● на уровне скриптов
hadoop job …
да
● на уровне конфигурации
большинство настроек устарело
125. mapReduce uber job
● Маленькая задача может выполняться
целиком в контейнере application master
126. mapReduce uber job
● Маленькая задача может выполняться
целиком в контейнере application master
mapreduce.job.ubertask.enable=true
127. mapReduce uber job
● Маленькая задача может выполняться
целиком в контейнере application master
mapreduce.job.ubertask.enable=true
● Ограничения на объем мапперов и
размер данных выставляются в конфиге
128. mapReduce uber job
● Маленькая задача может выполняться
целиком в контейнере application master
mapreduce.job.ubertask.enable=true
● Ограничения на объем мапперов и
размер данных выставляются в конфиге
● Не более 1го редьюсера
129. MPI
● Требуется библиотека mpich2-yarn
● Пример запуска
hadoop --config ./conf
jar target/mpich2-yarn-1.0-SNAPSHOT.jar
-a mpi_example
-M 1024
-m 1024
-n 2
167. hadoop 2.3
Deploy MR through HDFS & Distributed Cache
- Можно запускать разные версии mapReduce,
в том числе кастомные
- Rolling Ugrade не блокируется mapReduce
задачами
168. hadoop 2.3
Deploy MR through HDFS & Distributed Cache
- Можно запускать разные версии mapReduce,
в том числе кастомные
- Rolling Ugrade не блокируется mapReduce
задачами
169. hadoop 2.3
Deploy MR through HDFS & Distributed Cache
- Можно запускать разные версии mapReduce,
в том числе кастомные
- Rolling Ugrade не блокируется mapReduce
задачами
181. hadoop 2.5
RM writable Webservices
- До этого через REST API можно было лишь получить
метрики кластера
- Теперь можно сабмитить приложения на кластер
- Убивать приложения