Your SlideShare is downloading. ×
0
Как Map/Reduce спас Яндекс.Статистику<br />
Background<br />Взрывной рост объема данных, за 8 лет объем дневных данных вырос в 2000 разс 2ГБ до 4ТБ<br />Скорости проц...
Рождение – 2001 год<br />Яндекс– start-up<br />На все 1 сервер<br />БД 400ГБ, 2ГБ данных в день<br />4 проекта и 3 отчета<...
Архитектура v.1<br />
Первые шаги<br />Рост  данных, новые проекты и отчеты<br />Из-за падения базы бывает не успеваем пересчитать отчеты в тот ...
Архитектура v.2<br />
Активный рост<br />Рост данных и требований продолжается<br />Вынуждены использовать NAS как хранилище для БД, появляется ...
Архитектура v.3<br />
Старость<br />Сеть между NAS и БД постоянно перегружена<br />Тяжелые запросы очень плохо используют больше одной машины, н...
Архитектура v.4<br />
Смерть<br />Рост данных продолжился<br />Большие отчетам уже не хватает ресурсов, их расчет может занимать до нескольких с...
Бабах<br />
Что такое Map/Reduce?<br />Map/Reduce это технология, упрощающая написание приложений, для параллельной обработки больших ...
Что есть в Map/Reduce?<br />Линейное масштабирование по объему данных и скорости обработки<br />Хранилище неструктурирован...
Чего нет в Map/Reduce?<br />Типов данных<br />Индексов<br />Партицирования<br />Проверок целостности<br />
Map/Reduce Схема Работы<br />
Что такое MapReduce?<br />Данные<br />С точки зрения пользователя данные  - это таблицы.<br />Каждая  запись в таблице сос...
Второе рождение<br />Добавляем Map/Reduce хранилище логов<br />Переносим все тяжелые отчеты в Map/Reduce<br />База только ...
Архитектура v.5<br />
Резюме<br />Что бы выдержать рост данных необходимо выносить обработку и хранение больших данных в Map/Reduce<br />БД тоже...
Вопросы<br />
Upcoming SlideShare
Loading in...5
×

Death And Resurrection Of Yandex Statistics Pavel Aleshin

367

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
367
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
5
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "Death And Resurrection Of Yandex Statistics Pavel Aleshin"

  1. 1. Как Map/Reduce спас Яндекс.Статистику<br />
  2. 2. Background<br />Взрывной рост объема данных, за 8 лет объем дневных данных вырос в 2000 разс 2ГБ до 4ТБ<br />Скорости процессоров, дисков и сети выросли не более чем в 10 раз<br />Единственных способ выжить – линейно масштабироваться, добавляя сервера<br />Осознали мы это не сразу …<br />
  3. 3. Рождение – 2001 год<br />Яндекс– start-up<br />На все 1 сервер<br />БД 400ГБ, 2ГБ данных в день<br />4 проекта и 3 отчета<br />Все отчеты за день считаются за полчаса<br />
  4. 4. Архитектура v.1<br />
  5. 5. Первые шаги<br />Рост данных, новые проекты и отчеты<br />Из-за падения базы бывает не успеваем пересчитать отчеты в тот же день<br />Больше истории, которую нельзя терять<br />Появляются простые копии БД для надежности и ускорения расчетов<br />
  6. 6. Архитектура v.2<br />
  7. 7. Активный рост<br />Рост данных и требований продолжается<br />Вынуждены использовать NAS как хранилище для БД, появляется новое узкое место – сеть между хранилищем и БД<br />Переходим на Oracle RAC<br />
  8. 8. Архитектура v.3<br />
  9. 9. Старость<br />Сеть между NAS и БД постоянно перегружена<br />Тяжелые запросы очень плохо используют больше одной машины, но в состоянии «убить» весь кластер<br />Используем bonding и добавляем новые и головы в RAC, но предел уже очень близко<br />
  10. 10. Архитектура v.4<br />
  11. 11. Смерть<br />Рост данных продолжился<br />Большие отчетам уже не хватает ресурсов, их расчет может занимать до нескольких суток<br />Нет ресурсов на пересчет отчетов<br />Головы RAC постоянно ждут друг друга<br />Наращивать уже нечего …<br />
  12. 12. Бабах<br />
  13. 13. Что такое Map/Reduce?<br />Map/Reduce это технология, упрощающая написание приложений, для параллельной обработки больших объемов данных на кластерахсостоящих из множества компьютеров.<br />
  14. 14. Что есть в Map/Reduce?<br />Линейное масштабирование по объему данных и скорости обработки<br />Хранилище неструктурированных данных<br />Простота модели – map и reduce задачи<br />Поддержка любых языков<br />Встроенная поддержка HA<br />
  15. 15. Чего нет в Map/Reduce?<br />Типов данных<br />Индексов<br />Партицирования<br />Проверок целостности<br />
  16. 16. Map/Reduce Схема Работы<br />
  17. 17. Что такое MapReduce?<br />Данные<br />С точки зрения пользователя данные - это таблицы.<br />Каждая запись в таблице состоит из полей «ключ» (key) и «значение» (value)<br />Таблица может быть отсортирована по ключу, но по умолчанию таблицы не сортированы.<br />ОперацииНад данными можно производить два типа операций: map и reduce. <br />Каждая из них преобразует одну или несколько таблиц в другую таблицу.<br />Map сводится к выполнению пользовательской функции map для каждой записи входной таблицы. Функция принимает на вход одну запись и генерирует произвольное количество выходных записей.<br />Reduceвыполняет пользовательскую функцию reduce для каждого уникального ключа во входной таблице. Функция принимает на вход ключ и итератор, пробегающий по всем записям с этим ключом. Эта функция также может генерировать произвольное количество выходных записей.<br />Таблицы можно удалять, копировать, объединять и сортировать.<br />
  18. 18. Второе рождение<br />Добавляем Map/Reduce хранилище логов<br />Переносим все тяжелые отчеты в Map/Reduce<br />База только для быстрых запросов и запросов по «выборкам»<br />
  19. 19. Архитектура v.5<br />
  20. 20. Резюме<br />Что бы выдержать рост данных необходимо выносить обработку и хранение больших данных в Map/Reduce<br />БД тоже нужна – для конкурентных точечных запросов, структурированных данных, проверок целостности<br />Готовы обрабатывать петабайты <br />
  21. 21. Вопросы<br />
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×