Архитектура хранения и отдачи фотографий в Badoo

Архитектура хранения и отдачи
фотографий в Badoo
Артем Денисов, Badoo

330 млн. пользователей
3 Pb фотографий
3,5 млн. новых фотографий в день
80 тыс. запросов в секунду за фото

Тривиальный пример

photos1
photos2
photosN

place_id
place_id: 1..5
place_id: 6..11
place_id: m..n
photos1
photos2
photosN

Тривиальный пример: проблемы

! Ограниченная вместимость

! Нетипичная конфигурация машин

! Нетипичная конфигурация машин
! Цена

Используем систему хранения данных
bphotos1
bphotos2
bphotosN
Storage Area Network
(SAN)

! Меньше $/Gb
bphotos1
bphotos2
bphotosN
(SAN)

! Меньше $/Gb
! Больше плотность размещения
bphotos2
bphotosN
(SAN)
bphotos1

! Меньше $/Gb
! Больше плотность размещения
! Быстрая деградация чтения (>500 rps per host)
bphotos2
bphotosN
(SAN)
bphotos1

Характер нагрузки
Чтение преобладает над записью:
7*109 reads / 3.5*106 writes per day

Горячий dataset небольшой

Горячий dataset небольшой
Кажется, нам нужен кэш с LRU

Кэширование
bphotos1
bphotos2
bphotosN
(SAN)
photoscache1
photoscacheN

Структура фотокэша
bphotos

bphotos
Local cache

Local cache
proxy_pass
proxy_store bphotos

Local cache
Buffer
Hot cache
Cold cache
proxy_pass
proxy_store bphotos

Local cache
Buffer
Hot cache
Cold cache
Access log
<photo_path>
<served_by>
proxy_pass
proxy_store bphotos

Local cache
Buffer
Hot cache
Cold cache
Access log
<photo_path>
<served_by>
proxy_pass
proxy_store bphotos
Cache manager daemon

Local cache
Buffer
Hot cache
Cold cache
Access log
<photo_path>
<served_by>
proxy_pass
proxy_store bphotos
Хранит статистику запросов по файлам

Local cache
Buffer
Hot cache
Cold cache
Access log
<photo_path>
<served_by>
proxy_pass
proxy_store bphotos
Часто запрашиваемые -> Hot cache

Local cache
Buffer
Hot cache
Cold cache
Access log
<photo_path>
<served_by>
proxy_pass
proxy_store bphotos
Редко запрашиваемые -> Cold cache

Local cache
Buffer
Hot cache
Cold cache
Access log
<photo_path>
<served_by>
proxy_pass
proxy_store bphotos
Редко запрашиваемые -> Cold cache
Постепенно удаляет из Cold cache

Как распределять запросы?
photoscache2
photoscache1
photoscache3

Round-robin?
photoscache2
photoscache1
photoscache3

Round-robin?
Hash % count?
photoscache2
photoscache1
photoscache3

Round-robin?
Hash % count?
hash(“example_url”) = 5
server_idx0 = 5 % 3 = 2photoscache2
photoscache1
photoscache3

Round-robin?
Hash % count?
hash(“example_url”) = 5
server_idx0 = 5 % 3 = 2
server_idx1 = 5 % 4 = 1

photoscache2
photoscache1
photoscache3
Round-robin?
Hash % count?

Round-robin?
Hash % count?
Consistent hashing?photoscache2
photoscache1
photoscache3

Consistent hashing
0
hash(sharding_key)

Consistent hashing
0
hash(sharding_key)
A

Consistent hashing
0
hash(sharding_key)
B
A

Consistent hashing
0
hash(sharding_key)
B
A
C

Consistent hashing
0
hash(sharding_key)
B
A
C
B
A
C

Резервный фотокэш
photoscache1
bphotos
photoscache2
photoscache3
photoscache4
(reserve)
Load balancer

Резервный фотокэш
photoscache1
Load balancer
photoscache2
photoscache3
photoscache4
(reserve)
bphotos

Кэширование. Результаты
- Hitrate (количество попаданий в кэш) 98%
- Из 80k только 1600 rps доходят до bphotos

- 3 точки присутствия (Прага, Майами, Гонконг)

- 3 точки присутствия (Прага, Майами, Гонконг)
+
- Поддержка webp, progressive jpeg
- Динамический resize/crop
- Динамические вотермарки, фильтры (blur, pixelize)

Почему не CDN?
- Хочется больше контроля и предсказуемости

- Система развивалась постепенно

- Много специфической логики на фотокэшах

- Невысокая сложность поддержки итогового решения

- Невысокая сложность поддержки итогового решения
Современный CDN — хорошая альтернатива в условиях
дефицита ресурсов и времени

Хранение. 2013 год
bphotos1
bphotos2
bphotosN
(SAN)
photoscache1
photoscacheN

bphotos1
bphotos2
bphotosN
(SAN)
photoscache1
photoscacheN
80 x bphotos = ~560Tb данных
40 x photoscache
X 2 ДЦ

bphotos1
bphotos2
bphotosN
(SAN)
photoscache1
photoscacheN
1 x POINT OF FAILURE

bphotos1
bphotos2
bphotosN
(SAN)
photoscache1
photoscacheN

bphotos1
bphotos2
bphotosN
(SAN)
photoscache1
photoscacheN
! MAINTENANCE

bphotos1
bphotos2
bphotosN
(SAN)
photoscache1
photoscacheN
3 x POINT OF FAILURE ! DATA LOSS
! MAINTENANCE

Резервирование v.1
bphotos
Main partition
Local FS Fiber

bphotos
Local FS
Main partition
Backup partition
Fiber
Fiber

Async queue
bphotos
Local FS
Main partition
Backup partition
Fiber
Fiber

Async queue
bphotos
Local FS
Main partition
Backup partition
Fiber
Fiber
Buffer partition

Async queue
bphotos
Local FS
Main partition
Backup partition
Fiber
Fiber
Buffer partition
! NO DATA LOSS

Async queue
bphotos
Local FS
Main partition
Backup partition
Fiber
Fiber
Buffer partition
! NO DATA LOSS
! POINT OF FAILURE

Async queue
bphotos
Local FS
Main partition
Backup partition
Fiber
Fiber
Buffer partition
! NO DATA LOSS
! POINT OF FAILURE
! MAINTENANCE

Dphotos
Async queue
bphotos
Local FS
Main partition
Backup partition
Fiber
Fiber
Buffer partition

Dphotos
Async queue
bphotos
Local FS
Main partition
Backup partition
Buffer partition

Dphotos
dphotosN
Buffer partition
Main partition
dphotosN+1
Buffer partition
Main partition

Dphotos
dphotosN
Async queue
Buffer partition
Main partition
dphotosN+1
Buffer partition
Main partition

Dphotos. Upload
Async queue
dphotosN
dphotosN+1Round robin + health checks
Load balancer

Dphotos. Отдача
photoscache
Async queue
dphotosN
dphotosN+1Round robin + health checks

photoscache
Async queue
dphotosN
dphotosN+1
HIT
Round robin + health checks

Async queue
dphotosN
dphotosN+1
MISS
Round robin + health checks
photoscache

Dphotos. Отказоустойчивость
dphotosN
Async queue
Buffer partition
Main partition
dphotosN+1
Buffer partition
Main partition

Dphotos. Результаты
- Отказоустойчивость

- Простая эксплуатация

- Двойной запас по чтению

- Сложность разработки

Так хранить локально — это хорошо или плохо?
- Проще в эксплуатации

- Производительнее

- Производительнее
- В 1.5 раза дороже, чем SAN

Итоги
photoscache dphotos
CDN Storage layer

Итоги
photoscache dphotos
CDN Storage layer
Local drives

Итоги
- А надо ли улучшать? Сначала измерь

Итоги
- А надо ли улучшать? Сначала измерь http://pinba.org

Итоги
- Чтение -> кэш
- Запись -> шардинг

Итоги
- Immutable фотки

Итоги
- Resize на лету

Итоги
- Инкрементальные асинхронные бэкапы - это хорошо

Итоги
- Инкрементальные асинхронные бэкапы - это хорошо
- Если что-то может сломаться - оно сломается

Архитектура хранения и отдачи фотографий в Badoo

More Related Content

Viewers also liked

Similar to Архитектура хранения и отдачи фотографий в Badoo

More from Badoo Development

Архитектура хранения и отдачи фотографий в Badoo