Deployment to production with an unexpected load

Выход в production с
незапланированной нагрузкой
или как выйти в production и не сойти с ума*
* не гарантируется, уточняйте у вашего менеджера

Кто я?
Меня зовут Макс и я успел поработать в разных компаниях на должности
админ/интегратор/инженер.

Содержание
• Коротко о проекте
• Deployment plan который мы придумали
• Особенности MySQL 5.7 (некоторые частные случаи)
• О проблемах (и решениях конечно же)
• Выводы которые я сделал для себя

Введение
(как так вышло)

Пару-тройку слов о проекте

• Есть web-приложение (оно как-то связано с рекламой). Умные люди называют это RTB

• Я участвовал в deployment в production (в роли "пожарной команды")

• И хочу рассказать о том как это происходило и с каким проблемами пришлось столкнуться

• Хотя таких рассказов есть over 100500 надеюсь мой тоже будет полезным

• Хотя таких рассказов есть over 100500 надеюсь мой тоже будет полезным
• Собрал все "грабли" какие только были J

Постановка задачи

• Сроки горят

• Нужно быстро подготовить окружение для production

• Починить что сломается

• Починить что сломается
• Что не сломаются – сломать, а потом тоже починить

Технологический стек

1. Linux

1. Linux
2. MySQL

1. Linux
2. MySQL
3. PHP

1. Linux
2. MySQL
3. PHP
4. Nginx
This image cannot currently be displayed.

1. Linux
2. MySQL
3. PHP
4. Nginx
5. Kafka

1. Linux
2. MySQL
3. PHP
4. Nginx
5. Kafka
6. Redis

1. Linux
2. MySQL
3. PHP
4. Nginx
5. Kafka
6. Redis
7. Gearman

А со стороны администрирования

1. Terraform

1. Terraform
2. Chef

1. Terraform
2. Chef
3. Jenkins

1. Terraform
2. Chef
3. Jenkins
4. LDAP

1. Terraform
2. Chef
3. Jenkins
4. LDAP
5. Zabbix

1. Terraform
2. Chef
3. Jenkins
4. LDAP
5. Zabbix
6. Версии пакетов протестированы и заморожены

План действий
• Тут надо бы рассказать о каких-то DevOps практиках

• Но было то что было

• Но было то что было
• Dead-Line Driven Deployment

А теперь шутки в стороны

1. Имеется три сервер All-in-One в разных регионах

2. На них уже пустили часть "боевого" трафика

3. Нужно выкатить мульти-серверную конфигурацию

3. Нужно выкатить мульти-серверную конфигурацию
4. Несколько регионов и несколько разных ролей. Что-то около 15 серверов

Есть ли у вас план?

MySQL: Как есть (грустный почти пустой слайд)

MySQL: Как хочу сделать

MySQL
• Да это Multi-Master репликация

MySQL
• Нет, это не плохая идея

MySQL
• Нет, это не плохая идея
• (в частном случае)

MySQL: Миграция базы

1. Совсем без downtime не вышло

2. ALTER TABLE ... ADD COLUMN `region` NOT NULL ...

3. Модифицировать код (не сложно)

4. Остановить трафик (nginx: return 204)

5. Включить binlog и GTID

6. mysqldump ... (с серверов 2 и 3 – часть таблиц)

7. Запустить трафик

8. Все запросы попадут в binlog и slave node сможет их проиграть

8. Все запросы попадут в binlog и slave node сможет их проиграть
9. Главное что бы binlog не успел отротейтится

MySQL: GTID
gtid-mode = on
a61678ba488942799e5845ba840af334:1
Server UUID Transaction Number

Binlog Format
1. binlog_format = STATEMENT

Binlog Format
UPDATE mytable SET x=123 WHERE id=1
UPDATE mytable SET time=NOW() WHERE id=1
UPDATE mytable SET field=uuid() WHERE id=1

Binlog Format
2. binlog_format = ROW
Binary diff: {x:123}

Binlog Format
2. binlog_format = ROW
Binary diff: {x:123}
binlog_row_image = minimal
minial – результат изменения
full – полная копия строки до и после
noblob - full но без BLOB J

MySQL – времена изменились
binlog_group_commit_sync_delay
log_slave_updates
slave-parallel-workers
slave-parallel-type = LOGICAL_CLOCK / DATABASE
binlog_do_db / binlog_do_table
replicate-do-db / replicate-do-table

MySQL: New Master
1. Запустить mysql: systemctl start mysql

MySQL: New Master
2. Залить дамп mysql < dump_file.sql

MySQL: New Master
3. CHANGE MASTER
MASTER_HOST='something',
MASTER_USER= ...
FOR CHANNEL="name_of_channel";

MySQL: New Master
3. CHANGE MASTER
MASTER_USER= ...
4. FOR CHANNEL="master_in_region_2";

MySQL: New Master
3. CHANGE MASTER
MASTER_USER= ...
4. FOR CHANNEL="master_in_region_2";
5. Примерно 30-40 минут на то что бы скачать данные измененные на "старых" серверах.

Multimaster: любые топологии

Переключение трафика

Упрощенная схема приложения

О жизни и смерти
приложения под нагрузкой

Deploy is done, Всем Спасибо все свободны

• Обычный трафик около ~2K RPM

• Ночью "внезапно" пришло ~50K RPM

• Ночью "внезапно" пришло ~50K RPM
• Все стало очень плохо

Спасибо мониторингу

• Zabbix

• Zabbix
• И он даже был настроен

• Zabbix
• И новые сервера добавлены (автоматически)

• Zabbix
• Мониторились логи на предмет ошибок приложения

• Zabbix
• Мониторились логи на предмет ошибок приложения
• O проблеме узнали из мониторинга, а не от клиента

PHP Fatal error
PHP Fatal error:
Uncaught exception
'PredisConnectionConnectionException'
with message
'Connection timed out [tcp://redis-host:6379]'

PHP Fatal error
• Никаких ошибок кроме этой
PHP Fatal error:
Uncaught exception
with message

PHP Fatal error
• Логи со стороны Redis девственно чисты
PHP Fatal error:
Uncaught exception
with message

PHP Fatal error
• В сети проблем не нашли
PHP Fatal error:
Uncaught exception
with message

PHP Fatal error
• В сети проблем не нашли
• Корреляция с нагрузкой? Сложно сказать.
PHP Fatal error:
Uncaught exception
with message

Что делать? Ну как обычно

1. Покрутить крутилки в ядре, проверить лимиты
net.core.somaxconn
net.ipv4.tcp_tw_reuse
ulimit

net.core.somaxconn
ulimit
2. Обновить Redis

net.core.somaxconn
ulimit
3. Отключить flush на диск в Redis

net.core.somaxconn
ulimit
4. Ничего не помогло

net.core.somaxconn
ulimit
5. На тестовом окружении не воспроизводится (я не смог воспроизвести)

net.core.somaxconn
ulimit
6. Ошибки продолжают сыпаться в лог

net.core.somaxconn
ulimit
6. Ошибки продолжают сыпаться в лог
7. Мой любимый вид проблем (но нет)

По колесам постучал, капот открыл-закрыл ...

• Каждый запрос открывает сессию к Redis

• 100500 новых сессий постоянно появляются и завершаются

• Redis однопоточный

• Ставим прокси à twemproxy

• [tcp://redis-host:6387] à [unix://var/run/twemproxy.sock]

• [tcp://redis-host:6387] à [unix://var/run/twemproxy.sock]
• twemproxy.yaml
listen: /var/run/twemproxy/redis.sock
servers:
- redis-host:6379:1

https://tech.trivago.com/2017/01/25/learn-redis-the-hard-way-in-production/

Другие решения: Netflix/dynomite
Подробнее: https://github.com/Netflix/dynomite.git

PHP FPM: Продолжение приключений

php-fpm.sock failed (11: Resource temporarily unavailable)
while connecting to upstream nginx error

• pm = ondemand
Плохо, очень плохо

• pm = ondemand
• pm = dynamic
Ничуть не лучше

• pm = ondemand
• pm = dynamic
• pm = static
Путь силы

• pm = ondemand
• pm = dynamic
• pm = static
Путь силы
fork() – это "дорогая" операция.
Когда запросы приходят внезапно и их много
на fork() уже нет времени.

Kafka
• Используется для отложенных запросов к MySQL (сгладить нагрузку)

Kafka
• Просто "труба"

Kafka
• Да вы наверно и так все про Kafka знаете

Kafka
• У нас было несколько topic-ов (10 или около того)

Kafka
• Мониторинг был (JMX)

Kafka
• Мониторинг был (JMX)
Случайно заметили что данные в базе
отстают на сутки.
Пришлось разбираться почему.

Отстают данные это как?
mysql> SELECT NOW();
+---------------------+
| NOW() |
+---------------------+
| 2017-01-10 11:48:25 |
+---------------------+
1 row in set (0.00 sec)
mysql> SHOW FULL PROCESSLISTG
************************ 5. row ************************
Id: 1907564
<skipped>
Info: INSERT INTO ... WHERE TIMESTAMPT='2017-01-09 10:33:15'

Kafka (Все было неправильно)

Kafka
1. Первым делом – завели lag по топикам на мониторинг

Kafka
• Первым делом – завели lag по топикам на мониторинг
• Сколько consumer-ов?

Kafka
• Оказалось что один на topic

Kafka
• Непорядок – запустили 20. И "внезапно" увидели что topic-и все с одной partition

Kafka
• Тут коллеги из зала должны смеяться. И спросить на что рассчитывали.

Kafka
• Тут коллеги из зала должны смеяться. И спросить на что рассчитывали.
• kafka-topics.sh
--alter
--zookeeper zookeeper:2181
--partitions <много>
--topic test

Kafka (слайд с примерами для тех кто будет читать а не слушать)
$ git clone https://github.com/wurstmeister/kafka-docker.git
$ docker-compose -f docker-compose-single-broker.yml up
Внутри контейнера
$ kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic test --group 1
$ kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic test --group 1
$ kafka-topics.sh --alter --zookeeper zookeeper:2181 --partitions 4 --topic test
$ kafka-consumer-groups.sh --bootstrap-server localhost:9092 --describe --group 1
TOPIC PARTITION CURRENT-OFFSET LOG-END-OFFSET LAG CONSUMER-ID HOST CLIENT-ID
test 0 14 14 0 consumer-1-53 ... /127.0.0.1 consumer-1
test 1 7 7 0 consumer-1-6d ... /127.0.0.1 consumer-1
Читать тут: https://www.safaribooksonline.com/library/view/kafka-the-definitive/9781491936153/ch04.html

Kafka здорового человека

Kafka (Все еще все неправильно)

Kafka
• Вроде бы все нормально но lag продолжает увеличиваться

Kafka
• Пришлось смотреть в код

Kafka
• Пришлось смотреть в код
• Был расстроен увидев там set_time_limit(60)

Kafka
• Пришлось смотреть в код.
• Вместо работы – вечный ребаланс.
Иногда повторное вычитывание если скрипт
убивался до того как делал commit

Kafka
• Убрал set_time_limit(60)

Kafka
Через полтора часа пришел OOM Killer и все мне рассказал.
"Собака была бешеной, пришлось пристрелить"

Kafka
• Утечку искал не я но в конце концов встроили ограничитель на число обработанных
сообщений

Kafka (Это еще не конец)

Kafka
• Тут должно было стать все хорошо

Kafka
• Но не стало – lag продолжает увеличиваться (хотя и медленнее чем раньше)

Kafka
• Но все таки не рассасываться

Kafka
• Кто виноват и что делать?

Kafka
• Объявили виноватой Kafka (мол не дает быстро вычитать данные)

Kafka
• Пришлось написать тестовый consumer на Java - вычитывает мгновенно

Kafka
• Начали профайлить код consumer на PHP и смотреть куда уходит время

Kafka
• Начали профайлить код consumer на PHP и смотреть куда уходит время
• Да ТЕПЕРЬ я понимаю что с этого стоило б начать

Kafka: не виноватая я

Kafka
• Тут же выяснили что уперлись в MySQL

Kafka
• Тут же выяснили то Disk Utilization у нас ВНЕЗАПНО не мониторилась

Kafka
• Опечатка: никто не застрахован

Kafka
• После того как расширили диск IOPSов стало хватать lag начал уменьшаться

Kafka
• А потом опять расти!

Kafka
• CPU Credits на Kafka закончились – t2.<some instance size>

Kafka
• CPU Credits на Kafka закончились – t2.<some instance size>
• Пришлось увеличить instance size

Все хорошо
• Все хорошо
• Все очень хорошо – нагрузку держим
• Моя работа закончена

Выводы
1. Планируйте нагрузку.
Нагрузочное тестирование позволило б предсказать большую часть проблем. К
сожалению это не всегда просто, особенно когда есть зависимости на внешние сервисы.
Иногда это банально стоит денег.

Выводы
2. Мониторинг это важно.
Проверьте мониторинг.
Те ли метрики Вы собираете?
И все ли нужные метрики?
Не менее важно хранить исторические данные что б видеть куда движемся и
предсказать проблемы.

Выводы
2. Мониторинг это важно.
Проверьте мониторинг.
Те ли метрики Вы собираете?
И все ли нужные метрики?
Не менее важно хранить исторические данные что б видеть куда движемся и
предсказать проблемы.
3. Архитектура?

Выводы
DevOps это не только CI/CD, но и взаимодействие между командами.
Программист: Наш код работает.
Админ: Сервер настроен правильно.
Крайнего не найти.

Спасибо что живой!

Deployment to production with an unexpected load

Recommended

Recommended

More Related Content

What's hot

What's hot (19)

Similar to Deployment to production with an unexpected load

Similar to Deployment to production with an unexpected load (20)

More from Grid Dynamics

More from Grid Dynamics (20)

Deployment to production with an unexpected load