• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Администрирование небольших сервисов или один за всех и 100 на одного. Роман Андриади, Яндекс
 

Администрирование небольших сервисов или один за всех и 100 на одного. Роман Андриади, Яндекс

on

  • 7,028 views

Роман Андриади, Яндекс ...

Роман Андриади, Яндекс

Работает в департаменте эксплуатации Яндекса с 2005 года. С 2010 года – руководитель группы администрирования коммуникационных, контент- и внутренних сервисов.

Тема доклада
Администрирование небольших сервисов, или Один за всех и 100 на одного.

Тезисы
Администрирование коммуникационных сервисов начиналось в 2004 году с обслуживания десятка серверов и десятка сервисов, на них располагающихся. Со временем сервисов становилось все больше, увеличивалось число задач по ним, а десяток серверов вырос в парк из сотен машин, разделенных на множество разношерстных кластеров. В докладе будет рассказано, как с ростом объемов кластера эволюционировали приемы администрирования, какие инструменты при этом использовались, как мы написали свой инструмент управления, как и чем он научился помогать нам за эти годы.

Statistics

Views

Total Views
7,028
Views on SlideShare
849
Embed Views
6,179

Actions

Likes
2
Downloads
7
Comments
0

13 Embeds 6,179

http://yac2011.yandex.ru 3234
http://yac2011.yandex.com 1214
http://events.yandex.ru 848
http://tech.yandex.ru 623
http://ya-events.narod.ru 203
https://tech.yandex.ru 28
http://events.lynx.yandex.ru 12
http://test1e.tech.yandex.ru 7
http://events.indus.yandex.ru 3
http://external.events.test.tools.yandex-team.ru 3
http://events.yandex-team.ru 2
http://news.google.com 1
http://yac.tadatuta.graymantle.yandex.ru 1
More...

Accessibility

Categories

Upload Details

Uploaded via as OpenOffice

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Администрирование небольших сервисов или один за всех и 100 на одного. Роман Андриади, Яндекс Администрирование небольших сервисов или один за всех и 100 на одного. Роман Андриади, Яндекс Presentation Transcript

    • Один за всех и 100 на одного: администрирование большого количества небольших сервисов Р оман Андриади руководитель группы администрирования коммуникационных, контент- и внутренних сервисов Yet Another Conference, Москва, 19 сентября 2011 года
    • О чем это? Какие проблемы доставляют небольшие сервисы?
    • О чем это? Какие проблемы доставляют небольшие сервисы? Что делать, чтобы всё работало?
    • О чем это? Какие проблемы доставляют небольшие сервисы? Что делать, чтобы всё работало? Что делать, когда всё сломалось?
    • О чем это? Какие проблемы доставляют небольшие сервисы? Что делать, чтобы всё работало? Что делать, когда всё сломалось? Что делать перед этим?
    • О чем это? Какие проблемы доставляют небольшие сервисы? Что делать, чтобы всё работало? Что делать, когда всё сломалось? Что делать перед этим? Как всё это успевать?
    • О чем это? Какие проблемы доставляют небольшие сервисы? Что делать, чтобы всё работало? Что делать, когда всё сломалось? Что делать перед этим? Как всё это успевать... ...так, чтобы ничего за это не было
    • Больше 1000 серверов Как с этим жить?
    • Больше 1000 серверов Около 250 сервисов Как с этим жить?
    • Больше 1000 серверов Около 250 сервисов Несколько тысяч компонентов Как с этим жить?
    • Больше 1000 серверов Около 250 сервисов Несколько тысяч компонентов До100 обновлений в день Как с этим жить?
    • Больше 1000 серверов Около 250 сервисов Несколько тысяч компонентов До100 обновлений в день Несколько новых сервисов в месяц Как с этим жить?
    • Больше 1000 серверов Около 250 сервисов Несколько тысяч компонентов До100 обновлений в день Несколько новых сервисов в месяц Несколько крупных релизов в неделю Как с этим жить?
    • 9 серверов Как всё начиналось 2004 г.
    • 9 серверов 10 сервисов Как всё начиналось 2004 г.
    • 9 серверов 10 сервисов Консоль + SSH Как всё начиналось 2004 г.
    • Но потом...
    • Проблемы множества сервисов? Доступ на сервера
    • Проблемы множества сервисов? Доступ на сервера Частые поломки
    • Проблемы множества сервисов? Доступ на сервера Частые поломки Нетривиальная диагностика
    • Проблемы множества сервисов? Доступ на сервера Частые поломки Нетривиальная диагностика Сложности понимания
    • Проблемы множества сервисов? Доступ на сервера Частые поломки Нетривиальная диагностика Сложности понимания Объём задач
    • Последовательный SSH — медленно Доступ на сервера
    • Последовательный SSH — медленно Много имён плохо запоминаются Доступ на сервера
    • Последовательный SSH — медленно Много имён плохо запоминаются Тип машины сложно вспомнить Доступ на сервера
    • Доступ на сервера Сохранили группировки машин
    • Доступ на сервера Сохранили группировки машин SSH везде в одну команду
    • Сохранили группировки машин SSH везде в одну команду Есть где узнать назначение сервера Доступ на сервера
    • Сохранили группировки машин SSH везде в одну команду Есть где узнать назначение сервера Web-интерфейс к хранилищу Доступ на сервера
    • Сохранили группировки машин SSH везде в одну команду Есть где узнать назначение сервера Web-интерфейс к хранилищу Легче работать нескольким людям Доступ на сервера
    • Больше сервисов — больше поломок Много поломок — медленно чинить Сервисы при этом должны работать Во время авралов плохо думается Частые поломки
    • Частые поломки Есть быстрые решения проблемы Подставляем костыли
    • Частые поломки Есть быстрые решения проблемы Подставляем костыли Не все костыли быстро вынимаются...
    • Есть быстрые решения проблемы Подставляем костыли Не все костыли быстро вынимаются... ...зато с ними мир устойчивей Частые поломки
    • Много логов — сложно читать Диагностика
    • Диагностика Много логов — сложно читать Искать атаки в логах - неэффективно
    • Диагностика Много логов — сложно читать Искать атаки в логах - неэффективно Много мониторингов — плохой сон
    • Диагностика Много логов — сложно читать Искать атаки в логах - неэффективно Много мониторингов — плохой сон Не все поломки интересны в 3 ночи
    • Диагностика Много логов — сложно читать Искать атаки в логах - неэффективно Много мониторингов — плохой сон Не все поломки интересны в 3 ночи Много компонентов — сложно понять
    • Собрали логи в одном месте Считаем быструю статистику Диагностика
    •  
    • Диагностика Собрали логи в одном месте Считаем быструю статистику Баним автоматически
    • Диагностика Собрали логи в одном месте Считаем быструю статистику Баним автоматически Кластерный мониторинг
    • Диагностика Собрали логи в одном месте Считаем быструю статистику Баним автоматически Кластерный мониторинг Приборно-диагностическая панель
    •  
    •  
    •  
    •  
    •  
    •  
    •  
    • Как развернуть? Сложности понимания
    • Как развернуть? Как смотреть? Сложности понимания
    • Как развернуть? Как смотреть? Где искать? Сложности понимания
    • Как развернуть? Как смотреть? Где искать? Как поднять? Сложности понимания
    • Как развернуть? Как смотреть? Где искать? Как поднять? Где хранить? Сложности понимания
    • Как развернуть? Как смотреть? Где искать? Как поднять? Где хранить? Что делать? Сложности понимания
    • Пакетирование Унифицируемся
    • Пакетирование Логирование Унифицируемся
    • Пакетирование Логирование Размещение софта Унифицируемся
    • Пакетирование Логирование Размещение софта Общие инструменты запуска Унифицируемся
    • Пакетирование Логирование Размещение софта Общие инструменты запуска Технологии хранения Унифицируемся
    • Пакетирование Логирование Размещение софта Общие инструменты запуска Технологии хранения И даже Cron не забыли Унифицируемся
    • Пакетирование Логирование Размещение софта Общие инструменты запуска Технологии хранения И даже Cron не забыли Роботам в такой обстановке проще Унифицируемся
    • Релизы и минорные обновления Объем задач
    • Релизы и минорные обновления Установка и настройка серверов Объем задач
    • Релизы и минорные обновления Установка и настройка серверов Реакция на поломки Объем задач
    • Релизы и минорные обновления Установка и настройка серверов Реакция на поломки Планирование новых сервисов Объем задач
    • Релизы и минорные обновления Установка и настройка серверов Реакция на поломки Планирование новых сервисов Много мелких вопросов Объем задач
    • Завели web-сервис для релизов Принимаем там заявки Автоматизируемся
    •  
    • Завели web-сервис для релизов Принимаем там заявки Храним конфиг для выкладок Автоматизируемся
    •  
    • Завели web-сервис для релизов Принимаем там заявки Храним конфиг для выкладок Меньше забываем Меньше работаем руками Больше управляем автоматами Автоматизируемся
    • И даже не боимся полностью автоматических релизов!
    • Будем расти и дальше Ставим на: Отказоустойчивость
    • Будем расти и дальше Ставим на: Отказоустойчивость Автоматизацию
    • Будем расти и дальше Ставим на: Отказоустойчивость Автоматизацию Унификацию
    • Будем расти и дальше Ставим на: Отказоустойчивость Автоматизацию Унификацию Объединение
    • Будем расти и дальше Ставим на: Отказоустойчивость Автоматизацию Унификацию Объединение Администрируем не сервисы, а платформу
    • Р оман Андриади Руководитель группы администрирования коммуникационных, контент- и внутренних сервисов [email_address]