Главный приоритет — восстановить сервис, а потом искать причину: митигация идёт раньше диагностики. Я бы объявил incident, распределил чёткие роли и вёл команду к быстрейшему безопасному восстановлению, постоянно коммуницируя по ходу.
Главный приоритет — восстановить сервис, а потом искать причину: митигация идёт раньше диагностики. Я бы объявил incident, распределил чёткие роли и вёл команду к быстрейшему безопасному восстановлению, постоянно коммуницируя по ходу.
Молчание порождает панику. Я отправляю обновления в ровном ритме, даже когда новостей нет:
[14:05] Расследуем — checkout не работает, затронуто ~40% пользователей. Следующее обновление в 14:20.
[14:20] Установлено: плохой deploy. Делаем rollback. ETA 10 мин.
[14:35] Сервис восстановлен. Наблюдаем. Postmortem последует.
Outages неизбежны; то, как вы их проживаете, определяет доверие команды и уверенность клиентов. Спокойная координация по ролям плюс blameless-разбор превращают плохой день в более крепкую систему — и сигнализируют инженерам, что двигаться быстро безопасно, потому что сбой обрабатывается как процесс, а не как охота на ведьм.