LSR / Недоступность сервисов хостинга / 27.06.20 | Hosting Superhub - хостинг игровых серверов minecraft

Вики

LSR / Недоступность сервисов хостинга / 27.06.20

Описание

// вкратце что произошло//

Из-за недоступности мастера kubernetes и развалившегося etcd-кластера были порестарчены все воркеры, а в связи с ошибками восстановления etcd потеря доступности нод кластера и последующая невозможность деплоя контейнеров.

Предпринятые действия

// таймлайн с описанием //

  • В 09:30 ушел мастер кубернетеса
  • В 10:30 были начаты работы по восстановлению кластера
  • В 13:00 была полностью восстановлена работа кластера

Анализ

// анализ описания //

Из-за падения мастера и невозможности быстрого восстановления etcd все воркеры были порестарчены, а так как им неоткуда было забирать инфомрацию о деплое контейнеров - то они просто ничего не делали. Это вызвало недоступность севисов *.hosting.superhub.xyz, а также panel.superhub.xyz и части других внутренних ресурсов

Диагностика

// графики //

Меры предотвращения

// что сделать, чтобы не повторилось//

На данный момент мы поднимаем второую ноду etcd для корректной работы кластера при недоступности первой. Это частично решит проблему, однако при недоступности кворума (n/2+1) всё равно возможна недоступность сервисов. При повторном проявлении проблемы будут предприняты другие меры (кворум из трех серверов)

Какие сервисы затронуты

// список сервисов //

Приносим свои извинения и в качестве компенсации не снимаем деньги за 27.06 из-за недоступности сервисов