LSR / Недоступность всех сайтов / 03.10.20 | Hosting Superhub - хостинг игровых серверов minecraft

Вики

LSR / Недоступность всех сайтов / 03.10.20

Описание

// вкратце что произошло//

В течение нескольких часов главна hosting.superhub.xyz была полностью недоступна. panel.superhub.xyz при этом частично работало, но с перебоями: невозможно было удалить сервер, а так же воспользоваться редактированием файлов на самом сайте

Предпринятые действия

// таймлайн с описанием //

  • 02.10.20 18:45 - уходит СХД, в этот момент все стейтфул ноды кластера отваливаются: уходит мониторинг, feedback.hosting и часть других внутренних систем
  • 02.10.20 22:00 - выяснена проблема - короткое замыкание в блоке питания сервера СХД. Это затронуло в том числе ИБП, на котором он работал, а так же часть других серверов
  • 03.10.20 06:50 - уходит мастер сервер кластера k8s, в связи с чем теряется кворум и поды в кластере не могут рестариться
  • 03.10.20 08:15 - уходит под с redis, который обеспечивает кеш панели. в это время панель становится недоступна. так же в это время ушли поды, обеспечивающие доступность сайта хостинга
  • 03.10.20 08:20 - с этого момента сайт хостинга начинает работать с перебоями: либо он открывается очень долго, либо не открывается вовсе
  • 03.10.20 09:30 - частично восстановлена доступность панели: пропала 500 ошибка при входе, а так же появилась возможность останавливать/запускать сервера
  • 03.10.20 11:30 - начаты работы по замене бп в СХД
  • 03.10.20 14:30 - работы, синк дисков, замена сломанного оборудования закончена
  • 03.10.20 14:45 - трафик начинает приходить на СХД, мониторинг начинает работать
  • 03.10.20 15:10 - начало восстановления k8s кластера
  • 03.10.20 15:40 - конец восстановления кластера k8s
  • 03.10.20 15:45 - поды кластера начинаю запускаться, сайт hosting.superhub снова доступен
  • 03.10.20 16:05 - переключение кеш драйвера панели обратно на redis

Анализ

// анализ описания //

Из-за короткого замыкания в блоке питания СХД стала недоступна стейтфул часть кластера. При этом хостинг работает на стейтлесс архитектуре. 02.10 это не вызвало проблем.

Однако из-за того, что 03.10 потерялся кворум кластера k8s он не смог восстановиться, и полностью пропала связность сайтов с внешним миром.

Диагностика

// графики //

график времени ответа панели при ее недоступности. просадка на графике - полная недоступность панели

график недоступности hosting.superhub, пилы - полная недоступность сайта

график сети СХД в момент КЗ

график сети мастера k8s, который стал недоступен в 6 утра

график сети ядра сети. полная просадка - полностью недоступный кластер k8s

Меры предотвращения

// что сделать, чтобы не повторилось//

Резервация k8s мастеров х3 для кворума

Какие сервисы затронуты

// список сервисов //

Приносим свои извинения за неудобства и не снимаем плату за сервера за 03.10.20. также в качестве компенсации на неделю предоставляем промокод SORRY2 на 15% скидки перманентно на все новые сервера