Вики
hosting wiki
Вики хостинга
Страницы
FAQ
- FAQ
- Часто встречающиеся проблемы в панели
- Как получить бонус и реферальная программа
- XHR poll error, как лечить
- Механизм оплаты серверов
Гайды
- Оптимизировать сервер
- SFTP-доступ к панели
- Загрузить сборку
- Сменить версию
- Узнать версию
- Смена версии JDK
- Добавление флагов запуска
- Выделение доп.портов
- Редактирование SRV записи
- Планировщик задач
Документы
- Тарификация для игровых серверов
- Если ip-адрес сервера заблокирован
- Механика работы тестового сервера
- Таблица ip-адресов нод хостинга
Блог
LSR
LSR / Недоступность сервисов хостинга / 27.06.20
Описание
// вкратце что произошло//
Из-за недоступности мастера kubernetes и развалившегося etcd-кластера были порестарчены все воркеры, а в связи с ошибками восстановления etcd потеря доступности нод кластера и последующая невозможность деплоя контейнеров.
Предпринятые действия
// таймлайн с описанием //
- В 09:30 ушел мастер кубернетеса
- В 10:30 были начаты работы по восстановлению кластера
- В 13:00 была полностью восстановлена работа кластера
Анализ
// анализ описания //
Из-за падения мастера и невозможности быстрого восстановления etcd все воркеры были порестарчены, а так как им неоткуда было забирать инфомрацию о деплое контейнеров - то они просто ничего не делали. Это вызвало недоступность севисов *.hosting.superhub.xyz, а также panel.superhub.xyz и части других внутренних ресурсов
Диагностика
// графики //
Меры предотвращения
// что сделать, чтобы не повторилось//
На данный момент мы поднимаем второую ноду etcd для корректной работы кластера при недоступности первой. Это частично решит проблему, однако при недоступности кворума (n/2+1) всё равно возможна недоступность сервисов. При повторном проявлении проблемы будут предприняты другие меры (кворум из трех серверов)
Какие сервисы затронуты
// список сервисов //
- panel.superhub.xyz - частичная деградация сервиса из-за недоступности редиса
- hosting.superhub.xyz - полная недоступность сервиса
- feedback.hosting.superhub.xyz - полная недоступность сервиса
- haproxy для обхода блокировки - полная недоступность сервиса
Приносим свои извинения и в качестве компенсации не снимаем деньги за 27.06 из-за недоступности сервисов