7.5 Восстановление работоспособности платформы

Для наблюдения за исправностью аппаратных и коммуникационных средств, как правило, применяется система мониторинга. Система позволяет определить узлы или сетевые участки, вызвавшие на сбои в нормальной работе облачной платформы.

Ниже рассмотрены способы восстановления работоспособности платформы в тех случаях, когда отказ в обслуживании произошел по причинам, связанным с нарушением логической целостности таких структур как кластер управления, состоящий из контроллеров, или же вычислительный кластер, обеспечивающий функционирование множества гипервизоров, образующих платформу виртуализации и контролируемых службой Nova.

Подробную информацию об устройстве инфраструктуры можно найти в эксплуатационных документах:

  • Описание применения;
  • Руководство архитектора.

Проверьте состояние кластера выполнением команды (на УУ):

pcs status

Если УУ не включен в кластер, то будет выведено следующее сообщение:

Error: cluster is not currently running on this node

Действия, выполняемые на отказавшем узле, зависят от его функционального назначения (Раздел 7.5.2, Раздел 7.5.3).

В случае, когда необходимо вернуть функциональность очереди сообщений, кроме установки программных пакетов RabbitMQ, потребуется восстановить настройку путем импорта файла определений (definitions.file.json).

Примечание.

Файл определений должен быть заблаговременно экспортирован, непосредственно после ввода инфраструктурных узлов в эксплуатацию.