O tempo do failover dependerá do tempo necessário para promover manualmente a réplica e redirecionar o tráfego. Em média, o procedimento leva de 20 a 30 minutos.
Promover uma réplica não configura automaticamente a replicação para appliances existentes. Depois de promover uma réplica, se desejar, você pode configurar a replicação do novo principal para os appliances existentes e o principal anterior.
-
Se o dispositivo primário estiver disponível, para permitir que a replicação seja concluída antes de você alternar os dispositivos, no dispositivo primário, coloque o dispositivo primário no modo de manutenção.
-
Coloque o dispositivo no modo de manutenção.
-
Para usar o console de gerenciamento, confira "Habilitar e programar o modo de manutenção"
-
Use também o comando
ghe-maintenance -s
.ghe-maintenance -s
-
-
Quando o número de operações ativas do Git, consultas MySQL e tarefas do Resque alcançam zero, aguarde 30 segundos.
Observação: o Nomad sempre terá trabalhos em execução, mesmo no modo de manutenção, ou seja, você pode ignorar esses trabalhos com segurança.
-
Para verificar se todos os canais de replicação relatam
OK
, use o comandoghe-repl-status -vv
.ghe-repl-status -vv
-
-
Habilite o modo de manutenção em todos os dispositivos de réplica ativos. Para obter mais informações, confira "Habilitar e programar o modo de manutenção".
-
No dispositivo de réplica para o qual você deseja fazer failover, para interromper a replicação e promover o dispositivo de réplica ao status primário, use o comando
ghe-repl-promote
.ghe-repl-promote
Nota: Se o nó primário estiver indisponível, avisos e tempos limite poderão ocorrer, mas poderão ser ignorados.
-
Atualize o registro DNS para apontar para o endereço IP do appliance réplica. O tráfego é direcionado para o réplica após o término do período TTL. Se você estiver usando um balanceador de carga, verifique se ele está configurado para enviar tráfego para o réplica.
-
Avise aos usuários que eles podem voltar a trabalhar normalmente.
-
Se desejar, configure a replicação do novo primário para os appliances existentes e o primário anterior. Para obter mais informações, confira "Sobre a configuração de alta disponibilidade".
-
Appliances para os quais você não pretende configurar replicação faziam parte da configuração de alta disponibilidade antes da falha precisam ser removidos da configuração de alta disponibilidade por UUID.
-
Nos dispositivos anteriores, obtenha o UUID por meio de
cat /data/user/common/uuid
.cat /data/user/common/uuid
-
No novo primário, remova os UUIDs usando
ghe-repl-teardown
. SubstituaUUID
por um UUID recuperado na etapa anterior.ghe-repl-teardown -u UUID
-