Skip to main content

Iniciar una tolerancia de fallos a tu aparato de réplica

Puedes tener tolerancia de fallos en un aparato de réplica GitHub Enterprise Server por medio de la línea de comando para mantenimiento y pruebas, o si falla el aparato principal.

El tiempo requerido para la tolerancia de fallos depende de cuánto le tome para impulsar la réplica y redireccionar el tráfico de forma manual. El tiempo promedio varía entre 2 y 10 minutos.

Promover una réplica no configura la replicación para aplicativos existentes automáticamente. Despues de promoverla, si así lo quieres, puedes configurar la replicacion desde el nuevo aplicativo principal hacia uno existente y hacia el aplicativo primario previo.

  1. Si el aplicativo principal está disponible, para permitir que la replicación finalice antes de que cambies tus aplicativos, pon el aplicativo primario en modo de mantenimiento.

    • Pon el aplicativo en modo de mantenimiento.

    • Cuando la cantidad de operaciones activas de Git, consultas de MySQL y jobs de Resque lleguen a cero, espera 30 segundos.

      Nota: Nomad siempre tendrá jobs en ejecución, incluso si está en modo de mantenimiento, así que puedes ignorar estos jobs de forma segura.

    • Para verificar que todos los canales de replicación informan OK, utiliza el comando ghe-repl-status -vv.

      $ ghe-repl-status -vv
  2. En el aplicativo de réplica, para detener la replicación y promover dicho aplicativo a estado primario, utiliza el comando ghe-repl-promote. Esto también pondrá al nodo primario automáticamente en modo de mantenimiento si es que se puede alcanzar.

    $ ghe-repl-promote
  3. Actualiza el registro de DNS para que apunte a la dirección IP de la réplica. El tráfico es direccionado a la réplica después de que transcurra el período TTL. Si estás utilizando un balanceador de carga, asegúrate de que esté configurado para enviar el tráfico a la réplica.

  4. Notifica a los usuarios que pueden retomar las operaciones normales.

  5. Si se desea, configura una replicación desde el aparato principal nuevo al aparato existente y el principal anterior. Para obtener más información, consulta "Acerca de la configuración de alta disponibilidad."

  6. Los aplicativos en los que no pretendas configurar la replicación que eran parte de la configuración de disponibilidad alta antes de la recuperación del fallo deberán eliminarse de dicha configuración de disponibilidad alta a través de UUID.

    • Para los aplicativos anteriores, obtén su UUID a través de cat /data/user/common/uuid.
      $ cat /data/user/common/uuid
    • En el primario nuevo, elimina las UUID utilizando ghe-repl-teardown. Por favor, reemplaza UUID con aquella UUID que recuperaste en el paso anterior.
      $ ghe-repl-teardown -u UUID

Leer más