Este contenido está desactualizado. Esta versión de Well-Architected Framework se encuentra ahora en: https://docs.aws.amazon.com/es_es/wellarchitected/2022-03-31/framework/operational-excellence.html

OPS 10: ¿Cómo administra los eventos de carga de trabajo y operaciones?

Prepare y valide procedimientos para responder a los eventos con el fin de minimizar la interrupción de su carga de trabajo.

Recursos

Build a Monitoring Plan
Amazon CloudWatch Features
What is Amazon CloudWatch Events?

Prácticas recomendadas:

Plan de mejora

Utilizar procesos para la administración de eventos, incidentes y problemas

  • Utilizar procesos para la administración de eventos, incidentes y problemas: Disponga de procesos para abordar eventos observados, eventos que necesitan intervención (incidentes) y eventos que necesitan intervención y que pueden repetirse o no se pueden resolver actualmente (problemas). Además, utilice estos procesos para mitigar el impacto que dichos eventos pueden causar en la empresa y sus clientes a través de respuestas adecuadas y oportunas.
  • Disponer de un proceso por alerta

  • Proceso por alerta: Cualquier evento para el que genere una alerta debe tener una respuesta clara (manual de procedimientos o de estrategias), que cuente con un propietario específicamente identificado (por ejemplo, persona, equipo o rol) responsable de la correcta ejecución. La respuesta se puede llevar a cabo de forma automática o mediante otro equipo, pero el propietario es responsable de garantizar que el proceso genere los resultados esperados. Si cuenta con estos procesos, garantiza respuestas rápidas y efectivas ante eventos operativos y evita que las notificaciones menos importantes oculten a los eventos que se pueden corregir. Por ejemplo, el escalado automático puede aplicarse para escalar frontend de web, pero el equipo de operaciones puede ser responsable de garantizar que las reglas y los límites de escalado automático sean adecuados para las necesidades de la carga de trabajo.
  • Priorizar los eventos operativos según el impacto empresarial

  • Priorizar los eventos operativos según el impacto empresarial: Cuando varios eventos necesiten intervención, garantice que se traten en primer lugar los eventos más importantes para la empresa. Por ejemplo, los impactos pueden incluir la pérdida de la vida o lesiones, pérdidas financieras, infracciones normativas o daños a la reputación o la confianza.
  • Definir rutas de escalamiento

  • Definir rutas de escalamiento: Defina rutas de escalamiento en su manual de procedimientos y de estrategias, incluido aquello que impulsa el escalamiento y los procedimientos que se necesitan para ello. Por ejemplo, el escalamiento de un problema de los ingenieros de soporte a los ingenieros sénior de soporte cuando no se puede resolver dicho problema con los manuales de procedimientos o cuando ha transcurrido un periodo predefinido. Otro ejemplo de una vía de escalamiento adecuada es el de los ingenieros sénior de soporte al equipo de desarrollo para una carga de trabajo cuando no se puede identificar una ruta para la corrección con los manuales de estrategias o cuando ha transcurrido un periodo predefinido. Identifique propietarios específicos para cada acción y, de esta forma, garantice respuestas efectivas y rápidas para los eventos operativos. Los escalamientos pueden incluir a terceros. Por ejemplo, un proveedor de conectividad a la red o un proveedor de software. Los escalamientos pueden incluir a encargados de la toma de decisiones autorizados identificados para los sistemas que se vieron afectados.
  • Habilitar las notificaciones push

  • Habilitar las notificaciones push: Comuníquese directamente con los usuarios (por ejemplo, a través de un correo electrónico o SMS) cuando los servicios que utilizan se vean afectados, así como cuando los servicios regresen a las condiciones operativas habituales. De esta forma, les permitirá que tomen las medidas adecuadas.
    Amazon SES features
    What is Amazon SES?
    Set up Amazon SNS notifications
  • Comunicar su estado a través de paneles

  • Comunicar su estado a través de paneles: Proporcione paneles que se ajusten a sus audiencias de destino (por ejemplo, equipos técnicos internos, líderes y clientes) para comunicar el estado operativo actual de la empresa y proporcionar métricas de interés. Proporcionar una opción de autoservicio para obtener información sobre el estado reduce la interrupción de la respuesta de solicitudes de estado por parte del equipo de operaciones. Algunos ejemplos son los paneles de Amazon CloudWatch y AWS Personal Health Dashboard.
    CloudWatch dashboards create and use customized metrics views
  • Automatizar las respuestas a eventos

  • Automatizar las respuestas a eventos: Automatice las respuestas a eventos para reducir los errores ocasionados por los procesos manuales, así como para garantizar las respuestas rápidas y coherentes.
    What is Amazon CloudWatch Events?
    Creating a CloudWatch Events rule that triggers on an event
    Creating a CloudWatch Events rule that triggers on an AWS API call using AWS CloudTrail
    CloudWatch Events event examples from supported services