OPS 10: ¿Cómo administra los eventos de carga de trabajo y operaciones?
Prepare y valide procedimientos para responder a los eventos con el fin de minimizar
la interrupción de su carga de trabajo.
Recursos
Build a Monitoring Plan
Amazon CloudWatch Features
What is Amazon CloudWatch Events?
Prácticas recomendadas:
-
Utilizar procesos para la administración de eventos, incidentes y problemas:
Disponga de procesos para abordar eventos observados, eventos que necesitan intervención
(incidentes) y eventos que necesitan intervención y que pueden repetirse o no se pueden
resolver actualmente (problemas). Además, utilice estos procesos para mitigar el impacto
que dichos eventos pueden causar en la empresa y sus clientes a través de respuestas
adecuadas y oportunas.
-
Disponer de un proceso por alerta:
Disponga de una respuesta clara (manual de procedimientos o de estrategias), que cuente
con un propietario específicamente identificado, ante cualquier evento en el que se
genere una alerta. De esta forma, garantiza respuestas rápidas y efectivas ante eventos
operativos y evita que las notificaciones menos importantes oculten a los eventos
que se pueden corregir.
-
Priorizar los eventos operativos según el impacto empresarial:
Cuando varios eventos necesiten intervención, garantice que se traten en primer lugar
los eventos más importantes para la empresa. Por ejemplo, los impactos pueden incluir
la pérdida de la vida o lesiones, pérdidas financieras o daños a la reputación o la
confianza.
-
Definir rutas de escalamiento:
Defina rutas de escalamiento en su manual de procedimientos y de estrategias, incluido
aquello que impulsa el escalamiento y los procedimientos que se necesitan para ello.
Identifique propietarios específicos para cada acción y, de esta forma, garantice
respuestas efectivas y rápidas para los eventos operativos.
-
Habilitar las notificaciones push:
Comuníquese directamente con los usuarios (por ejemplo, a través de un correo electrónico
o un SMS) cuando los servicios que utilizan se vean afectados y, nuevamente, cuando
los servicios regresen a las condiciones operativas habituales. De esta forma, les
permitirá que tomen las medidas adecuadas.
-
Comunicar su estado a través de paneles:
Proporcione paneles que se ajusten a sus audiencias de destino (por ejemplo, equipos
técnicos internos, líderes y clientes) para comunicar el estado operativo actual de
la empresa y proporcionar métricas de interés.
-
Automatizar las respuestas a eventos:
Automatice las respuestas a eventos para reducir los errores ocasionados por los procesos
manuales, así como para garantizar las respuestas rápidas y coherentes.
Plan de mejora
Utilizar procesos para la administración de eventos, incidentes y problemas
Utilizar procesos para la administración de eventos, incidentes y problemas:
Disponga de procesos para abordar eventos observados, eventos que necesitan intervención
(incidentes) y eventos que necesitan intervención y que pueden repetirse o no se pueden
resolver actualmente (problemas). Además, utilice estos procesos para mitigar el impacto
que dichos eventos pueden causar en la empresa y sus clientes a través de respuestas
adecuadas y oportunas.
Disponer de un proceso por alerta
Proceso por alerta:
Cualquier evento para el que genere una alerta debe tener una respuesta clara (manual
de procedimientos o de estrategias), que cuente con un propietario específicamente
identificado (por ejemplo, persona, equipo o rol) responsable de la correcta ejecución.
La respuesta se puede llevar a cabo de forma automática o mediante otro equipo, pero
el propietario es responsable de garantizar que el proceso genere los resultados esperados.
Si cuenta con estos procesos, garantiza respuestas rápidas y efectivas ante eventos
operativos y evita que las notificaciones menos importantes oculten a los eventos
que se pueden corregir. Por ejemplo, el escalado automático puede aplicarse para escalar
frontend de web, pero el equipo de operaciones puede ser responsable de garantizar
que las reglas y los límites de escalado automático sean adecuados para las necesidades
de la carga de trabajo.
Priorizar los eventos operativos según el impacto empresarial
Priorizar los eventos operativos según el impacto empresarial:
Cuando varios eventos necesiten intervención, garantice que se traten en primer lugar
los eventos más importantes para la empresa. Por ejemplo, los impactos pueden incluir
la pérdida de la vida o lesiones, pérdidas financieras, infracciones normativas o
daños a la reputación o la confianza.
Definir rutas de escalamiento
Definir rutas de escalamiento:
Defina rutas de escalamiento en su manual de procedimientos y de estrategias, incluido
aquello que impulsa el escalamiento y los procedimientos que se necesitan para ello.
Por ejemplo, el escalamiento de un problema de los ingenieros de soporte a los ingenieros
sénior de soporte cuando no se puede resolver dicho problema con los manuales de procedimientos
o cuando ha transcurrido un periodo predefinido. Otro ejemplo de una vía de escalamiento
adecuada es el de los ingenieros sénior de soporte al equipo de desarrollo para una
carga de trabajo cuando no se puede identificar una ruta para la corrección con los
manuales de estrategias o cuando ha transcurrido un periodo predefinido. Identifique
propietarios específicos para cada acción y, de esta forma, garantice respuestas efectivas
y rápidas para los eventos operativos. Los escalamientos pueden incluir a terceros.
Por ejemplo, un proveedor de conectividad a la red o un proveedor de software. Los
escalamientos pueden incluir a encargados de la toma de decisiones autorizados identificados
para los sistemas que se vieron afectados.
Habilitar las notificaciones push
Habilitar las notificaciones push:
Comuníquese directamente con los usuarios (por ejemplo, a través de un correo electrónico
o SMS) cuando los servicios que utilizan se vean afectados, así como cuando los servicios
regresen a las condiciones operativas habituales. De esta forma, les permitirá que
tomen las medidas adecuadas.
Amazon SES features
What is Amazon SES?
Set up Amazon SNS notifications
Comunicar su estado a través de paneles
Comunicar su estado a través de paneles:
Proporcione paneles que se ajusten a sus audiencias de destino (por ejemplo, equipos
técnicos internos, líderes y clientes) para comunicar el estado operativo actual de
la empresa y proporcionar métricas de interés. Proporcionar una opción de autoservicio
para obtener información sobre el estado reduce la interrupción de la respuesta de
solicitudes de estado por parte del equipo de operaciones. Algunos ejemplos son los
paneles de Amazon CloudWatch y AWS Personal Health Dashboard.
CloudWatch dashboards create and use customized metrics views
Automatizar las respuestas a eventos
Automatizar las respuestas a eventos:
Automatice las respuestas a eventos para reducir los errores ocasionados por los procesos
manuales, así como para garantizar las respuestas rápidas y coherentes.
What is Amazon CloudWatch Events?
Creating a CloudWatch Events rule that triggers on an event
Creating a CloudWatch Events rule that triggers on an AWS API call using AWS CloudTrail
CloudWatch Events event examples from supported services