OPS 9: Come fai a comprendere lo stato delle operazioni?
Definisci, acquisisci e analizza i parametri delle operazioni per ottenere visibilità sugli eventi delle operazioni, in modo da intraprendere le azioni appropriate.
Risorse
Build a Monitoring Plan
Detect and React to Changes in Pipeline State with Amazon CloudWatch Events
AWS Answers: Centralized Logging
Best practice:
-
Identificazione degli indicatori chiave delle prestazioni: Identifica gli indicatori chiave delle prestazioni (KPI) in base all'obiettivo desiderato (ad esempio, fornitura di nuove caratteristiche) e ai risultati dei clienti (ad esempio, casi del servizio clienti). Valuta i KPI per determinare il successo delle operazioni.
-
Definizione dei parametri delle operazioni: Definisci i parametri delle operazioni per misurare il raggiungimento dei KPI (ad esempio, distribuzioni riuscite e distribuzioni non riuscite). Definisci i parametri delle operazioni per misurare lo stato delle attività operative (ad esempio, tempo medio per rilevare un incidente (MTTD) e tempo medio per il ripristino (MTTR) in seguito a un incidente). Valuta i parametri per stabilire se le operazioni raggiungono i risultati previsti e per comprendere lo stato delle loro attività.
-
Raccolta e analisi dei parametri delle operazioni: Esegui regolarmente revisioni proattive dei parametri per identificare le tendenze e stabilire dove sono necessarie risposte adeguate.
-
Definizione delle baseline per i parametri delle operazioni: Definisci le baseline per i parametri in modo da fornire i valori previsti di base per il confronto e l'identificazione delle attività operative con prestazioni basse e alte.
-
Acquisizione dei modelli di attività previsti per le operazioni: Definisci modelli di attività operative per identificare comportamenti anomali in modo da rispondere in modo appropriato, se necessario.
-
Attivazione di un avviso quando i risultati delle operazioni sono a rischio: Attiva un avviso quando i risultati delle operazioni sono a rischio in modo da poter rispondere adeguatamente, se necessario.
-
Attivazione di un avviso quando vengono rilevate delle anomalie nelle operazioni: Attiva un avviso quando vengono rilevate delle anomalie nelle operazioni in modo da poter rispondere adeguatamente, se necessario.
-
Convalida del raggiungimento dei risultati e dell'efficacia dei KPI e dei parametri : Crea una vista a livello di business delle attività operative, per stabilire se le esigenze sono soddisfatte e per identificare gli aspetti da migliorare per raggiungere gli obiettivi di business. Convalida l'efficacia dei KPI e dei parametri e rivedili, se necessario.
Piano di miglioramento
Identificazione degli indicatori chiave delle prestazioni
Definizione dei parametri delle operazioni
Publish custom metrics
Searching and filtering log data
Amazon CloudWatch metrics and dimensions reference
Raccolta e analisi dei parametri delle operazioni
Using Amazon CloudWatch metrics
Amazon CloudWatch metrics and dimensions reference
Collect metrics and logs from Amazon EC2 instances and on-premises servers with the CloudWatch Agent
Definizione delle baseline per i parametri delle operazioni
Acquisizione dei modelli di attività previsti per le operazioni
Attivazione di un avviso quando i risultati delle operazioni sono a rischio
What is Amazon CloudWatch Events?
Creating Amazon CloudWatch alarms
Invoking Lambda functions using Amazon SNS notifications
Attivazione di un avviso quando vengono rilevate delle anomalie nelle operazioni
What is Amazon CloudWatch Events?
Creating Amazon CloudWatch alarms
Invoking Lambda functions using Amazon SNS notifications
Convalida del raggiungimento dei risultati e dell'efficacia dei KPI e dei parametri
Using Amazon CloudWatch dashboards
What is log analytics?