Esse conteúdo está desatualizado. Esta versão da Well-Architected Framework agora pode ser encontrada em: https://docs.aws.amazon.com/pt_br/wellarchitected/2022-03-31/framework/reliability.html

REL 11: Como você projeta sua carga de trabalho para resistir a falhas de componentes?

As cargas de trabalho que exigem alta disponibilidade e baixo Mean Time To Recovery (MTTR – Tempo médio até a recuperação) devem ser projetadas visando a resiliência.

Recursos

Static stability in AWS: AWS re:Invent 2019: Introducing The Amazon Builders’ Library (DOP328)
AWS OpsWorks: Using Auto Healing to Replace Failed Instances
What Is Amazon EventBridge?
Amazon Route 53: Choosing a Routing Policy
What Is AWS Global Accelerator?
The Amazon Builders' Library: Static stability using Availability Zones
The Amazon Builders' Library: Implementing health checks
Well-Architected lab: Level 300: Implementing Health Checks and Managing Dependencies to Improve Reliability
The Berkeley/Stanford Recovery-Oriented Computing (ROC) Project
Multiple data center HA network connectivity
AWS Marketplace: products that can be used for fault tolerance
APN Partner: partners that can help with automation of your fault tolerance

Melhores práticas:

Plano de melhoria

Monitore todos os componentes da carga de trabalho para detectar falhas

  • Determine o intervalo de coleta dos componentes com base nas suas metas de recuperação.
  • Configure o monitoramento detalhado dos componentes.
  • Crie métricas personalizadas para medir os KPIs de negócios : As cargas de trabalho implementam as principais funções de negócios. Essas funções devem ser usadas como KPIs que ajudam a identificar quando ocorre um problema indireto.
    Publishing Custom Metrics
  • Utilize os canários de usuário para monitorar a experiência do usuário e verificar se há falhas: O teste de transações sintéticas (também conhecido como “teste canário”, que não deve ser confundido com as implantações canário) que pode executar e simular o comportamento do cliente está entre os processos de teste mais importantes. Execute esses testes constantemente nos endpoints da carga de trabalho de diversos locais remotos.
    Amazon CloudWatch Synthetics enables you to create user canaries
  • Crie métricas personalizadas que acompanhem a experiência do usuário: Se você puder estabelecer instrumentos de medição da experiência do cliente, conseguirá determinar o momento de degradação da experiência do consumidor.
    Publishing Custom Metrics
  • Defina alarmes para detectar quando uma parte da carga de trabalho não estiver funcionando corretamente e indicar quando deve ser feita a escalabilidade automática dos recursos. : É possível exibir os alarmes em painéis, enviar alertas pelo SNS ou por e-mail e trabalhar com Auto Scaling para expandir ou reduzir os recursos de uma carga de trabalho.
    Using Amazon CloudWatch Alarms
  • Crie painéis para visualizar as métricas: É possível usar os painéis para ver as tendências, os casos atípicos e outros indicadores de possíveis problemas ou para obter uma indicação de problemas a serem investigados.
    Using CloudWatch Dashboards
  • Failover para recursos íntegros

  • Failover para recursos íntegros: Verifique se, caso ocorra uma falha de recurso, os recursos íntegros podem continuar atendendo às solicitações. Para falhas de localização (como zona de disponibilidade ou região da AWS), garanta que você tenha sistemas implementados para executar failover para recursos íntegros em locais sem problemas.
  • Automatize a reparação em todas as camadas

  • Use os grupos de Auto Scaling para implantar níveis em um aplicativo: O Auto Scaling pode executar a autorreparação em aplicativos sem estado e adicionar e remover capacidade.
    How AWS Auto Scaling Works
  • Implemente a recuperação automática em instâncias do EC2 que tenham aplicativos implantados que não possam ser implantados em vários locais e possam tolerar a reinicialização em caso de falhas. : É possível usar a recuperação automática para substituir o hardware com falha e reiniciar a instância quando o aplicativo não puder ser implantado em vários locais. Os metadados e os endereços IP associados da instância são mantidos, assim como os volumes e pontos de montagem do Amazon EBS para Elastic File Systems ou File Systems for Lustre e Windows.
    Amazon EC2 Automatic Recovery
    Amazon Elastic Block Store (Amazon EBS)
    Amazon Elastic File System (Amazon EFS)
    What is Amazon FSx for Lustre?
    What is Amazon FSx for Windows File Server?
  • Implemente a recuperação automatizada por meio do AWS Step Functions e do AWS Lambda quando não for possível usar a escalabilidade ou a recuperação automáticas, ou quando a recuperação automática falhar. : Quando você não pode usar a escalabilidade nem a recuperação automática ou quando a recuperação automática falha, é possível automatizar a reparação por meio do AWS Step Functions e do AWS Lambda.
    What is AWS Step Functions?
    What is AWS Lambda?
  • Use a estabilidade estática para evitar o comportamento bimodal

  • Use a estabilidade estática para evitar o comportamento bimodal: O comportamento bimodal é quando a carga de trabalho apresenta um comportamento diferente nos modos normal e de falha, por exemplo, depender da execução de novas instâncias se uma zona de disponibilidade falhar
    The Amazon Builders' Library: Static stability using Availability Zones
    Static stability in AWS: AWS re:Invent 2019: Introducing The Amazon Builders’ Library (DOP328)
  • Envie notificações quando os eventos afetarem a disponibilidade

  • Alarmes de indicadores-chave de performance de negócios quando ultrapassam um limite baixo: A definição de um alarme de limite baixo nos KPIs de negócios ajuda você a saber quando sua carga de trabalho está indisponível ou inoperante.
    Creating a CloudWatch Alarm Based on a Static Threshold
  • Alarme de eventos que invocam a automação de reparação: Você pode invocar diretamente uma API do SNS para enviar notificações com qualquer automação criada.
    What is Amazon Simple Notification Service?