Esse conteúdo está desatualizado. Esta versão da Well-Architected Framework agora pode ser encontrada em: https://docs.aws.amazon.com/pt_br/wellarchitected/2022-03-31/framework/reliability.html

REL 11: Como você projeta sua carga de trabalho para resistir a falhas de componentes?

As cargas de trabalho que exigem alta disponibilidade e baixo Mean Time To Recovery (MTTR – Tempo médio até a recuperação) devem ser projetadas visando a resiliência.

Recursos

Static stability in AWS: AWS re:Invent 2019: Introducing The Amazon Builders’ Library (DOP328)
AWS OpsWorks: Using Auto Healing to Replace Failed Instances
What Is Amazon EventBridge?
Amazon Route 53: Choosing a Routing Policy
What Is AWS Global Accelerator?
The Amazon Builders' Library: Static stability using Availability Zones
The Amazon Builders' Library: Implementing health checks
Well-Architected lab: Level 300: Implementing Health Checks and Managing Dependencies to Improve Reliability
The Berkeley/Stanford Recovery-Oriented Computing (ROC) Project
Multiple data center HA network connectivity
AWS Marketplace: products that can be used for fault tolerance
APN Partner: partners that can help with automation of your fault tolerance

Melhores práticas:

Monitore todos os componentes da carga de trabalho para detectar falhas: Monitore constantemente a integridade da carga de trabalho para que você e seus sistemas automatizados detectem degradações ou falhas completas assim que elas ocorrerem. Monitore os Key Performance Indicators (KPIs – Indicadores-chave de performance) com base no valor empresarial.
Failover para recursos íntegros: Verifique se, caso ocorra uma falha de recurso, os recursos íntegros podem continuar atendendo às solicitações. Para falhas de localização (como zona de disponibilidade ou região da AWS), garanta que você tenha sistemas implementados para executar failover para recursos íntegros em locais sem problemas.
Automatize a reparação em todas as camadas: Após a detecção de uma falha, use recursos automatizados para executar ações de correção.
Use a estabilidade estática para evitar o comportamento bimodal: O comportamento bimodal é quando a carga de trabalho apresenta um comportamento diferente nos modos normal e de falha, por exemplo, depender da execução de novas instâncias se uma zona de disponibilidade falhar. Em vez disso, você deve criar cargas de trabalho que sejam estaticamente estáveis e que operem em apenas um modo. Nesse caso, provisione instâncias suficientes em cada zona de disponibilidade para processar a carga de trabalho se uma AZ foi removida e use as verificações de integridade do Elastic Load Balancing ou do Amazon Route 53 para remover a carga das instâncias danificadas.
Envie notificações quando os eventos afetarem a disponibilidade: As notificações são enviadas após a detecção de eventos significativos, mesmo que o problema causado pelo evento tenha sido resolvido automaticamente.

Plano de melhoria

Monitore todos os componentes da carga de trabalho para detectar falhas

Determine o intervalo de coleta dos componentes com base nas suas metas de recuperação.

O intervalo de monitoramento depende da rapidez com que você precisa fazer a recuperação: O tempo de recuperação é determinado pelo tempo necessário para a recuperação. Desse modo, você deve considerar esse tempo e o RTO para determinar a frequência da coleta.

Configure o monitoramento detalhado dos componentes.

Determine se o monitoramento detalhado das instâncias do EC2 e do Auto Scaling é necessário: O monitoramento detalhado inclui métricas de intervalo de 1 minuto, e o monitoramento padrão inclui métricas de intervalo de 5 minutos.
Enable or Disable Detailed Monitoring for Your Instance
Monitoring Your Auto Scaling Groups and Instances Using Amazon CloudWatch
Determine se o monitoramento avançado para RDS é necessário: O monitoramento avançado usa um agente nas instâncias do RDS para obter informações úteis sobre processos ou threads diferentes em uma instância do RDS.
Enhanced Monitoring

Crie métricas personalizadas para medir os KPIs de negócios : As cargas de trabalho implementam as principais funções de negócios. Essas funções devem ser usadas como KPIs que ajudam a identificar quando ocorre um problema indireto.
Publishing Custom Metrics

Utilize os canários de usuário para monitorar a experiência do usuário e verificar se há falhas: O teste de transações sintéticas (também conhecido como “teste canário”, que não deve ser confundido com as implantações canário) que pode executar e simular o comportamento do cliente está entre os processos de teste mais importantes. Execute esses testes constantemente nos endpoints da carga de trabalho de diversos locais remotos.
Amazon CloudWatch Synthetics enables you to create user canaries

Crie métricas personalizadas que acompanhem a experiência do usuário: Se você puder estabelecer instrumentos de medição da experiência do cliente, conseguirá determinar o momento de degradação da experiência do consumidor.
Publishing Custom Metrics

Defina alarmes para detectar quando uma parte da carga de trabalho não estiver funcionando corretamente e indicar quando deve ser feita a escalabilidade automática dos recursos. : É possível exibir os alarmes em painéis, enviar alertas pelo SNS ou por e-mail e trabalhar com Auto Scaling para expandir ou reduzir os recursos de uma carga de trabalho.
Using Amazon CloudWatch Alarms

Crie painéis para visualizar as métricas: É possível usar os painéis para ver as tendências, os casos atípicos e outros indicadores de possíveis problemas ou para obter uma indicação de problemas a serem investigados.
Using CloudWatch Dashboards

Failover para recursos íntegros

Failover para recursos íntegros: Verifique se, caso ocorra uma falha de recurso, os recursos íntegros podem continuar atendendo às solicitações. Para falhas de localização (como zona de disponibilidade ou região da AWS), garanta que você tenha sistemas implementados para executar failover para recursos íntegros em locais sem problemas.

Se a carga de trabalho estiver usando serviços da AWS, como o Amazon S3 ou o Amazon DynamoDB, ela será implantada automaticamente em várias zonas de disponibilidade. Em caso de falha, o plano de controle da AWS roteia automaticamente o tráfego para locais íntegros.
Para o Amazon RDS, você deve escolher Multi-AZ como opção de configuração e, em caso de falha, a AWS direcionará automaticamente o tráfego para a instância íntegra.
High Availability (Multi-AZ) for Amazon RDS
Para as instâncias do Amazon EC2 ou as tarefas do Amazon ECS, você escolhe em quais zonas de disponibilidade fazer a implantação. Em seguida, o Elastic Load Balancing fornece a solução para detectar as instâncias nas zonas com problemas de integridade e rotear o tráfego para as instâncias íntegras. O Elastic Load Balancing pode até mesmo rotear o tráfego para componentes no seu datacenter no local.
TRANSLATION REQUIRED
- TRANSLATION REQUIRED
  Overview of Amazon RDS Read Replicas
- TRANSLATION REQUIRED
  Amazon Route 53: Choosing a Routing Policy
  What Is AWS Global Accelerator?

Automatize a reparação em todas as camadas

Use os grupos de Auto Scaling para implantar níveis em um aplicativo: O Auto Scaling pode executar a autorreparação em aplicativos sem estado e adicionar e remover capacidade.
How AWS Auto Scaling Works

Implemente a recuperação automática em instâncias do EC2 que tenham aplicativos implantados que não possam ser implantados em vários locais e possam tolerar a reinicialização em caso de falhas. : É possível usar a recuperação automática para substituir o hardware com falha e reiniciar a instância quando o aplicativo não puder ser implantado em vários locais. Os metadados e os endereços IP associados da instância são mantidos, assim como os volumes e pontos de montagem do Amazon EBS para Elastic File Systems ou File Systems for Lustre e Windows.
Amazon EC2 Automatic Recovery
Amazon Elastic Block Store (Amazon EBS)
Amazon Elastic File System (Amazon EFS)
What is Amazon FSx for Lustre?
What is Amazon FSx for Windows File Server?

Ao usar o AWS OpsWorks, você pode configurar a autorreparação de instâncias do EC2 no nível da camada
AWS OpsWorks: Using Auto Healing to Replace Failed Instances

Implemente a recuperação automatizada por meio do AWS Step Functions e do AWS Lambda quando não for possível usar a escalabilidade ou a recuperação automáticas, ou quando a recuperação automática falhar. : Quando você não pode usar a escalabilidade nem a recuperação automática ou quando a recuperação automática falha, é possível automatizar a reparação por meio do AWS Step Functions e do AWS Lambda.
What is AWS Step Functions?
What is AWS Lambda?

É possível usar o Amazon EventBridge para monitorar e filtrar eventos, como alarmes do CloudWatch, ou alterações no estado de outros serviços da AWS. Com base nas informações do evento, ele pode acionar o AWS Lambda (ou outros destinos) para executar a lógica de correção personalizada na carga de trabalho.
What Is Amazon EventBridge?
Using Amazon CloudWatch Alarms

Use a estabilidade estática para evitar o comportamento bimodal

Use a estabilidade estática para evitar o comportamento bimodal: O comportamento bimodal é quando a carga de trabalho apresenta um comportamento diferente nos modos normal e de falha, por exemplo, depender da execução de novas instâncias se uma zona de disponibilidade falhar
The Amazon Builders' Library: Static stability using Availability Zones
Static stability in AWS: AWS re:Invent 2019: Introducing The Amazon Builders’ Library (DOP328)

Em vez disso, você deve criar sistemas que sejam estaticamente estáveis e que operem em apenas um modo. Nesse caso, provisione instâncias suficientes em cada zona para processar a carga de trabalho se uma AZ foi removida e use as verificações de integridade do Elastic Load Balancing ou do Amazon Route 53 para remover a carga das instâncias danificadas.
Outro exemplo de comportamento bimodal é permitir que os clientes ignorem o cache da carga de trabalho em caso de falhas. Isso pode parecer uma solução para acomodar as necessidades do cliente, mas não deve ser permitido porque altera significativamente as demandas em sua carga de trabalho e pode resultar em falhas.

Envie notificações quando os eventos afetarem a disponibilidade

Alarmes de indicadores-chave de performance de negócios quando ultrapassam um limite baixo: A definição de um alarme de limite baixo nos KPIs de negócios ajuda você a saber quando sua carga de trabalho está indisponível ou inoperante.
Creating a CloudWatch Alarm Based on a Static Threshold

Alarme de eventos que invocam a automação de reparação: Você pode invocar diretamente uma API do SNS para enviar notificações com qualquer automação criada.
What is Amazon Simple Notification Service?