此内容已过时。此版本的架构完善的框架现在可在以下位置找到: https://docs.aws.amazon.com/zh_cn/wellarchitected/2022-03-31/framework/operational-excellence.html

OPS 7: 如何知道您已经准备好支持某种工作负载?

评估工作负载、流程及程序和工作人员的操作准备就绪情况,以便了解与工作负载相关的操作风险。

资源

AWS Config
AWS Systems Manager Features

最佳实践:

改进计划

确保员工能力

  • 员工能力: 确认是否有足够的训练有素的人员来有效地支持工作负载。
  • 确保以一致的方式对运营准备就绪情况进行审核

  • 确保以一致的方式对运营准备就绪情况进行审核: 确保您以一致的方式对运营工作负载的准备就绪情况进行审核。审核内容至少必须包括团队和工作负载的就绪情况,以及安全注意事项。审核要素可以是硬性要求,但您也可以做出基于风险的决策来运行不能满足某些要求的工作负载。审核要素可以特定于工作负载、架构,也可以依赖于具体实现。通过代码实施审核,并在适当情况下针对事件触发审核,以便确保一致性、执行速度并减少由手动流程引起的错误。
    AWS Systems Manager
    AWS Config Rules dynamic compliance checking for cloud resources
    How to audit your AWS resources for security compliance by using custom AWS Config Rules
    How to track configuration changes to CloudFormation stacks using AWS Config
    Amazon Inspector update assessment reporting, proxy support, and more
  • 使用运维手册来执行程序

  • 使用运行手册执行标准程序: 运行手册是用来实现特定结果的书面程序。通过在运行手册中记录程序,实现对为人熟知的事件的一致且及时的响应。运维手册必须包含足够熟练的员工实现预期成果所需的最少量信息。例如需要的权限、需要的工具、执行程序受到的约束(例如特定的维护时段)和执行步骤。
  • 使用行动手册调查问题

  • 使用行动手册来发现问题: 管理手册是用于调查问题的书面程序。在行动手册中记录流程,实现对故障场景的一致而及时的响应。行动手册必须包含所需的信息和指导,让技术娴熟的员工能够收集应用程序信息、确定故障的潜在来源、隔离故障,并确定成因(即执行根本原因分析)。
  • 做出明智的决策来部署系统和更改

  • 做出明智的决策来部署工作负载和更改: 评估团队支持工作负载的能力以及工作负载的监管合规性。在决定是否将系统或更改投入生产环境时,将这些与部署的收益进行比较。了解收益和风险,并做出明智的决策。