OPS 7: 如何知道您已经准备好支持某种工作负载?
评估工作负载、流程及程序和工作人员的操作准备就绪情况,以便了解与工作负载相关的操作风险。
资源
AWS Config
AWS Systems Manager Features
最佳实践:
-
确保员工能力: 通过一种机制来验证您是否有适当数量技术娴熟的员工来提供对运营需求的支持。根据需要进行员工培训并调整人员产能,以便保持有效的支持。
-
确保以一致的方式对运营准备就绪情况进行审核: 确保您以一致的方式对运营工作负载的准备就绪情况进行审核。审核内容必须至少包括团队和工作负载的运营就绪情况,以及是否符合安全要求。以代码方式开展审核,针对事件触发自动审核,以便确保一致性、执行速度,并减少由手动流程引起的错误。
-
使用运维手册来执行程序: 运行手册是用来实现特定结果的书面程序。通过在运行手册中记录程序,实现对为人熟知的事件的一致且及时的响应。通过代码实施运行手册,并在适当情况下针对事件触发运行手册的执行,以便确保一致性、响应速度并减少由手动流程引起的错误。
-
使用行动手册调查问题: 通过在行动手册中记录调查流程,对不熟悉的问题做出一致而及时的响应。行动手册是在确定哪些因素导致故障场景时要执行的预定义步骤。所有流程步骤的结果都将用于确定要采取的后续步骤,直到问题得到确定或上报。
-
做出明智的决策来部署系统和更改: 评估团队支持工作负载的能力以及工作负载的监管合规性。在决定是否将系统或更改投入生产环境时,将这些与部署的收益进行比较。了解收益和风险,以便做出明智的决策。
改进计划
确保员工能力
- 团队规模: 确保您拥有足够的团队成员来执行运行活动,以及待命。
- 团队技能: 确保您的团队成员接受了足够的 AWS、工作负载及运营工具的培训,以履行其职责。
AWS Events and Webinars
Welcome to AWS Training and Certification - 了解能力: 在操作环境和工作负载发生变化时查看团队规模和技能,以确保有足够的能力保持卓越运营。进行适当调整,以确保团队规模和技能与团队所支持的工作负载的操作要求相匹配。
确保以一致的方式对运营准备就绪情况进行审核
AWS Systems Manager
AWS Config Rules dynamic compliance checking for cloud resources
How to audit your AWS resources for security compliance by using custom AWS Config Rules
How to track configuration changes to CloudFormation stacks using AWS Config
Amazon Inspector update assessment reporting, proxy support, and more
- 创建检查清单: 确保您以一致的方式对运营工作负载的准备就绪情况进行审核。创建操作准备就绪检查清单,并对照您的业务、开发、运营和监管需求对其进行验证。确保涵盖以下所有方面:监管、最佳实践、配置标准、恢复程序、监控、维护程序、IT 操作程序和人员配置。
- 使用检查清单: 为开发人员提供检查清单,以便他们按照适当标准进行开发。在生命周期阶段和环境发生变化时评估检查清单,以便在修复问题的难度较低时及早发现问题。在考虑将更改应用到环境中时,根据检查清单的结果针对收益和风险制定明智的决策。
- 通过代码实施检查清单,并针对事件触发检查清单的执行:
通过代码实施检查清单,并在适当情况下针对事件触发执行检查清单,以便加快速度、确保一致性并减少由手动流程引起的错误。将自动检查清单执行集成到部署管道中。
AWS Config
What is AWS Config?
AWS Config: evaluating resources with Rules
使用运维手册来执行程序
- 通过代码实施运维手册:
通过代码实施运维手册,从而通过代码执行运营,以便确保一致性并减少由手动流程引起的错误
AWS Systems Manager Run Command
AWS Systems Manager Automation
What is AWS Lambda? - 触发运维手册以便响应事件:
在适当情况下触发运维手册代码的执行,以便响应发现的事件。这可以加快响应速度并减少响应工作量。
What is Amazon CloudWatch Events?
Creating a CloudWatch Events rule that triggers on an event
Creating a CloudWatch Events rule that triggers on an AWS API call using AWS CloudTrail
CloudWatch Events event examples from supported services
Using Amazon CloudWatch Alarms
使用行动手册调查问题
- 以代码形式实施行动手册:
为行动手册编写脚本,以代码形式执行运营,以确保一致性并减少由手动流程引起的错误。行动手册可以由代表不同步骤的多个脚本组成,这些步骤可能是确定问题成因所必需的。系统可能会在运行手册活动过程中触发或执行行动手册,也可能针对响应发现的事件而提示执行行动手册。
Automate your operational playbooks with AWS Systems Manager
AWS Systems Manager Run Command
AWS Systems Manager Automation
What is AWS Lambda?
What is Amazon CloudWatch Events?
Using Amazon CloudWatch Alarms
做出明智的决策来部署系统和更改