此内容已过时。此版本的架构完善的框架现在可在以下位置找到: https://docs.aws.amazon.com/zh_cn/wellarchitected/2022-03-31/framework/performance-efficiency.html

PERF 7: 如何监控资源以确保其性能?

系统性能会随着时间的推移而降低。监控系统性能,以发现性能降低的情况,并针对内部或外部因素(例如操作系统或应用程序负载)采取修复措施。

资源

Cut through the chaos: Gain operational visibility and insight (MGT301-R1)
X-Ray Documentation
CloudWatch Documentation
Monitoring, Logging, and Performance APN Partners

最佳实践:

改进计划

记录与性能相关的指标

  • 记录性能数据: 确定与工作负载相关的性能指标并记录下来。这些数据可以帮助确定哪些组件会影响工作负载的整体性能或效率。
  • 确定性能指标: 根据客户体验来确定最重要的指标。确定每个指标的目标、衡量方式和优先程度。根据这些数据创建告警和通知,以主动解决与性能相关的问题。
  • 在发生事件或意外事件时分析各项指标

  • 优先考虑重要用户案例的体验问题: 针对架构编写重要用户案例时,请纳入性能要求,例如指定每个重要案例应以多快速度执行。对于这些重要案例,实施额外的脚本用户历程,以确保您知道这些用户案例如何根据您的要求执行。
  • 建立关键性能指标 (KPI) 来衡量工作负载性能

  • 定义客户体验: 记录客户要求的性能体验,包括客户对工作负载性能的评价。根据这些要求确定您的 KPI,用于指示系统的整体性能情况。
  • 测试用户体验: 使用合成或净化的生产数据(删除敏感信息或身份识别信息)进行负载测试。在应用程序中大规模使用重演或预先编程的用户体验,从而演练整个架构。
  • 借助监控来生成基于告警的通知

  • 监控指标: Amazon CloudWatch 可以收集架构中各种资源的指标。您可以收集和发布自定义指标,用于显示业务指标或派生指标。可以使用 CloudWatch 或第三方监控服务来设置超出阈值时显示的警报。
  • 定期检查指标

  • 不断改进指标收集和监控: 在响应意外事件或事件的过程中,评估哪些指标有助于解决问题、哪些目前没有跟踪的指标会有助于解决问题。通过这种方法,您可以提高收集的指标的质量,从而预防或更快速地解决未来发生的意外事件。
  • 主动监控和警报

  • 在运行期间监控性能: 实施相应流程,让您在工作负载运行期间了解其性能。构建监控控制面板并建立性能预期基准。