Live:CloudOps Webinars & Hands-on Workshops ·Register ↗
跳到主要内容

AIOps

利用 AI 和机器学习增强云运营——异常检测、自动化根因分析、预测性告警和智能修复。

用于 AIOps 的 AWS 服务

最佳实践

  • 先从关键业务 metrics 的异常检测开始,再扩展到基础设施
  • 使用复合告警来减少单个基于 ML 的检测器产生的噪音
  • 将 AIOps 信号与人工判断相结合——使用 ML 来发现问题,而不是在没有审核的情况下自动修复关键系统
  • 将运维手册和历史事件数据输入系统,以改善 AI 辅助调查的效果