Live:CloudOps Webinars & Hands-on Workshops ·Register ↗
跳到主要内容

使用 AWS 开源服务进行跨账户监控

简介

现代云环境通常跨越多个账户并包含本地基础设施,这带来了复杂的监控挑战。为了应对这些挑战,可以使用 AWS 服务和行业标准工具实施复杂的监控架构。该架构能够全面了解不同环境,促进高效管理和快速问题解决。

核心组件

该监控解决方案的核心是 AWS Distro for OpenTelemetry (ADOT),它作为来自各种来源的 metrics 的集中收集点。ADOT 部署在专用的中央 AWS 账户中,构成监控基础设施的中枢。这种集中部署实现了精简的数据聚合和处理。

Amazon Managed Service for Prometheus 是另一个关键组件,提供可扩展的托管时间序列数据库来存储收集的 metrics。该服务消除了自管理 Prometheus 实例的需求,减少了运维开销并确保 metrics 数据的高可用性。

对于可视化和分析,Grafana 被集成到架构中。Grafana 连接到 Amazon Managed Service for Prometheus,提供强大的查询功能和可定制的 dashboard。这使团队能够创建有洞察力的可视化并根据收集的 metrics 设置告警。

multiaccount AMP 图 1: 使用 AWS 开源服务进行多账户监控

数据收集和流转

该架构支持从多个 AWS 账户(称为被监控账户)收集数据。这些账户使用 OpenTelemetry Protocol (OTLP) 将其 metrics 导出到中央 ADOT 实例。这种标准化方法确保了数据格式的一致性,并便于将新账户轻松集成到监控设置中。

本地基础设施也被纳入此监控解决方案。这些系统使用安全的 HTTPS POST 请求将其 metrics 数据发送到中央 ADOT 实例。此方法允许将遗留系统或非云系统纳入整体监控策略,提供对整个 IT 环境的全面视图。

数据到达中央 ADOT 实例后,会被处理并使用 Prometheus remote write 协议转发到 Amazon Managed Service for Prometheus。这一步确保所有收集的 metrics 以优化的时间序列数据格式存储,实现高效的查询和分析。

优势和注意事项

该架构提供了几个关键优势。它提供了来自不同来源的 metrics 的集中视图,支持对复杂环境进行整体监控。使用托管服务减少了团队的运维负担,使他们能够专注于分析而非基础设施维护。此外,该架构具有高度可扩展性,能够适应被监控系统数量和收集的 metrics 量的增长。

然而,实施此架构也需要考虑一些因素。解决方案的集中化特性意味着中央账户中的监控基础设施变得至关重要,需要仔细规划高可用性和灾难恢复。跨账户数据传输和托管服务使用也可能产生成本影响,需要在预算决策中加以考虑。

安全性是另一个需要考虑的重要方面。必须设置适当的 IAM 角色和权限以允许安全的跨账户 metrics 收集。对于本地系统,确保安全且经过认证的 HTTPS 连接对于维护监控数据的完整性和机密性至关重要。

结论

这种高级 AWS 云监控架构为拥有复杂的多账户和混合基础设施环境的组织提供了强大的解决方案。通过利用 AWS 托管服务和 OpenTelemetry、Grafana 等行业标准工具,它提供了可扩展且强大的监控解决方案。虽然需要仔细规划和管理才能有效实施,但全面可见性和集中监控的优势使其成为现代云原生和混合环境的有价值方法。

该架构的灵活性使其能够适应各种组织需求,并可随监控需求的变化而演进。随着云环境复杂性的持续增长,拥有这样一个集中且全面的监控解决方案对于维护卓越运营和确保所有基础设施组件的最佳性能变得越来越重要。