AWS オブザーバビリティ成熟度モデル

はじめに

その核心において、オブザーバビリティとは、システムの外部出力を分析することで、システムの内部状態を理解し、洞察を得る能力です。この概念は、事前定義されたメトリクスやイベントに焦点を当てた従来の監視アプローチから、環境内のさまざまなコンポーネントによって生成されるデータの収集、分析、可視化を包含する、より全体的なアプローチへと進化してきました。システムは、観察されない限り、制御または最適化することはできません。効果的なオブザーバビリティ戦略により、チームは問題を迅速に特定して解決し、リソース使用量を最適化し、システム全体の健全性に関する洞察を得ることができます。オブザーバビリティは、問題を効率的に検出、調査、修復する能力を提供し、全体的な運用可用性とワークロードの健全性を向上させることができ、また向上させるべきです。

Why Observability

モニタリングとオブザーバビリティの違いは、モニタリングはシステムが動作しているかどうかを示すのに対し、オブザーバビリティはシステムが動作していない理由を示すという点です。モニタリングは通常、事後対応的な手段であるのに対し、オブザーバビリティの目標は、主要業績評価指標 (KPI) を事前対応的な方法で改善できるようにすることです。継続的なモニタリングとオブザーバビリティにより、俊敏性が向上し、カスタマーエクスペリエンスが改善され、クラウド環境におけるリスクが軽減されます。

オブザーバビリティ成熟度モデル

オブザーバビリティ成熟度モデルは、ワークロードのオブザーバビリティと管理プロセスを最適化しようとする組織にとって不可欠なフレームワークとして機能します。このモデルは、企業が現在の能力を評価し、改善すべき領域を特定し、最適なオブザーバビリティを実現するために適切なツールとプロセスに戦略的に投資するための包括的なロードマップを提供します。クラウドコンピューティング、マイクロサービス、エフェメラルで分散されたシステムの時代において、オブザーバビリティはデジタルサービスの信頼性とパフォーマンスを確保するための重要な要素となっています。オブザーバビリティを向上させるための構造化されたアプローチを提供することで、このモデルは組織がシステムに対するより深い理解と制御を獲得することを可能にし、より回復力があり、効率的で、高性能なビジネスへの道を開きます。

成熟度モデルのステージ

組織がワークロードを拡大するにつれて、オブザーバビリティ成熟度モデルも成熟することが期待されます。しかし、オブザーバビリティ成熟度への道のりは、必ずしもワークロードとともに成長するわけではありません。この目的は、お客様が組織の能力を拡大および成長させる際に、必要な成熟度レベルを達成できるよう支援することです。

オブザーバビリティ成熟度モデルの最初の段階では、通常、組織の現在の状態についてベースラインとなる理解を確立することが含まれます。これには、既存の監視ツールとプロセスの評価、および可視性や機能のギャップの特定が含まれます。この段階では、組織は現在の能力を把握し、エンジニアリングサイクルの初期段階から始めて、改善のための現実的な目標を設定できます。
次の段階では、組織は高度なオブザーバビリティ戦略とサービスを採用することで、より洗練されたアプローチに移行します。これには、プロアクティブなアラート、分散トレーシングの実装が含まれ、異なるシステム間の相互作用に関する洞察を得ることができます。これにより、組織は可視性の向上、認知負荷の軽減、より効率的なトラブルシューティングといったメリットを享受し始めることができます。
企業がオブザーバビリティ成熟度モデルの第 3 段階を進むにつれて、自動修復、人工知能、機械学習技術などの追加機能を活用して、異常検出と根本原因分析を自動化できます。これらの高度な機能により、組織は問題を検出するだけでなく、エンドユーザーに影響を与えたり、ビジネスオペレーションを中断したりする前に是正措置を講じることができます。オブザーバビリティツールをインシデント管理プラットフォームなどの他の重要なシステムと統合することで、組織はインシデント対応プロセスを合理化し、問題解決にかかる時間を最小限に抑えることができます。
オブザーバビリティ成熟度モデルの最終段階では、モニタリングおよびオブザーバビリティツールによって生成される豊富なデータを活用して、継続的な改善を推進します。これには、高度な分析を使用してワークロードパフォーマンスのパターンや傾向を特定することや、この情報をエンジニアリングおよび運用プロセスにフィードバックして、リソース割り当て、アーキテクチャ、デプロイ戦略を最適化することが含まれます。

Observability maturity model stages

ステージ 1: 基礎的なモニタリング - テレメトリデータの収集

最低限のものとして採用され、サイロ化された状態で運用される基本的なモニタリングには、組織内のシステムやワークロード全体を監視するために何が必要かという明確な戦略がありません。ほとんどの場合、アプリケーション所有者、Network Operations Center (NOC)、CloudOps、DevOps チームなどの異なるチームが、それぞれの監視ニーズに対して異なるツールを使用しているため、このアプローチは環境全体のデバッグや最適化という観点ではほとんど価値がありません。

通常、この段階のお客様は、ワークロードを監視するための異なるソリューションを使用しています。異なるチームが、他のチームとの連携がないか限定的であるため、ほとんどの場合、同じデータを異なる方法で収集しています。チームは、取得したデータを使用して、必要なものを最適化する傾向があります。また、他のチームから取得したデータは異なる形式である可能性があるため、チームは互いのデータを使用できません。重要なワークロードを特定する計画を作成し、オブザーバビリティのための統合ソリューションを目指し、メトリクスとログを定義することが、このレベルにおける重要な側面です。ワークロードが提供する重要なテレメトリをキャプチャするようにワークロードを設計することは、その内部状態とワークロードの健全性を理解するために必要です。

成熟度レベルの向上に向けた基盤を構築するために、メトリクス、ログ、トレースの収集を通じてワークロードを計装し、適切なモニタリングおよびオブザーバビリティツールを使用して有意義なインサイトを得ることで、お客様は環境を制御および最適化できます。計装とは、環境から主要なデータを測定、追跡、キャプチャし、ワークロードの動作とパフォーマンスを観察するために使用できるようにすることを指します。例としては、エラー、成功または失敗したトランザクションなどのアプリケーションメトリクス、CPU やディスクリソースの使用率などのインフラストラクチャメトリクスが挙げられます。

ステージ 2: 中級モニタリング - テレメトリ分析とインサイト

この段階では、お客様はオンプレミスやクラウドなどのさまざまな環境からシグナルを収集する観点で、組織がより明確になっていることを実感します。これらはオブザーバビリティの基礎構造を形成するため、ワークロードからメトリクス、ログ、トレースを収集するメカニズムを考案し、可視化、アラート戦略を作成し、明確に定義された基準に基づいて問題に優先順位を付ける能力も備えています。お客様は、リアクティブに推測するのではなく、必要なアクションを呼び出すワークフローを持ち、関連チームは取得した情報と過去の知識に基づいて分析とトラブルシューティングを行うことができます。このレベルのお客様は、従来型または最新の、高度にスケーラブルで、分散型、アジャイル、マイクロサービスアーキテクチャである可能性がある環境のオブザーバビリティのためのプラクティスを達成することに取り組んでいます。

Observability pillars

ほとんどの場合、モニタリングはうまく機能しているように見えますが、組織は問題のデバッグにより多くの時間を費やす傾向があり、その結果、全体的な平均解決時間 (MTTR) が一貫していないか、一定期間にわたって有意義に改善されていません。また、問題のデバッグに予想以上の認知的時間と労力がかかるため、インシデント対応が長引きます。運用を圧倒するデータ過負荷の状況も発生する傾向があります。ほとんどの企業は、次にどこに進むべきかを認識せずにこの段階に捕らわれていることがわかります。組織を次のレベルに進めるために実行できる具体的なアクションは次のとおりです。1) システムのアーキテクチャ設計を定期的に見直し、影響とダウンタイムを削減するポリシーとプラクティスを展開して、アラートを減らします。2) 実行可能な KPI を定義し、アラートの結果に価値のあるコンテキストを追加し、重大度/緊急度で分類し、さまざまなツールやチームに送信することで、エンジニアが問題をより迅速に解決できるようにし、アラート疲労を防ぎます。

これらのアラートを定期的に分析し、よく繰り返されるアラートに対する修復を自動化します。アラートの結果を関連チームと共有し、運用とプロセスの改善に関するフィードバックを提供します。

異なるエンティティを相関させ、システムのさまざまな部分間の依存関係を理解するのに役立つナレッジグラフを段階的に構築する計画を策定します。これにより、システムへの変更の影響を視覚化し、潜在的な問題を予測して軽減することができます。

ステージ 3: 高度なオブザーバビリティ - 相関と異常検出

この段階では、組織は多くの時間をトラブルシューティングに費やすことなく、問題の根本原因を明確に理解できるようになります。問題が発生すると、アラートは Network Operations Center (NOC)、CloudOps、DevOps チームなどの関連チームに十分なコンテキスト情報を提供します。モニタリングチームはアラートを確認し、メトリクス、ログ、トレースなどのシグナルの相関関係を通じて、問題の根本原因を即座に特定できます。トレースは、リクエストに関するアプリケーションから収集されたデータであり、ツールと組み合わせて使用することで、表示、フィルタリング、インサイトの取得を行い、問題の特定や最適化の機会を見つけることができます。アプリケーションのトレースされたリクエストは、リクエストとレスポンスに関する詳細情報だけでなく、アプリケーションがダウンストリームの AWS リソース、マイクロサービス、データベース、Web API に対して行う呼び出しに関する情報も提供します。トレースを確認し、トレースがキャプチャされた際の対応するログイベントを見つけ、インフラストラクチャとアプリケーションからのメトリクスを確認することで、置かれている状況の 360° ビューを取得できます。

適切なチームは、問題を解決する修正を提供することで、直ちに是正措置を講じることができます。このシナリオでは、MTTR は非常に小さく、Service Level Objectives (SLO) は正常であり、エラーバジェットの消費率は許容範囲内です。通常、このレベルの顧客は、最新のアジャイルで高度にスケーラブルなマイクロサービス環境のオブザーバビリティに関するプラクティスを達成しています。

多くの組織が、オブザーバビリティ環境においてこのレベルの洗練度と成熟度を達成しています。この段階により、組織は複雑なインフラストラクチャをサポートし、高可用性でシステムを運用し、アプリケーションに対してより高いサービスレベル可用性 (SLA) を提供し、信頼性の高いインフラストラクチャを提供することでビジネスイノベーションを達成する能力を既に備えています。また、顧客は異常検出機能を使用して、通常のパターンに一致しない異常や外れ値を監視し、ほぼリアルタイムのアラートメカニズムを備えています。

しかし、このような組織のチームは、常に可能性の限界を超えようとします。チームは、繰り返し発生する問題を理解し、将来発生する可能性のある問題を予測するためにシナリオに対してモデル化できるナレッジベースを作成したいと考えています。これが、顧客が成熟度モデルの次の段階に進む時であり、未知のものに対する洞察を得ることができます。そこに到達するためには、新しいツールが必要であり、データの保存と活用における新しいスキルと技術を特定する必要があります。IT 運用のための人工知能 (AIOps) を活用して、シグナルを自動的に関連付け、根本原因を特定し、過去に収集されたデータを使用してトレーニングされたモデルに基づいて解決計画を作成するシステムを構築できます。

Observability with AIOps

ステージ 4: プロアクティブなオブザーバビリティ - 自動的かつプロアクティブな根本原因の特定

ここでは、Observability データは問題が発生した「後」に使用されるだけでなく、問題が発生する「前」にリアルタイムでデータを活用します。十分にトレーニングされたモデルを使用することで、問題の特定がプロアクティブに行われ、解決がより簡単でシンプルになります。収集されたシグナルを分析することで、モニタリングシステムは自動的に問題に関するインサイトを提供し、問題を解決するための解決オプションを提示することができます。

オブザーバビリティソフトウェアベンダーは、この分野における機能を継続的に拡張しており、Generative AI の普及によってこの動きはさらに加速しています。これにより、このような成熟度レベルの達成を目指す組織は、容易に目標を達成できるようになります。この段階が成熟し、形になると、オブザーバビリティサービスが自動的に動的ダッシュボードを作成できる状況が実現します。ダッシュボードには、目の前の問題に関連する情報のみが含まれるようになります。これにより、実際には重要でないデータのクエリと可視化にかかる時間とコストを節約できます。Generative AI (GenAI) と Machine Learning を実行するためのコンピューティングが日々民主化されることで、プロアクティブな監視機能が現在よりも将来的に一般的になる可能性があります。

データ収集、データ処理、データインサイトと分析のための、さまざまな AWS ネイティブおよびオープンソースソリューションを含む、全体像を提供するオブザーバビリティポートフォリオの概要です。お客様は、エンドツーエンドのオブザーバビリティニーズに適したソリューションを選択して利用できます。

AWS Observability stack

オブザーバビリティのための AWS Well-Architected と Cloud Adoption Framework

組織は AWS Well-Architected と Cloud Adoption Framework を活用して、オブザーバビリティ機能を強化し、クラウド環境を効果的に監視およびトラブルシューティングできます。

AWS Well-Architected と Cloud Adoption Framework for observability は、ワークロードの設計、デプロイ、運用に対する体系的なアプローチを提供し、ベストプラクティスに従うことを保証します。これにより、可用性、システムパフォーマンス、スケーラビリティ、信頼性が向上します。これらのフレームワークは、組織に標準化された一連のプラクティスと規範的なガイダンスを提供し、組織全体でのコラボレーション、知識の共有、一貫したソリューションの実装を容易にします。

効果的に活用するには、組織は AWS Well-Architected フレームワークの柱と呼ばれる主要なコンポーネント（運用上の優秀性、セキュリティ、信頼性、パフォーマンス効率、コスト最適化、持続可能性）を理解する必要があります。これらは、クラウド環境の設計と運用に対する包括的なアプローチを提供します。一方、クラウド導入フレームワークは、ビジネス、人材、ガバナンス、プラットフォームなどの領域に焦点を当てた、クラウド導入への体系的なアプローチを提供します。これらのコンポーネントをオブザーバビリティ要件と整合させることで、組織は堅牢でスケーラブルなワークロードを構築できます。

AWS Well-Architected および Cloud Adoption Framework をオブザーバビリティに実装するには、いくつかのステップが必要です。まず、組織は現在の状態を評価し、改善が必要な領域を特定する必要があります。これは、Observability Maturity Model 評価を実施することで実現できます。この評価では、ワークロードをこれらのフレームワークに照らして評価します。レビューの結果に基づいて、組織はオブザーバビリティの取り組みに優先順位を付け、計画を立てることができます。これには、モニタリングとロギングの要件の定義、適切な AWS サービスの選択、必要なインフラストラクチャとツールの実装が含まれます。最後に、組織は継続的な有効性を確保するために、オブザーバビリティソリューションを継続的にモニタリングし、最適化する必要があります。

また、お客様は AWS Well-Architected Tool を活用できます。これは、AWS Well-Architected Framework のベストプラクティスを使用してワークロードを文書化および測定するための AWS のサービスです。このツールは、AWS Well-Architected Framework の柱を通じてワークロードを測定するための一貫したプロセスを提供し、お客様が行う決定の文書化を支援し、ワークロードを改善するための推奨事項を提供し、ワークロードをより信頼性が高く、安全で、効率的で、コスト効率の良いものにするためのガイダンスを提供します。

評価

Observability Maturity Model の評価を使用して、現在のオブザーバビリティの状態を測定し、改善すべき領域を特定できます。各段階の評価には、さまざまなチーム全体で既存の監視および管理プラクティスを評価し、ギャップと改善すべき領域を特定し、次の段階への全体的な準備状況を判断することが不可欠です。成熟度評価は、ビジネスプロセスの概要、ワークロードのインベントリとツールの検出、現在の課題の特定、組織の優先事項と目標の理解から始まります。

評価は、既存のレイアウトのさらなる開発と最適化の基盤となる、対象となるメトリクスと KPI を特定するのに役立ちます。オブザーバビリティ成熟度モデルの評価は、ビジネスが最新システムの複雑で動的な性質に対処する準備ができていることを確認する上で重要な役割を果たします。これは、システム障害やパフォーマンスの問題につながる可能性のある盲点や弱点の領域を特定するのに役立ちます。

さらに、定期的な評価により、ビジネスの機敏性と適応性を維持できます。進化するテクノロジーや方法論に遅れることなく対応でき、システムが常に最高の効率性と信頼性を保つことが保証されます。

この評価は、AWS のベストプラクティスに照らしてオブザーバビリティ戦略の状態を確認し、改善の機会を特定し、時間の経過とともに進捗状況を追跡するのに役立つように設計されています。以下の質問は、現在のオブザーバビリティ成熟度レベルを評価するのに役立ちます。「AWS Observability Maturity Model Assessment」ツールを使用した評価を無料で実施するには、AWS アカウントチームにお問い合わせください。

ログ

ログをどのように収集しますか？
ログをどのように使用しますか？
ログにどのようにアクセスしますか？
セキュリティおよび規制コンプライアンスのためのログ保持ポリシーは何ですか？
現在、ML/AI 機能を使用していますか？

メトリクス

どのような種類のメトリクスを収集しますか？
メトリクスをどのように使用しますか？
メトリクスにどのようにアクセスしますか？

トレース

トレースをどのように収集しますか？
トレースをどのように使用しますか？

ダッシュボードとアラート

アラームをどのように使用しますか？
ダッシュボードをどのように使用しますか？

組織

エンタープライズオブザーバビリティ戦略はありますか？
SLO をどのように使用していますか？

オブザーバビリティ戦略の構築

組織が自社のオブザーバビリティステージを特定したら、現在のプロセスとツールを最適化する戦略の構築を開始し、成熟度に向けて取り組みを始める必要があります。組織は顧客に優れたカスタマーエクスペリエンスを提供したいと考えているため、まずそれらの顧客要件から始め、そこから逆算して作業を進めます。次に、ステークホルダーと協力します。彼らはそれらの要件を非常によく理解しているからです。オブザーバビリティ戦略を目指すにあたり、組織はまずオブザーバビリティの目標を定義する必要があります。これらの目標は全体的なビジネス目標と整合している必要があり、組織が戦略を通じて達成しようとしていることを明確に示し、オブザーバビリティ計画の構築と実装のためのロードマップを提供する必要があります。

次に、組織はシステムパフォーマンスに関する洞察を提供する主要なメトリクス (KPI) を特定する必要があります。これらは、レイテンシーやエラー率からリソース使用率やトランザクション量まで多岐にわたります。メトリクスの選択は、ビジネスの性質とその特定のニーズに大きく依存することに注意することが重要です。

主要なメトリクスが特定されたら、組織はデータ収集に必要なツールとテクノロジーを決定できます。ツールの選択は、組織の目標との整合性、既存システムとの統合の容易さ、コストの最適化、スケーラビリティの達成、顧客ニーズの充足、および全体的な顧客体験の向上に基づいて行う必要があります。

最後に、組織はオブザーバビリティを重視する文化を奨励する必要があります。これには、チームメンバーにオブザーバビリティの重要性についてトレーニングを行い、システムパフォーマンスを積極的に監視するよう促し、継続的な学習と改善の文化を育成することが含まれます。この戦略により、最高の顧客体験を実現するための収集、アクション、改善の継続的なプロセスの好循環が生まれます。

Observability virtuous cycle

要約すると、オブザーバビリティ戦略を構築するには、3 つの主要な側面を考慮する必要があります。1) 何を収集する必要があるか、2) 観察する必要があるすべてのシステムとワークロードは何か、3) 問題が発生したときにどのように対応するか、およびそれらを修復するためにどのようなメカニズムを配置すべきか。

まとめ

オブザーバビリティ成熟度モデルは、組織が現在の状態を評価し、ワークロードとインフラストラクチャの動作を理解、分析、対応する能力を向上させる方法を模索するためのロードマップとして機能します。現在の能力を評価し、高度な監視技術を採用し、データ駆動型のインサイトを活用するための構造化されたアプローチに従うことで、企業はより高いレベルのオブザーバビリティを達成し、ワークロードとインフラストラクチャについてより多くの情報に基づいた意思決定を行うことができます。このモデルは、組織がさまざまな成熟度レベルを進むために開発する必要がある主要な能力とプラクティスを概説し、最終的にはプロアクティブなオブザーバビリティの利点を完全に活用できる状態に到達します。

役立つリソース

効果的なオブザーバビリティ戦略の構築 - AWS re:Invent 2023
AWS オブザーバビリティのベストプラクティス
オブザーバビリティとは何か、そしてなぜ重要なのか？
オブザーバビリティ戦略を開発する方法
AWS における詳細なアプリケーションオブザーバビリティのガイダンス
Discovery が AWS オブザーバビリティで運用効率を向上させた方法 - AWS re:Invent 2022
オブザーバビリティ戦略の開発 - AWS re:Invent 2022
AWS でクラウドネイティブオブザーバビリティを探求する - AWS Virtual Workshop
AWS オブザーバビリティソリューションで可用性を向上させる - AWS re:Invent 2020
Amazon におけるオブザーバビリティのベストプラクティス - AWS re:Invent 2022
オブザーバビリティ: モダンアプリケーションのベストプラクティス - AWS re:Invent 2022
オープンソースによるオブザーバビリティ - AWS re:Invent 2022
AIOps でオブザーバビリティ戦略を向上させる
Let's Architect! 大規模な本番システムの監視
AWS によるフルスタックオブザーバビリティとアプリケーション監視 - AWS Summit SF 2022

はじめに​

オブザーバビリティ成熟度モデル​

成熟度モデルのステージ​

ステージ 1: 基礎的なモニタリング - テレメトリデータの収集​

ステージ 2: 中級モニタリング - テレメトリ分析とインサイト​

ステージ 3: 高度なオブザーバビリティ - 相関と異常検出​

ステージ 4: プロアクティブなオブザーバビリティ - 自動的かつプロアクティブな根本原因の特定​

オブザーバビリティのための AWS Well-Architected と Cloud Adoption Framework​

評価​

オブザーバビリティ戦略の構築​

まとめ​

役立つリソース​