メインコンテンツまでスキップ

なぜオブザーバビリティが必要なのか?

YouTube の Developing an Observability Strategy をご覧ください。

本当に重要なことは何か?

仕事で行うすべてのことは、組織のミッションに沿ったものであるべきです。私たち従業員は皆、組織のミッションを達成し、そのビジョンに向かって働いています。Amazon では、以下のようにミッションを掲げています:

Amazon は、地球上で最も顧客中心的な企業、最高の雇用主、そして最も安全な職場であることを目指しています。

About Amazon

IT において、すべてのプロジェクト、デプロイメント、セキュリティ対策、最適化は、ビジネスの成果に向けて機能するべきです。当たり前のことですが、ビジネスに価値を付加しないことは行うべきではありません。ITIL では次のように述べています:

すべての変更はビジネス価値を提供すべきである。

— ITIL Service Transition, AXELOS, 2011, page 44.
Change Management in the Cloud AWS Whitepaper を参照 ミッションとビジネス価値が重要なのは、それらがあなたの行うすべてのことに影響を与えるべきだからです。オブザーバビリティには多くの利点があります:

  • 可用性の向上
  • 信頼性の向上
  • アプリケーションの健全性とパフォーマンスの理解
  • より良いコラボレーション
  • 問題の事前検出
  • 顧客満足度の向上
  • 市場投入までの時間短縮
  • 運用コストの削減
  • 自動化

これらの利点には共通点があります。それは、直接的または間接的に、顧客や組織にビジネス価値を提供することです。オブザーバビリティについて考える際は、アプリケーションがビジネス価値を提供しているかどうかを常に考える必要があります。

つまり、オブザーバビリティは、ビジネス価値の提供に貢献する要素を測定し、ビジネスの成果とそのリスクに焦点を当てるべきです。顧客が望むもの、必要とするものについて考える必要があります。

どこから始めるべきですか?

何が重要かを理解したら、次は何を測定する必要があるかを考える必要があります。Amazon では、お客様のニーズから始めて、そこから逆算して考えます。

私たちは、必要に迫られる前に、サービスを改善し、特典や機能を追加するよう内部から動機付けられています。必要に迫られる前に、価格を下げ、お客様への価値を高めます。必要に迫られる前に、私たちは発明します。

— Jeff Bezos、2012 年株主レター

e コマースサイトを使用した簡単な例を見てみましょう。まず、オンラインで商品を購入する際にお客様として何を求めるかを考えてみましょう。誰もが同じとは限りませんが、おそらく以下のような点を気にするでしょう:

  • 配送
  • 価格
  • セキュリティ
  • ページ速度
  • 検索(探している商品を見つけられるか?)

お客様が重視することが分かれば、それらを測定し、ビジネスの成果にどのように影響するかを把握し始めることができます。ページ速度は、コンバージョン率と検索エンジンランキングに直接影響を与えます。2017 年の調査では、モバイルユーザーの半数以上(53%)が、ページの読み込みに 3 秒以上かかると離脱することが示されています。もちろん、ページ速度の重要性を示す研究は多数あり、これは明らかに測定すべきメトリクスですが、コンバージョンに測定可能な影響があるため、測定して行動を起こす必要があり、そのデータを使用して改善を行うことができます。

Working Backwards

お客様が気にかけているすべてのことを知ることは期待できません。 このコンテンツを読んでいるあなたは、おそらく技術職に就いていることでしょう。 組織内のステークホルダーと話をする必要がありますが、これは必ずしも容易ではありません。 しかし、重要なものを測定するためには不可欠です。

e コマースの例を続けてみましょう。 今回は検索について考えてみます。 商品を購入するためには検索機能が必要なことは明白かもしれませんが、Forrester Research のレポートによると、訪問者の 43% が直接検索ボックスに移動し、検索を使用する人は使用しない人と比べて 2 ~ 3 倍の確率で購入に至ることをご存知でしょうか。 検索は非常に重要で、適切に機能する必要があり、モニタリングが必要です。 特定の検索で結果が得られないことが判明し、単純なパターンマッチングから自然言語処理に移行する必要があるかもしれません。 これは、ビジネスの成果をモニタリングし、顧客体験を改善するための行動を起こす例です。

Amazon では:

私たちは、お客様を深く理解し、お客様の課題から Working Backwards することで、お客様の生活に意味のあるソリューションを生み出すイノベーションを迅速に開発するよう努めています。

— Daniel Slater - Worldwide Lead, Culture of Innovation, AWS (Elements of Amazon's Day 1 Culture より)

私たちは、お客様から始めて、そのニーズから Working Backwards します。 これはビジネスで成功する唯一のアプローチではありませんが、オブザーバビリティにおいては良いアプローチです。 ステークホルダーと協力して、お客様にとって重要なことを理解し、そこから Working Backwards します。

さらなる利点として、お客様やステークホルダーにとって重要なメトリクスを収集することで、ほぼリアルタイムのダッシュボードで可視化でき、「ランディングページの読み込みにどのくらい時間がかかっているか?」や「ウェブサイトの運用コストはいくらか?」といった質問に対するレポートの作成や回答を避けることができます。 ステークホルダーや経営陣は、この情報をセルフサービスで取得できるはずです。

これらは、アプリケーションにとって本当に重要な高レベルのメトリクスであり、また問題があることを示す最良の指標でもあります。 例えば、特定の期間に通常期待される注文数が少ないことを示すアラートは、お客様に影響を与える問題が発生している可能性を示しています。 一方、サーバーのボリュームがほぼ満杯であることや、特定のサービスで 5xx エラーが多数発生していることを示すアラートは、修正が必要な可能性がありますが、顧客への影響を理解し、それに応じて優先順位付けを行う必要があります。 これには時間がかかる場合があります。

これらの高レベルのビジネスメトリクスを測定していれば、お客様に影響を与える問題を簡単に特定できます。 これらのメトリクスは、何が起きているかを示します。 トレーシングやログなどの他のメトリクスや他の形式のオブザーバビリティは、なぜこれが起きているのかを示し、それを修正または改善するために何ができるかを導き出します。

観察すべきこと

顧客にとって重要なことが分かったら、重要業績評価指標 (KPI) を特定できます。 これらは、ビジネスの成果が危険にさらされているかどうかを示す高レベルのメトリクスです。 また、これらの KPI に影響を与える可能性のある多くの異なるソースから情報を収集する必要があります。 ここで、KPI に影響を与える可能性のあるメトリクスについて考え始める必要があります。 先ほど説明したように、5xx エラーの数は影響を示すものではありませんが、KPI に影響を与える可能性があります。 ビジネスの成果に影響を与えるものから、ビジネスの成果に影響を与える可能性のあるものまで、逆算して考えていきます。

収集する必要があるものが分かったら、KPI を測定するために使用できるメトリクスと、それらの KPI に影響を与える可能性のある関連メトリクスを提供する情報源を特定する必要があります。 これが観察の基礎となります。

このデータは、メトリクス、ログ、トレースから得られる可能性が高いです。 このデータを入手したら、成果が危険にさらされているときにアラートを出すために使用できます。

その後、影響を評価し、問題の解決を試みることができます。 ほとんどの場合、CPU やメモリなどの個別の技術的なメトリクスが問題を示す前に、このデータが問題を示してくれます。

オブザーバビリティは、ビジネスの成果に影響を与える問題を修正するために事後的に使用することも、顧客の検索体験を改善するために事前に使用することもできます。

まとめ

CPU、RAM、ディスク容量、その他の技術的なメトリクスは、スケーリング、パフォーマンス、容量、コストにとって重要ですが、アプリケーションの実際の状態を把握したり、顧客体験に関する洞察を得たりすることはできません。

重要なのは顧客であり、監視すべきは顧客の体験です。

そのため、顧客の要件から Working Backwards で考え、ステークホルダーと協力して、重要な KPI とメトリクスを確立する必要があります。