ダッシュボード
ダッシュボードは、オブザーバビリティソリューションの重要な部分です。データの整理された可視化を実現します。 データの履歴を確認し、関連する他のデータと並べて表示することができます。 また、コンテキストを提供することもできます。 全体像を理解するのに役立ちます。
多くの場合、データを収集してアラームを作成した後、そこで終わってしまいます。 しかし、アラームは特定の時点のデータ、通常は単一のメトリクスまたは少量のデータセットしか表示しません。 ダッシュボードは、時間の経過に伴う動作を確認するのに役立ちます。
実践的な例:高 CPU に対するアラームを考える
マシンが望ましい値よりも高い CPU で動作していることがわかりました。対応が必要でしょうか?また、どのくらい早く対応する必要があるでしょうか?判断の助けとなる要素を見てみましょう。
- このインスタンス/アプリケーションの通常の CPU 使用率はどのくらいですか?
- これは一時的なスパイクですか?それとも CPU が増加傾向にありますか?
- パフォーマンスに影響が出ていますか?影響が出ていない場合、影響が出るまでどのくらいの時間がありますか?
- これは定期的に発生する事象ですか?また、通常は自然に回復しますか?
データの履歴を確認する
CPU の履歴を示す時系列グラフがあるダッシュボードを考えてみましょう。 このメトリクスだけでも、一時的なスパイクなのか、上昇傾向なのかを確認できます。 また、上昇傾向の速さも確認でき、対応の優先順位を判断することができます。
ワークフローへの影響を確認する
しかし、このマシンは何をしているのでしょうか?全体的な文脈の中でどの程度重要なのでしょうか?ここで、レスポンスタイム、スループット、エラー、その他の指標など、ワークフローのパフォーマンスの可視化を追加することを考えてみましょう。 これにより、高い CPU 使用率がこのインスタンスがサポートしているワークフローやユーザーにどのような影響を与えているかを確認できます。
アラームの履歴を確認する
アラームが過去 1 ヶ月間にどのくらいの頻度で発生したかを示す可視化を追加し、さらに過去に遡って定期的に発生しているかどうかを確認することを検討してください。 たとえば、バックアップジョブがスパイクを引き起こしているのでしょうか? 再発のパターンを知ることで、根本的な問題を理解し、アラームの再発を完全に防ぐための長期的な判断を行うことができます。
コンテキストを追加する
最後に、ダッシュボードにコンテキストを追加します。このダッシュボードが存在する理由、関連するワークフロー、問題が発 生した場合の対処方法、ドキュメントへのリンク、連絡先などの簡単な説明を含めます。
これで、ダッシュボードのユーザーが何が起きているのかを把握し、影響を理解し、適切なアクションとその緊急性についてデータに基づいた判断を下すのに役立つ ストーリー が完成しました。
すべてを一度に可視化しようとしない
アラーム疲れについてよく話題に上がります。 優先順位や対応方法が不明確な多数のアラームは、チームに過負荷をかけ、非効率を招く可能性があります。 アラームは、重要で対応可能な事項に対してのみ設定すべきです。
ダッシュボードはこの点でより柔軟です。 アラームのように即座の注意を要求しないため、まだ重要性が確実でない事項や、探索をサポートする情報を可視化する自由度が高くなります。 ただし、やりすぎは禁物です!良いものでも、やりすぎは逆効果になります。
ダッシュボードは、あなたにとって重要な事項の全体像を提供すべきです。 データの取り込みを決定する場合と同様に、ダッシュボードで何が重要かを考える必要があります。 ダッシュボードについて、以下の点を考慮してください:
- 誰が閲覧するのか?
- 閲覧者のバックグラウンドと知識は?
- どの程度のコンテキストが必要か?
- どのような質問に答えようとしているのか?
- このデータを見て、どのようなアクションを取ることになるのか?
ダッシュボードのストーリーや含めるべき内容を決めるのが難しい場合があります。 ダッシュボードの設計をどこから始めればよいでしょうか? KPI 駆動型 または インシデント駆動型 の 2 つのアプローチを見てみましょう。