Live:CloudOps Webinars & Hands-on Workshops ·Register ↗
メインコンテンツまでスキップ

クラウドエンジニア

複雑な AWS インフラストラクチャを管理する Cloud Engineer として、オブザーバビリティは信頼性が高く効率的な運用を維持するために不可欠です。マイクロサービス、コンテナ、サーバーレスアーキテクチャが主流となっている今日の世界では、システムを明確に可視化することが成功の鍵となります。

このガイドでは、Cloud Engineer 向けの主要なオブザーバビリティのベストプラクティスを探求し、AWS 環境を大規模に監視、トラブルシューティング、最適化するための実践的な戦略に焦点を当てています。


AWS Cost Management 💸

目標: 支出を監視および管理することで、AWS コストを最適化します。

レベルカテゴリ説明ヒントと例補足
基本支出の追跡ビジネス活動がコストに与える影響を監視するためのダッシュボードを設定します例: マーケティングキャンペーンがサーバーコストに与える影響を監視しますプロのヒント: 基本的な日次コスト追跡から始めます
よくある落とし穴: アラートの設定を怠ること
基本予算管理プロジェクトコストを測定するための支出限度額を設定しますヒント: 部門やサービスごとの予算設定に焦点を当てます推奨: 明確な予算配分を確立します
中級リソースタグ付けチームやプロジェクトごとにリソース使用状況を追跡するためのリソースタグ付けを実装しますクイックウィン: まずこれらの 3 つのタグから始めましょう。
  1. Project
  2. Environment
  3. Owner | ご存知でしたか? タグ付けを実装することで 20~30% のコスト削減が可能です | | 中級 | コストと使用状況の可視性 | 必要なコストのみが発生し、不要なリソースに過剰に支出していないことを確認します | 例: より良い追跡のために詳細なコストダッシュボードを設定します | プロのヒント: AWS が提供するさまざまなコスト最適化ツールを考慮してください | | 上級 | スマートなコスト管理 | 不要な支出を抑えるタスクを自動化します | 例: 営業時間外に非本番サーバーの電源を切ります | プロのヒント: 非本番環境から始めます | | 上級 | 戦略的実装 | KPI を確立し、FinOps Foundation の原則を実装する | コスト最適化 KPI を作成し、時間の経過とともに追跡する | プロのヒント: 「ユニットエコノミクス」KPI から始めましょう - ビジネス出力あたりのコストを測定します (例: トランザクションあたりのコスト、顧客あたりのコスト、またはサービスあたりのコスト)。

ご存知でしたか? 覚えておいてください。最適な KPI は、クラウド支出をビジネス成果に直接結び付けるものであり、ROI を実証し、FinOps イニシアチブへの賛同を得やすくします。|

推奨事項

  • シンプルに始める: 基本的なモニタリングから始めて、AWS ツールに慣れてきたら、より高度な手法に拡張していきます。
  • タグを効果的に使用する: タグ付けは、コストを追跡および配分するための最も強力な方法の 1 つです。早期に実装することで、将来的に大幅な時間を節約できます。

AWS パフォーマンスと可用性 🚀

目標: AWS でホストされているアプリケーションの最適なパフォーマンスと可用性を確保します。

レベルコンポーネント説明ヒントと例補足
基本アプリを監視するキュレーションされた履歴データを集約し、他の関連データと並べて確認します例: 異なるリージョンのユーザーが遅延を経験していないか確認しますよくある落とし穴: モニタリングツールの一元化の欠如
中級接続ポイントを追跡するアプリケーションの異なる部分が互いにどのように通信するかを監視しますクイックウィン: 最も重要なサービスのパフォーマンス追跡から始めますご存知でしたか? ほとんどの障害はサービス間通信の失敗によって発生します
上級パフォーマンスをテストする顧客の視点からアプリケーションをテストおよびシミュレートして、そのエクスペリエンスを理解します例: アプリケーションのエンドポイントに対して合成テストを実行しますプロのヒント: ユーザーセッションからクライアント側のデータを収集し、詳細なパフォーマンスインサイトを取得します
上級可用性の目標について合意を確立し、強制する許容可能な健全性と可用性を確立するアプリケーションの SLO を評価するリアルタイムモニタリングと迅速なトラブルシューティングに使用するプロのヒント: 組織のオブザーバビリティ成熟度を定期的に評価してください

推奨事項

  • ユーザーエクスペリエンスを理解する: サーバー側のメトリクスのみを監視するだけでは不十分です。実際のユーザーエクスペリエンスをグローバルに追跡するようにしてください。
  • 主要なサービスに優先順位を付ける: 最も重要なアプリケーションコンポーネントの監視から始め、そこから監視を拡大していきます。

AWS セキュリティモニタリング 🔒

目標: セキュリティの脆弱性とインシデントを監視することで、AWS インフラストラクチャを保護します。

レベルコンポーネント説明ヒントと例補足
基本中央セキュリティモニタリングすべてのセキュリティログを一元化された場所に集約し、簡単にアクセスして分析できるようにします例: 機密データとリソースへのすべてのアクセスを追跡しますプロのヒント: ログイン試行とアクセスパターンに焦点を当てることから始めます
中級テレメトリデータ収集を拡張するトラブルシューティングと監査セッションに貢献する追加の属性を含めます実装: アプリケーションのバックエンドコードからテレメトリデータを実装します例: ユーザーがログインしたブラウザ名を送信します
上級変更の監視内部および外部ソースの両方からワークロードの突然の変化を追跡しますクイックウィン: 予期しないログインパターンやユーザーアクティビティのアラートを設定しますよくある落とし穴: 静的なアラームしきい値のみに依存すること

推奨事項

  • セキュリティを優先する: セキュリティは後回しにすべきではありません。基本的な監視から始めて、より高度な設定に進めていきます。
  • アラートを自動化する: 異常なアクティビティに対する自動アラートを設定することで、潜在的な脅威がエスカレートする前に検出できます。

ユーザーエクスペリエンスモニタリング 📈

目標: アプリケーションの使用状況、速度、動作を監視することで、ユーザーエクスペリエンスを最適化します。

レベルコンポーネント説明ヒントと例補足
基本ページ速度を追跡する実際のユーザーに対してページがどれだけ速く読み込まれるかを監視します例: ピークトラフィック時間帯にチェックアウトページが遅くなるかどうかを特定しますプロのヒント: 最も重要なユーザージャーニーに最初に焦点を当てます
中級外部要因の影響を受けるユーザーパターンを監視するユーザーがサービスとやり取りする方法に影響を与える可能性のある追加要素を追跡します インターネットプロバイダーと場所
クイックウィン: 基本的なページ読み込み時間の監視から始めますご存知ですか? ページ読み込み時間のわずかな遅延が、ユーザーの定着率に大きな影響を与える可能性があります
上級詳細なネットワーク使用状況の分析ネットワークフローのアクティビティとステータスを深く評価および分析します Network SyntheticsNetwork Flow Monitorより深いネットワークインタラクションとユーザー行動を追跡します

推奨事項

  • 主要なアクションに焦点を当てる: 収益またはユーザー満足度に影響を与えるアクションの監視を優先します。
  • 実際のユーザーインタラクションを監視する: 合成テストのみに依存しないでください。実際のユーザーデータは、より実用的なインサイトを提供します。

サーバーレスワークロード監視 ⚡

目標: サーバーレスアプリケーションを効果的に監視および最適化し、信頼性とコスト効率を確保します。

レベルコンポーネント説明ヒントと例補足
基本Lambda 関数のベストプラクティスコア Lambda メトリクスと実行統計を監視例: 呼び出し、期間、エラー率を追跡
クイックウィン: Lambda インサイト用の CloudWatch ダッシュボードを設定プロのヒント: コールドスタートとメモリ使用率を監視してコストを最適化
中級イベントソースの監視イベントソースと統合のパフォーマンスを追跡例: SQS キューの深さ、API Gateway のレイテンシーを監視
クイックウィン: 失敗したイベント用のデッドレターキューを設定ご存知でしたか? 適切なイベントソース監視により、カスケード障害を防ぐことができます
上級提供される要約インサイトCloudWatch の専門的なインサイトツールを活用して、サーバーレスおよびコンテナ化されたアプリケーション全体のワークロードパフォーマンス、リソース使用率、運用パターンに関する自動化された詳細な分析を取得します。例: Lambda Insights
Container InsightsAWS CloudFormation を使用してアカウントレベルで Lambda Insights を有効にし、すべての新しい Lambda 関数の詳細なメトリクスを自動的に収集しながら、Contributor Insights を使用して最も消費量の多いリソースと潜在的なボトルネックを特定します。

推奨事項

  • 構造化ログの実装: 検索性を向上させるために、一貫した JSON ログ形式を使用します
  • 同時実行数の制限の監視: 関数の同時実行数を追跡して、スロットリングを防止します
  • コストの最適化: コスト配分タグを設定し、関数ごとのコストを監視します