Metrics

Metrics는 생성된 시간 순서대로 유지되는 일련의 숫자 값입니다. 환경 내 서버 수, 디스크 사용량, 초당 처리하는 요청 수, 요청 완료 지연 시간 등 모든 것을 추적하는 데 사용됩니다.

하지만 metrics는 인프라나 애플리케이션 모니터링에만 국한되지 않습니다. 매출, 콜 대기열, 고객 만족도 등 모든 종류의 비즈니스나 워크로드를 추적하는 데 사용할 수 있습니다. 실제로 metrics는 운영 데이터와 비즈니스 메트릭을 결합하여 균형 잡힌 시각과 관찰 가능한 시스템을 제공할 때 가장 유용합니다.

Metrics에 대한 추가적인 맥락은 OpenTelemetry 문서 페이지를 참고하시기 바랍니다.

핵심 성과 지표(KPI)를 파악하고 측정하세요!

Metrics에서 가장 중요한 것은 올바른 것을 측정하는 것입니다. 그리고 무엇이 올바른지는 사람마다 다릅니다. 전자상거래 애플리케이션에서는 시간당 매출이 중요한 KPI일 수 있고, 빵집에서는 하루에 만드는 크루아상 수에 더 관심이 있을 것입니다.

경고

비즈니스 KPI에 대한 단일하고 완전하며 포괄적인 소스는 존재하지 않습니다. 프로젝트나 애플리케이션을 충분히 이해하여 산출 목표가 무엇인지 스스로 파악해야 합니다.

첫 번째 단계는 상위 수준의 목표를 명명하는 것이며, 대부분의 경우 이러한 목표는 인프라에서 나오는 단일 메트릭으로 표현되지 않습니다. 위의 전자상거래 예시에서, 시간당 매출이라는 메타 목표를 식별한 후에는 구매 전 상품 검색에 소요된 시간, 결제 프로세스 완료 시간, 상품 검색 결과 지연 시간 등의 세부 메트릭으로 역추적할 수 있습니다. 이를 통해 시스템을 관찰하기 위한 관련 정보를 의도적으로 수집할 수 있게 됩니다.

정보

KPI를 식별했다면, 이제 워크로드에서 어떤 메트릭이 KPI에 영향을 미치는지 역방향으로 추적할 수 있습니다.

운영 메트릭 데이터와 상관관계를 파악하세요

웹 서버의 높은 CPU 사용률이 느린 응답 시간을 유발하고, 이것이 고객 불만족으로 이어져 궁극적으로 매출 하락을 초래한다면, CPU 사용률 측정은 비즈니스 성과에 직접적인 영향을 미치므로 반드시 측정해야 합니다!

반대로, 임시 클라우드 리소스(Amazon EC2 fleet 또는 다른 클라우드 공급자 환경의 유사 서비스)에서 배치 처리를 수행하는 애플리케이션이 있다면, 배치 작업을 가장 비용 효율적으로 완료하기 위해 CPU를 최대한 활용하는 것이 바람직할 수 있습니다.

어느 경우든, 운영 데이터(예: CPU 사용률)와 비즈니스 메트릭을 동일한 시스템에 저장하여 둘 사이의 상관관계를 파악할 수 있어야 합니다.

정보

비즈니스 메트릭과 운영 메트릭을 하나의 시스템에 저장하여 서로 상관관계를 파악하고, 양쪽에 미치는 영향을 기반으로 결론을 도출할 수 있도록 하세요.

정상 상태가 무엇인지 파악하세요!

건강한 기준선(baseline)이 무엇인지 이해하는 것은 어려울 수 있습니다. 많은 사람들이 건강한 메트릭이 어떤 모습인지 이해하기 위해 워크로드에 부하 테스트를 수행해야 합니다. 하지만 필요에 따라 기존 운영 메트릭을 관찰하여 건강한 임계값에 대한 안전한 결론을 도출할 수도 있습니다.

건강한 워크로드란 KPI 목표를 달성하면서도 복원력, 가용성, 비용 효율성을 유지하는 균형 잡힌 상태를 말합니다.

정보

KPI에는 반드시 건강한 범위가 식별되어야 하며, 성능이 요구 수준 이하 또는 이상으로 벗어날 때 알람을 생성할 수 있어야 합니다.

이상 탐지 알고리즘을 활용하세요

정상 상태 파악의 과제는 시스템의 모든 메트릭에 대해 건강한 임계값을 파악하는 것이 비현실적일 수 있다는 점입니다. RDBMS(관계형 데이터베이스 관리 시스템)는 수십 개의 성능 메트릭을 내보낼 수 있으며, microservices 아키텍처와 결합되면 KPI에 영향을 미칠 수 있는 수백 개의 메트릭이 존재할 수 있습니다.

이렇게 많은 데이터 포인트의 상한/하한을 사람이 직접 관리하기란 현실적으로 어렵습니다. 반면 머신러닝은 이런 종류의 반복 작업을 매우 잘 해냅니다. 가능한 모든 곳에서 자동화와 머신러닝을 활용하세요. 미처 인지하지 못한 문제를 발견하는 데 큰 도움이 됩니다!

정보

머신 러닝 알고리즘과 이상 탐지 모델을 사용하여 워크로드의 성능 임계값을 자동으로 계산하세요.

핵심 성과 지표(KPI)를 파악하고 측정하세요!​

운영 메트릭 데이터와 상관관계를 파악하세요​

정상 상태가 무엇인지 파악하세요!​

이상 탐지 알고리즘을 활용하세요​

핵심 성과 지표(KPI)를 파악하고 측정하세요!

운영 메트릭 데이터와 상관관계를 파악하세요

정상 상태가 무엇인지 파악하세요!

이상 탐지 알고리즘을 활용하세요