디버깅 가이드
빠른 트리아지 워크플로우 (권장)
- SLO에서 시작 (정의된 경우): 비정상 서비스/오퍼레이션/종속성을 식별합니다.
- Services 사용: 높은 지연 시간 또는 장애율 기준으로 정렬하여 주요 문제 서비스를 찾습니다.
- Service detail 열기: 오퍼레이션 및 종속성 엣지를 확인하고, 지연/장애 데이터 포인트를 선택합니다.
- 상관 트레이스/스팬으로 이동: 트레이스 타임라인에서 느리거나 실패한 다운스트림 호출을 찾습니다.
- 로그/런타임 메트릭으로 확인: 필요한 경우 에러 로그와 JVM/CPU/GC를 상관 분석합니다.
참조: Monitor operational health with Application Signals
Transaction Search로 "간헐적 급증" 분석
간헐적인 급증 현상이 발생할 때, Transaction Search를 사용하면 속성별로 스팬을 분석하고 영향받는 사용자/요청을 파악할 수 있습니다. 일반적인 패턴:
- 그룹 분석: 비즈니스 속성(예: 고객 ID)별로 그룹화하여 영향받는 대상을 파악합니다.
- 필터링: 서비스/오퍼레이션 및 지속 시간(p99) 기준으로 필터링하여 이상치를 분리합니다.
- 트레이스 열기: 이상치 스팬에서 트레이스를 열고 종속성 호출 경로를 추적합니다.
참조: Troubleshooting application issues (Transaction Search)
일반적인 "데이터가 보이지 않음" 점검 항목
- 계정 활성화: Application Signals는 계정/리전 당 한 번 활성화해야 합니다(서비스 연결 역할 생성).
- 시간 범위: 서비스/오퍼레이션은 선택한 시간 창 내에 활동이 있는 경우에만 표시됩니다.
- 서비스 이름 지정:
service.name/OTEL_RESOURCE_ATTRIBUTES가 적절하게 설정되어 있는지 확인합니다(비 EKS 환경에서는 서비스/환경 이름을 명시적으로 지정해야 하는 경우가 많습니다). - 파이프라인 상태: CloudWatch Agent/collector가 실행 중이고 OTLP를 수신하는지 확인합니다. 로컬 엔드포인트 연결을 확인하세요.