Kafka 운영은 핵심 메트릭, 특히 consumer lag(consumer가 얼마나 뒤처졌는지)과 broker 상태, 처리량, partition 상태를 모니터링해야 합니다. 모니터링과 consumer lag을 이해하는 것은 Kafka를 안정적으로 운영하는 데 중요합니다.
Consumer lag (핵심 메트릭)
CONSUMER LAG → consumer가 얼마나 뒤처졌는지 = (최신 offset) − (consumer의 commit된 offset):
→ 높거나 증가하는 lag → consumer가 생산 속도를 따라가지 못함(문제!)
→ 나타냄: 느린 처리, 너무 적은 consumer, 멈춘/실패한 consumer, 트래픽 급증
→ lag 모니터링 → consumer가 뒤처질 때 감지(주요 Kafka 상태 신호)
Consumer lag 처리
✓ CONSUMER 추가(group 확장, partition 수까지) → 더 많은 병렬 처리
✓ PARTITION 추가 → 더 많은 consumer 병렬성 가능(consumer 한계에 도달 시)
✓ consumer 처리 최적화 → 더 빠르게(배치, 비동기, 효율적 코드)
✓ 멈춘/실패한 consumer 조사; rebalancing 문제 확인
✓ lag 기반 확장(lag에 따른 consumer 자동 확장이 흔함)
