프로덕션에서 Kafka를 운영하려면 클러스터 사이징, 복제, 모니터링, 보안, 유지보수에 주의해야 합니다 — Kafka는 강력하지만 운영적으로 복잡한 분산 시스템입니다. 운영 고려 사항을 이해하는 것(또는 managed Kafka 사용)은 안정적으로 실행하는 데 중요합니다.
클러스터 설정과 신뢰성
✓ 충분한 BROKER → 처리량, 저장, 복제 필요에 맞게 클러스터 사이징
✓ REPLICATION → 내구성을 위한 replication factor ≥ 3, min.insync.replicas(데이터 유실 없음)
✓ 랙/AZ에 분산 → 실패 생존(rack awareness)
✓ PARTITION → 병렬성과 성장을 위한 partition 수 계획(나중에 줄이기 어려움)
✓ 용량 계획 → 처리량, 보존/저장, 성장
모니터링과 유지보수
✓ 모니터 → consumer lag, broker 상태, under-replicated partition, 처리량, 디스크(핵심!)
✓ 문제 알림(lag, under-replication, broker 다운, 디스크 가득)
✓ 디스크 처리 → 보존 대 저장; 디스크 가득은 심각한 실패
✓ 업그레이드, partition rebalancing, broker 확장; 백업/재해 복구
✓ KRaft(또는 ZooKeeper) 클러스터 관리
