결제 파이프라인이 갑자기 느려졌다. 원인은 ClickHouse에 숨겨진 병목 현상이었다.
(blog.cloudflare.com)
Cloudflare가 테넌트별 데이터 보존 정책을 구현하기 위해 ClickHouse의 파티션 키를 변경한 후, 예상치 못한 쿼리 계획(query planning) 단계의 락 경합으로 인해 결제 파이프라인이 지연된 사례를 다룹니다. 데이터 스캔량이나 I/O 등 일반적인 성능 지표는 정상이었으나, 파티션 수 증가가 메타데이터 관리 부하를 일으킨 것이 핵심입니다.
이 글의 핵심 포인트
- 1Cloudflare는 100PB 이상의 데이터를 관리하는 ClickHouse 클러스터 운영 중
- 2테넌트별 데이터 보존을 위해 파티션 키를 (day)에서 (namespace, day)로 변경
- 3