단 하나의 Airflow task를 사용하여 잘못된 데이터가 warehouse에 유입되는 것을 막은 방법
(dev.to)
데이터 웨어하우스에 잘못된 데이터가 유입되어 대시보드가 망가지는 문제를 방지하기 위해, Airflow 파이프라인의 Extract와 Load 사이에 'Quality Gate'를 도입하는 방법을 소개합니다. `datascreeniq` SDK를 활용해 데이터 로드 전 데이터 품질을 검증하고, 오류 발생 시 파이프라인을 즉시 중단(BLOCK)하거나 경고(WARN)를 보낼 수 있습니다.
이 글의 핵심 포인트
- 1데이터 로드 전 검증을 수행하는 'Quality Gate' 도입으로 데이터 오염 원천 차단
- 2기존 dbt/Great Expectations의 사후 검증 한계를 극복하는 선제적 대응 방식
- 3