엔지니어 블로그
[DE] Data Lake에 관하여 본문
데이터 레이크(Data Lake)란?
데이터가 폭발적으로 증가하면서, 이를 효율적으로 저장하고 분석하기 위한 새로운 아키텍처가 필요해졌습니다. 그중 대표적인 방법 중 하나가 바로 데이터 레이크(Data Lake)입니다.
데이터 레이크는 이름 그대로 "호수"처럼 다양한 형태의 데이터를 한 곳에 담을 수 있는 저장소입니다. 기존 데이터 웨어하우스(DW)가 정형 데이터를 중심으로 정제된 데이터를 저장했다면, 데이터 레이크는 정형, 반정형, 비정형 데이터를 가공하지 않은 원시 형식(raw format) 그대로 저장할 수 있는 유연한 구조입니다.
데이터 레이크의 장점
1. 스토리지와 컴퓨팅의 분리 (Separation of Storage and Compute)
데이터 레이크의 가장 큰 장점 중 하나는 저장소와 컴퓨팅 자원을 완전히 분리할 수 있다는 점입니다. 예를 들어 저장소는 항상 데이터를 저장하고 있어야 하지만, 컴퓨팅 자원은 데이터 분석이나 ETL 등의 작업을 수행할 때만 필요합니다.
2. 유연한 아키텍처 설계
데이터를 원시 상태로 저장하고, 필요한 시점에 다양한 목적(머신러닝, BI 분석 등)으로 처리할 수 있기 때문에 아키텍처를 유연하게 설계할 수 있습니다.
데이터 레이크의 단점
1. 데이터 늪(Data Swamp)의 위험
체계 없이 데이터를 쌓기 시작하면 오히려 분석하기 어려운 '데이터 늪(Data Swamp)'이 되어버릴 수 있습니다. 메타데이터 관리, 스키마 관리, 데이터 거버넌스 체계가 반드시 필요합니다.
2. 삭제 및 규제 대응의 어려움
오브젝트 스토리지는 보통 쓰기 전용(append-only) 구조이기 때문에 GDPR, CCPA 등의 법적 규제 대응이 어렵습니다. 데이터 수명 주기 정책(Lifecycle Policy)등 보완책이 필요합니다.
마무리
데이터 레이크는 현대 데이터 아키텍처에서 필수 요소로 자리 잡고 있으며, 특히 대규모의 다양한 형태의 데이터를 빠르게 수집, 저장, 분석해야 하는 환경에 매우 적합합니다. 단순 저장을 넘어, 데이터 품질 관리, 보안 정책, 삭제 전략 등을 함께 고려해야 진정한 데이터 레이크를 구현할 수 있습니다.
'DataEngineering' 카테고리의 다른 글
[DE] Event Streaming (0) | 2025.04.02 |
---|---|
[DE] DataWarehouse feat.DataMart (1) | 2025.04.01 |