엔지니어 블로그
[DE] DataWarehouse feat.DataMart 본문
DataWarehouse
데이터 웨어하우스는 대표적인 데이터 아키텍처입니다. 조직 내 의사결정을 지원하는 정보 관리 시스템을 말하며, 조직 내 여러 데이터를 공통의 형식으로 한데 모아 관리하고 분석 등을 통해 의사결정에 활용합니다.
1989년 빌 인먼이 처음 고안했고, '경영진의 의사결정을 지원하는 주제 지향적이고 통합적이며 비휘발성이고 시간 변형적인 데이터 모임' 이라는 정의를 내렸습니다.
데이터 웨어하우스는 MPP 시스템이 등장하면서 눈부신 발전을 거듭합니다. SQL을 지원하지만, MPP의 등장으로 대량의 데이터를 병렬스캔할 수 있고 고성능 집계와 통계 계산을 수행할 수 있습니다. 여기에 더하여 대규모 데이터에 대한 쿼리를 위해 행 기반 데이터베이스에서 열 기반 데이터베이스로 전환 되는 추세입니다.

ETL은 데이터 웨어하우스에서 빠질 수 없는 프로세스입니다. 데이터를 원천으로부터 '추출-변형-적재' 하는 일련의 프로세스를 의미하는데, 최근 데이터 웨어하우스는 ETL의 변형 ELT가 생겨났습니다. ELT는 데이터를 추출하여 일부를 원시 상태로 스테이징 영역에 남겨둡니다. 스테이징 영역의 데이터는 외부 시스템이 아닌 내부에서 직접 처리되는데, 데이터 웨어하우스의 뛰어난 계산 능력을 활용하기 위함입니다.
최근 데이터 웨어하우스는 클라우드의 발전으로 큰 변화를 맞이하고 있습니다. 기존 온프레미스 환경의 MPP 시스템에 구축 된 이 아키텍처는 클라우드 서비스로 제공되어 많은 이동이 있는 추세입니다. 클라우드 데이터 웨어하우스의 발전으로 인해 기업은 온프레미스 MPP 시스템의 관리로 인한 비용 지출을 절약할 수 있게 되었습니다. 더하여 클라우드 데이터 웨어하우스는 On-Demand로 생성하고, 오토 스케일링을 활용하여 종량제로 사용할 수 있기 때문에 유연하고 확장성 있는 시스템을 구축할 수 있습니다.
DataMart
데이터 마트는 데이터 웨어하우스의 하위 개념으로 생각하면 쉽습니다. 웨어하우스가 조직 내의 모든 데이터를 공통의 형식으로 저장했다면, 데이터 마트는 특정 부서 또는 주제 영역에 특화된 데이터 집합으로, 데이터 웨어하우스의 하위 시스템입니다. 이를 통해 사용자는 보다 빠르고 목적에 맞는 분석을 수행할 수 있습니다.
'DataEngineering' 카테고리의 다른 글
[DE] Event Streaming (0) | 2025.04.02 |
---|---|
[DE] Data Lake에 관하여 (1) | 2025.03.28 |