목록DataEngineering (3)
엔지니어 블로그

Event Streaming Platform이벤트 스트리밍이란? 이벤트 스트리밍이란 다양한 소스에서 발생하는 실시간 데이터를 이벤스 스트림 형태로 캡쳐하고 저장/처리하는 방법입니다. 증권거래소,은행 등의 결 제 정보 및 금융정보, 물류 산업에서 실시간 추적 및 모니터링과 같이 실시간 데이터 처리가 중요한 작업에 사용됩니다.이벤트 스트리밍의 필요성운영적 측면 : 일상의 많은 서비스가 온라인화 되면서 오프라인 서비스의 즉각적인 반응을 온라인에서도 얻길 원하는 사용자들이 많아지고 있습니다. 이에 따라 온라인에서도 오프라인과 같은 즉각적인 반응을 구현하기 위해 많이 사용됩니다.기술적 측면 : 전통적으로 널리 사용되던 배치처리 시스템은 실시간 반영이 어렵습니다. 예컨데 일단위 배치 처리 시스템이 있다고 가정한다..

DataWarehouse데이터 웨어하우스는 대표적인 데이터 아키텍처입니다. 조직 내 의사결정을 지원하는 정보 관리 시스템을 말하며, 조직 내 여러 데이터를 공통의 형식으로 한데 모아 관리하고 분석 등을 통해 의사결정에 활용합니다.1989년 빌 인먼이 처음 고안했고, '경영진의 의사결정을 지원하는 주제 지향적이고 통합적이며 비휘발성이고 시간 변형적인 데이터 모임' 이라는 정의를 내렸습니다.데이터 웨어하우스는 MPP 시스템이 등장하면서 눈부신 발전을 거듭합니다. SQL을 지원하지만, MPP의 등장으로 대량의 데이터를 병렬스캔할 수 있고 고성능 집계와 통계 계산을 수행할 수 있습니다. 여기에 더하여 대규모 데이터에 대한 쿼리를 위해 행 기반 데이터베이스에서 열 기반 데이터베이스로 전환 되는 추세입니다.ETL은..

데이터 레이크(Data Lake)란?데이터가 폭발적으로 증가하면서, 이를 효율적으로 저장하고 분석하기 위한 새로운 아키텍처가 필요해졌습니다. 그중 대표적인 방법 중 하나가 바로 데이터 레이크(Data Lake)입니다.데이터 레이크는 이름 그대로 "호수"처럼 다양한 형태의 데이터를 한 곳에 담을 수 있는 저장소입니다. 기존 데이터 웨어하우스(DW)가 정형 데이터를 중심으로 정제된 데이터를 저장했다면, 데이터 레이크는 정형, 반정형, 비정형 데이터를 가공하지 않은 원시 형식(raw format) 그대로 저장할 수 있는 유연한 구조입니다.데이터 레이크의 장점1. 스토리지와 컴퓨팅의 분리 (Separation of Storage and Compute)데이터 레이크의 가장 큰 장점 중 하나는 저장소와 컴퓨팅 자원..