목록2025/03/28 (2)
엔지니어 블로그
작업 내용Spark에서 MinlO의 csv를 읽음에러 내용java.lang.ClassNotFoundException: Class org.apache.hadoop.fs.s3a.S3AFileSystem not found해결 방법에러 내용을 보니 Spark가 S3A 파일 시스템을 인식할 수 있는 JAR가 없다는 내용이다. 따라서 Spark Container내에 JAR파일을 추가하여 해결할 수 있을 것 같다. 그리고 Spark 세션에 jar 파일들을 config 해주면 해결된다. .config("spark.jars", "/root/metastore/hadoop-aws-3.3.4.jar") \ .config("spark.jars","/root/metastore/aws-java-sdk-bundle-1.1..

데이터 레이크(Data Lake)란?데이터가 폭발적으로 증가하면서, 이를 효율적으로 저장하고 분석하기 위한 새로운 아키텍처가 필요해졌습니다. 그중 대표적인 방법 중 하나가 바로 데이터 레이크(Data Lake)입니다.데이터 레이크는 이름 그대로 "호수"처럼 다양한 형태의 데이터를 한 곳에 담을 수 있는 저장소입니다. 기존 데이터 웨어하우스(DW)가 정형 데이터를 중심으로 정제된 데이터를 저장했다면, 데이터 레이크는 정형, 반정형, 비정형 데이터를 가공하지 않은 원시 형식(raw format) 그대로 저장할 수 있는 유연한 구조입니다.데이터 레이크의 장점1. 스토리지와 컴퓨팅의 분리 (Separation of Storage and Compute)데이터 레이크의 가장 큰 장점 중 하나는 저장소와 컴퓨팅 자원..