목록2025/02/25 (2)
엔지니어 블로그

1. Spark의 기본적인 아키텍처Spark은 기본적으로 3 부분으로 나누어 볼 수 있다.1.Driver2.Cluster Manager3.Executor1.DriverDirver는 Spark Application을 실행하는 역할이다. main 함수를 실행하고 SparkContext 객체를 생성하게 된다.2.Cluster ManagerDriver로 부터 실행계획을 전달 받아 필요한 만큼의 Worker를 생성하게 된다. YARN,K8S가 사용되며 Worker의 failover도 담당하게 된다.3. Executor다수의 Worker 노드에서 실행되는 프로세스로 Spark Driver가 할당한 작업을 수행하여 결과를 반환한다.2. Spark 작동 과정 1.Spark SumitDriver에게 작업 내용 전달 2...

1.Spark란 무엇인가Spark는 Data Engineering, Science, ML 등의 작업을 수행할 수 있는 Muilti-Language 엔진/프레임워크다. 단일 노드 및 cluster 형태로 대량의 컴퓨팅 자원을 사용할 수 있고, 대량의 데이터에 대해 분산퇸 컴퓨팅 처리를 신뢰성 있게 처리할 수 있다.2.Spark 주요 기능Batch/Streaming단일 모델과 프레임워크로 Batch,Streaming을 통합 개발 할 수 있다.SQL AnalyticsANSI SQL로 빠른 분산 처리 결과를 얻을 수 있다. 기존의 DW 솔루션보다 빠르게 결과를 얻을 수 있다.Data Sciencepetabyte-scale 데이터에 대해 Downsampling 없이도 EDA가 가능하다MLML 알고리즘 학습이 가능..