목록2025/03/05 (1)
엔지니어 블로그

문제상황현재 spark에서 Cloud Storage로 parquet를 업로드 중이다. 근데 업로드 할 때마다 새로운 폴더가 생성되고 그 하위에 parquet가 저장되어 BigQuery에서 다수의 parquet를 동시에 읽을수가 없다. 동일한 경로를 지정하면 already exist 에러가 발생했다. 그래서 찾아본 것이 .mode("append") 옵션이다. 해결간단하게도 spark가 CloudStroage에 parquet를 저장할 때 옵션 하나만 추가해주면 된다.df.write.mode("append").format("parquet").save(parquet_path) 이후 다시 parquet를 추가해보면 아래처럼 한 폴더에 여러 parquet가 저장될 수 있다.
에러와 마주했을때
2025. 3. 5. 14:44