엔지니어 블로그

[Error] Cloud Storage parquet 추가 안됨 본문

에러와 마주했을때

[Error] Cloud Storage parquet 추가 안됨

안기용 2025. 3. 5. 14:44

문제상황

현재 spark에서 Cloud Storage로 parquet를 업로드 중이다. 근데 업로드 할 때마다 새로운 폴더가 생성되고 그 하위에 parquet가 저장되어 BigQuery에서 다수의 parquet를 동시에 읽을수가 없다. 

CloudStorage 폴더

동일한 경로를 지정하면 already exist 에러가 발생했다. 그래서 찾아본 것이 .mode("append") 옵션이다.

 

해결

간단하게도 spark가 CloudStroage에 parquet를 저장할 때 옵션 하나만 추가해주면 된다.

df.write.mode("append").format("parquet").save(parquet_path)

 

이후 다시 parquet를 추가해보면 아래처럼 한 폴더에 여러 parquet가 저장될 수 있다.