엔지니어 블로그
[Error] Cloud Storage parquet 추가 안됨 본문
문제상황
현재 spark에서 Cloud Storage로 parquet를 업로드 중이다. 근데 업로드 할 때마다 새로운 폴더가 생성되고 그 하위에 parquet가 저장되어 BigQuery에서 다수의 parquet를 동시에 읽을수가 없다.
동일한 경로를 지정하면 already exist 에러가 발생했다. 그래서 찾아본 것이 .mode("append") 옵션이다.
해결
간단하게도 spark가 CloudStroage에 parquet를 저장할 때 옵션 하나만 추가해주면 된다.
df.write.mode("append").format("parquet").save(parquet_path)
이후 다시 parquet를 추가해보면 아래처럼 한 폴더에 여러 parquet가 저장될 수 있다.
'에러와 마주했을때' 카테고리의 다른 글
[Error] Spark Error (1) | 2025.03.28 |
---|---|
[Error] Airflow SparkKubernetesOperator + postgresql Dependency (1) | 2025.03.10 |
[Error] Spark Type error (0) | 2025.03.10 |
[Error] Spark on K8S 실행 에러 (0) | 2025.02.28 |
[Error] psycopg2 insatll error (0) | 2025.02.21 |