Data Science/python

[AWS] Apache Parquet(아파치 파케이) 파일 형식

joonizz 2022. 10. 17. 13:06

Apache Parque

Apache Parque는 효율적인 데이터 스토리지와 검색을 지원하도록 설계되었으며,

컬럼 중심의 오픈 소스 데이터 파일이다. 

 

 

특징

  • 무료 오픈 소스 파일 형식
  • 언어를 가리지 않음
  • 컬럼 기반 형식 - 파일이 행이 아니라 열로 구성되어 스토리지 공간이 절약되고 분석 쿼리 속도가 향상된다.
  • OTLP 데이터베이스와 함께 사용하는 사례에 사용
  • 데이터 압축과 해제의 효율이 매우 높다.

 

장점

  • 모든 종류의 빅데이터를 저장하는데 적합 (구조적 데이터 테이블, 이미지, 동영상, 문서)
  • 매우 효율적인 컬럼 전체 압축 방식, 그리고 다양한 데이터 유형의 컬럼에 대한  유연한 인코딩 방식을 사용하여 클라우드 스토리지에 저장
  • 데이터 건너뛰기 등의 기술을 사용하여 데이터 처리량과 성능을 높임

Parquet와 CSV의 차이점

Data set Amazon S3에서 크기 쿼리 런타임 스캔한 데이터 비용
CSV 1TB 236s 1.15TB $5.75
Apache Parquet 130GB 6.78s 2.51GB $0.01

 

 

 

* databricks에서 내용 참고했음을 밝힙니다.  (https://www.databricks.com/kr/ )