Apache Parque
Apache Parque는 효율적인 데이터 스토리지와 검색을 지원하도록 설계되었으며,
컬럼 중심의 오픈 소스 데이터 파일이다.
특징
- 무료 오픈 소스 파일 형식
- 언어를 가리지 않음
- 컬럼 기반 형식 - 파일이 행이 아니라 열로 구성되어 스토리지 공간이 절약되고 분석 쿼리 속도가 향상된다.
- OTLP 데이터베이스와 함께 사용하는 사례에 사용
- 데이터 압축과 해제의 효율이 매우 높다.
장점
- 모든 종류의 빅데이터를 저장하는데 적합 (구조적 데이터 테이블, 이미지, 동영상, 문서)
- 매우 효율적인 컬럼 전체 압축 방식, 그리고 다양한 데이터 유형의 컬럼에 대한 유연한 인코딩 방식을 사용하여 클라우드 스토리지에 저장
- 데이터 건너뛰기 등의 기술을 사용하여 데이터 처리량과 성능을 높임
Parquet와 CSV의 차이점
Data set | Amazon S3에서 크기 | 쿼리 런타임 | 스캔한 데이터 | 비용 |
CSV | 1TB | 236s | 1.15TB | $5.75 |
Apache Parquet | 130GB | 6.78s | 2.51GB | $0.01 |
* databricks에서 내용 참고했음을 밝힙니다. (https://www.databricks.com/kr/ )
'Data Science > python' 카테고리의 다른 글
[Python] Pandas isin 구문 (0) | 2023.01.31 |
---|---|
[Python] 사이킷런 train_test_split 결측 에러 처리 (0) | 2023.01.27 |
[redshift/AWS] ERROR: division by zero 해결 방법 (0) | 2022.10.26 |
[Python/Pandas] 데이터프레임 셀에서 값만 꺼내오고싶을때 (0) | 2022.10.20 |
[AWS] Python으로 S3에 있는 Parquet 파일 읽기 (0) | 2022.10.17 |