본문 바로가기
Hadoop

Parquet 파일이란

by under_coverzzz 2022. 5. 11.
반응형
  • 하둡에서 많이 사용되는 파일 포맷
  • columnar 형태로 저장됨.
  • Dremel 논문을 토대로 개발이됨.

 

장점

  • 압축률이 좋음. (컬럼 단위로 구성하면 데이터가 균일하여 압축률이 높아지게 됨.)
  • 데이터 접근시, 일부 컬럼만 접근시 I/O가 많이 줄어듬. (선택 되지 않은 컬럼은 I/O가 발생하지 않기 때문)

 

반응형

'Hadoop' 카테고리의 다른 글

NameNode Federation  (0) 2022.06.02
Name Node의 고가용성(High Availability)  (0) 2022.05.31
Secondary Name Node  (0) 2022.05.28
 HDFS의 파일 시스템 특징  (0) 2022.05.15
JDBC와 ODBC 정리  (0) 2022.05.11