본문 바로가기
Hadoop

 HDFS의 파일 시스템 특징

by under_coverzzz 2022. 5. 15.
반응형

파일 시스템

일반적인 파일 시스템의 블록 크기는 보통 4KB or 8KB이다.

 

그에 비하여, 하둡 파일시스템의 기본 블록 크기는 64MB 이다.

추가로 하둡 에코시스템을 관리하는 관리자는 이 블록의 크기를 128MB, 256MB, 1GB 정도로 늘릴수 있다.

 

 

하둡 블록의 크기를 조절 할 수 있으면 뭐가 좋을까?

블록의 크기가 증가하면 데이터를 더 큰 청크 단위로 저장 할 수 있게 된다.

=> 더 큰 단위로 데이터를 읽고 쓰기를 할 수 있으므로 성능 또한 좋아지게 된다.

 

드라이브의 탐색 조작을 최소화 할 수 있으며, 대규모 I/O의 성능을 향상 시킬수 있다.

 

 

*Replication

HDFS( Hadoop File System )은 데이터 보호를 스토리지의 의존하지 않으며, 클러스터내의 다른 머신에 데이터 블록을 복제함.

하둡 클러스터 머신에 복제 계수(일반적으로 3-copy를 사용)를 설정한 만큼 데이터 블록을 복제하여 저장함.

 

HDFS에서 파일을 한번 쓰면 복제본이 생성됨. ( 수정 불가능 )

복제본간의 데이터 일치를 위해 실시간으로 내용을 유지하는 기능 불필요하고, 데이터를 읽을때 여러 복제본 중 하나만 가져와서 Read를 하면 됨.

 

복제본이 여러개이기 때문에 한곳에서 실패가 발생하더라도, 다른 곳의 복제본을 읽어오면 되기에 안정성을 가지게 됨.

또, HDFS는 복제본이 정해놓은 복제계수(Replication Factor)이하일 경우, 자동으로 새로운 복제본을 생성하여 정해놓은 기준에 맞게 관리를 함.

 

반응형

'Hadoop' 카테고리의 다른 글

NameNode Federation  (0) 2022.06.02
Name Node의 고가용성(High Availability)  (0) 2022.05.31
Secondary Name Node  (0) 2022.05.28
Parquet 파일이란  (0) 2022.05.11
JDBC와 ODBC 정리  (0) 2022.05.11