hive (1) 썸네일형 리스트형 Hive 사용할 때 Small File Merge 하기 하둡 분산파일시스템의 특성 하둡 분산파일시스템(HDFS) 은 블록이라는 단위로 파일을 관리합니다. 이 블록의 디폴트 설정값은 128MB 이며, 하나의 큰 파일을 HDFS 에 저장했을 때 블록의 크기 만큼 여러개의 파일로 나누어져 여러대의 서로 다른 노드에 분산 저장됩니다. 하나의 블록 크기가 상대적으로 큰 값을 가지는 이유는, 하둡 이라는 플랫폼이 큰 데이터를 빠르게 처리하기 위해 최적화 되어 있기 때문입니다. 하지만, HDFS 에 작은 크기의 파일들이 많아지게 되면, 데이터를 처리할 때 성능도 저하되며 NameNode 에서 관리할 메타정보의 크기가 커지면서 여러가지 측면에서 바람직하지 않습니다. 이러한 현상은 비단 HDFS 뿐만 아니고, AWS 와 같은 클라우드 서비스에서 S3 와 같은 오브젝트 스토리.. 이전 1 다음