본문 바로가기

반응형

하이브

(2)
Hive 사용할 때 Small File Merge 하기 하둡 분산파일시스템의 특성 하둡 분산파일시스템(HDFS) 은 블록이라는 단위로 파일을 관리합니다. 이 블록의 디폴트 설정값은 128MB 이며, 하나의 큰 파일을 HDFS 에 저장했을 때 블록의 크기 만큼 여러개의 파일로 나누어져 여러대의 서로 다른 노드에 분산 저장됩니다. 하나의 블록 크기가 상대적으로 큰 값을 가지는 이유는, 하둡 이라는 플랫폼이 큰 데이터를 빠르게 처리하기 위해 최적화 되어 있기 때문입니다. 하지만, HDFS 에 작은 크기의 파일들이 많아지게 되면, 데이터를 처리할 때 성능도 저하되며 NameNode 에서 관리할 메타정보의 크기가 커지면서 여러가지 측면에서 바람직하지 않습니다. 이러한 현상은 비단 HDFS 뿐만 아니고, AWS 와 같은 클라우드 서비스에서 S3 와 같은 오브젝트 스토리..
Hive Metastore contains multiple versions Exception 해결방법 Hive 를 사용하다 보면 아래 로그와 같이 Hive 의 Metastore 에 버전이 여러 개 존재한다고 하는 MetaException(message:Metastore contains multiple versions) 에러를 종종 만나게 됩니다. 아래 로그는 실제 에러가 발생한 이후, Hive 를 통하여 어떠한 쿼리를 실행하였을 때 발생하는 에러 로그 입니다. 2016-07-02 16:14:33,330 ERROR metastore.HiveMetaStore (HiveMetaStore.java:main(4224)) - Metastore Thrift Server threw an exception... MetaException(message:Metastore contains multiple versions) a..

반응형