본문 바로가기

반응형

전체 글

(22)
Hive 사용할 때 Small File Merge 하기 하둡 분산파일시스템의 특성 하둡 분산파일시스템(HDFS) 은 블록이라는 단위로 파일을 관리합니다. 이 블록의 디폴트 설정값은 128MB 이며, 하나의 큰 파일을 HDFS 에 저장했을 때 블록의 크기 만큼 여러개의 파일로 나누어져 여러대의 서로 다른 노드에 분산 저장됩니다. 하나의 블록 크기가 상대적으로 큰 값을 가지는 이유는, 하둡 이라는 플랫폼이 큰 데이터를 빠르게 처리하기 위해 최적화 되어 있기 때문입니다. 하지만, HDFS 에 작은 크기의 파일들이 많아지게 되면, 데이터를 처리할 때 성능도 저하되며 NameNode 에서 관리할 메타정보의 크기가 커지면서 여러가지 측면에서 바람직하지 않습니다. 이러한 현상은 비단 HDFS 뿐만 아니고, AWS 와 같은 클라우드 서비스에서 S3 와 같은 오브젝트 스토리..
Hadoop Resource Localization 파헤치기 하둡 클러스터를 온프레미스에서 운영하면서 발생했던 ResourceLocalizationService 관련 장애 하나를 소개해 드리려고 합니다. 장애 상황을 설명해 드리기 전에, YARN 의 ResourceLocalizationService 가 어떤 역할을 하는 서비스인지 살펴보겠습니다. YARN 애플리케이션 동작방식 위 그림은 YARN 에서 MapReduce 애플리케이션이 동작하는 순서를 도식화 해놓은 그림입니다. 왼쪽 상단의 MapReduce program 이 하나의 Job 으로 실행되면, 전체 클러스터의 리소스를 관리하는 ResourceManager 가 전체 클러스터 노드 중에서, 제출된 Job 의 Master 역할을 하게될 ApplicationMaster 를 선정하여 구동하게 되고, 실제 데이터를 ..
Hadoop 3.1 트러블슈팅 사례공유 하둡 업그레이드 필요성 하둡 1 혹은 2 버전을 사용하고 계시다면, 하둡 3 로의 업그레이드를 고민하실 것 입니다. 하둡 3 의 주요 특성과 장점은 아래 글을 참고 하시면 됩니다. 업그레이드를 부르는 Hadoop 3.0 신규 기능 살펴보기 하둡 3 로의 업그레이드는 위 글에서와 같이 여러가지 장점이 있습니다. 필자의 경우에는, 늘어나는 다양한 데이터를 저장할 공간이 부족한 가운데, 두배의 저장공간 확보가 가능하다는 것이 가장 큰 메리트로 다가왔으며, 언젠가 해야할 숙원사업 처럼 생각하고 있던 것을 드디어 실행에 옮기게 되었습니다. 하둡 버전에 대한 고민과 업그레이드 전략 얼마전, 클라우데라와 호튼웍스가 합병되면서, 하둡 플랫폼의 버전과 라이센스에도 큰 변화가 있었습니다. 클라우데라의 CDH 와 HDP 를..
MySQL Workbench 에서 Error Code : 1175 (Safe update mode..) 에러 발생 시 해결방법 MySQL Workbench 사용 시 UPDATE, DELETE 등 구문을 사용할 때 아래와 같은 에러 메세지를 만나는 경우가 발생한다. Error Code: 1175. You are using safe update mode and you tried to update a table without a WHERE that uses a KEY column To disable safe mode, toggle the option in Preferences -> SQL Editor and reconnect. 데이터의 보호를 위해 설정되어 있는 Safe Update Mode 설정을 해제해 주면 되는데, 아래와 같이 해결하면 된다. Edit >> Preferences 메뉴 클릭 SQL Editor 설정에서 제일 아래쪽..
SK텔레콤, Hadoop DW 와 데이터 분석환경 구축사례 최근 하둡(Hadoop)을 중심으로한 오픈소스 빅데이터 플랫폼들의 동향을 살펴보면, Lamda Architecture 로 대변되는 실시간 데이터수집, 처리, 저장, 저장된 데이터의 배치처리, 처리된 데이터의 조회(분산 데이터베이스)의 각 영역에 기술적으로 성숙했다고 볼 수 있는 굵직굵직한 플랫폼들이 이미 자리를 잡은 모습입니다. 필자가 위 그림의 아키텍쳐와 거의 유사한 구성으로 사내 Network Management System 을 구현하던 시기(2012년)만해도 실시간 처리 플랫폼으로 마땅한 Reference 가 Storm 외에는 없었던 시기였지만, 지금은 Apache Spark 을 중심으로한 다양한 플랫폼들을 골라(?)쓸 수 있는 상황이 되었고, 기술적으로는 이미 포화상태가 아닌가 생각될 정도입니다...
AWS EMR 클러스터 생성 시 Advanced Options 상세설명 EMR Cluster 를 Advanced Options 로 생성하면 아래와 같이 총 4단계의 과정을 거치게 됩니다. Step 1 : Software and Steps Step 2 : Hardware Step 3 : General Cluster Settings Step 4 : Security 아래는 각 단계별 옵션 값들에 대한 상세설명 내용입니다. EMR 서비스 검색 AWS Console 에서 “EMR” 로 검색 EMR 클릭 좌측 Clusters 메뉴 클릭 Create cluster 클릭 Go to advanced options 클릭 Step 1: Software and Steps 첫번째 단계에서는 EMR 클러스터의 S/W 버전과 클러스터 생성 후 실행할 Application 에 대한 설정(Optional..
Hadoop 3.0 신규 기능 살펴보기 하둡이 1.0 에서 2.0 으로 진화할 때, NameNode 의 HA 와 YARN 의 등장이 가장 큰 변화였다고 할 수 있습니다. 이번에는 2.0 에서 3.0 버전으로 진화하면서 추가된 주요 특성에 대해서 살펴보겠습니다. Java Version 하둡 3.0 에서 요구하는 최소 자바 버전은 기존 Java 7 에서 Java 8 로 변경 되었습니다. 아직 프로덕션 환경의 자바 메인 버전을 Java 7 로 사용하고 계시다면, 다가오는 하둡 3.0 적용을 위해 Java 8 로의 업그레이드를 고려해 보시는 것이 좋겠습니다. Support Erasure Coding in HDFS Erasure Coding 은 안정성을 보장하는 데이터 저장 방식의 하나로, 일반적으로 3배의 오버헤드를 갖는 HDFS 의 복제 방식(re..
AWS re:Invent 2020 Top Announcements 살펴보기 전 세계 최대 클라우드 컨퍼런스인 AWS re:Invent 2020 이 11월 30일부터 12월 18일까지 약 3주에 걸쳐 온라인으로 진행되고 있습니다. 많은 사람들의 관심을 끌만한 수많은 쎄션들 중, AWS 블로그 사이트에 공개된 Top Announcements 에 대해 살펴보겠습니다. Analytics New – Amazon QuickSight Q Answers Natural-Language Questions About Business Data 첫번째 소식은, Amazon 의 관리형 BI 서비스인 Amazon QuickSight 에서 머신러닝 기반의 자연언어쿼리(Natural Language Query, 이하 NLQ)를 지원한다는 소식입니다. BI 솔루션은 데이터를 시각화 중심의 차트로 빠르게 표현하..

반응형