본문 바로가기

반응형

일반

(10)
아파치 실시간 처리 프레임워크 비교분석 (2편) 지난 글 에서는 아파치 프로젝트로 오픈되어 많은 인기를 얻고있는 Storm, Trident, Spark, Samza, Flink 에 대한 기본 특성과 분산 플랫폼의 필수 이론을 살펴보았습니다. 이번 글 에서는 무정지형(Fault Tolerance) 시스템구축, 상태관리, 성능 등의 좀더 깊이있는 주제와 더불어 실시간 스트리밍 처리 플랫폼에 대한 가이드라인 및 추천을 해보려고 합니다. Fault Tolerance 스트리밍 플랫폼에서 Fault Tolerance 한 시스템을 구현한다는 것은 배치(batch) 플랫폼에서의 구현과 비교하여 본질적으로 더 많은 어려움을 가지고 있습니다. 배치 처리 플랫폼에서는 데이터 처리에 실패했을 때 연산에 실패한 부분을 재실행 함으로써 쉽게 해결할 수 있으나, 스트리밍 플랫폼..
아파치 실시간 처리 프레임워크 비교분석 (1편) 최근 실시간 처리를 위한 다양한 프레임워크가 오픈되어 있는데, 각 프레웜워크의 특성과 장단점을 비교해 보려고 합니다. 실시간 분산 처리 프레임워크는, DAGs(Directed Acyclic Graphs)라 불리우는 데이터 처리 모델을 바탕으로, 수초(혹은 ms) 이내에 무한한 데이터의 처리, 집계, 분석을 할 수 있습니다. DAG는 아래 그림에서 볼 수 있듯이 sources 로부터 sinks 까지의 task 들이 사슬처럼 엮여있는 것에 대한 표현인데, 일반적으로 스트리밍 Job의 Topology 를 설명하는 것으로 사용됩니다. DAG 는 단일 노드에서도 실행, 생성될 수 있으나 이번 글에서는 분산 처리가 가능한 DAG 솔루션 들에 대해서 살펴보도록 하겠습니다. 주요 관심 포인트 분산 스트리밍 플랫폼을 비..

반응형