[책정리] 빅데이터를 지탱하는 기술 : 3-2. 쿼리 엔진
·
AI & 빅데이터/[Book] 빅데이터를 지탱하는 기술
CHAPTER 3 빅데이터의 분산 처리 3-1. 대규모 분산 처리의 프레임워크 3-2. 쿼리 엔진 3-3. 데이터 마트의 구축 3-4. 요약 3장에서는 분산 시스템의 대표적인 프레임워크인 Hadoop과 Spark를 이용한 데이터 처리에 관해 설명한다. Hadoop 위에서 구조화 데이터를 집계하기 위한 '쿼리 엔진'에 대해 설명한다. 배치형의 쿼리 엔진인 'Hive'와 대화형의 쿼리 엔진인 'Presto'를 비교하고, 그것의 사용 구분에 관해 설명한다. 데이터 마트 구축의 파이프라인 쿼리 엔진을 사용하여 데이터 마트를 만들기까지의 흐름을 살펴보자. 분산 스토리지에 저장된 데이터를 구조화하고 열 지향 스토리지 형식으로 저장한다. 많은 텍스트 파일을 읽어 가공하는 부하가 큰 처리가 되기 때문에 Hive를 이용..