[책정리] 빅데이터를 지탱하는 기술 : 3-2. 쿼리 엔진
·
AI & 빅데이터/[Book] 빅데이터를 지탱하는 기술
CHAPTER 3 빅데이터의 분산 처리 3-1. 대규모 분산 처리의 프레임워크 3-2. 쿼리 엔진 3-3. 데이터 마트의 구축 3-4. 요약 3장에서는 분산 시스템의 대표적인 프레임워크인 Hadoop과 Spark를 이용한 데이터 처리에 관해 설명한다. Hadoop 위에서 구조화 데이터를 집계하기 위한 '쿼리 엔진'에 대해 설명한다. 배치형의 쿼리 엔진인 'Hive'와 대화형의 쿼리 엔진인 'Presto'를 비교하고, 그것의 사용 구분에 관해 설명한다. 데이터 마트 구축의 파이프라인 쿼리 엔진을 사용하여 데이터 마트를 만들기까지의 흐름을 살펴보자. 분산 스토리지에 저장된 데이터를 구조화하고 열 지향 스토리지 형식으로 저장한다. 많은 텍스트 파일을 읽어 가공하는 부하가 큰 처리가 되기 때문에 Hive를 이용..
[책정리] 빅데이터를 지탱하는 기술 : 2-2. 열 지향 스토리지에 의한 고속화
·
AI & 빅데이터/[Book] 빅데이터를 지탱하는 기술
CHAPTER 2 빅데이터의 탐색 2-1. 크로스 집계의 기본 2-2. 열 지향 스토리지에 의한 고속화 2-3. 애드 혹 분석과 시각화 도구 2-4. 데이터 마트의 기본 구조 2-5. 요약 2장에서는 데이터를 시각화하는 환경을 정비함으로써 대량의 데이터를 효율적으로 탐색할 수 있도록 준비한다. 데이터베이스의 지연을 줄이기 데이터양이 증가함에 따라 집계에 걸리는 시간은 길어진다. 그렇게 되면 작업 효율은 악화되며 모든 작업들이 느려지게 된다. 초 단위로 데이터를 집계하려면 처음부터 그것을 예상하여 시스템을 마련해야 한다. 데이터 처리의 지연 데이터의 처리 응답이 빠르다는 표현을 '대기 시간이 적다' 또는 '지연이 적다'고 한다. 데이터 마트를 만들 때는 가급적 지연이 적은 데이터베이스가 있어야 한다. 그 ..