[책정리] 빅데이터를 지탱하는 기술 : 3-1. 대규모 분산 처리의 프레임워크
·
AI & 빅데이터/[Book] 빅데이터를 지탱하는 기술
CHAPTER 3 빅데이터의 분산 처리 3-1. 대규모 분산 처리의 프레임워크 3-2. 쿼리 엔진 3-3. 데이터 마트의 구축 3-4. 요약 3장에서는 분산 시스템의 대표적인 프레임워크인 Hadoop과 Spark를 이용한 데이터 처리에 관해 설명한다. '구조화 데이터'와 '비구조화 데이터'의 차이를 정리하고, Hadoop에서 구조화 데이터를 만들어서 집계할 때까지의 흐름을 설명한다. Hadoop과 Spark의 차이점을 정리한다. 구조화 데이터와 비구조화 데이터 SQL로 데이터를 집계하는 경우, 먼저 테이블의 칼럼 명과 데이터형, 테이블 간의 관계 등을 '스키마(schema)'로 정한다. 스키마가 명확하게 정의된 데이터를 '구조화된 데이터'라고 한다. 빅데이터는 반드시 구조화된 데이터만 있는 것이 아니라 ..