
[책정리] 빅데이터를 지탱하는 기술 : 3-3. 데이터 마트의 구축
·
AI & 빅데이터/[Book] 빅데이터를 지탱하는 기술
CHAPTER 3 빅데이터의 분산 처리 3-1. 대규모 분산 처리의 프레임워크 3-2. 쿼리 엔진 3-3. 데이터 마트의 구축 3-4. 요약 3장에서는 분산 시스템의 대표적인 프레임워크인 Hadoop과 Spark를 이용한 데이터 처리에 관해 설명한다. 데이터 마트를 만드는 절차에 있어, 각종 테이블의 역할과 비정규화 테이블을 만들기까지의 흐름을 알아보자. 팩트 테이블 : 시계열 데이터 축적하기 빅데이터의 분석은 데이터를 구조화하는 것부터 시작하며, 그 중 대부분을 차지하는 것이 팩트 테이블이다. 팩트 테이블을 열 지향 스토리지에서 데이터를 압축함으로써 빠른 집계를 할 수 있다. 팩트 테이블의 작성에는 '추가' 와 '치환' 의 2가지 방법으로 진행된다. 추가는 말 그대로 새로운 데이터를 추가하는 것이며, ..