728x90
CHAPTER 2 빅데이터의 탐색
2-1. 크로스 집계의 기본
2-2. 열 지향 스토리지에 의한 고속화
2-3. 애드 혹 분석과 시각화 도구
2-4. 데이터 마트의 기본 구조
2-5. 요약
2장에서는 데이터를 시각화하는 환경을 정비함으로써 대량의 데이터를 효율적으로 탐색할 수 있도록 준비한다.
데이터 시각화에서 기본이 되는 것인 '크로스 집계'의 개념을 이해한다.
트랜잭션 테이블, 크로스 테이블, 피벗 테이블 : '크로스 집계'의 개념
아래의 표는 상품의 매출을 정리한 보고서이다. 행 방향으로 '상품명'이 나열되고 열 방향으로 '매출 월'이 나열되며, 행과 열이 교차하는 부분에 숫자 데이터가 들어가는데 이를 '크로스 테이블(cross table)'이라고 부른다.
2017년 1월 | 2017년 2월 | 2017년 3월 | |
상품 A | 57,500 | 57,500 | 60,000 |
상품 B | 2,400 | 5,800 | 12,400 |
크로스 테이블은 사람들이 보기에 편한 보고서이지만, 데이터베이스에서는 이를 다루기 어렵다. 따라서 아래의 테이블 처럼 열 방향이 아닌 행 방향으로만 증가하게 한다. 이를 '트랜젝션 테이블(transaction table)'이라고 한다.
매출 월 | 상품명 | 금액 |
2017년 1월 | 상품 A | 57,500 |
2017년 1월 | 상품 B | 2,400 |
2017년 2월 | 상품 A | 57,500 |
트랜잭션 테이블에서 크로스 테이블로 변환하는 과정을 '크로스 집계(cross tablulation)'라고 한다. 이는 스프레드 시트에서 '피벗 테이블' 기능으로 수행할 수 있다.
728x90
'AI & 빅데이터 > [Book] 빅데이터를 지탱하는 기술' 카테고리의 다른 글
[책정리] 빅데이터를 지탱하는 기술 : 2-3. 애드 혹 분석과 시각화 도구 (0) | 2022.05.24 |
---|---|
[책정리] 빅데이터를 지탱하는 기술 : 2-2. 열 지향 스토리지에 의한 고속화 (0) | 2022.05.23 |
[책정리] 빅데이터를 지탱하는 기술 : 1-4 BI 도구와 모니터링 (0) | 2022.05.04 |
[책정리] 빅데이터를 지탱하는 기술 : 1-3 스크립트 언어에 의한 특별 분석과 데이터 프레임 (0) | 2022.04.26 |
[책정리] 빅데이터를 지탱하는 기술 : 1-2 빅데이터 시대의 데이터 분석 기반 (0) | 2022.04.18 |