[책정리] 빅데이터를 지탱하는 기술 : 2-1. 크로스 집계의 기본

2022. 5. 23. 19:17·AI & 빅데이터/[Book] 빅데이터를 지탱하는 기술
728x90

CHAPTER 2 빅데이터의 탐색

2-1. 크로스 집계의 기본

2-2. 열 지향 스토리지에 의한 고속화

2-3. 애드 혹 분석과 시각화 도구

2-4. 데이터 마트의 기본 구조

2-5. 요약

 

2장에서는 데이터를 시각화하는 환경을 정비함으로써 대량의 데이터를 효율적으로 탐색할 수 있도록 준비한다.


데이터 시각화에서 기본이 되는 것인 '크로스 집계'의 개념을 이해한다.


트랜잭션 테이블, 크로스 테이블, 피벗 테이블 : '크로스 집계'의 개념

아래의 표는 상품의 매출을 정리한 보고서이다. 행 방향으로 '상품명'이 나열되고 열 방향으로 '매출 월'이 나열되며, 행과 열이 교차하는 부분에 숫자 데이터가 들어가는데 이를 '크로스 테이블(cross table)'이라고 부른다.

  2017년 1월 2017년 2월 2017년 3월
상품 A 57,500 57,500 60,000
상품 B 2,400 5,800 12,400

크로스 테이블은 사람들이 보기에 편한 보고서이지만, 데이터베이스에서는 이를 다루기 어렵다. 따라서 아래의 테이블 처럼 열 방향이 아닌 행 방향으로만 증가하게 한다. 이를 '트랜젝션 테이블(transaction table)'이라고 한다.

매출 월 상품명 금액
2017년 1월 상품 A 57,500
2017년 1월 상품 B 2,400
2017년 2월 상품 A 57,500

 

트랜잭션 테이블에서 크로스 테이블로 변환하는 과정을 '크로스 집계(cross tablulation)'라고 한다. 이는 스프레드 시트에서 '피벗 테이블' 기능으로 수행할 수 있다.

 

728x90

'AI & 빅데이터 > [Book] 빅데이터를 지탱하는 기술' 카테고리의 다른 글

[책정리] 빅데이터를 지탱하는 기술 : 2-3. 애드 혹 분석과 시각화 도구  (0) 2022.05.24
[책정리] 빅데이터를 지탱하는 기술 : 2-2. 열 지향 스토리지에 의한 고속화  (0) 2022.05.23
[책정리] 빅데이터를 지탱하는 기술 : 1-4 BI 도구와 모니터링  (0) 2022.05.04
[책정리] 빅데이터를 지탱하는 기술 : 1-3 스크립트 언어에 의한 특별 분석과 데이터 프레임  (0) 2022.04.26
[책정리] 빅데이터를 지탱하는 기술 : 1-2 빅데이터 시대의 데이터 분석 기반  (0) 2022.04.18
'AI & 빅데이터/[Book] 빅데이터를 지탱하는 기술' 카테고리의 다른 글
  • [책정리] 빅데이터를 지탱하는 기술 : 2-3. 애드 혹 분석과 시각화 도구
  • [책정리] 빅데이터를 지탱하는 기술 : 2-2. 열 지향 스토리지에 의한 고속화
  • [책정리] 빅데이터를 지탱하는 기술 : 1-4 BI 도구와 모니터링
  • [책정리] 빅데이터를 지탱하는 기술 : 1-3 스크립트 언어에 의한 특별 분석과 데이터 프레임
kiminae
kiminae
공부한 내용을 정리합니다.
  • kiminae
    데이터 다루는 사람
    kiminae
  • 전체
    오늘
    어제
    • 분류 전체보기 (67)
      • AI & 빅데이터 (6)
        • kafka (10)
        • [Book] 빅데이터를 지탱하는 기술 (12)
      • 알고리즘 (19)
      • 알고리즘 문제풀이 (13)
        • programmers (0)
        • 백준 (1)
        • LeetCode (12)
      • Android (3)
      • Book&Lesson (13)
        • [Lesson] 프로그래머스 커뮤러닝 (Pyth.. (1)
      • 참고한 글들 (1)
      • 컨퍼런스 정리 (1)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    개인화추천
    mvvm
    정렬
    추천알고리즘
    빅데이터를지탱하는기술
    리트코드
    빅데이터
    트리
    sort
    머신러닝
    버블정렬
    MPP데이터베이스
    카프카클라이언트
    데이터엔지니어
    정렬알고리즘
    Algorithm
    DP문제
    데이터시각화
    알고리즘문제
    hadoop
    BI도구
    카프카
    leetcode
    릿코드
    알고리즘풀이
    파이프라인구축
    Kafka
    시간복잡도
    알고리즘
    ViewModel
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.1
kiminae
[책정리] 빅데이터를 지탱하는 기술 : 2-1. 크로스 집계의 기본
상단으로

티스토리툴바