[책정리] 빅데이터를 지탱하는 기술 : 3-3. 데이터 마트의 구축
·
AI & 빅데이터/[Book] 빅데이터를 지탱하는 기술
CHAPTER 3 빅데이터의 분산 처리 3-1. 대규모 분산 처리의 프레임워크 3-2. 쿼리 엔진 3-3. 데이터 마트의 구축 3-4. 요약 3장에서는 분산 시스템의 대표적인 프레임워크인 Hadoop과 Spark를 이용한 데이터 처리에 관해 설명한다. 데이터 마트를 만드는 절차에 있어, 각종 테이블의 역할과 비정규화 테이블을 만들기까지의 흐름을 알아보자. 팩트 테이블 : 시계열 데이터 축적하기 빅데이터의 분석은 데이터를 구조화하는 것부터 시작하며, 그 중 대부분을 차지하는 것이 팩트 테이블이다. 팩트 테이블을 열 지향 스토리지에서 데이터를 압축함으로써 빠른 집계를 할 수 있다. 팩트 테이블의 작성에는 '추가' 와 '치환' 의 2가지 방법으로 진행된다. 추가는 말 그대로 새로운 데이터를 추가하는 것이며, ..
[책정리] 빅데이터를 지탱하는 기술 : 3-2. 쿼리 엔진
·
AI & 빅데이터/[Book] 빅데이터를 지탱하는 기술
CHAPTER 3 빅데이터의 분산 처리 3-1. 대규모 분산 처리의 프레임워크 3-2. 쿼리 엔진 3-3. 데이터 마트의 구축 3-4. 요약 3장에서는 분산 시스템의 대표적인 프레임워크인 Hadoop과 Spark를 이용한 데이터 처리에 관해 설명한다. Hadoop 위에서 구조화 데이터를 집계하기 위한 '쿼리 엔진'에 대해 설명한다. 배치형의 쿼리 엔진인 'Hive'와 대화형의 쿼리 엔진인 'Presto'를 비교하고, 그것의 사용 구분에 관해 설명한다. 데이터 마트 구축의 파이프라인 쿼리 엔진을 사용하여 데이터 마트를 만들기까지의 흐름을 살펴보자. 분산 스토리지에 저장된 데이터를 구조화하고 열 지향 스토리지 형식으로 저장한다. 많은 텍스트 파일을 읽어 가공하는 부하가 큰 처리가 되기 때문에 Hive를 이용..
[책정리] 빅데이터를 지탱하는 기술 : 3-1. 대규모 분산 처리의 프레임워크
·
AI & 빅데이터/[Book] 빅데이터를 지탱하는 기술
CHAPTER 3 빅데이터의 분산 처리 3-1. 대규모 분산 처리의 프레임워크 3-2. 쿼리 엔진 3-3. 데이터 마트의 구축 3-4. 요약 3장에서는 분산 시스템의 대표적인 프레임워크인 Hadoop과 Spark를 이용한 데이터 처리에 관해 설명한다. '구조화 데이터'와 '비구조화 데이터'의 차이를 정리하고, Hadoop에서 구조화 데이터를 만들어서 집계할 때까지의 흐름을 설명한다. Hadoop과 Spark의 차이점을 정리한다. 구조화 데이터와 비구조화 데이터 SQL로 데이터를 집계하는 경우, 먼저 테이블의 칼럼 명과 데이터형, 테이블 간의 관계 등을 '스키마(schema)'로 정한다. 스키마가 명확하게 정의된 데이터를 '구조화된 데이터'라고 한다. 빅데이터는 반드시 구조화된 데이터만 있는 것이 아니라 ..
[책정리] 빅데이터를 지탱하는 기술 : 2-4. 데이터 마트의 기본 구조
·
AI & 빅데이터/[Book] 빅데이터를 지탱하는 기술
CHAPTER 2 빅데이터의 탐색 2-1. 크로스 집계의 기본 2-2. 열 지향 스토리지에 의한 고속화 2-3. 애드 혹 분석과 시각화 도구 2-4. 데이터 마트의 기본 구조 2-5. 요약 2장에서는 데이터를 시각화하는 환경을 정비함으로써 대량의 데이터를 효율적으로 탐색할 수 있도록 준비한다. 데이터 마트의 설계에 있어 기본이 되는 개념들을 정리한다. 시각화에 적합한 데이터 마트 만들기 : OLAP 다차원 모델과 OLAP 큐브 OLAP(online analytical processing)이란 데이터 집계를 효율화하는 접근 방법 중 하나이다. 일반적으로 업무 시스템에서 RDB는 SQL로 데이터를 집계하지만, OLAP에서는 '다차원 모델'의 데이터 구조를 'MDX(multidimensional express..
[책정리] 빅데이터를 지탱하는 기술 : 2-3. 애드 혹 분석과 시각화 도구
·
AI & 빅데이터/[Book] 빅데이터를 지탱하는 기술
CHAPTER 2 빅데이터의 탐색 2-1. 크로스 집계의 기본 2-2. 열 지향 스토리지에 의한 고속화 2-3. 애드 혹 분석과 시각화 도구 2-4. 데이터 마트의 기본 구조 2-5. 요약 2장에서는 데이터를 시각화하는 환경을 정비함으로써 대량의 데이터를 효율적으로 탐색할 수 있도록 준비한다. Jupyter Notebook에 의한 애드 혹 분석 : 노트북에 분석 과정 기록하기 데이터 분석을 시작하는 데 있어, 처음에는 원하는 데이터가 어디에 있는지, 집계 시간이 얼마나 걸리는지 알지 못하여 여러 시행착오를 겪어야 한다. 그러한 과정에서는 대화형 실행 환경이 자주 사용된다. 오픈 소스의 대화형 도구로 인기 있는 것 중 하나는 'Jupyter Notebook'이다. 파이썬과 루비, R 언어 등 스크립트 언어..
[책정리] 빅데이터를 지탱하는 기술 : 2-2. 열 지향 스토리지에 의한 고속화
·
AI & 빅데이터/[Book] 빅데이터를 지탱하는 기술
CHAPTER 2 빅데이터의 탐색 2-1. 크로스 집계의 기본 2-2. 열 지향 스토리지에 의한 고속화 2-3. 애드 혹 분석과 시각화 도구 2-4. 데이터 마트의 기본 구조 2-5. 요약 2장에서는 데이터를 시각화하는 환경을 정비함으로써 대량의 데이터를 효율적으로 탐색할 수 있도록 준비한다. 데이터베이스의 지연을 줄이기 데이터양이 증가함에 따라 집계에 걸리는 시간은 길어진다. 그렇게 되면 작업 효율은 악화되며 모든 작업들이 느려지게 된다. 초 단위로 데이터를 집계하려면 처음부터 그것을 예상하여 시스템을 마련해야 한다. 데이터 처리의 지연 데이터의 처리 응답이 빠르다는 표현을 '대기 시간이 적다' 또는 '지연이 적다'고 한다. 데이터 마트를 만들 때는 가급적 지연이 적은 데이터베이스가 있어야 한다. 그 ..
[책정리] 빅데이터를 지탱하는 기술 : 2-1. 크로스 집계의 기본
·
AI & 빅데이터/[Book] 빅데이터를 지탱하는 기술
CHAPTER 2 빅데이터의 탐색 2-1. 크로스 집계의 기본 2-2. 열 지향 스토리지에 의한 고속화 2-3. 애드 혹 분석과 시각화 도구 2-4. 데이터 마트의 기본 구조 2-5. 요약 2장에서는 데이터를 시각화하는 환경을 정비함으로써 대량의 데이터를 효율적으로 탐색할 수 있도록 준비한다. 데이터 시각화에서 기본이 되는 것인 '크로스 집계'의 개념을 이해한다. 트랜잭션 테이블, 크로스 테이블, 피벗 테이블 : '크로스 집계'의 개념 아래의 표는 상품의 매출을 정리한 보고서이다. 행 방향으로 '상품명'이 나열되고 열 방향으로 '매출 월'이 나열되며, 행과 열이 교차하는 부분에 숫자 데이터가 들어가는데 이를 '크로스 테이블(cross table)'이라고 부른다. 2017년 1월 2017년 2월 2017년..
[책정리] 빅데이터를 지탱하는 기술 : 1-4 BI 도구와 모니터링
·
AI & 빅데이터/[Book] 빅데이터를 지탱하는 기술
CHAPTER 1 빅데이터의 기초 지식 1-1. 빅데이터의 정착 1-2. 빅데이터 시대의 데이터 분석 기반 1-3. 스크립트 언어에 의한 특별 분석과 데이터 프레임 1-4. BI 도구와 모니터링 1-5. 요약 1장에서는 빅데이터 기술이 생겨난 역사적 배경과 그 기본이 되는 사고방식, 용어를 정리한다. 데이터의 탐색에 있어, 보고서 작성과 세부 사항을 알기 위한 BI 도구의 사용법에 관해 설명한다. 스프레드시트에 의한 모니터링 : 프로젝트의 현재 상황 파악하기 모니터링이란 계획적으로 데이터의 변화를 추적해 나가는 것이다. 데이터라는 것은 현재 상황을 파악하기 위한 하나의 도구로 사용할 수 있으며, 다음 행동을 결정하기 위한 재료로서 데이터를 살펴볼 수 있다. 2017년 1월 2017년 2월 2017년 3월..