CHAPTER 1 빅데이터의 기초 지식
1-1. 빅데이터의 정착
1-2. 빅데이터 시대의 데이터 분석 기반
1-3. 스크립트 언어에 의한 특별 분석과 데이터 프레임
1-4. BI 도구와 모니터링
1-5. 요약
1장에서는 빅데이터 기술이 생겨난 역사적 배경과 그 기본이 되는 사고방식, 용어를 정리한다.
분산 시스템에 의한 데이터 처리의 고속화
: 빅데이터의 취급하기 어려운 점을 극복한 두 가지 대표 기술
대량의 데이터를 활용하여 가치를 창출하거나 의사 결정을 하는 일이 보편화 되고, 클라우드 서비스의 보급으로 기술적인 제약이 적어져 이제는 누구나 데이터를 분석할 수 있는 시대가 되었다.
하지만 여전히 빅데이터의 취급이 어려우며, 그 이유는 두 가지로
1. 데이터의 분석 방법을 모른다.
2. 데이터 처리에 수고와 시간이 걸린다.
라는 문제가 있다.
데이터가 있어도 그 가치를 창조하지 못한다면 의미가 없고, 지식이 있어도 시간이 많이 소요된다면 할 수 있는 것은 한정된다.
알고 싶은 정보가 있다는 전제 하에, 그것을 "어떻게 효율적으로 실행할 것인가?"를 생각하는 것이 이 책의 목적이다.
빅데이터 기술의 요구 : Hadoop과 NoSQL의 대두
빅데이터의 기술로 먼저 예를 들 수 있는 것이 Hadoop과 NoSQL이다.웹 서버 등에서 생성된 데이터는 처음에 RDB와 NoSQL 등의 텍스트 데이터에 저장된다. 그 후 모든 데이터가 Hadoop으로 모이고, 거기서 대규모 데이터 처리가 실행된다.
Hadoop은 '다수의 컴퓨터에서 대량의 데이터를 처리하기' 위한 시스템이다.방대한 데이터를 저장해둘 스토리지와 데이터를 순차적으로 처리할 수 있는 구조가 필요할 때, 수많은 컴퓨터가 이용되어야 하는데 그것을 관리하는 것이 Hadoop이라는 프레임워크다.
NoSQL은 전통적인 RDB(Relational Database)의 제약을 제거하는 것을 목표로 한 데이터베이스의 총칭이다.[대표적인 NoSQL 데이터베이스의 종류]1. key-value store : 다수의 키와 값을 관련지어 저장2. document store : JSON과 같은 복잡한 데이터 구조를 저장
3. wide-column store : 여러 키를 사용하여 높은 확장성을 제공
RDB보다 고속의 읽기, 쓰기가 가능하고 분산 처리에 뛰어나다는 특징을 갖추고 있다.모여진 데이터를 나중에 집계하는 것이 목적인 Hadoop과 다르게, 애플리케이션에서 온라인으로 접속하는 데이터베이스다.
이 두 가지를 조합함으로 NoSQL 데이터베이스에 기록하고 Hadoop으로 분산 처리하는 방법이 보편화되었다.
분산 시스템의 비즈니스 이용 개척 : 데이터 웨어하우스와의 공존
일부 기업에서는 데이터 분석을 기반으로 하는 '엔터프라이즈 데이터 웨어하우스'를 도입했다. 전국 각지의 점포의 정보들이 오랜 기간에 걸쳐 축적되고, 그것을 분석함으로써 업무 개선과 경영 판단의 자료로 활용되었다.
전통적인 데이터 웨어하우스에서도 대량의 데이터를 처리할 수 있으며, 여러 방면에서 Hadoop보다 우수하지만 단점도 분명이 존재했다. 안정적인 성능을 실현하기 위해 하드웨어와 소프트웨어가 통합된 통합 장비로 제공되기도 하였는데, 데이터 용량을 늘리려면 하드웨어를 교체해야 하는 등 나중에 확장하는 것이 쉽지 않았다.
따라서 방대한 데이터의 처리는 Hadoop에게 맡기고 작은 데이터만을 데이터 웨어하우스에 넣는 방식으로 사용을 구분하게 되었다.
직접 할 수 있는 데이터 분석 폭 확대 : 클라우드 서비스와 데이터 디스커버리로 가속하는 빅데이터의 활용
빅데이터를 여러 컴퓨터에 분산 처리하는데, 이를 위한 하드웨어를 준비하고 관리하는 일은 간단하지 않다.
하지만 클라우드 시대가 시작되면서 작은 프로젝트 단위에서도 데이터 웨어하우스를 구축하여 자체적으로 데이터 분석 기반을 마련하는 경우가 많아졌다.
데이터 디스커버리의 기초지식
데이터 디스커버리란 '대화형으로 데이터를 시각화하여 가치 있는 정보를 찾으려고 하는 프로세스'이다.
이는 '셀프서비스용 BI 도구' 라고 불리며, 'BI 도구'를 개인도 도입할 수 있을 정도로 단순화한 것이다.
* BI 도구(business intelligence tool) 는 데이터 웨어하우스와 조합되어 사용된 경영자용 시각화 시스템으로 대기업의 IT부서에 의해 도입되는 대규모의 도구이다.
빅데이터 기술은 더 높은 '효율'과 '편리성'을 실현하기 위해 계속해서 개발되고 있다.
'Apache Spark'와 같은 새로운 분산 시스템용 프레임워크가 보급됨으로써 MapReduce보다도 효율적으로 데이터 처리를 할 수 있게 되었다.
'AI & 빅데이터 > [Book] 빅데이터를 지탱하는 기술' 카테고리의 다른 글
[책정리] 빅데이터를 지탱하는 기술 : 2-1. 크로스 집계의 기본 (0) | 2022.05.23 |
---|---|
[책정리] 빅데이터를 지탱하는 기술 : 1-4 BI 도구와 모니터링 (0) | 2022.05.04 |
[책정리] 빅데이터를 지탱하는 기술 : 1-3 스크립트 언어에 의한 특별 분석과 데이터 프레임 (0) | 2022.04.26 |
[책정리] 빅데이터를 지탱하는 기술 : 1-2 빅데이터 시대의 데이터 분석 기반 (0) | 2022.04.18 |
[책정리] 빅데이터를 지탱하는 기술 : 목차 (0) | 2022.04.16 |