CHAPTER 1 빅데이터의 기초 지식
1-1. 빅데이터의 정착
1-2. 빅데이터 시대의 데이터 분석 기반
1-3. 스크립트 언어에 의한 특별 분석과 데이터 프레임
1-4. BI 도구와 모니터링
1-5. 요약
1장에서는 빅데이터 기술이 생겨난 역사적 배경과 그 기본이 되는 사고방식, 용어를 정리한다.
'데이터'는 다양한 장소에 존재하며, 이를 수집하는 과정에서 스크립트 언어가 자주 사용된다. 1-3절에서는 파이썬에 의한 데이터 처리 개념에 관해 설명한다.
데이터 처리와 스크립트 언어 : 인기 언어인 파이썬과 데이터 프레임
데이터 분석을 하려면 데이터를 수집해야 한다. 파일 서버에서 다운로드를 하거나 인터넷에서 API로부터 얻기도 한다. 이렇게 얻어진 데이터에 '전처리'가 필요할 수도 있다. 이때 사용하는 것이 스크립트 언어이다.
주로 사용하는 것은 'R(R 언어)'과 '파이썬'이다. R은 통계 분석을 위해 개발된 언어이며 데이터 분석 전문가들 사이에서 인기가 있다. 한편 데이터 엔지니어 사이에서는 파이썬을 주로 사용하는데, 아래와 같은 장점들이 있다.
- R과 비교했을 때 파이썬은 범용의 스크립트 언어로 발전한 역사가 있으며 다양한 라이브러리를 사용할 수 있다.
- 외부 시스템 API를 호출하거나 복잡한 문자열 처리가 필요한 데이터 전처리에 적합하다.
- NumPy와 Scipy라는 수치 계산용 라이브러리와 머신러닝 프레임워크가 많다.
데이터 프레임, 기초 중의 기초 : '배열 안의 배열'로부터 작성
'데이터 프레임(data frame)'은 표 형식의 데이터를 추상화한 객체다. 이를 사용하면 스크립트 언어 안에서 데이터 가공과 집계를 할 수 있다.
웹 서버의 액세스 로그의 예 : pandas의 데이터 프레임으로 간단히 처리
아래와 같은 웹 서버의 액세스 로그는 데이터 웨어하우스와 BI 도구에서 그대로 읽어 들일 수가 없다.
x.x.x.x - - [01/Jul/1995:00:00:01 -0400] "GET /history/apollo..." 200 6245
x.x.x.x - - [01/Jul/1995:00:00:06 -0400] "GET /shuttle/countd..." 200 3985
따라서 이 데이터를 파이선 정규식을 사용해 파싱 한다.
데이터를 조금 더 가공하여 time 칼럼 값들을 표준적인 시간 포맷으로 변환한다.
해당 파일을 다시 CSV 파일로 변환하여 저장한다. 이제 이 파일을 BI 도구로 읽어 들여 시각화하면 될 것이다.
데이터의 전처리에서 사용할 수 있는 pandas의 함수
아래는 데이터의 가공에 편리한 pandas 함수이다.
이름 | 설명 |
ix | 조건에 일치하는 데이터만을 검색한다 |
drop | 지정한 행(혹은 칼럼)을 삭제한다. |
rename | 인덱스 값(혹은 칼럼명)을 변경한다. |
dropna | 값이 없는 행(혹은 칼럼명)을 제외한다. |
fillna | 값이 없는 셀을 지정한 값으로 치환한다. |
apply | 각 칼럼(혹은 각 행)에 함수를 적용한다. |
'AI & 빅데이터 > [Book] 빅데이터를 지탱하는 기술' 카테고리의 다른 글
[책정리] 빅데이터를 지탱하는 기술 : 2-1. 크로스 집계의 기본 (0) | 2022.05.23 |
---|---|
[책정리] 빅데이터를 지탱하는 기술 : 1-4 BI 도구와 모니터링 (0) | 2022.05.04 |
[책정리] 빅데이터를 지탱하는 기술 : 1-2 빅데이터 시대의 데이터 분석 기반 (0) | 2022.04.18 |
[책정리] 빅데이터를 지탱하는 기술 : 1-1 빅데이터의 정착 (0) | 2022.04.16 |
[책정리] 빅데이터를 지탱하는 기술 : 목차 (0) | 2022.04.16 |