[책정리] 빅데이터를 지탱하는 기술 : 1-3 스크립트 언어에 의한 특별 분석과 데이터 프레임

2022. 4. 26. 14:35·AI & 빅데이터/[Book] 빅데이터를 지탱하는 기술
728x90

CHAPTER 1 빅데이터의 기초 지식

1-1. 빅데이터의 정착

1-2. 빅데이터 시대의 데이터 분석 기반

1-3. 스크립트 언어에 의한 특별 분석과 데이터 프레임

1-4. BI 도구와 모니터링

1-5. 요약

 

1장에서는 빅데이터 기술이 생겨난 역사적 배경과 그 기본이 되는 사고방식, 용어를 정리한다.


'데이터'는 다양한 장소에 존재하며, 이를 수집하는 과정에서 스크립트 언어가 자주 사용된다. 1-3절에서는 파이썬에 의한 데이터 처리 개념에 관해 설명한다.


데이터 처리와 스크립트 언어 : 인기 언어인 파이썬과 데이터 프레임

데이터 분석을 하려면 데이터를 수집해야 한다. 파일 서버에서 다운로드를 하거나 인터넷에서 API로부터 얻기도 한다. 이렇게 얻어진 데이터에 '전처리'가 필요할 수도 있다. 이때 사용하는 것이 스크립트 언어이다.

 

주로 사용하는 것은 'R(R 언어)'과 '파이썬'이다. R은 통계 분석을 위해 개발된 언어이며 데이터 분석 전문가들 사이에서 인기가 있다. 한편 데이터 엔지니어 사이에서는 파이썬을 주로 사용하는데, 아래와 같은 장점들이 있다.

- R과 비교했을 때 파이썬은 범용의 스크립트 언어로 발전한 역사가 있으며 다양한 라이브러리를 사용할 수 있다.

- 외부 시스템 API를 호출하거나 복잡한 문자열 처리가 필요한 데이터 전처리에 적합하다.

- NumPy와 Scipy라는 수치 계산용 라이브러리와 머신러닝 프레임워크가 많다.


데이터 프레임, 기초 중의 기초 : '배열 안의 배열'로부터 작성

'데이터 프레임(data frame)'은 표 형식의 데이터를 추상화한 객체다. 이를 사용하면 스크립트 언어 안에서 데이터 가공과 집계를 할 수 있다.


웹 서버의 액세스 로그의 예 : pandas의 데이터 프레임으로 간단히 처리

아래와 같은 웹 서버의 액세스 로그는 데이터 웨어하우스와 BI 도구에서 그대로 읽어 들일 수가 없다.

x.x.x.x - - [01/Jul/1995:00:00:01 -0400] "GET /history/apollo..." 200 6245
x.x.x.x - - [01/Jul/1995:00:00:06 -0400] "GET /shuttle/countd..." 200 3985

따라서 이 데이터를 파이선 정규식을 사용해 파싱 한다.

데이터를 조금 더 가공하여 time 칼럼 값들을 표준적인 시간 포맷으로 변환한다.

해당 파일을 다시 CSV 파일로 변환하여 저장한다. 이제 이 파일을 BI 도구로 읽어 들여 시각화하면 될 것이다.

 

데이터의 전처리에서 사용할 수 있는 pandas의 함수

아래는 데이터의 가공에 편리한 pandas 함수이다.

이름 설명
ix 조건에 일치하는 데이터만을 검색한다
drop 지정한 행(혹은 칼럼)을 삭제한다.
rename 인덱스 값(혹은 칼럼명)을 변경한다.
dropna 값이 없는 행(혹은 칼럼명)을 제외한다.
fillna 값이 없는 셀을 지정한 값으로 치환한다.
apply 각 칼럼(혹은 각 행)에 함수를 적용한다.

 

728x90

'AI & 빅데이터 > [Book] 빅데이터를 지탱하는 기술' 카테고리의 다른 글

[책정리] 빅데이터를 지탱하는 기술 : 2-1. 크로스 집계의 기본  (0) 2022.05.23
[책정리] 빅데이터를 지탱하는 기술 : 1-4 BI 도구와 모니터링  (0) 2022.05.04
[책정리] 빅데이터를 지탱하는 기술 : 1-2 빅데이터 시대의 데이터 분석 기반  (0) 2022.04.18
[책정리] 빅데이터를 지탱하는 기술 : 1-1 빅데이터의 정착  (0) 2022.04.16
[책정리] 빅데이터를 지탱하는 기술 : 목차  (0) 2022.04.16
'AI & 빅데이터/[Book] 빅데이터를 지탱하는 기술' 카테고리의 다른 글
  • [책정리] 빅데이터를 지탱하는 기술 : 2-1. 크로스 집계의 기본
  • [책정리] 빅데이터를 지탱하는 기술 : 1-4 BI 도구와 모니터링
  • [책정리] 빅데이터를 지탱하는 기술 : 1-2 빅데이터 시대의 데이터 분석 기반
  • [책정리] 빅데이터를 지탱하는 기술 : 1-1 빅데이터의 정착
kiminae
kiminae
공부한 내용을 정리합니다.
  • kiminae
    데이터 다루는 사람
    kiminae
  • 전체
    오늘
    어제
    • 분류 전체보기 (67)
      • AI & 빅데이터 (6)
        • kafka (10)
        • [Book] 빅데이터를 지탱하는 기술 (12)
      • 알고리즘 (19)
      • 알고리즘 문제풀이 (13)
        • programmers (0)
        • 백준 (1)
        • LeetCode (12)
      • Android (3)
      • Book&Lesson (13)
        • [Lesson] 프로그래머스 커뮤러닝 (Pyth.. (1)
      • 참고한 글들 (1)
      • 컨퍼런스 정리 (1)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    데이터시각화
    카프카
    MPP데이터베이스
    트리
    hadoop
    개인화추천
    알고리즘
    파이프라인구축
    DP문제
    데이터엔지니어
    머신러닝
    BI도구
    카프카클라이언트
    추천알고리즘
    sort
    빅데이터
    정렬알고리즘
    알고리즘문제
    Kafka
    릿코드
    빅데이터를지탱하는기술
    리트코드
    정렬
    시간복잡도
    leetcode
    알고리즘풀이
    ViewModel
    Algorithm
    버블정렬
    mvvm
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.1
kiminae
[책정리] 빅데이터를 지탱하는 기술 : 1-3 스크립트 언어에 의한 특별 분석과 데이터 프레임
상단으로

티스토리툴바