[빅데이터 시스템 구축] HDFS란?

2022. 6. 17. 15:48·AI & 빅데이터
728x90

HDFS (Hadoop Distributed File System)

하둡 분산 파일 시스템으로, 대용량의 파일을 분산된 서버에 저장하고 데이터를 빠르게 처리할 수 있도록 설계 되었다.

 

HDFS의 특징

1. 대용량 파일

하나의 파일에 대해 기가, 테라 단위의 크기까지 저장이 가능하다.

2. 스트리밍 방식의 데이터 접근

클라이언트의 요청을 빠른 시간에 처리하는 것 보다 동일한 시간 내 많은 데이터를 처리하도록 설계되었다.

3. 범용 하드웨어 사용

신뢰도 높은 고가의 하드웨어가 아닌 범용의 하드웨어를 사용할 수 있다. 장애가 발생하는 경우 장애 복구 기능을 통해 작업을 실행할 수 있다.

4. 데이터 수정

데이터를 한 번 쓰고 끝나거나 파일의 끝에 데이터를 덧붙이는 것은 가능하지만 파일 중간의 데이터를 수정하는 것은 허용하지 않는다.

 

HDFS의 기본 개념

1. 블록

- 파일 시스템에서 사용하는 블록과 같은 개념으로 한 번에 읽고 쓸 수 있는 데이터의 최대량

- 일반적으로 사용하는 파일 시스템의 블록 크기는 수 KB 정도이지만, 하둡에서의 블록 크기는 V2기준 128MB

 

큰 데이터 블록을 사용하는 이유 : 탐색 비용을 줄이기 위해

블록의 크기가 크면 블록의 시작점을 탐색하는 데 걸리는 시간을 줄여 데이터 전송에 더 많은 시간을 사용할 수 있기 때문에 시간적으로 이득을 볼 수 있다.

 

2. 데이터 복제

- Hadoop에서는 내고장성과 가용성을 위해 데이터를 복제하여 저장

- 블록 손상과 노드의 장애에 대처하기 위해 각 블록을 서로 다른 노드에 복제하여 저장

 

3. 네임 노드와 데이터 노드

네임 노드 : 파일 시스템의 네임스페이스를 관리하며 파일, 디렉토리에 대한 메타데이터를 유지한다.

데이터 노드 : 블록을 저장하고, 저장하고 있는 데이터의 정보를 네임노드가 알 수 있게 주기적으로 보고한다.

 

HDFS의 파일 시스템에 접근하기 위해서는 내부적으로 네임노드에 먼저 접근하여 데이터의 위치에 어디에 있는지 파악한 후 데이터 노드로 접근하여 데이터를 가지고 오게 된다.

728x90

'AI & 빅데이터' 카테고리의 다른 글

[텍스트 마이닝] 카운트 기반의 문서 표현이란?  (1) 2024.02.03
[빅데이터 시스템 구축] Hadoop, Hadoop Ecosystem  (0) 2022.06.16
Anaconda 명령어  (0) 2022.04.06
Visual Studio에 Docker 연동하기  (0) 2022.03.27
Docker 명령어 정리  (0) 2022.03.27
'AI & 빅데이터' 카테고리의 다른 글
  • [텍스트 마이닝] 카운트 기반의 문서 표현이란?
  • [빅데이터 시스템 구축] Hadoop, Hadoop Ecosystem
  • Anaconda 명령어
  • Visual Studio에 Docker 연동하기
kiminae
kiminae
공부한 내용을 정리합니다.
  • kiminae
    데이터 다루는 사람
    kiminae
  • 전체
    오늘
    어제
    • 분류 전체보기 (67)
      • AI & 빅데이터 (6)
        • kafka (10)
        • [Book] 빅데이터를 지탱하는 기술 (12)
      • 알고리즘 (19)
      • 알고리즘 문제풀이 (13)
        • programmers (0)
        • 백준 (1)
        • LeetCode (12)
      • Android (3)
      • Book&Lesson (13)
        • [Lesson] 프로그래머스 커뮤러닝 (Pyth.. (1)
      • 참고한 글들 (1)
      • 컨퍼런스 정리 (1)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    버블정렬
    정렬
    추천알고리즘
    카프카클라이언트
    mvvm
    Algorithm
    leetcode
    알고리즘
    ViewModel
    파이프라인구축
    머신러닝
    DP문제
    BI도구
    빅데이터
    개인화추천
    알고리즘풀이
    리트코드
    빅데이터를지탱하는기술
    릿코드
    카프카
    데이터엔지니어
    sort
    데이터시각화
    트리
    알고리즘문제
    시간복잡도
    정렬알고리즘
    Kafka
    hadoop
    MPP데이터베이스
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.1
kiminae
[빅데이터 시스템 구축] HDFS란?
상단으로

티스토리툴바