[빅데이터 시스템 구축] Hadoop, Hadoop Ecosystem

728x90

Hadoop

an open source software platform for distributed storage and distributed processing of very large data sets on computer clusters built from commodity hardware.

빅데이터에 대한 분산 처리, 분산 저장소에 대한 오픈 소스 소프트웨어 플랫폼.

Hadoop 자체 시스템으로는 HDFS, YARN, MapReduce 3가지가 있다.

HDFS

(Hadoop Distributed File System) 대용량 데이터들을 분산된 서버에 저장하고, 저장된 데이터를 빠르게 처리할 수 있게 하는 파일 시스템.

YARN

컴퓨팅 클러스터의 리소스를 관리하는 시스템. 여러 작업들을 하나의 리소스 매니저로 관리.

MapReduce

대용량의 데이터를 분산 컴퓨팅 환경에서 처리하기 위해 제작된 데이터 처리 모델. 큰 데이터가 들어왔을 때, 데이터를 특정 크기의 블록으로 나누어 각 블록에 대해 map task와 reduce task를 수행

하둡과 함께 사용하는 여러 소프트웨어가 존재한다.

Pig

대규모의 데이터를 쉽게 분석할 수 있도록 스크립트 수준의 언어를 제공하는 분석 플랫폼. 대규모 병렬 처리에 대응할 수 있는 구조이기 때문에 대규모 데이터 처리가 용이함.

Hive

데이터를 모델링하고 프로세싱하는 경우 가장 많이 사용하는 데이터 웨어하우징 솔루션. SQL과 유사한 HiveQL로 데이터를 조회하는 등 MapReduce와 같이 처리할 수 있음. HDFS 등에 있는 파일을 읽어들여 쿼리로 분석을 수행함.

* 데이터 베이스가 아닌 데이터 처리를 위한 배치 처리 구조이다.

Apache Ambari

hadoop 클러스터를 프로비저닝, 관리, 모니터링, 보호할 수 있는 오픈소스 관리 플랫폼.

Mesos

YARN의 대체재. 리소스 관리자.

Spark

분산 클러스터 컴퓨팅 프레임워크.

Tez

MapReduce와 동일하게 YARN 기반으로 실행되는 데이터 처리를 위한 프레임워크.

HBase

분산 컬럼 기반의 데이터베이스. HDFS의 데이터에 대한 실시간 읽기/쓰기 기능 제공. NoSQL Database.

Apache Storm

분산형 오픈 소스 계산 시스템. 실시간으로 데이터 스트림 처리를 할 수 있음.

Oozie

job을 관리하기 위한 서버 기반의 워크플로 스케줄링 시스템. 자바 기반 웹 어플리케이션.

Zookeeper

분산 코디네이션 서비스를 제공하는 오픈소스 프로젝트

* 분산 코디네이션 서비스 : 분산 시스템에서 시스템 간의 정보 공유, 상태 체크, 서버들 간의 동기화를 위한 락 등을 처리해주는 서비스

Sqoop

SQL to Hadoop의 약자. Hadoop과 관계형 데이터베이스 간에 데이터를 전송할 수 있도록 설계된 오픈소스 소프트웨어

728x90

'AI & 빅데이터' 카테고리의 다른 글

[텍스트 마이닝] 카운트 기반의 문서 표현이란? (1)	2024.02.03
[빅데이터 시스템 구축] HDFS란? (0)	2022.06.17
Anaconda 명령어 (0)	2022.04.06
Visual Studio에 Docker 연동하기 (0)	2022.03.27
Docker 명령어 정리 (0)	2022.03.27

Hadoop

'AI & 빅데이터' 카테고리의 다른 글

티스토리툴바

'AI & 빅데이터' 카테고리의 다른 글