[빅데이터 시스템 구축] HDFS란?
·
AI & 빅데이터
HDFS (Hadoop Distributed File System) 하둡 분산 파일 시스템으로, 대용량의 파일을 분산된 서버에 저장하고 데이터를 빠르게 처리할 수 있도록 설계 되었다. HDFS의 특징 1. 대용량 파일 하나의 파일에 대해 기가, 테라 단위의 크기까지 저장이 가능하다. 2. 스트리밍 방식의 데이터 접근 클라이언트의 요청을 빠른 시간에 처리하는 것 보다 동일한 시간 내 많은 데이터를 처리하도록 설계되었다. 3. 범용 하드웨어 사용 신뢰도 높은 고가의 하드웨어가 아닌 범용의 하드웨어를 사용할 수 있다. 장애가 발생하는 경우 장애 복구 기능을 통해 작업을 실행할 수 있다. 4. 데이터 수정 데이터를 한 번 쓰고 끝나거나 파일의 끝에 데이터를 덧붙이는 것은 가능하지만 파일 중간의 데이터를 수정하는..
[빅데이터 시스템 구축] Hadoop, Hadoop Ecosystem
·
AI & 빅데이터
Hadoop an open source software platform for distributed storage and distributed processing of very large data sets on computer clusters built from commodity hardware. 빅데이터에 대한 분산 처리, 분산 저장소에 대한 오픈 소스 소프트웨어 플랫폼. Hadoop 자체 시스템으로는 HDFS, YARN, MapReduce 3가지가 있다. HDFS (Hadoop Distributed File System) 대용량 데이터들을 분산된 서버에 저장하고, 저장된 데이터를 빠르게 처리할 수 있게 하는 파일 시스템. YARN 컴퓨팅 클러스터의 리소스를 관리하는 시스템. 여러 작업들을 하나의 리소..
[책정리] 빅데이터를 지탱하는 기술 : 3-1. 대규모 분산 처리의 프레임워크
·
AI & 빅데이터/[Book] 빅데이터를 지탱하는 기술
CHAPTER 3 빅데이터의 분산 처리 3-1. 대규모 분산 처리의 프레임워크 3-2. 쿼리 엔진 3-3. 데이터 마트의 구축 3-4. 요약 3장에서는 분산 시스템의 대표적인 프레임워크인 Hadoop과 Spark를 이용한 데이터 처리에 관해 설명한다. '구조화 데이터'와 '비구조화 데이터'의 차이를 정리하고, Hadoop에서 구조화 데이터를 만들어서 집계할 때까지의 흐름을 설명한다. Hadoop과 Spark의 차이점을 정리한다. 구조화 데이터와 비구조화 데이터 SQL로 데이터를 집계하는 경우, 먼저 테이블의 칼럼 명과 데이터형, 테이블 간의 관계 등을 '스키마(schema)'로 정한다. 스키마가 명확하게 정의된 데이터를 '구조화된 데이터'라고 한다. 빅데이터는 반드시 구조화된 데이터만 있는 것이 아니라 ..