1. 하둡이란?
- 분산시스템을 구성하는 다수의 소프트웨어로 이루어진 집합체
- 대규모 분산 시스템을 구축하기 위한 공통 플랫폼의 역할
- 분산시스템: 네트워크상 분리된 요소를 하나의 서버로 구동하는 것 처럼 보이는 시스템
2. 하둡의 구성 요소 (4개 주요 모듈)
- Hadoop Common
- 하둡의 다른 모듈을 지원하기위한 공통 컴포넌트 모듈
- Hadoop HDFS
- 여러대의 서버에 데이터를 저장하고, 각 저장된 서버에 동시에 데이터를 처리하는 방식
- 분산 시스템의 스토리지를 관리해 데이터가 항상 여러 컴퓨터에 복사되어 저장한다.
- 여러 컴퓨터에 처리할 디스크를 나눠 저장한다.
- Hadoop YARN
- 병렬처리를 위한 클러스터 자원관리 및 스케줄링 담당
- Hadoop Mapreduce
- 분산되어 저장된 데이터를 병렬 처리 할 수 있게 해주는 분산 처리 모듈
- MapReduce란?
- YARN 내에서 움직이는 분산 애플리케이션, 분산 처리 방법
- 비 구조화 배치 데이터를 가공하는데 적합
'Data Science > Hive' 카테고리의 다른 글
Hive 시작하기 (2) - 개념과 메타스토어 (0) | 2023.08.22 |
---|