1. 하둡이란?

  • 분산시스템을 구성하는 다수의 소프트웨어로 이루어진 집합체
  • 대규모 분산 시스템을 구축하기 위한 공통 플랫폼의 역할
    • 분산시스템: 네트워크상 분리된 요소를 하나의 서버로 구동하는 것 처럼 보이는 시스템

2. 하둡의 구성 요소  (4개 주요 모듈)

  • Hadoop Common
    • 하둡의 다른 모듈을 지원하기위한 공통 컴포넌트 모듈
  • Hadoop  HDFS
    • 여러대의 서버에 데이터를 저장하고, 각 저장된 서버에 동시에 데이터를 처리하는 방식
    • 분산 시스템의 스토리지를 관리해 데이터가 항상 여러 컴퓨터에 복사되어 저장한다.
    • 여러 컴퓨터에 처리할 디스크를 나눠 저장한다.
  • Hadoop  YARN
    • 병렬처리를 위한 클러스터 자원관리 및 스케줄링 담당 
  • Hadoop Mapreduce
    • 분산되어 저장된 데이터를 병렬 처리 할 수 있게 해주는 분산 처리 모듈 
  • MapReduce란?
    • YARN 내에서 움직이는 분산 애플리케이션, 분산 처리 방법 
    • 비 구조화 배치 데이터를 가공하는데 적합

 

 

 

 

출처 https://wikidocs.net/22654

'Data Science > Hive' 카테고리의 다른 글

Hive 시작하기 (2) - 개념과 메타스토어  (0) 2023.08.22

+ Recent posts