'Data Science' 카테고리의 글 목록 (2 Page)

Data Science

[시계열 분석 4-②] Anomaly Detection 이상치탐지 2023.11.09
[시계열 분석 4-①] Anomaly Detection 이상치탐지 2023.11.09
[시계열 분석 3-③] Temporal Fusion Transformers 2023.11.02
[시계열 분석 3-①] Sequence2Sequence 기초 2023.11.02
[시계열 분석] Multivatiate 모델 2023.10.26
Hive 시작하기 (2) - 개념과 메타스토어 2023.08.22
Hive 시작하기 (1) - Hadoop 2023.08.21
[SQL] 단일행 NULL관련 함수 2023.06.01

[시계열 분석 4-②] Anomaly Detection 이상치탐지

2023. 11. 9. 21:06

[시계열 분석 4-①] Anomaly Detection 이상치탐지

2023. 11. 9. 20:36

[시계열 분석 3-③] Temporal Fusion Transformers

2023. 11. 2. 21:47

[시계열 분석 3-①] Sequence2Sequence 기초

2023. 11. 2. 19:46

Hive 시작하기 (2) - 개념과 메타스토어

joonizz 2023. 8. 22. 09:38

2023. 8. 22. 09:38

Hive

1. Hive란?

하둡 에코 시스템 중에서 데이터를 모델링하고 프로세싱 하는 경우, 가장 많이 사용하는 데이터 웨어하우징 용 솔루션

RDB의 데이터베이스, 테이블과 같은 형태로 HDFS에 저장된 데이터의 구조를 정의하는 방법을 제공하며, 이 데이터를 대상으로 SQL과 유사한 HiveSQ 쿼리를 이용하여 데이터를 조회하는 방법 제공

2. Hive 실행 순서

① 사용자가 제출한 SQL문을 드라이버가 컴파일러에 요청하여 메타스토어의 정보를 이용해 처리에 적합한 형태로 컴퍼일

② 컴파일된 SQL을 실행 엔진으로 실행

③ 리소스 매니저가 클러스터의 자원을 적절히 활용하여 실행

④ 실행중 사용하는 원천 데이터는 HDFS등의 저장장치를 이용

⑤ 실행결과를 사용자에게 반환

메타스토어

하이브의 메타정보는 파일의 물리적인 위치와 데이터에 대한 논리적인 정보로 구분.

이 메타정보를 보관하고 사용자의 요청에 따라 정보를 제공하는 곳

1. 메타스토어 타입

(1) 임베디드 메타스토어

- 한번에 한명의 유저만 접근 가능

- 테스트 목적으로 사용

(2) 로컬 메타스토어

- 하이브와 같은 JVM 에서 동작, 메타데이터는 외부의 RDBMS에 저장

- 여러사용자가 동시에 이용 가능

(3) 원격 메타스토어

- 메타스토어가 별도의 JVM에서 동작. 쓰리프트 프로토콜 사용

메타데이터베이스

하이브의 테이블에 대한 논리적인 정보는 데이터베이스에 저장. 메타스토어 서비스는 이 데이터베이스 정보를 여러 클라이언트에게 제공
데이터베이스는 더비, MS-SQL, MySQL 등 지원
이 데이터베이스에 하이브 서비스에 필요한 스키마를 미리 생성하고 서비스
하이브 클라이언트를 이용해서 확인하는 정보는 이 데이터베이스 정보에 기반

주요 테이블

1. DBS: 데이터베이스정보

2. TBLS: 테이블정보

3. PARTITIONS 파티션정보

-- DB 정보
SELECT *
  FROM DBS;


-- 테이블 정보
SELECT *
  FROM TBLS;

https://wikidocs.net/33237

'Data Science > Hive' 카테고리의 다른 글

Hive 시작하기 (1) - Hadoop (0)	2023.08.21

Hive 시작하기 (1) - Hadoop

joonizz 2023. 8. 21. 09:17

2023. 8. 21. 09:17

1. 하둡이란?

분산시스템을 구성하는 다수의 소프트웨어로 이루어진 집합체
대규모 분산 시스템을 구축하기 위한 공통 플랫폼의 역할
- 분산시스템: 네트워크상 분리된 요소를 하나의 서버로 구동하는 것 처럼 보이는 시스템

2. 하둡의 구성 요소 (4개 주요 모듈)

Hadoop Common
- 하둡의 다른 모듈을 지원하기위한 공통 컴포넌트 모듈
Hadoop HDFS
- 여러대의 서버에 데이터를 저장하고, 각 저장된 서버에 동시에 데이터를 처리하는 방식
- 분산 시스템의 스토리지를 관리해 데이터가 항상 여러 컴퓨터에 복사되어 저장한다.
- 여러 컴퓨터에 처리할 디스크를 나눠 저장한다.
Hadoop YARN
- 병렬처리를 위한 클러스터 자원관리 및 스케줄링 담당
Hadoop Mapreduce
- 분산되어 저장된 데이터를 병렬 처리 할 수 있게 해주는 분산 처리 모듈
MapReduce란?
- YARN 내에서 움직이는 분산 애플리케이션, 분산 처리 방법
- 비 구조화 배치 데이터를 가공하는데 적합

출처 https://wikidocs.net/22654

'Data Science > Hive' 카테고리의 다른 글

Hive 시작하기 (2) - 개념과 메타스토어 (0)	2023.08.22

[SQL] 단일행 NULL관련 함수

joonizz 2023. 6. 1. 08:50

2023. 6. 1. 08:50

이게 맨날 헷갈려서 정리해본다.

1. 오라클 NVL(표현식1, 표현식2), 서버 ISNULL(표현식1, 표현식2): 표현식 1의 결과값이 null인경우 표현식 2를 출력
2. NULLIF(표현식2, 표현식1): 표현식1이 표현식 2와 같으면 null, 같지 않으면 표현식 1을 리턴한다.
3. COLLAESCE(표현식1, 표현식2): 임의의 개수 표현식에서 null이 아닌 최초 표현식을 나타낸다. 모든 표현식이 null이라면 null을 리턴한다

'Data Science > SQL' 카테고리의 다른 글

[trino/sql] 세션 파라미터 설정하기 (0)	2024.03.01
[SQL/Trino] 날짜 더하기 (0)	2024.01.10
[SQL/AWS/Redshift] 변수 @set 사용하기 (0)	2023.05.11
[AWS/Redshift] Redshift 변수 선언하기 (0)	2023.03.08
[Redshift] Amazon Redshift 의 특징과 Lock (0)	2022.11.19

PREV 이전 1 2 3 4 NEXT 다음

이케이케 잘하기

Data Science

[시계열 분석 4-②] Anomaly Detection 이상치탐지

[시계열 분석 4-①] Anomaly Detection 이상치탐지

[시계열 분석 3-③] Temporal Fusion Transformers

[시계열 분석 3-①] Sequence2Sequence 기초

[시계열 분석] Multivatiate 모델

Hive 시작하기 (2) - 개념과 메타스토어

Hive

메타스토어

메타데이터베이스

주요 테이블

'Data Science > Hive' 카테고리의 다른 글

Hive 시작하기 (1) - Hadoop

'Data Science > Hive' 카테고리의 다른 글

[SQL] 단일행 NULL관련 함수

'Data Science > SQL' 카테고리의 다른 글

+ Recent posts

티스토리툴바