하둡 시스템에 대한 10분 소개

빅데이터의
실시간 분석을 위한
Hadoop & Spark

What is BigData
대 용량의 데이터에서  (실시간)상관관계 도출  서비스 창출

Big data is Too big…
대용량 서버(Scale-up) vs 일반 PC 여러개(Scale-out)
기존 관계형 데이터베이스
분산형 데이터베이스

Intro to Hadoop
High-Availability Distributed Object-Oriented Platform
Java Based
Opened from 2011~ by Apache Group (from Yahoo)

Step 1/4 : Collecting & Distributing Data
Flume
설정한 복수의 서버 주소로
데이터 분산 저장

Step 2/4 : Data Storage
HDFS: Hadoop file system
YARN: Yet Another Resource Negotiator, 연결된 서버 간 자원 관리
Saving data Through Map /
Reduce based Data
Compression

Step 3/4 : Data Search
HIVE : HiveQL based Search engine (SQL 과 유사)

Step 4a/4 : Data Classification
Mahout: 분산 처리용 기계학습 라이브러리

Step 4b/4 : Data Classification
TONY(Tensorflow on YARN)+ Distributed Tensorflow
Work in progress

Hadoop OR Spark?
Hadoop and Spark Comparison (DISK vs RAM)
Fast (x10)
Real-time process
Expensive Cost
Easy (One Package)
Slow
Batch based process
Inexpensive Cost
Hard (Many Packages)
데이터 특성에 따른 Ecosystem 선택 필요

Hadoop made easy by…
[DEMO]
Cloudera
Oozie
Hue
Hadoop Web Monitoring

하둡 시스템에 대한 10분 소개

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 하둡 시스템에 대한 10분 소개

Similar to 하둡 시스템에 대한 10분 소개 (20)

하둡 시스템에 대한 10분 소개