20180714 하둡 스터디 종료 보고 및 연구과제 발표자료

스터디 종료 보고 및 연구과제 발표
2018.07.14
R&D 2팀 | April
ITO팀 | Lily, Jun
PS 팀 | Sunny

Contents
2
시작하기
스터디 진행상황을 알아보자01 하둡이란
대체 하둡이란 놈은 무엇인가02 마치면서
스터디를 하면서 느낀점03

Contents
3
시작하기

4
내가
빅데이터를
하다니...
하둡의 세계에 오신 여러분들을 환영합니다. ^_^
이게 다 뭔가요.. 뭐가 이렇게 많은가요?
아직 하둡도 모르는데..???

5
인턴 점심식사 자리에서 스터디 이야기를 하던 중
사장님께서
“R&D 2팀은 스터디하고 있지? 같이 껴달라고 해~ ”
“아니면 인턴들 모아서 스터디 해” 라고 하셨고,
자리에 있던 인턴 모두 “네! 알겠습니다.”
라고 대답해서 시작하게 되었습니다.
(덕분에 April 연구 과제도 스터디와 병행할 수 있었지요~)
시작은
사장님이었다.

6
효율적인
스터디방식
시작 전 스터디 진행기간, 역할 분담, 규칙을 정했습니다!
진행기간 역할 분담
리더 : April (R&D 2)
끼니 담당 : Lily (ITO)
회의실 예약 : Jun (ITO)
총 학습시간 : 18 시간
총 학습횟수 : 12 회
스터디 규칙
1. 일주일에 1~2회 점심시간에 진행
2. 참석인원 3명 이상이면 진행
3. 스터디 내용 정리해서 agit에 공유
2018.04.09 ~ 2018.06.12 리더, 회계 모두 지킵시다!
세부내용 세부내용 세부내용

7
스터디만이
우리의 살 길
기본적으로 모든 부서에서 하둡을 사용해
솔루션을 개발하고, 구축 및 운영 업무를 해나가고
있습니다. 그래서 인턴으로서 업무를 더욱 수월하게
하기 위해 '하둡 스터디'가 필수라는 생각이
들었고, 3개의 목표를 세웠습니다.
하둡의기본적인내용이해하기!
에코시스템들이나오게된이유와하는일파악하기!
최소 1개의하둡에코시스템에관심가지기!

Contents
8
시작하기

대량의 데이터에 대한 프로세싱 확장성과
데이터 포맷, 구조에 관계없이 데이터를 처리할 수
있는 유연성으로 기존의 기술로는 할 수 없을 거라
생각했던 것들을 가능하게 만들었기 때문
또한, 전통적인 데이터 관리 솔루션과 비교하면
상당히 낮은 비용에서도 구동이 가능
기능성과 경제성의 성공적 조합은 하둡과
하둡 에코시스템이 성장할 수 있는 배경이 되었고
데이터 관리/처리 툴로 적극 도입될 수 있었음
빅데이터에서 하둡을 쓸 수 밖에 없는 이유들.

10
그러니 하둡에 대해서 알아야겠죠?

11
Overview.
배치
실시간
데이터 저장 데이터 처리 데이터 접근 데이터 관리
Streaming data source Data storage system

13
대용량 데이터의 저장과 분석이
가능한 오픈소스 프레임워크.
“안정적이고확장성이높은저장및분석플랫폼”
1.강력한병렬프로세싱프레임워크를구현하기위한플랫폼을제공하는분산데이터스토어
2. 노드를추가하는 Scale-out방식
3.아주큰규모의데이터를저장하는경우 일어날수있는장애에대응하여
데이터손실을감소시키고,분할된데이터를계산할수있는인터페이스가존재

14
기존 하둡은 일괄처리만
지금 하둡은 다양한 처리 패턴 제공.
“점점진화해나가는하둡에코시스템”
1.기존의하둡 :HDFS,맵리듀스
→일괄처리담당
2.최근의하둡 :수많은에코시스템등장
→ 대화형SQL,스트림처리등다양한처리패턴을제공
하둡에코시스템이진화하는것에따라
분산컴퓨팅과대규모데이터처리를위한기반이더욱견고해져가고있음

15
어쩌다 만들어진 걸까요?

16
넛치 프로젝트를 하다가
엄청 큰 파일에 대한 저장소 문제가
발생했는데...
아.. 이걸 어떻게
해결하지?
GFS 논문
등장
하둡 탄생
오? 이거네
구현 ㄱㄱ

17
하둡의 기본인 HDFS와 맵리듀스를 살펴보겠습니다.

18
하둡의 스토리지를
담당하는 HDFS.
HDFS란? 설계 방식
하둡의 파일시스템, 분산 파일 시스템으로써
네트워크로 연결된 여러 머신의 스토리지를
관리하는 파일 시스템
구성
네임노드 : 파일시스템 트리와
모든 파일과 디렉터리에 대한
메타데이터 유지
데이터 노드 : 클라이언트와
네임노드의 요청으로 인한
블록 저장과 탐색을 담당
하둡 분산 파일 시스템 한 번 쓰고 여러 번 읽자! 네임노드와 데이터 노드
세부내용 세부내용 세부내용
큰 파일들을 여러 머신에 나누어 저장
하기 위해 설계되었으며,
‘한 번 쓰고 여러 번 읽는 것’에
중점을 둠

19
하둡의 계산을
담당하는 맵리듀스.
스플릿
맵리듀스잡의입력크기
각스플릿마다
하나의맵태스크생성
스플릿의레코드를
Map함수로처리
맵단계 리듀스단계
맵태스크
중간산출물
(Key,Value) 구조를가
짐
인풋데이터를가공하여사용자가원하는정보를 (Key,Value)쌍으로변환 가공된 (Key,Value)를 Key기준으로각리듀스로분배하고,사용자가정의
한방법으로각 Key관련된정보를추출

20
맵리듀스 과정을
음식으로 비유해볼게요.

21
HDFS와 맵리듀스란..?
하둡의 기본! 하둡의 짝꿍! 이다.

22
그럼 수많은 데이터를 어떻게 하둡에서 쓸 수 있을까요?

23
스쿱(SQOOP)을 써서
RDBMS와 하둡 사이의
데이터를 이동시켜 보세요.
“RDBMS와하둡사이에데이터이동을지원하는스쿱”
1.RDBMS의데이터를 HDFS,Hive,HBase에 import/export할수있음
2.RDBMS를읽고쓸수있는 커넥터가각 DB별로존재
1.Mapper관리
2.병렬처리
“스쿱을잘쓰기위한조건”
3.병목현상진단
4.하둡최신상태유지

24
메시지 피드를
토픽으로 분류하고 싶다면?
카프카. “분산메시지버스,카프카”
1.링크드인에서여러구직,채용정보들을한곳에서처리할수있는플랫폼개발
2.대용량의실시간로그처리에특화되어설계된메시징시스템
→단시간내에엄청난양의데이터와다양한유형의데이터를실시간으로수집
3. Consumer가서버로부터직접메시지를가져오는 Pull방식
→Consumer가자신의처리능력만큼메시지를가져오므로최적의성능을냄
“카프카적용사례”
Case1. 카프카로부터온메시지를 HDFS에저장해분석및리포팅에사용
Ex.웹사이트클릭스트림활동추적,실시간대시보드,모니터링
Case2.실시간스트림프로세싱
Ex.스파크스트리밍,스톰의데이터소스역할로메시지전달

25
스쿱이란..?
RDBMS와 하둡 사이의 연결고리이다.
카프카란..?
실시간 스트림 프로세싱 분야에서 하둡같은 존재이다.

26
맵리듀스, 데이터 분석, 성공적?

27
안녕하새오 데이터 분석가애오
맵리듀스 어려어오 SQL쓰개 해주새오

28
SQL문법으로
하둡 클러스터에 있는 데이터를
검색할 수 있는 HIVE.
1.SQL은데이터를구성,검색하는방법으로널리사용되고있었음
2.데이터분석가들이 익숙한 SQL문법으로하둡에서데이터분석을할수있도록만들기위해페이스북에서시작
1
Why?
What?
“익숙한 SQL문법으로데이터를분석하려고”
“하둡데이터(파일)를 SQL로다룰수있게해주는툴”
1.하둡클러스터에있는데이터를검색하기위해 SQL호환언어(HiveQL,HQL)를제공
2.대부분의쿼리를맵리듀스로변환

29
SQL을 지원하는 HIVE,
데이터 웨어하우스 어플리케이션에
아주 적합해요.
Where?
“데이터웨어하우스애플리케이션에사용하세요.”
“데이터웨어하우스애플리케이션의특징”
1.비교적정적데이터를분석
2.빠른응답시간필요하지않음
3.데이터가자주바뀌지않음
하이브의쿼리응답시간은전통데이터베이스보다 긴편
→빠른응답시간이필요하지않은데이터웨어하우스애플리케이션에적합

30
HIVE란..?
맵리듀스와 Java 프로그래밍을 SQL로 대신할 수 있는 툴!

32
그럴 줄 알고 준비했지.

33
RDBMS가 할 수 없었던 것들을
간단하고, 빠르게 처리할 수 있도록!

34
아주 큰 대용량 데이터를
랜덤 액세스할 수 있는
HBase.
1. 데이터를 다수의 Region Server에 분산 보관하고, 자주 접근되는 데이터를 메모리에 캐시
2. 컬럼 패밀리 사용, 하나의 row에 많은 column저장, 스키마 없음, 조인 인덱스 없음, 행 단위의 조작에 대해서만 atomic 보장
3. 물리적 저장소로 HDFS를 사용합니다.
What?
“분산 NoSQL데이터스토어”
1. 완벽한 ACID를 보증하는 접근 방법이 아니라
일단 간단한 스키마로 결과를 빠르게 조회할 수 있는 조회 속도 관점에서의 실시간성 데이터베이스에 대한 요구
2. 하둡과의 긴밀한 연관성에 대한 요구
Why? “간단한스키마로데이터를신속,정확하게”

35
빠른 검색엔 HBase가 딱!
안 그래도
KDAP에서 쓰고 있습니다.
“빠른검색이 필요한곳에는 HBase”
1. HDFS와 맵리듀스는 각각의 레코드를 효과적으로 읽거나
쓰는 방법을 제공하지 않음
→ 대형 테이블에 대한 빠른 레코드 검색이 비효율적임
2. HBase는 빠른 Write와 Read를 지원
→ 특정 데이터 셀에 키 기반으로 접근하거나
어떤 범위의 셀에 순차적으로 접근하는데 탁월한 성능을 제공

36
HBase란..?
대규모 데이터 셋에 실시간 랜덤 액세스를 가능하게 해주는 역할이다.

37
데이터가 들어오자마자 처리 결과를 볼 수 있을까요?

39
무한대의 데이터 스트림을
하둡의 배치 프로세싱처럼
실시간으로 처리하는 Storm.
1. 강력한 확장성
- 대용량의 메시지를 효과적으로 병렬처리할 수 있도록 설계
- 새로운 노드 추가 방식으로 간단히 확장 가능
2. 폴트 톨러런스 (빠른 실패, 자동 재시작) 지원
- 장애가 발생한다고 가정하고 아키텍쳐를 구성
3. 모든 튜플의 처리를 보증
- 최소 한 차례 이상 메시지를 보증하도록 디폴트 되어 있음
What?
“이벤트스트림프로세싱을위한분산형컴퓨팅프레임워크”
4. 풍부한 스파웃 有
- 트위터 스트리밍 API, 아파치 카프카, JMS 브로커 등
다양한 인풋스트림 제공
5. 스파크보다 많은 언어 지원
확장성이아주크고,빠르며,내결함성이강한,
스트림프로세싱에초점이맞춰진
분산형컴퓨팅을위한오픈소스시스템

40
What?
실시간
“근접실시간또는수초부터십분의일초정도단위로처리하는것”

41
What?

42
또 다른 실시간
분산형 컴퓨팅 프로젝트
Spark Streaming.
“스톰보다는 범용분산형컴퓨팅플랫폼에가까운분산형프로세싱”
하나의플랫폼안에 배치,스트리밍, 머신러닝 등다양한처리를제공
→Spark하나만으로기존빅데이터분석플랫폼의역할을대신할수있음
1. Macro-batch 기반
- Streaming을 작은 배치의 연속으로 구현
- 초 단위의 Latency
2. Exactly-once를 보장
3. 노드 다운 시 처리 중인 데이터를 복구가능
- Lineage를 이용
4. Kafka, Flume 등 여러 가지 소스를 사용 가능
5. Map, Reduce, Join 등 High Level 기능들을
사용해서 프로세싱 가능
6. 처리된 데이터를 File System, DB 등 저장 가능
What?

43
Storm과 Spark란..?
스톰은 실시간 프로세싱 하둡이고,
스파크는 모든 것을 위한 분산형 프로세싱이다.

44
날로 증가하는 운영 요구사항, 아직도 스크립트로?

45
“우지야, 오늘 이 스케줄 좀 돌려줘.”
하둡의 비서, 우지!
1. Scheduling
특정 시간을 지정 / 주기적인 간격 지정 / 이벤트나 트리거 발생 후 Action을 수행합니다.
2. Coordinating
이전 Action이 성공적으로 종료되면 다음 Action을 수행합니다.
3. Managing
Action이 성공하거나 실패했을 때는 Alert을, Action의 수행시간이나 Action의 단계를 저장합니다.
What?
“자동화와스케줄링을해주는워크플로스케줄러”
특정 MR Job을 시작(start)하거나 종료(stop), 일시정지(suspend)할 수 있고,
나아가 시스템의 이상으로 인해 완료되지 못한 MR Job을 재수행(rerun)할 수 있도록 설정 가능하기 때문에
하둡 에코시스템에서 중요한 역할을 담당하고 있습니다.
Why?
“유연한설계로 MRJob을손쉽게제어”

46
우지의 실행 순서를
한번 살펴볼게요.
Client는 Oozie server에 연결하여
Job properties
(key-value형태로 파라미터 정의)를 제출
Oozie server가 HDFS로부터
workflow file을 읽어들임
Oozie server에서 workflow를
parsing해서 Action

47
우지란..?
봉인된 기술들을 비즈니스 세계로 이끌어낸 시스템이다.

48
이렇게 다양한 컴포넌트로 구성된 하둡

49
어디에 활용할 수 있을까요?

50
우리는 분야의 경계 없이
하둡을 활용할 수 있습니다.
“빅데이터환경이필요한그어디든”
-대용량데이터분석과리포팅이필요한환경
- 데이터기반의비즈니스가가능한모든곳
-Ex)클릭스트림분석,부정거래탐지,데이터웨어하우스구축

51
하둡으로 실시간 분석하고
사용자 패턴을 파악해 인사이트를?
“주로어떤시간때,어디에서들어오는걸까?”
“PC?모바일?어떤마케팅채널?그래서구입을했나?”
“웹사이트에서방문자들이쇼핑에소비한평균시간은?”
“방문자들이제품을7일이내에구입할확률은?”
인터넷쇼핑몰
CEO정씨

하둡으로 실시간 분석하고
사용자 패턴을 파악해 인사이트를?
If
“만약아주활성화된
웹사이트라면?”
-하루에수기가바이트양의로그생성
-빠른속도로로그데이터생성
-순환주기는대부분시간당수차례
-고객은최대한빠르게가장최신정보를알고싶어함
→큰규모의데이터저장,분석이필요함
→역시나답은 하둡!
How to?
웹사이트
사용자
CRM시스템
운영데이터저장소
웹로그(플룸)
스쿱
스쿱
BI/시각화툴
스파크
R/파이썬
커스텀
애플리케이션
머신러닝과
그래프프로세싱
통계분석
BI분석가
우지
1. 수집
2. 처리
4. 오케스트레이션
3. 액세스
하둡
클러스터
52

53
하둡이란..?
무시되었던 수많은 데이터들을 빛나게 해주는 코끼리!

Contents
54
시작하기

55
스터디와 함께
인턴 생활이
끝났습니다.
우선 아쉬웠던 점부터 볼까요?
리더로써
잘 했나요..?
- April (R&D 2)
스터디,
더 하고 싶어요!
- Jun (ITO)
챕터 별로 다시 보고 싶은데
한번밖에 보지 못해서 아쉽습니다.
다음에 또 기회가 된다면
여러 번 정독하고 싶습니다.
스터디를 이끌어 가는 리더로써
준비를 미흡하게 한 것 같아
아쉽습니다. T_T
다른 동기들에 비해 하둡을 직접 다뤄
볼 수 있는 환경이 아니라 이해하기에
조금 벅찼고, 그래서 준비한 내용을
잘 전달하지 못한 것 같아요.
그래도 다음 스터디 같이해여~♥
점심 해결이
가장
힘들었어요T_T
- Lily (ITO)
점심 시간을 활용해서 스터디를
진행하다보니 편의점이나 간단한
음식 포장밖에 할 수 없었어용T_T
회사 주변에 뭐가 없다보니
매번 비슷한 식사 메뉴만 준비해서
죄송해요~

56
스터디와 함께
인턴 생활이
끝났습니다.
우선 아쉬웠던 점부터 볼까요?
Presto
왜 없나요..?
- Authur (PS)
현재 진행하고 있는 업무인 Presto에
대한 내용이 없어서 아쉬웠습니다.
나중에 다른 스터디를 통해 Presto를
공부하면 좋을 것 같습니다.
가까이 하기엔
너무 먼 방배
- Sunny (PS)
MTO 프로젝트로 인해
목동으로 가게 되어서 동기들과
함께 스터디를 하지 못해 슬펐어요.
MTO 프로젝트가 끝나면 함께
또 다른 스터디 해요~~
그리고 우리 스터디 아지트가
비공개라서 열심히 한 흔적을
못 보여(?)드려서 아쉽습니다.

57
마무리는
아름답게
좋았던 것만
스터디 끝! 인턴생활 끝! 새로운 시작!
개인의 성장!
회사의 발전!
- Lily (ITO)
하둡,
느낌 아니까!
- April (R&D 2)
빅데이터 회사에 왔지만 막상
하둡에 대해서 아는게 없었습니다.
이번 스터디를 통해
'하둡이 이런거구나'
감을 잡을 수 있었고, 동기들과
친해질 수 있는 시간이었습니다.
적극 추천해주신 사장님,
Diesel, David 감사합니당
실무 경험과
스터디 내용의
콜라보
- Authur (PS)
업무를 진행하면서 접하는 부분들을
스터디 중 바로 바로 연결해
생각해 보고,
공부할 수 있어서 좋았습니다.
많은 분들이 개인의 성장을 위해
열심히 노력하고, 회사도 이를
적극적으로 지원해주는 모습이
인상 깊었습니다. 저도 회사의 발전을
위해서 열심히 노력하겠습니다.

58
마무리는
아름답게
좋았던 것만
스터디 끝! 인턴생활 끝! 새로운 시작!
주체적인
인턴들, 뿌듯
해!
- Sunny (PS)
하둡, 너~
- Jun (ITO)
스터디를 통해 업무에 쓰이는 용어들,
기술들에 조금 더 친숙해진 느낌이 들
었습니다. 그렇지만 아직 갈 길이
멀다는 것을 느꼈습니다.
하둡 책을 여러 번 읽고, 자세하게
기술을 공부해야 한다는 것을 깨달았
고, 무엇보다 경험이 이론보다 더 중요
하다는 것을 느꼈습니다.
인턴들이 주체적으로 스터디를
진행하고, 하둡을 공부한 점이
너무 너무 뿌듯합니다.
또 그 날의 스터디가 끝나면
내용을 요약해서 정리하고,
다 같이 공유할 수 있어서
좋았어요~

59
앞으로
이런 걸
하고 싶어요! Hadoop
(4)
Spark
(1)
Oozie
(1)
Hive
(2)
Presto
(1)
Nif
(1)
HBase
(1)
스터디가 끝나고 여러 에코시스템에 관심이 생겼습니다.
앞으로 이러한 기술을 공부해나가면서
넥스알의 발전을 위해 열심히 노력하겠습니다.
Kafka
(1)

60
1. 하둡, 하이브 스터디하기
2. 프로젝트 경험 많이 쌓기
1. 하둡 교육자료 제작
2. 클러스터 이슈 해결사 되기
기술지원, 유지보수 문제 사항과
해결과정 내역을 체계적으로
정리해 문서 만들기
프로젝트 경험
많이 쌓기
관심있는 분야
스터디 하기
기술 블로그
만들기
Always
Smile
;-)
Jun Sunny Arthur
Lily
1. 하둡 에코시스템 내
데이터 흐름 공부하기
2. 새로운 에코시스템 공부하기
April
1. 스파크 스터디 참여하기
2. 새로운 기술 내부 공유하기

61
Jun's Wish list
1. 하둡, 하이브 스터디하기
2. 프로젝트 경험 많이 쌓기
Sunny's Wish list
1. 하둡 교육자료 제작
2. nifi 전문가되기
3. 클러스터 기술 이슈를 바로 파악할
정도로 프로젝트 경험 많이 쌓기
Authur's Wish list
1.
프로젝트 경험
많이 쌓기
관심있는 분
야
스터디 하기
기술 블로
그
만들기
Lily's Wish list
1. 데이터 흐름에 따른 에코시스템의
상관관계 상세 파악하기
2. 데이터 관리측면에서의 에코시스템
특징 상세 파악
April's Wish list
1. 스파크 스터디 참여하기
2. 새로운 기술을 공부해 꾸준히
내부 공유하기
3. 기술 블로그 제작 참여하기
Always
Smile
;-)
Do it! KT NexR!

Thank You!
감사합니다 ; - )

20180714 하둡 스터디 종료 보고 및 연구과제 발표자료

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 20180714 하둡 스터디 종료 보고 및 연구과제 발표자료

Similar to 20180714 하둡 스터디 종료 보고 및 연구과제 발표자료 (20)

20180714 하둡 스터디 종료 보고 및 연구과제 발표자료