11. 일반
11
Hadoop
• 두 가지 목적
① 정말 매우 큰 데이터를 저장할 수 있어야 함
② 그 데이터를 이용해서 연산을 수행할 수 있어야 함
• 이를 위한 두 가지
① HDFS(Hadoop Distributed File System)
② MapReduce
HDFS + MapReduce = Hadoop
21. 일반
21
C3
• Common Central Cluster
• (오픈소스 기반) 분산 클러스터 플랫폼
• 대용량 멀티테넌트 데이터 처리 클러스터
• 장비 스펙(2016년 12월 기준)
• 525대
• Memory: 33.18 TB
• CPU: 14,981개
• HDFS: 8.55 PB
• 사용현황
• 400여 개의 작업을 동시 수행(2016년 12월 기준)
22. 일반
22
C3
기능 Toolset
데이터 처리 MapReduce, Hive, Spark, Storm
Workflow Oozie, Airflow
Containerization YARN Container, Docker Container
데이터 저장 HDFS, Hbase, Kafka
데이터 분석 툴 Zeppelin
Web Interface Hue
Deep Learning Tensorflow, Caffe, Torch, Theano
24. 일반
24
sparklyr
• Apache spark에 대한 R 인터페이스
• 친숙한 dplyr 명령어를 그대로 사용 가능
• select
• filter
• mutate
• group_by
• summarize
• join
• Machine learning
• Extensions
• Calls the full spark API
• invoke() function
https://spark.rstudio.com/index.html
37. 일반
37
맺음말
Hadoop를 배웠으면 spark도 얼른 배우세요!
Hadoop을 모르셔도 spark는 얼른 배우세요!
Spark 모르셔도 R만 잘 하시면 big data 분석할 수 있어요!
Big data에 대한 machine learning으로 새로운 가치를 창출해 보세요!